Thursday, April 8, 2021

Tutorial Python Web Scraping

Tutorial Python Web Scraping

Tutorial Python Web Scraping
Thursday, April 8, 2021
Web Scraping atau juga yang biasa dsebut data mining adalah proses ekstrak informasi dari web secara otomatis. Scraping secara tersirat berarti memperoleh sesuatu dari web. Dalam web dapat ditemukan informasi-informasi atau data yang sangat banyak, seorang programmer akan mengolahnya menjadi tampilan web yang ada. Namun apabila akan mengumpulkan data dari berbagai sumber bisa dilakukan dengan mengunjungi situs dan copy paste data tersebut. Cara ini akan sangat membosankan dan membutuhkan waktu yang banyak. Cara lain yang bisa digunakan dengan menggunakan web scraping yang secara otomatis akan mengumpulkan data tanpa perlu copy-paste.

Web scraping berbeda dengan web crawling, web crawling umumnya digunakan mengindex inormasi halaman menggunakan bot crawler. Sementara itu web scraping mengekstrak informasi menggunakan bot scrapers.

Cara Kerja Web Scraping



Secara singkat cara kerja web scraping di tunjukkan diagram di atas. Step pertama dengan mendownload content dari halaman web. Kemudian data di ekstrak menjadi struktur data yang diinginkan dan menyimpannya dalam bentuk JSON, CSV, database, dan bentuk struktur data lain. Data ini akan dianalisis sesuai kebutuhan yang pengguna butuhkan.

Web scraping mungkin legal jika data yang di dapatkan tidak di publikasikan ulang. Namun jika data tersebut akan dipublikasikan silakan baca ketentuan penggunaan website yang menjadi targetnya. Bila perlu silakan untuk meminta izin dari owner website target.

Module Python untuk Web Scraping

Web scrapig akan mendapatkan data dari website secara otomatis. Aplikasi web scraping akan menjelajah website dan mendapatkan data dari berbagai website. Dibagian ini akan diperkenalkan beberapa library yang digunakan untuk web scraping.

Requests

Requests adalah library web scraping yang paling simple. Dengan library requests, dapat digunakan untuk mendapatkan baris HTML dari web pages yang bisa dimanfaatkan untuk mengambil data.

Pada dasarnya penginstalan requests menggunakan cara yang sama dengan cara penginstalan library pada lainnya. Dengan menggunakan command "pip install requests", akan terinstall library requests.

Penulis akan memberikan contoh pada akhir artikel ini, jika ingin melihatnya sekarang, bisa scroll ke bawah. Dengan menggunakan method text, bisa didapatkan row HTML. Row HTML tersebut dapat diolah sesuai keinginan kita.

Urllib3

Urllib3 adalah Library python yang digunakan untuk mengambil data dari URL yang sama dengan library requests. Untuk mendapatkan penjelasan kegunaan-kegunaan library ini, silakan baca pada situs resminya di https://urllib3.readthedocs.io/en/latest/.

Sebelum menggunakan library ini terlebih dahulu install dengan command "pip install urllib3".  Web scraping akan mendapatkan row HTML yang nanti akan diolah menjadi data yang diinginkan. Contoh dari urllib3 akan diberikan pada akhir artikel ini.

Selenium

Library selenium adalah library open source untuk aplikasi web dengan browsers dan platform yang berbeda. Selenium s




 



Referensi


Berkomentarlah secara bijak.
EmoticonEmoticon