Tutorial Python Web Scraping
Web scraping berbeda dengan web crawling, web crawling umumnya digunakan mengindex inormasi halaman menggunakan bot crawler. Sementara itu web scraping mengekstrak informasi menggunakan bot scrapers.
Cara Kerja Web Scraping
Secara singkat cara kerja web scraping di tunjukkan diagram di atas. Step pertama dengan mendownload content dari halaman web. Kemudian data di ekstrak menjadi struktur data yang diinginkan dan menyimpannya dalam bentuk JSON, CSV, database, dan bentuk struktur data lain. Data ini akan dianalisis sesuai kebutuhan yang pengguna butuhkan.
Web scraping mungkin legal jika data yang di dapatkan tidak di publikasikan ulang. Namun jika data tersebut akan dipublikasikan silakan baca ketentuan penggunaan website yang menjadi targetnya. Bila perlu silakan untuk meminta izin dari owner website target.
Referensi
Web scraping mungkin legal jika data yang di dapatkan tidak di publikasikan ulang. Namun jika data tersebut akan dipublikasikan silakan baca ketentuan penggunaan website yang menjadi targetnya. Bila perlu silakan untuk meminta izin dari owner website target.
Module Python untuk Web Scraping
Web scrapig akan mendapatkan data dari website secara otomatis. Aplikasi web scraping akan menjelajah website dan mendapatkan data dari berbagai website. Dibagian ini akan diperkenalkan beberapa library yang digunakan untuk web scraping.
Requests
Requests adalah library web scraping yang paling simple. Dengan library requests, dapat digunakan untuk mendapatkan baris HTML dari web pages yang bisa dimanfaatkan untuk mengambil data.
Pada dasarnya penginstalan requests menggunakan cara yang sama dengan cara penginstalan library pada lainnya. Dengan menggunakan command "pip install requests", akan terinstall library requests.
Penulis akan memberikan contoh pada akhir artikel ini, jika ingin melihatnya sekarang, bisa scroll ke bawah. Dengan menggunakan method text, bisa didapatkan row HTML. Row HTML tersebut dapat diolah sesuai keinginan kita.
Urllib3
Urllib3 adalah Library python yang digunakan untuk mengambil data dari URL yang sama dengan library requests. Untuk mendapatkan penjelasan kegunaan-kegunaan library ini, silakan baca pada situs resminya di https://urllib3.readthedocs.io/en/latest/.
Sebelum menggunakan library ini terlebih dahulu install dengan command "pip install urllib3". Web scraping akan mendapatkan row HTML yang nanti akan diolah menjadi data yang diinginkan. Contoh dari urllib3 akan diberikan pada akhir artikel ini.
Selenium
Library selenium adalah library open source untuk aplikasi web dengan browsers dan platform yang berbeda. Selenium s
Referensi
Berkomentarlah secara bijak.
EmoticonEmoticon