Scrapping Data SIPP dengan Octoparse untuk Memetakan Jabatan Koruptor di Jawa Timur

Penulis: Bhagas Dani

Jurnalisme Data---Tindak pidana korupsi (tipikor) makin merajalela. Khususnya saya menyorot di wilayah Jawa Timur. Sebab berdasar hipotesis dan hasil pemetaan saya, jumlah koruptor di wilayah Jawa Timur didominasi jabatan kepala desa (kades). Jabatan yang memang tergolong rentan tersandung tipikor. Mengingat seluruh desa setiap tahunnya menerima Alokasi Dana Desa (ADD) dan Dana Desa (DD) dengan nominal milyaran rupiah setiap tahunnya sejak 2015 lalu.

Upaya memvisualisasikan data koruptor di Jawa Timur berdasar jabatan ini bisa menggunakan Flourish. Periode yang saya buat mulai 2019-Scrap Data SIPP Pakai Octoparse untuk Memetakan Jabatan Koruptor di Jawa Timur 2021. Tetapi sebelum itu, perlu adanya proses pengumpulan data para terdakwa kasus tipikor se-Jawa Timur. Perlu diketahui, sidang tipikor se-Jawa Timur digelar di Pengadilan Negeri (PN) Surabaya.

Jadi, situs web rujukannya sebagai sumber data utama ialah Tindak Pidana Korupsi. Alasan pengumpulan data hanya hingga Mei 2021, karena fokus mengumpulkan data terdakwa yang telah menjalani putusan hakim tingkat pertama.

Laman Sistem Informasi Penelusuran Perkara (SIPP) PN Surabaya.

Selanjutnya, proses pengumpulan data koruptor perlu melalui beberapa tahapan lagi. Salah satu cara yang sudah dicoba yakni menggunakan fitur/rumus di Google Spreadsheet seperti =IMPORTHTML maupun =IMPORTXML. Ternyata cara tersebut kurang efisien. Sebab, bukan hanya butuh daftar nama koruptor se-Jawa Timur, tapi juga butuh ‘detil’ data umum setiap koruptor tersebut.

Sehingga solusi lainnya ialah menggunakan perangkat lunak dengan keahlian scrap data, bernama Octoparse. Perangkat lunak tersebut legal dan bisa diunduh gratis di situs octoparse.com, seri terbarunya Octoparse 8.4.2 Beta.

Setelah Octoparse sudah terpasang di komputer, ikuti tahap-tahap untuk menyedot data SIPP PN Surabaya secara efisien.

Langkah-Langkah Scrap Data Menggunakan Octoparse

Pertama, masukkan tautan dari SIPP PN Surabaya dengan klasifikasi Tindak Pidana Korupsi.

Kedua, klik Auto-detect web page data

Ketiga, klik Create Workflow untuk memulai buat resep/formula menyesuaikan kebutuhan data apa saja yang hendak ditarik.

Keempat, buatlah formula seperti contoh di bawah ini. Go To Webpage merupakan tautan sasaran yang akan disedot datanya. Pagination memerintahkan untuk secara otomatis ke halaman berikutnya. Loop Item akan Extract Data daftar setiap terdakwa korupsi. Click item akan mengklik ‘detail’. Kemudian Extract Data akan menyedot isi ‘detail’ setiap terdakwa.


Kelima, simpan resep/formula lalu klik Run.

Keenam, setelah selesai proses scrap data, lalu export data tersebut ke dalam format yang diinginkan. Ada format .XLS, .CSV, .JSON, dll.

Proses Cleaning Data di Google Spreadsheet

Pertama, copy hasil scrap data (misal format .XLS) ke dalam Google Spreadsheet dengan sheet bernama ‘DATASET SIPP’.


Kedua, buat sheet baru bernama ‘CLEANING DATA SIPP’. Dari sheet 'DATASET SIPP' copy (salin) daftar terdakwa yang terlibat kasus korupsi 2019-Mei 2021, lalu paste (tempel) ke sheet 'CLEANING DATA SIPP'. Hapus kolom-kolom yang tidak perlu. Sisakan kolom tahun, nama terdakwa, dan dakwaan. Tambah satu kolom dengan nama 'JABATAN'. Kemudian identifikasi satu per satu jabatan setiap terdakwa.

Guna mempermudah proses identifikasi jabatan setiap terdakwa. Sebaiknya lebarkan kolom ‘DAKWAAN’ dan kolom ‘JABATAN’. Lalu di dua kolom itu terapkan ‘text wrapping’ agar mudah dibaca. Selanjutnya baca dan cermati satu per satu kolom ‘DAKWAAN’. Setiap dakwaan pasti diawali nama terdakwa, kemudian diikuti kata ‘selaku’ yang mana menunjukkan jabatan terdakwa.

Hasilnya, ada 31 jabatan yang saya dapat dari pemetaan tersebut. Di antaranya Kepala Desa, ASN, Pengusaha, Perangkat Desa, Karyawan BUMN, Legislatif, Karyawan Swasta, Karyawan BUMD, Ketua Poktan, Ketua Pokmas, Kepala Sekolah, Panwaslu, Camat, Bupati, Walikota, THL, Pengurus Poktan, Pendamping LMDH, Pegawai KPU, Pegawai Honorer, Konsultan, Ketua Organisasi, Ketua LSM, Ketua KONI, Ketua Askab PSSI, Kepala MI, Guru, dan Lain-lain. 


Ketiga, buat sheet baru bernama ‘PIVOT DATA SIPP’. Buat Pivot Table dari sheet 'CLEANING DATA SIPP'!A1:E285 ke sheet 'PIVOT DATA SIPP'!A2. Tambahkan 'JABATAN' ke dalam Rows Pivot Table dan centang 'Show totals'. Ubah order jadi descending, lalu ubah sort by jadi COUNTA of JABATAN dan Grand Total. Tambahkan 'TAHUN' ke dalam Column Pivot Table dan centang 'Show totals'. Tambahkan 'JABATAN' ke dalam Values Pivot Table dan centang 'Show totals'. Ubah Summarise by jadi COUNTA.

Setelah semua variabel dimunculkan dalam tabel pivot, maka akan terlihat kategori jabatan dan jumlah terdakwa kasus tindak pidana korupsi yang diringkas dari laman SIPP PN Surabaya tahun 2019-Mei 2021. 

Dari data tersebut terlihat bahwa empat besar jabatan yang terbanyak menjadi terdakwa kasus korupsi di Jawa Timur selama 2019-Mei 2021 antara lain Kepala Desa 78 orang, ASN 58 orang, pengusaha 29 orang, dan perangkat desa 21 orang.  

Visualisasi Data di Google Spreadsheet menggunakan Flourish.

Untuk menampilkan data yang sudah tergabung di atas, bisa menggunakan beberapa perangkat. Di Google Spreadsheet juga bisa memvisualisasikan data dalam bentuk diagram (chart). Namun, kali ini saya memilih menggunakan Flourish karena dapat digunakan gratis, legal, dan lebih bervariasi fiturnya.

Pertama, buat akun di Flourish dan setelah masuk pilih new visualization di pojok kiri atas.

Kedua, masuk laman pilihan model chart. Pilih salah satu. Saya memilih bar chart (stacked). Alasannya agar nama jabatan para terdakwa korupsi di grafik bisa terbaca lebih jelas dan ukurannya bisa fit satu layar, tidak perlu scroll ke bawah.

 

Ketiga, klik pilihan data, lalu klik drop down menu ‘Data’ di pojok kiri atas, pilih clear sheet. Kemudian copy cell A3:E31 di sheet ‘PIVOT DATA SIPP’ di Google Spreadsheet dan paste di sheet Flourish, tepatnya di cell A1. Selanjutnya, di kolom sisi kanan pada Labels/time isi A dan kolom Values isi B-D. 

Keempat, klik preview dan lihat data yang sudah dimasukkan telah berubah menjadi chart. Kita bisa menambahkan judul, keterangan tabel, dan sebagainya dengan memanfaatkan fitur-fitur yang ada di sisi kanan.

Setelah selesai, klik di bagian Export & Publish. Nanti akan muncul pilihan link embed your website, download HTML, atau download image. Hasil grafik bisa dilihat dengan klik link ini.

 

Sementara itu, berdasar data yang sudah terkumpul dan divisualisasikan terlihat bahwa, koruptor di Jawa Timur periode 2019-Mei 2021 didominasi Kepala Desa. Kemudian disusul Aparatur Sipil Negara (ASN), pengusaha, perangkat desa, dan seterusnya.

Adapun lembar kerja dalam proses pembuatan resep jurnalisme data di atas yang bisa dipelajari. Ada data diary di dalamnya. Silakan klik link ini. Terimakasih.