BESTTANGSEL.COM, Tangerang – Dalam proyek data science, salah satu tahapan yang selalu dilalui adalah Exploratory Data Analysis (EDA). Tahapan ini dianggap penting untuk menganalisis kumpulan data agar dapat merangkum karakteristik utamanya, atau seringkali dengan metode visualisasi. Pentingnya EDA, mendorong DQLab untuk mengadakan talkshow secara daring yang mengundang Ronny Fahrudin selaku Data Scientist di S3 Innovate Pte.Ltd. Talkshow ini diadakan pada Rabu, 13 April 2022 dengan mengangkat judul “Setiap Data Punya Cerita: Berkenalan dengan Exploratory Data Analysis”.

Mengawali talkshow, Ronny memperkenalkan data science terlebih dahulu. Data science adalah ilmu interdisiplin yang menggunakan metode komputasi dan bertujuan menemukan insight berharga yang dapat ditindaklanjuti dari sekumpulan data. Data science mencakup tiga tahapan, yaitu desain data, mengumpulkan data dan analisis data. Penjelasan ini sebagai pengantar materi Exploratory Data Analysis (EDA) karena data science tidak akan jauh-jauh dari EDA.

“Ketiga tahapan dalam data science tersebut menunjukkan bahwa data science tidak akan jauh dari EDA,” ujar Ronny.

Pentingnya data science dapat dilihat dari perkembangan zaman yang membuat kehidupan mulai tidak bisa lepas dari sosial media. Karena hal itu, data-data yang dihasilkan setiap harinya atau disebut dengan big data akan terus tumbuh menumpuk. Mengantisipasi penumpukan big data, ilmu data science menjadi solusi yang dapat digunakan guna memanfaatkan tumpukan big data menjadi sebuah insight yang berharga.

Dalam data science terdapat tujuh proses penemuan insight menggunakan data science, dimulai dari problem definition, data mining, data preparation, exploratory data analysis, feature engineering, model building, hingga model evaluation. Hal ini menunjukkan bahwa EDA berperan dalam data science.

“Semakin berkembangnya zaman, teknologi dan manusia bisa diselaraskan dengan data science,” ucap Ronny.

Exploratory Data Analysis (EDA) adalah proses kritis dalam melakukan analisis awal pada data, tujuannya menemukan pola, menemukan anomali, menguji hipotesis dan memeriksa asumsi dengan bantuan ringkasan statistik dan visualisasi data. EDA berperan dalam menemukan struktur data yang tidak terduga, mengidentifikasi variabel penting dalam dataset, menguji hipotesis, mengecek kualitas data yang dilanjutkan dengan proses cleansing dan processing, mencari hubungan yang ada dalam data dan menyampaikan insight menarik ke stakeholder.

Dalam menentukan data yang berkualitas dan tidak berkualitas, Ronny memberikan gambaran tentang parameter penilaian data. Yang harus diperhatikan adalah kualitas data yakni harus lengkap sesuai kebutuhan bisnis dan harapan, akurasi data yang sesuai dengan dunia nyata, data yang sekarang dan jenis sebelumnya harus konsisten, data harus relevan dengan masa kini, tidak boleh ada data yang duplikat, data harus valid, data harus tersedia dan mengetahui asal data tersebut.

Ketika memasuki tahapan EDA, ada beberapa steps yang umumnya dilewati yaitu mengamati kumpulan data yang ada, mencari missing value dan membenarkannya, mengkategorikan data berdasarkan categorical dan numerical, mengidentifikasi hubungan antar variabel, serta mengidentifikasi outliers, skewness data dan mengaplikasikan statistik deskriptif dan interentials.

EDA juga memanfaatkan tools yang ada pada Python untuk transform dan cleaning. Tools yang biasa digunakan adalah NumPy, Pandas dan Scipy. NumPy berfungsi untuk melakukan proses komputasi numerik khususnya dalam bentuk array multidimensional. Lalu Pandas digunakan untuk meload data, prepare data, modelling data dan manipulation data. Dan Scipy digunakan bersamaan dengan array NumPy dan menyediakan banyak komputasi numerik yang mudah digunakan dan efisien.

Salah satu tujuan EDA adalah representasi grafis melalui visualisasi data. Visualisasi data ini biasanya bisa digunakan untuk membandingkan data. Beberapa tools yang bisa digunakan adalah Matplotlib, Seaborn, Folium dan Plotly. Keempatnya memiliki fungsinya masing-masing, seperti Matplotlib berfungsi untuk visualisasi data sederhana, Seaborn untuk visualisasi data yang lebih kompleks, cantik dan warna-warni, Folium untuk visualisasi data maps geografis, sedangkan Plotly digunakan untuk interaktif visualisasi data.

Selain itu bentuk visualisasi data juga berbeda-beda dan semua bentuk juga memiliki fungsinya masing-masing. Seperti bar chart dan bullet chart digunakan untuk melihat perbandingan, scatterplot dan heatmap digunakan untuk menunjukkan korelasi data, histogram dan boxplot digunakan untuk distribusi, line chart dan area chart digunakan untuk melihat evaluasi tren, serta pie chart dan treemap dapat digunakan untuk part of whole.

Untuk berkarir di bidang data, praktisi data harus menguasai bahasa pemrograman dan programming knowledge. Sebelum sampai ke tahap itu, EDA menjadi penting untuk dikuasai juga karena merupakan bagian dari data science. Mulai pelajari data science dan EDA bersama dengan https://dqlab.id/. (Red/rlls)

Leave a Reply