Pengertian, Fungsi, Metode dan Penerapan Data Mining
Pengertian Data Mining
Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Terdapat beberapa istilah yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence), data archaeology, information harvesting dan data dredging.
Kemampuan Data mining untuk mencari informasi bisnis yang berharga dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini dipakai untuk :
- Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar.
- Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan.
- Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.
Berikut ini beberapa definisi data mining dari beberapa sumber (Larose, 2005):
- Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah data berukuran besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik matematika dan statistik.
- Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dengan metode baru yang bisa dimengerti dan bermanfaat kepada pemilik data.
- Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine learning), pengenalan pola (pattern recognition), statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang besar.
- Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.
Jenis-Jenis Data Mining
Berikut ini terdapat beberapa jenis-jenis data mining, terdiri atas :
1.Market Basket Analysis
Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanja. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item yang cenderung muncul bersama transaksi.
Pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item dalam bentuk paket, dan sebagainya.
Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.
2.Memory-Based Reasoning
Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi yang dibuat tentang objek baru yang diperkenalkan.
Ada dua komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi digunakan untuk mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.
3. Cluster Detection
Ada dua pendekatan untuk cluster Detection. Pendekatan pertama dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data, digunakan untuk memecah data ke dalam cluster. Pendekatan kedua adalah clustering agglomerative, digunakan untuk asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses yang terjadi secara berulang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.
4. Link Analysis
Proses mencari dan membangun hubungan antara object dalam kumpulan data mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.
5. Rule Induction
Ekstraksi aturan sebab-akibat dari data secara statistic untuk identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.
6. Neural Networks
Model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dapat digunakan untuk mengekstrak pola dan mendeteksi tren yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.
Fungsi Data Mining
Data mining memiliki banyak sekali fungsi, Untuk fungsi utamanya yaitu ada dua yaitu fungsi descriptive dan fungsi predictive. Untuk fungsi lainnya akan dibahas di bawah :
1. Descriptive
Fungsi deskripsi dalam data mining adalah fungsi yang digunakan untuk memahami lebih jauh tentang data yang diamati. Dengan melakukan sebuah proses diharap bisa mengetahui perilaku dari sebuah data tersebut. Data tersebut yang nanti digunakan untuk mengetahui karakteristik dari data yang dimaksud.
Dengan menggunakan Fungsi descriptive data mining, maka bisa menemukan pola tertentu yang tersembunyi dalam sebuah data. Dengan kata lain jika pola yang berulang dan bernilai itulah karakteristik sebuah data bisa diketahui.
2. Predictive
Fungsi prediksi merupakan sebuah fungsi bagaimana sebuah proses nantinya akan menemukan pola tertentu dari suatu data. Pola tersebut dapat diketahui dari berbagai variabel yang ada pada data.
Ketika sudah menemukan pola, maka pola yang didapat bisa digunakan untuk memprediksi variabel lain yang belum diketahui nilai ataupun jenisnya.
Karena itu fungsi ini dikatakan sebagai fungsi prediksi sama halnya dengan melakukan predictive analisis. Fungsi ini juga digunakan untuk memprediksi sebuah variabel tertentu yang tidak ada dalam suatu data.
Sehingga fungsi ini memudahkan dan menguntungkan bagi siapapun yang memerlukan prediksi yang akurat untuk membuat hal penting tersebut menjadi lebih baik.
Fungsi data mining yang lainnya yaitu : characterization, discrimination, association, classification, clustering, outlier and trend analysis, dll.
- Multidimensional concept description, Karakterisasi dan diskriminasi berfungsi untuk Menggeneralisasikan, meringkas, dan membedakan karakteristik data, dll.
- Frequent patterns, association, correlation
- Classification and prediction, Membangun model (fungsi) yang menggambarkan dan membedakan kelas atau konsep untuk prediksi masa depan. Misalnya, Mengklasifikasikan negara berdasarkan iklim, atau mengklasifikasikan mobil berdasarkan jarak tempuh gas
- Cluster analysis, Membuat data grup untuk membentuk kelas baru. Misalnya, memaksimalkan kesamaan intra-kelas & meminimalkan kesamaan antar kelas
- Outlier analysis, Objek data yang tidak sesuai dengan perilaku umum dari data, berguna dalam deteksi penipuan, analisis peristiwa langka.
- Trend and evolution analysis, Trend dan penyimpangan misalnya analisis regresi atau mining penambangan pola berurutan. Misalnya, Kamera digital, atau Analisis periodisitas dan Analisis berbasis kesamaan.
- Other pattern-directed or statistical analyses
Metode Data Mining
1. Proses pengambilan Data
Proses pengambilan data sudah dijelaskan tentang KDD atau Knowledge discovery (mining) in databases. Dengan KDD tersebut dapat melakukan proses pengambilan data.
Proses atau tahapan dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang telah diolah. Proses tersebut sebagai berikut :
- Data Cleansing, Proses dimana data yang tidak lengkap, mengandung error dan tidak konsisten dibuang dari koleksi data. Ketahui juga data lifecycle management untuk mengetahui tentang pengolahan data.
- Data Integration, Proses integrasi data dimana yang berulang akan dikombinasi.
- Selection, Proses seleksi atau pemilihan data yang relevan terhadap analisis untuk diterima dari koleksi data yang ada.
- Data Transformation, Proses transformasi data yang sudah dipilih ke dalam bentuk mining procedure melalui cara dan agresi data.
- Data Mining, Proses yang paling penting akan dilakukan berbagai teknik yang diaplikasikan untuk mengekstrak berbagai pola potensial untuk mendapatkan data yang berguna.
- Pattern Evolution, Sebuah proses dimana pola-pola menarik yang sebelumnya ditemukan dengan identifikasi berdasarkan measure yang telah diberikan
- Knowledge Presentation, Merupakan proses tahap terakhir, Dalam hal ini digunakan teknik visualisasi bertujuan membantu user dalam mengerti dan menginterpretasikan hasil dari penambangan data.
2. Teknik dalam Proses Penambangan Data
Terdapat berbagai macam teknik yang digunakan dalam proses penambangan data, sebagai berikut :
- Predictive Modeling, Terdapat dua teknik yaitu Classification dan Value Prediction
- Database Segmentation, Melakukan partisi database menjadi sejumlah segmen, cluster, atau record yang sama
- Link analysis, Sebuah teknik untuk membuat hubungan antara record yang individu atau sekumpulan record dalam database.
- Deviation detection, Sebuah teknik untuk mengidentifikasi outlier yang mengekspresikan sebuah deviasi dari ekspektasi yang sudah diketahui sebelumnya.
- Nearest Neighbour, Yaitu teknik yang memprediksi pengelompokan, Teknik ini sendiri merupakan teknik yang tertua yang digunakan dalam data mining.
- Clustering, merupakan teknik untuk mengklasifikasikan data berdasarkan kriteria masing-masing data.
- Decision Tree, Merupakan teknik generasi selanjutnya, teknik ini adalah sebuah model prediktif yang dapat digambarkan seperti pohon. Setiap mode yang terdapat dalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.
Proses Dalam Data Mining
Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining) (Larose, 2006), terdiri atas:
1. Fase Pemahaman Bisnis (Business Understanding Phase)
- Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.
- Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.
- Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
- Mengumpulkan data.
- Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.
- Mengevaluasi kualitas data.
- Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan
3. Fase Pengolahan Data (Data Preparation Phase)
- Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
- Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.
- Lakukan perubahan pada beberapa variabel jika dibutuhkan.
- Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modeling Phase)
- Pilih dan aplikasikan teknik pemodelan yang sesuai.
- Kalibrasi aturan model untuk mengoptimalkan hasil.
- Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.
- Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
- Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.
- Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.
- Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.
- Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.
6. Fase Penyebaran (Deployment Phase)
- Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.
- Contoh sederhana penyebaran: Pembuatan laporan.
- Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain.
Apa tujuan dari proses data mining?
Proses dari data mining pastinya mengandung tujuan-tujuan tertentu. Tujuang data mining diantaranya adalah:
1. Sebagai sarana penjelasan (explanatory)
Data mining adalah sebuah sarana untuk menjelaskan suatu kondisi. Sebagai contoh nyata yaitu mengapa harga penjualan masker di Indonesia meningkat. Tentu saja dalam mengetahui alasannya, diperlukan kumpulan data yang diperoleh dari hasil data mining.
2. Sebagai sarana konfirmasi (confirmatory)
Data mining adalah sebuah sarana untuk mengklarifikasi sebuah pernyataan atau mempertegas adanya hipotesa. Contohnya adalah orang dengan tingkat ekonomi menengah keatas lebih suka membeli mobil daripada membeli unit sepeda motor.
3. Sebagai sarana eksplorasi (exploratory)
Data mining adalah suatu sarana yang dapat digunakan untuk mencari pola baru yang sebelumnya tidak terdeteksi. Contohnya adalah pola terkait alasan mengapa seorang pelaku pembunuhan menargetkan orang yang tinggal di apartemen seorang diri (walau korban tidak terikat hubungan kontak apapun dengan pelaku).
Contoh Penerapan Data Mining
Penambangan data bisa digunakan di berbagai sektor, Mulai dari sektor bisnis, manajemen, keuangan dan lain sebagaianya. Berikut Contoh penerapan Data mining di beberapa sektor :
1. Market Analysis dan Management
Dalam sektor pemasaran biasanya data mining digunakan untuk pemasaran target, manajemen hubungan pelanggan (CRM), analisis pasar, cross selling, segmentasi pasar.
- Target Pemasaran, Misalnya menemukan kelompok pelanggan “model” yang memiliki karakteristik yang sama: minat,tingkat pendapatan, kebiasaan belanja, dll. Menentukan pola pembelian pelanggan dari waktu ke waktu.
- Analysis lalu lintas pasar, Menemukan hubungan / hubungan antar produk penjualan, & prediksi berdasarkan asosiasi tersebut.
- Profiling pelanggan, Jenis pelanggan apa yang membeli produk apa (pengelompokan atau klasifikasi)
- Analisis kebutuhan pelanggan, Misalnya identifikasi produk terbaik untuk berbagai kelompok pelanggan, Memprediksi faktor apa yang akan menarik pelanggan baru, Penyediaan informasi ringkasan, Laporan ringkasan multidimensi, Informasi ringkasan statistik (kecenderungan dan variasi pusat data)
2. Corporate Analysis & Risk Management
Penerapan Data mining dalam sektor perusahaan biasanya digunakan untuk prediksi, retensi pelanggan, underwriting yang lebih baik, kontrol kualitas, analisis kompetitif.
- Perencanaan keuangan dan evaluasi aset, Misalnya analisis dan prediksi arus kas, analisis klaim kontinjensi untuk mengevaluasi aset, analisis cross-sectional dan time series (rasio keuangan, tren analisis, dll.)
- Planning Perencanaan sumber daya, Misalnya merangkum dan membandingkan sumber daya dan pengeluaran
- Persaingan, Misalnya memantau pesaing dan arah pasar, mengelompokkan pelanggan ke dalam kelas dan penetapan harga berbasis kelas prosedur, dan mengatur strategi penetapan harga di pasar yang sangat kompetitif.
3. Fraud Detection & Mining Unusual Patterns
Data mining juga berfungsi untuk mencari dan mendeteksi fraud pada sebuah sistem. Dengan menggunakan data mini maka akan bisa melihat dari jutaan transaksi yang masuk.
- Pendekatan: Clustering & konstruksi model untuk penipuan, analisis outlier
- Aplikasi: Layanan kesehatan, ritel, layanan kartu kredit, telecom. Misalnya Asuransi otomatis, Pencucian uang, Asuransi kesehatan, Telekomunikasi, Analisis pola yang menyimpang dari norma yang diharapkan, Industri retail, Dll.
Permasalahan dalam Data Mining
1. Metodologi Mining
- Menambang berbagai jenis pengetahuan dari berbagai tipe data
- Kinerja: efisiensi, efektivitas, dan skalabilitas
- Evaluasi pola: masalah ketertarikan
- Memasukkan pengetahuan latar belakang
- Menangani kebisingan dan data yang tidak lengkap
- Metode penambangan paralel, terdistribusi dan tambahan
- Integrasi pengetahuan yang ditemukan dengan yang ada: fusi pengetahuan
2. User interaction
- Bahasa kueri penambangan data dan penambangan ad-hoc
- Ekspresi dan visualisasi hasil penambangan data
- Penambangan pengetahuan interaktif di berbagai tingkatan abstraksi
3. Applications and social impacts
- Penambangan data khusus domain & penambangan data tak terlihat
- Perlindungan keamanan data, integritas, dan privasi