Pengertian, Fungsi, Proses Tahapan Data Mining dan Contohnya- selamat malam sahabat pada artikel sebelum nya saya mebahas mengenai pengertian data warehouse pada artikel tersebut sudah dijelaskan selengkap mungkin dan semoga kalian dapat memahaminya.
Dan pada artikel kali ini saya membahas apa itu data mining? ada pertanyaan emang beda ya antara data warehouse dengan data mining ? ya tentu beda sahabat dari nama nya saja kita sudah bisa membedakan nya dalam arti warehouse yang artinya gudang dan mining artinya menambang/menggali.
Dalam hal data dan penyimpanan database dan lainnya, tentu sahabat juga diharuskan mengenal dan mengerti pengertian dari apa itu data, database, data mining, data warehouse dan lainnya. database dan data mining juga saling berkaitan satu dengan lainnya. jika sahat sudah membaca apa itu data, database dan data warehouse, lalu apa itu data mining. nah sekarang saya akan jelaskan Pengertian, Fungsi, Proses , Tahapan Data Mining dan Contohnya.
Pengertian Data Mining
Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban dkk. 2005). Terdapat beberapa istilah lain yang memiliki makna sama dengan data mining, yaitu Knowledge discovery in databases (KDD), ekstraksi pengetahuan (knowledge extraction), Analisa data/pola (data/pattern analysis), kecerdasan bisnis (business intelligence) dan data archaeology dan data dredging (Larose, 2005)
Kemampuan Data mining untuk menggali informasi bisnis yang berharga dari basis data yang paling besar, bisa dianalogikan dengan penambangan logam mulia dari lahan sumbernya, teknologi ini digunakan untuk :
Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses penelusuran informasi pemprediksi di dalam basis data yang besar.
Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu basis data, lantas mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan.
Data mining bermanfaat untuk menciptakan keputusan yang kritis, khususnya dalam strategi.
Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses penelusuran informasi pemprediksi di dalam basis data yang besar.
Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu basis data, lantas mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan.
Data mining bermanfaat untuk menciptakan keputusan yang kritis, khususnya dalam strategi.
Berikut ini beberapa definisi data mining dari beberapa sumber (Larose, 2005):
- Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-milah data berukuran besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik matematika dan statistik.
- Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak terduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.
- Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik pembelajaran dari mesin (machine learning), pengenalan pola (pattern recognition), statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang besar.
- Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.
Fungsi Data Mining
Data mining mempunyai fungsi yang penting untuk membantu mendapatkan informasi yang berguna serta meningkatkan pengetahuan bagi pengguna. Pada dasarnya, data mining mempunyai empat fungsi dasar yaitu:
- Fungsi Prediksi (prediction). Proses untuk mengejar pola dari data dengan menggunakan sejumlah variabel guna memprediksikan variabel beda yang tidak diketahui jenis atau nilainya.
- Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik penting dari data dalam suatu basis data.
- Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk menemukan model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan kecenderungan data pada masa depan.
- Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data.
Proses Data Mining
Proses yang umumnya dilakukan oleh data mining antara lain: deskripsi, prediksi, estimasi, klasifikasi, clustering dan asosiasi. Secara rinci proses data mining dijelaskan sebagai berikut (Larose, 2005):
a. Deskripsi
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah dimengerti agar dapat dengan efektif meningkatkan tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil dari proses data mining. Postprocessing merupakan proses yang digunakan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan.
b. Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari tugas prediksi misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat dan prediksi harga saham dalam tiga bulan yang akan datang.
c. Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang sudah didefinisikan sebelumnya.
e. Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain. Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket analisys). Tugas asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut.
Tahapan Data Mining
Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan baru yang diharapkan memberikan kontribusi yang lebih baik. Secara detail dijelaskan sebagai berikut (Fayyad, 1996):
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Contoh Data Mining
Beberapa contoh dari data mining adalah aplikasi yang banyak digunakan di bidang perbankan, pemasaran dan juga asuransi. Misalnya aplikasi yang digunakan dibidang pemasaran adalah untuk mengidentifikasi pembelian para konsumen, mencari dan menemukan hubungan karakterisitik demografi pelanggan, memperkirakan tanggapan penawaran melalui surat.
Contoh aplikasi data mining yang digunakan di perbankan adalah mendeteksi pola penyalahgunaan kartu kredit dan mengidentifikasi tingkat loyalitas dari para pelanggan. Dan aplikasi data mining yang digunakan di bidang asuransi misalnya analisis klaim dan memperkirakan pelanggan yang akan membeli produk terbarunya.
Manfaat Data Mining
Pemanfaatan dari data mining sendiri bisa dilihat dari dua sudut pandang, baik sudut pandang komersial dan sudut pandang keilmuan. Dari sudut pandang komersial, data mining bisa digunakan untuk menangani adanya peledakan dari volume data. Dengan melihat bagaimana menyimpannnya, mengekstraknya dan memanfaatkannya. Tentunya berbagai ilmu komputasi dapat untuk menghasilkan informasi yang dibutuhkan.
Selain itu data mining juga bisa dimanfaatkan untuk menyelesaikan masalah dalam kebutuhan dibidang bisnis, misalnya :
- Mengetahui hilangnya pelanggan dikarenakan adanya pesaing.
- Mengetahui item suatu produk yang memiliki kesamaan karakteristik.
- Mengidentifikasi produk-produk yang sudah terjual dengan produk lainnya.
- Untuk memprediksi dari tingkat penjualan.
- Menilai tingkat resiko dalam menentukan jumlah produksi pada suatu item.
- Memprediksi perilaku bisnis dimasa depan.
Dari sudut pandang keilmuan, data mining juga memiliki manfaat yaitu dapat digunakan untuk mengcapture, menganalisis data dan juga untuk menyimpan data yang sifatnya real-time dan besar, seperti misalnya remote sensor, telescope dan simulasi saintifik.
Dalam data mining juga terdapat fungsi yang diterapkan dalam data mining, berikut fungsi yang umum dari data mining. Association, proses untuk menentukan aturan assosiatif dari suatu kombinasi item dalam suatu waktu. Secuence hampir sama dengan association namun bedanya diterapkan dalam satu periode saja. Clustering, pengelompokan data dalam kelompok data dan setiap klasternya terisi dengan data yang mirip.
Classification, proses penemuan model dan fungsi untuk membedakan konsep atau kelas pada masing-masing data. Regretion, proses pemetaan dalam suatu nilai prediksi. Forecasting proses dimana mengestimasi nilai prediksi berdasarkan pola dalam suatu kumpulan data. Solution, proses penemuan dasar masalah dari persoalan bisnis yang dihadapi.
Penerapan data mining sebagai cabang dari bidang ilmu komputera sudah cukup banyak digunakan dalam bidang industry bisnis dan lainnya. Data mining dapat ditunjang dengan kekayaan dan keanekaragaman dari berbagai bidang ilmu seperti artificial intelligence, database, statistic, permodelan matematika dan pengolahan citra dan lainnya. membuat penerapan data mining menjadi makin luas.
Daftar Pustaka
- Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia Jilid 1. Andi: Yogyakarta.
- Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey & Sons, Inc.
- ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.