Laman

Minggu, 12 Juni 2016

K-Means Cluster Analysis

Analisa Cluster Data Mining

Pengelompokan (clustering) adalah salah satu proses dari data mining yang bertujuan untuk menemukan “pengetahuan” atau pola yang berharga dari data yang berukuran relatif besar yang umumnya dikelola sebagai data history dan disimpan baik sebagai database maupun datawarehouse. Metode pengelompokan digunakan terhadap data-data yang bersifat un-supervised learning, sehingga proses pengelompokan didalam konsep data mining termasuk dalam Un-supervised analysis. Terdapat dua kelompok metode pengelompokan yang sudah dikenal yaitu metode cluster analysis hirarki (hierarchical clustering method) dan metode cluster analysis non hirarki (non hierarchical clustering method), Algoritma K-Means Cluster Analysis termasuk dalam kelompok metode cluster analysis non hirarki, dimana jumlah kelompok yang akan dibentuk sudah terlebih dahulu diketahui atau ditetapkan jumlahnya. Algoritma K-Means Cluster Analysis mempergunakan metode perhitungan jarak (distance) untuk mengukur tingkat kedekatan antara data dengan titik tengah (centroid), umumnya menggunakan Euclidean distance atau metode pengukuran jarak lainnya,untuk data yang berjenis biner metode perhitungan jarak ini menjadi tidak tepat diterapkan sehingga perlu dilakukan perubahan yaitu dengan cara mempergunakan metode perhitungan tingkat similaritas, terdapat beberapa metode perhitungan similaritas diantaranya yang dipergunakan dalam laporan ini adalah Jaccard simililarity, Anderberg similarity, Czekanowsky similarity, dan Kulczynski similarity. Kemudian untuk menentukan nilai centroid awal pada algoritma KMeans Cluster Analysis umumnya dilakukan dengan cara acak (random), pada analisa ini dilakukan modifikasi dengan terlebih dahulu dilakukan proses pengurutan (sorting) data dan nilai awal centroid ditetapkan berdasarkan kriteria pembentuk kelompok yang sudah diketahui. Dengan melakukan pendekatan similaritas dan perubahan pada algoritma k-means cluster analysis seperti diatas menghasilkan algoritma k-means cluster analysis yang dapat dipergunakan pada data berjenis biner dan validitas yang lebih baik.


Clustering is one of data mining function, which aims to find knowledge or valuable pattern from relatively large dataset, which mostly managed as historical dataset and stored in databases or datawarehouse. Clustering methodes used for un-supervised dataset, in data mining concepts called as un-supervised analysis. There are two groups of clustering, hierarchical clustering methods and non hierarchical clustering methods, K-Means Cluster Analysis within non hierarchical clustering methods with number of cluster is already set from the begining of the algorithm. K-means Cluster Analysis mostly used Euclidean distance or others distance methodology to find distance from data to centroid, its can’t implement for binary data, so in this field k-means cluster analysis to be modified with use similarity measures, in this study used Jaccard simililarity, Anderberg similarity, Czekanowsky similarity and Kulczynski similarity, Classical k-means cluster analysis finding the first centroid by randomize from dataset,here k-means cluster analysis algorithm will be modified with sorted dataset and then the first centroid selected from dataset base on cluster result criteria. With use similarity measures and modification of k-means cluster analysis algorithm, the algorithm can and better implemented in binary data.

Tidak ada komentar:

Posting Komentar