K-Means clustering
metode clustering yang paling popular dan banyak digunakan. Berikut tahapan yang terjadi dalam K-means clustering:
Tentukan jumlah cluster Tentukan cluster seeds atau centroid awal, penentuan seeds dilakukan random berdasarkan pengetahuan data scientist akan data tersebut. Petakan tiap data points terhadap seed/centroid berdasarkan jarak terdekat. Hitung centroid dari masing cluster. Ulangi langkah ke-3. Ulangi langkah ke-4. Ulangi langkah diatas hingga semua data point sudah dipetakan terhadap centroid, dan posisi centroid sudah tidak bisa diubah.
k-means Clustering sederhana
Dataset :
CountryClusters.csv
drive.google.com/file/d/1c6CYhjqoDslHm4YEN2GSsOF3oPGGypTe/view?usp=sharing
K-Means Clustering dan Standardization
Standardization adalah proses menyamakan weight dari independent variable,
agar keduanya memiliki skala yang sama.
Untuk melakukan standardization, kita gunakan modul preprocessing dari library sklearn.
Perintah scale akan melakukan standardisasi dengan default mean 0 dan standard deviation 1
untuk setiap variable (kolom) secara terpisah. Caranya sangat mudah, berikut codenya:
Dataset :
marketsegmentation.csv
https://drive.google.com/file/d/1D8A5SmSJw3zHO75ZEXTkcSx2NI3gFFUY/view?usp=sharing
untuk gambar lebih jelas bisa download disini :
https://drive.google.com/drive/folders/1sh5dLB0fv6-D3n3iXNmqZNmT8mCzj6XH?usp=sharing
إرسال تعليق