Agglomerative Hierarchical Clustering (AHC)

 Assalamu’alaikum warahmatullah awabarakatuh, hallo gaiss!! Pada pembahasan kali ini kita akan sharing materi tentang sebuah model yang masuk ke Materi Agglomerative Hierarchical Clustering (AHC). Yuk simak penjelasannya di bawah ini !!

Agglomerative Hierarchical Clustering (AHC)

A.    Pengertian Agglomerative Hierarchical Clustering (AHC)

Agglomerative Hierarchical Clustering adalah suatu metode hierarchical clustering yang bersifat bottom-up yaitu menggabungkan n buah klaster menjadi satu klaster tunggal. Metode ini dimulai dengan meletakkan setiap objek data sebagai sebuah klaster tersendiri (atomic cluster) dan selanjutnya menggabungkan klaster-klaster tersebut menjadi klaster yang lebih besar dan lebih besar lagi sampai akhirnya semua objek data menyatu dalam sebuah klaster tunggal. Kunci dari metode AHC adalah perhitungan proximity antara 2 klaster. Perhitungan ini terbagi menjadi 3 yaitu Single Linkage (jarak terkecil), Complete Linkage (jarak terbesar) dan Average Linkage (jarak ratarata). karena metode hirarki tidak dapat menghasilkan klaster secara langsung, maka digunakan metode cophenet distance untuk menganalisis hasil hirarki yang terbentuk. Dari hasil yang didapat menunjukkan bahwa Agglomerative Hierarchical Clustering (AHC) dapat digunakan untuk pengelompokan data.

Agglomerative Hierarchical Clustering merupakan metode dengan menggunakan strategi disain Bottom-Up yang dimulai dengan meletakkan setiap obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam sebuah cluster atau proses dapat pula berhenti jika telah mencapai batasan kondisi tertentu

B.    Analisis Cluster

Cluster atau klaster adalah sebutan lain dari “kelompok” atau “grup”.
Lalu apa itu analisis cluster?

Analisis cluster merupakan metode pengelompokan multivariat (banyak variabel) dengan tujuan utama yaitu mengelompokkan objek berdasarkan kemiripan karakteristik yang dimilikinya. Analisis cluster terbagi menjadi dua metode yaitu hirarki dan non-hirarki.
Pada artikel ini, bagian cluster yang akan dibahas hanya metode hirarki saja.

Metode Cluster Hirarki

Hierarchical methods adalah teknik clustering membentuk hirarki atau berdasarkan tingkatan tertentu sehingga menyerupai struktur pohon. Dengan demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap. Biasanya, metode ini digunakan pada data yang jumlahnya tidak terlalu banyak dan jumlah cluster yang akan dibentuk belum diketahui. Di dalam metode hirarki, terdapat dua jenis strategi pengelompokan yaitu agglomerative dan divisive.

-       Agglomerative (metode penggabungan) adalah strategi pengelompokan hirarki yang dimulai dengan setiap objek dalam satu cluster yang terpisah kemudian membentuk cluster yang semakin membesar. Jadi, banyaknya cluster awal adalah sama dengan banyaknya objek.
Sedangkan Divisive (metode pembagian) adalah strategi pengelompokan hirarki yang dimulai dari semua objek dikelompokkan menjadi cluster tunggal kemudian dipisah sampai setiap objek berada dalam cluster yang terpisah. (Supranto, 2004)

Dalam agglomerative method, teknik pengelompokan yang paling dikenal adalah:

a.     Single linkage (jarak terdekat atau tautan tunggal)

Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-anggota terdekat di antara dua cluster.

b.     Average linkage (jarak rata-rata atau tautan rata-rata)
Teknik yang menggabungkan cluster-cluster menurut jarak rata-rata pasangan anggota masing-masing pada himpunan antara dua cluster.

c.     Complete linkage (jarak terjauh atau tautan lengkap)
Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-anggota terjauh di antara dua cluster.

C.    Langkah – Langkah Algoritma AHC

1.     Hitung matriks jarak

Ada berbagai macam jenis jarak, namun jarak yang sering digunakan adalah Euclidean.

2.     Gabungkan dua cluster terdekat

Jika jarak objek a dengan b memiliki nilai jarak paling kecil dibandingkan jarak antar objek lainnya dalam matriks jarak Euclidean, maka gabungan dua cluster pada tahap pertama adalah d_ab.

3.     Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method
Jika d_ab adalah jarak terdekat dari matriks jarak Euclidean, maka rumus untuk metode agglomerative adalah:

4.     Ulangi langkah 2 dan 3 sampai hanya tersisa satu cluster

5.     Buat dendrogram

Contoh

Setelah kita tau algoritmanya, yuk sekarang kita coba praktek menggunakan data pengeluaran harian 5 orang untuk makanan dan pakaian.

Langkah pertama, hitung matriks jarak dengan rumus Euclidean.

Contoh perhitungan jarak di atas hanya dari objek A ke B sampai jarak objek A ke E, untuk perhitungan jarak yang lainnya silahkan teman-teman coba ya… Jika perhitungannya benar, nanti hasilnya akan sama dengan matriks jarak yang ada di bawah ini.

Matriks jarak Euclidean

Sesuai yang telah dijelaskan sebelumnya, metode agglomerative berawal dari setiap objek berada dalam cluster yang berbeda. Jadi, matriks jarak di atas menunjukan jumlah cluster sebanyak 5.

Langkah kedua, menggabungkan dua cluster terdekat yaitu cluster B dengan E karena nilai jaraknya adalah 1.118 yang paling kecil dibandingkan yang lainnya.

Langkah ketiga, kita akan memperbarui matriks jarak menggunakan teknik pengelompokan complete linkage (algoritma yang menggunakan teknik pengelompokan single linkage bisa lihat disini).

Perhitungan tahap 1

Setelah diperoleh jarak maksimumnya, berikut adalah matriks tahap 1

Matriks pembaruan tahap 1

Kemudian, gabungan dua cluster terdekat dari matriks tahap 1 adalah A dengan D.

Perhitungan tahap 2

Setelah diperoleh jarak maksimumnya, berikut adalah matriks tahap 2

Matriks pembaruan tahap 2

Kemudian, gabungan dua cluster terdekat dari matriks tahap 2 adalah C dengan BE.

Perhitungan tahap 3

Setelah diperoleh jarak maksimumnya, berikut adalah matriks tahap 3

Matriks pembaruan tahap 3

Proses pembaruan matriks jarak dengan teknik complete linkage telah selesai karena cluster yang tersisa pada matriks tahap 3 hanyalah satu. Sehingga tahap 4 memiliki satu cluster yang beranggotakan semua cluster-cluster awal.

Langkah terakhir adalah membuat dendrogram sesuai anggota cluster yang terbentuk dan nilai jarak terdekatnya.

Dendrogram dari algoritma metode agglomerative dengan teknik complete linkage

Wassalamu’aliakum warahmatullah wabarakatuh. Sekian dan Terima kasih 😊

Referensi :

https://medium.com/@tribinty/algorithm-agglomerative-hierarchical-clustering-31d2cea14d9

https://medium.com/@16611129/memahami-k-mean-clustering-pada-machine-learning-dengan-phyton-430323d80868

Komentar

Postingan populer dari blog ini

LENGKAP!! MATERI LIMIT FUNGSI :)

Q-Learning

NILAI MAKSIMUM JEUNG MINIMUM | KALKULUS 1 | BAHASA SUNDA