Clustering con DBSCAN y HDBSCAN con Python y sus hiperparámetros en SKlearn
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es uno de los algoritmos de clustering más avanzados, esta basado en densidad, esto significa que no usan las distancias entre puntos a la hora de realizar los clusters como por ejemplo pasa con K-Means (si quiere saber más sobre K-Means haz click aquí). Esto provocará que nuestros resultados puedan ser bastante distintos si aplicamos un algoritmo de clustering basado en distancia o en densidad. Pero sin más dilación, vamos a introducir lo que vamos a ver en el artículo:
- Explicación de los Hiperparámetros para los algoritmos DBSCAN en SKlearn y HDBSCAN.
- Aplicación práctica de los algoritmos DBSCAN y HDBSCAN.
- Explicación matemática del funcionamiento del algoritmo..
- Conclusiones.
1. Explicación de los hiperparámetros de DBSCAN y HDBSCAN
DBSCAN
- eps: es el épsilon, que es la máxima distancia que puede haber entre dos clusters, este parámetro lo que hace es cambiar la función de densidad del algoritmo, a más distancia, menos cluster habrá. Su valor dependerá de los datos de tu dataset.
- min_samples: el número mínimo de puntos necesarios que…