Clustering con DBSCAN y HDBSCAN con Python y sus hiperparámetros en SKlearn

6 min readAug 22, 2020

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es uno de los algoritmos de clustering más avanzados, esta basado en densidad, esto significa que no usan las distancias entre puntos a la hora de realizar los clusters como por ejemplo pasa con K-Means (si quiere saber más sobre K-Means haz click aquí). Esto provocará que nuestros resultados puedan ser bastante distintos si aplicamos un algoritmo de clustering basado en distancia o en densidad. Pero sin más dilación, vamos a introducir lo que vamos a ver en el artículo:

Explicación de los Hiperparámetros para los algoritmos DBSCAN en SKlearn y HDBSCAN.
Aplicación práctica de los algoritmos DBSCAN y HDBSCAN.
Explicación matemática del funcionamiento del algoritmo..
Conclusiones.

1. Explicación de los hiperparámetros de DBSCAN y HDBSCAN

DBSCAN

eps: es el épsilon, que es la máxima distancia que puede haber entre dos clusters, este parámetro lo que hace es cambiar la función de densidad del algoritmo, a más distancia, menos cluster habrá. Su valor dependerá de los datos de tu dataset.
min_samples: el número mínimo de puntos necesarios que…

Clustering con DBSCAN y HDBSCAN con Python y sus hiperparámetros en SKlearn

1. Explicación de los hiperparámetros de DBSCAN y HDBSCAN

Written by Rubiales Alberto