Clustering con DBSCAN y HDBSCAN con Python y sus hiperparámetros en SKlearn

Rubiales Alberto
6 min readAug 22, 2020

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) es uno de los algoritmos de clustering más avanzados, esta basado en densidad, esto significa que no usan las distancias entre puntos a la hora de realizar los clusters como por ejemplo pasa con K-Means (si quiere saber más sobre K-Means haz click aquí). Esto provocará que nuestros resultados puedan ser bastante distintos si aplicamos un algoritmo de clustering basado en distancia o en densidad. Pero sin más dilación, vamos a introducir lo que vamos a ver en el artículo:

  1. Explicación de los Hiperparámetros para los algoritmos DBSCAN en SKlearn y HDBSCAN.
  2. Aplicación práctica de los algoritmos DBSCAN y HDBSCAN.
  3. Explicación matemática del funcionamiento del algoritmo..
  4. Conclusiones.

1. Explicación de los hiperparámetros de DBSCAN y HDBSCAN

DBSCAN

  • eps: es el épsilon, que es la máxima distancia que puede haber entre dos clusters, este parámetro lo que hace es cambiar la función de densidad del algoritmo, a más distancia, menos cluster habrá. Su valor dependerá de los datos de tu dataset.
  • min_samples: el número mínimo de puntos necesarios que

--

--

Rubiales Alberto

Data Scientist who loves technology and business. Always learning and sharing ideas. Working at GFK as a Data Scientist. https://www.patreon.com/arubiales