## ¿Qué es el K-means?


Es uno de los algoritmos de agrupamiento **(clustering)** más conocidos y utilizados en el campo del aprendizaje automático **no supervisado**. Su objetivo principal es organizar un conjunto de datos sin etiquetas en K grupos distintos. La idea central es que los puntos de datos dentro de un mismo grupo sean lo más similares posible entre sí, mientras que los puntos de diferentes grupos sean lo más disímiles posible.

## ¿Para qué se usa?

Se usa en una gran variedad de industrias para resolver porblemas que no tienen una respuesta **"Correcta"** predefinida. Algunas de las aplicaciones más comunes son:

**Segmentación de clientes:** Para dividir una base de clientes en grupos con comportamientos de compra o características demográficas similares.

**Análisis de imágenes:** En la compresión de imágenes, el K-means puede reducir la cantidad de colores en una imagen, agrupando colores similares.

**Análisis de datos geográficos:** Para identificar áreas con alta concentración de ciertos tipos de datos, como la densidad de tiendas o la propagación de enfermedades.

## **Cluster (Grupo):**
 Es el resultado final del algoritmo. Un cluster es un conjunto de puntos de datos que han sido agrupados por su similitud.


## **Centroide**
Es el "corazón" de un cluster. Es un punto imaginario que representa el centro geométrico o el promedio de todos los puntos de datos dentro de ese cluster. El algoritmo lo usa para determinar la pertenencia de los puntos a los grupos.

## **K**  
Es un valor que se le debe indicar al algoritmo. Representa el número de clusters que se desea crear. La selección de un valor adecuado para K es uno de los pasos más importantes para obtener un resultado significativo.


# Contexto del Problema: Conociendo los Datos 🐧

#### **Descripción del Dataset**

El conjunto de datos de pingüinos de Palmer Archipelago contiene información sobre tres especies de pingüinos: Adelia, Chinstrap y Gentoo. Incluye medidas corporales como la longitud del pico, la profundidad del pico, la longitud de las aletas y la masa corporal, así como el sexo y la isla de origen. Este dataset es perfecto para ver cómo un algoritmo de agrupamiento puede encontrar patrones y separar las diferentes especies sin haber sido "entrenado" con las etiquetas de especie.



### Variables del Dataset 📊

| Variable | Descripción |
|---|---|
| **species** | Especie del pingüino (Adelie, Chinstrap, Gentoo). |
| **island** | Isla del archipiélago Palmer donde se encontró el pingüino. |
| **bill_length_mm** | Longitud del pico (culmen) en milímetros. |
| **bill_depth_mm** | Profundidad del pico en milímetros. |
| **flipper_length_mm**| Longitud de la aleta en milímetros. |
| **body_mass_g** | Masa corporal del pingüino en gramos. |
| **sex** | Sexo del pingüino (Male, Female). |


In [2]:
import pandas as pd
import seaborn as sns

# Cargar el dataset de los pingüinos
penguins = sns.load_dataset("penguins")

# Mostrar una vista rápida de las primeras filas y los tipos de datos
display(penguins.head())
print("\nInformación del DataFrame:")
penguins.info()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female



Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB
