## Item 1
Deberá ejecutar tres algoritmos de clustering: K-Means, K-Means++ y
MeanShift, utilizando al menos cuatro configuraciones distintas para cada técnica
(deberá justificar la elección de parámetros). Para el entrenamiento, use únicamente
el 80% de los datos, omitiendo la etiqueta Y. A continuación, evalúe las doce
configuraciones obtenidas mediante una métrica de su elección (por ejemplo,
Silhouette Score) y seleccione las tres de mejor desempeño. Luego, aplique cada
una de estas configuraciones al 20% restante de los datos, asignando a cada muestra
el cluster correspondiente (obtenidos desde el entrenamiento). Finalmente, compare
la etiqueta Y real de cada muestra con la etiqueta dominante dentro del cluster al
que pertenece y analice si este procedimiento resulta razonable para asignar
etiquetas faltantes.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing
from sklearn.cluster import estimate_bandwidth, get_bin_seeds, MeanShift


In [None]:
housing = fetch_california_housing()
x = housing.data
y = housing.target
y = pd.qcut(y, q=4, labels=[0,1,2,3])

train_data, test_data, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

df_housing = pd.DataFrame(train_data, columns=housing.feature_names)
df_price = pd.DataFrame(y_train, columns=['MedHouseVal'])

print(df_price.head())
print(df_housing.head())
print(df_price.shape)
print(df_housing.shape)

## Mean-shift

In [None]:
bandwidth = estimate_bandwidth(train_data, quantile=0.5)
# quantile es el porcentaje de puntos que se consideran vecinos (Sensibilidad)

seeds = get_bin_seeds(train_data, bin_size=bandwidth, min_bin_freq=1)
#Ajusta la cantidad de puntos iniciales (semillas) para el algoritmo

ms = MeanShift(bandwidth=bandwidth, seeds=seeds)
ms.fit(train_data)
cluster_centers = ms.cluster_centers_
labels = ms.labels_
n_clusters_ = len(np.unique(labels))
n_clusters_

#

## K-Means

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

In [None]:
train_data = pd.DataFrame(train_data)
kmeans = KMeans(n_clusters=8, random_state=42)
kmeans.fit(train_data)
train_data["cluster"] = kmeans.labels_
print(train_data.head())

In [None]:
plt.scatter(train_data['Feature1'], train_data['Feature2'], c=train_data['cluster'], cmap='viridis')
plt.xlabel('Feature1')
plt.ylabel('Feature2')
plt.title('Clústeres KMeans')
plt.colorbar(label='Cluster')
plt.show()