# Agrupación de Datos con K-Means: Samsung Data

## Introducción
En este notebook, se utiliza el algoritmo K-Means para realizar agrupaciones en un conjunto de datos financieros de Samsung, analizando patrones en el precio de cierre (`Close`) y el volumen de transacciones (`Volume`). El objetivo es identificar grupos similares en los datos no etiquetados.

## Carga y Preprocesamiento de Datos
En esta sección se cargan los datos, se transforman las fechas, y se normalizan las columnas numéricas para preparar el conjunto de datos para el algoritmo de agrupación.

In [None]:

# Importar las bibliotecas necesarias
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Cargar el conjunto de datos
data = pd.read_csv('samsung.csv')

# Convertir las fechas al formato datetime y eliminar la columna 'Date' para la agrupación
data['Date'] = pd.to_datetime(data['Date'], format='%d/%m/%Y')
numeric_data = data[['Close', 'Volume']]

# Estandarizar los datos numéricos
scaler = StandardScaler()
scaled_data = scaler.fit_transform(numeric_data)

# Mostrar un resumen de los datos
data.head()


## Determinación del Número de Clusters
Se utiliza el método del codo para determinar el número óptimo de clusters, analizando la inercia de K-Means para diferentes valores de k.

In [None]:

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Determinar el número óptimo de clusters utilizando el método del codo
inertia = []
k_range = range(1, 11)
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(scaled_data)
    inertia.append(kmeans.inertia_)

# Gráfica del método del codo
plt.figure(figsize=(8, 5))
plt.plot(k_range, inertia, marker='o')
plt.title('Método del Codo para Determinar el Número de Clusters')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Inercia')
plt.xticks(k_range)
plt.show()


## Entrenamiento del Modelo
Se entrena el modelo K-Means utilizando el número óptimo de clusters determinado en el paso anterior.

In [None]:

# Definir el número óptimo de clusters
optimal_k = 3

# Entrenar el modelo K-Means
kmeans_model = KMeans(n_clusters=optimal_k, random_state=42)
data['Cluster'] = kmeans_model.fit_predict(scaled_data)

# Resumen del tamaño de cada cluster
data['Cluster'].value_counts()


## Visualización e Interpretación de Resultados
Se genera una gráfica de dispersión para visualizar los clusters y analizar la distribución de los datos en función del precio de cierre (`Close`) y el volumen (`Volume`).

In [None]:

# Visualizar los clusters
plt.figure(figsize=(10, 6))
for cluster in range(optimal_k):
    cluster_data = data[data['Cluster'] == cluster]
    plt.scatter(cluster_data['Close'], cluster_data['Volume'], label=f'Cluster {cluster}', alpha=0.6)

plt.title('Visualización de Clusters')
plt.xlabel('Precio de Cierre (Close)')
plt.ylabel('Volumen (Volume)')
plt.legend()
plt.grid(True)
plt.show()
