# Ejemplo aprendizaje no supervisado

Generación de los clusters

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_blobs

# Parámetros para la generación de los clusters
n_samples = 1000  # Número total de puntos
centers = 5       # Número de centros (clusters)
cluster_std = 1.1  # Desviación estándar de los clusters

# Generar los datos de los clusters para 'Edad' y 'Años de Antigüedad'
X, _ = make_blobs(n_samples=n_samples, centers=centers, cluster_std=cluster_std, random_state=42)

# Asignar la 'Edad' y 'Años de Antigüedad' a partir de los clusters generados
# Normalizamos y escalamos los datos para que se ajusten a rangos realistas
age = (X[:, 0] - X[:, 0].min()) / (X[:, 0].max() - X[:, 0].min()) * 45 + 20  # Edad entre 20 y 65
years_in_company = (X[:, 1] - X[:, 1].min()) / (X[:, 1].max() - X[:, 1].min()) * 40  # Años entre 0 y 40

# Generar datos aleatorios para 'Sexo' (0 para femenino, 1 para masculino)
sex = np.random.randint(2, size=n_samples)

# Crear un DataFrame con los datos
data = pd.DataFrame({'Sexo': sex, 'Edad': np.round(age), 'Años de Antigüedad': np.round(years_in_company)})

# Guardar el DataFrame en un archivo CSV
data.to_csv('employee_cluster_data.csv', index=False)


In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
import plotly.express as px

# Leer los datos
data = pd.read_csv('employee_cluster_data.csv')

# Preparar los datos para K-means (Normalizar)
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data[['Edad', 'Años de Antigüedad']])

# Añadir los datos normalizados al DataFrame
data['Edad_Normalizada'] = data_scaled[:, 0]
data['Años_Antigüedad_Normalizada'] = data_scaled[:, 1]

# Crear una visualización 3D con Plotly
fig = px.scatter_3d(data, x='Edad_Normalizada', y='Años_Antigüedad_Normalizada', z='Sexo',
                    color='Sexo', title='Visualización 3D de los Empleados')
fig.show()


In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Leer los datos
data = pd.read_csv('employee_cluster_data.csv')

# Normalizar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data[['Edad', 'Años de Antigüedad']])

# Método del codo para encontrar el número óptimo de clusters
wcss = []  # Lista para guardar la suma de cuadrados dentro del cluster
for i in range(1, 11):  # Probando de 1 a 10 clusters
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=42)
    kmeans.fit(data_scaled)
    wcss.append(kmeans.inertia_)

# Visualizar el método del codo
plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o', linestyle='--')
plt.title('Método del Codo para determinar el número óptimo de clusters')
plt.xlabel('Número de clusters')
plt.ylabel('WCSS')  # WCSS: Within-Cluster Sum of Square
plt.show()


In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import plotly.express as px

# Leer los datos
data = pd.read_csv('employee_cluster_data.csv')

# Normalizar los datos
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data[['Edad', 'Años de Antigüedad']])

# Aplicar K-means con el número seleccionado de clusters
n_clusters = 5   # Según hemos visto anteriormente
kmeans = KMeans(n_clusters=n_clusters, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters = kmeans.fit_predict(data_scaled)

# Añadir las etiquetas de cluster al DataFrame
data['Cluster'] = clusters

# Visualizar los datos con Plotly
fig = px.scatter_3d(data, x='Edad', y='Años de Antigüedad', z='Sexo',
                    color='Cluster', title='Visualización 3D de los Empleados con Clusters')
fig.show()
