PRUEBAS DE VALIDACIÓN DEL ENTORNO DE DESARROLLO

In [1]:
# ============================================
# PRUEBA 1: Manipulación de Datos
# ============================================
import numpy as np
import pandas as pd

np.random.seed(42)
data = {
    'edad': np.random.randint(18, 80, 1000),
    'nivel_educativo': np.random.randint(1, 6, 1000),
    'ingreso_mensual': np.random.randint(1000, 15000, 1000),
    'ubicacion': np.random.choice(['Urbano', 'Rural'], 1000)
}

df = pd.DataFrame(data)
print("=" * 60)
print("PRUEBA 1: MANIPULACIÓN DE DATOS")
print("=" * 60)
print(df.head())
print(f"\nDataset: {df.shape[0]} votantes, {df.shape[1]} características")
print(f"\nTipos de datos:\n{df.dtypes}")
print("✓ Prueba 1 completada exitosamente\n")


PRUEBA 1: MANIPULACIÓN DE DATOS
   edad  nivel_educativo  ingreso_mensual ubicacion
0    56                3             8867     Rural
1    69                5            14161     Rural
2    46                2             5109     Rural
3    32                1            14258    Urbano
4    60                3             8179     Rural

Dataset: 1000 votantes, 4 características

Tipos de datos:
edad                int32
nivel_educativo     int32
ingreso_mensual     int32
ubicacion          object
dtype: object
✓ Prueba 1 completada exitosamente



In [2]:
# ============================================
# PRUEBA 2: Preprocesamiento - Normalización
# ============================================
from sklearn.preprocessing import MinMaxScaler

numeric_features = ['edad', 'nivel_educativo', 'ingreso_mensual']
scaler = MinMaxScaler()

df_normalized = df.copy()
df_normalized[numeric_features] = scaler.fit_transform(df[numeric_features])

print("=" * 60)
print("PRUEBA 2: NORMALIZACIÓN DE DATOS")
print("=" * 60)
print("Datos originales (primeras 3 filas):")
print(df[numeric_features].head(3))
print("\nDatos normalizados (primeras 3 filas):")
print(df_normalized[numeric_features].head(3))
print(f"\nRango verificado: [{df_normalized[numeric_features].min().min():.2f}, {df_normalized[numeric_features].max().max():.2f}]")
print("✓ Prueba 2 completada exitosamente\n")

PRUEBA 2: NORMALIZACIÓN DE DATOS
Datos originales (primeras 3 filas):
   edad  nivel_educativo  ingreso_mensual
0    56                3             8867
1    69                5            14161
2    46                2             5109

Datos normalizados (primeras 3 filas):
       edad  nivel_educativo  ingreso_mensual
0  0.622951             0.50         0.562138
1  0.836066             1.00         0.940470
2  0.459016             0.25         0.293575

Rango verificado: [0.00, 1.00]
✓ Prueba 2 completada exitosamente



In [6]:
# ============================================
# PRUEBA 3: Clustering - K-Medoids
# ============================================
from sklearn_extra.cluster import KMedoids

kmedoids = KMedoids(n_clusters=3, random_state=42, method='pam')
clusters = kmedoids.fit_predict(df_normalized[numeric_features])

df['cluster'] = clusters

print("=" * 60)
print("PRUEBA 3: CLUSTERING CON K-MEDOIDS")
print("=" * 60)
print(f"Clusters identificados: {np.unique(clusters)}")
print(f"\nDistribución de votantes por cluster:")
print(df['cluster'].value_counts().sort_index())
print(f"\nMedoides identificados: {len(kmedoids.cluster_centers_)} clusters")
print("✓ Prueba 3 completada exitosamente\n")

PRUEBA 3: CLUSTERING CON K-MEDOIDS
Clusters identificados: [0 1 2]

Distribución de votantes por cluster:
cluster
0    473
1    261
2    266
Name: count, dtype: int64

Medoides identificados: 3 clusters
✓ Prueba 3 completada exitosamente



In [4]:
# ============================================
# PRUEBA 4: Métricas de Evaluación
# ============================================
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score

sil = silhouette_score(df_normalized[numeric_features], df['cluster'])
dbi = davies_bouldin_score(df_normalized[numeric_features], df['cluster'])
chi = calinski_harabasz_score(df_normalized[numeric_features], df['cluster'])

print("=" * 60)
print("PRUEBA 4: MÉTRICAS DE VALIDACIÓN")
print("=" * 60)
print(f"Silhouette Score:        {sil:.4f}")
print(f"Davies-Bouldin Index:    {dbi:.4f}")
print(f"Calinski-Harabasz Index: {chi:.2f}")
print("✓ Prueba 4 completada exitosamente\n")

PRUEBA 4: MÉTRICAS DE VALIDACIÓN
Silhouette Score:        0.2683
Davies-Bouldin Index:    1.2250
Calinski-Harabasz Index: 411.71
✓ Prueba 4 completada exitosamente



In [5]:
# ============================================
# PRUEBA 5: Visualización
# ============================================
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
scatter = plt.scatter(df['edad'], df['ingreso_mensual'], 
                      c=df['cluster'], cmap='viridis', 
                      alpha=0.6, edgecolors='black', linewidth=0.5)
plt.xlabel('Edad (años)', fontsize=12)
plt.ylabel('Ingreso Mensual (Bs)', fontsize=12)
plt.title('Validación de Clustering - K-Medoids (Dataset Sintético)', fontsize=14)
plt.colorbar(scatter, label='Cluster')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig('test_scatter.png', dpi=150)
plt.close()

print("=" * 60)
print("PRUEBA 5: VISUALIZACIÓN")
print("=" * 60)
print("Gráfico generado: test_scatter.png")
print("✓ Prueba 5 completada exitosamente\n")


PRUEBA 5: VISUALIZACIÓN
Gráfico generado: test_scatter.png
✓ Prueba 5 completada exitosamente

