<a href="https://colab.research.google.com/github/jazaineam1/Andes_ADDBD/blob/main/SesionTallerSNS/Sesion_Taller.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Análisis de Datos y Big data***

## ***Universidad de los Andes***
>## **Dirección de Educación Continua.**
>>## **Formación de habilidades escenciales.**

![Imágen1](https://github.com/jazaineam1/Andes_ADDBD/blob/main/Imagenes/Presentaci%C3%B3n-removebg-preview.png?raw=true)



### Taller 3




En este taller, vamos a combinar dos técnicas fundamentales de aprendizaje automático: el clustering no supervisado y la clasificación supervisada. Primero, realizaremos una segmentación de clientes usando algoritmos de agrupamiento como K-means o DBSCAN, para identificar patrones en los datos sin tener en cuenta la variable de salida. Luego, usaremos esta nueva información (los segmentos generados) para mejorar la clasificación del ingreso de cada individuo, prediciendo si una persona gana menos o más de 50 mil dólares al año.

### Objetivos del Taller

Aplicar técnicas de clustering para segmentar a los individuos en grupos homogéneos según varias características demográficas y financieras.

Usar la información de los clusters generados como una nueva variable en un modelo de clasificación supervisada.

Entrenar un modelo de clasificación para predecir si una persona tiene ingresos mayores o menores a 50 mil dólares.

### Conjunto de Datos


Consultar datos acá:[https://raw.githubusercontent.com/jazaineam1/Andes_ADDBD/refs/heads/main/SesionTallerSNS/income_evaluation.csv](https://raw.githubusercontent.com/jazaineam1/Andes_ADDBD/refs/heads/main/SesionTallerSNS/income_evaluation.csv)
Vamos a utilizar un conjunto de datos real que contiene información demográfica y financiera de individuos, con variables como edad, nivel educativo, ocupación, horas trabajadas por semana, y la variable objetivo income (que representa si los ingresos son más de 50 mil dólares o menos de 50 mil dólares).

Descripción de las Variables

- age (edad): Edad del individuo (variable continua).

- workclass (tipo de empleo): Tipo de empleo del individuo. Valores posibles: Privado, Autónomo-no-incorporado, Autónomo-incorporado, Gobierno-federal, Gobierno-local, Gobierno-estatal, Sin-pago, Nunca-trabajó.

- fnlwgt (peso final): Peso muestral (variable continua).

- education (nivel educativo): Nivel educativo alcanzado por el individuo. Valores posibles: Bachillerato, Alguna universidad, 11º grado, Graduado de secundaria, Escuela profesional, Título asociado académico, Título asociado vocacional, 9º grado, 7º-8º grado, 12º grado, Maestría, 1º-4º grado, 10º grado, Doctorado, 5º-6º grado, Preescolar.

- education-num (número de años de educación): Número de años de educación (variable continua).

- marital-status (estado civil): Estado civil del individuo. Valores posibles: Casado-cónyuge-civil, Divorciado, Nunca casado, Separado, Viudo, Casado-cónyuge-ausente, Casado-cónyuge-en-fuerzas-armadas.

- occupation (ocupación): Ocupación del individuo. Valores posibles: Soporte técnico, Reparación artesanal, Otros servicios, Ventas, Ejecutivo-gerencial, Profesional-especialista, Manipuladores-limpiadores, Operador de máquinas-inspector, Administrativo-clerical, Agricultura-pesca, Transporte-mudanza, Servicio doméstico, Servicios de protección, Fuerzas Armadas.

- relationship (relación): Relación familiar del individuo. Valores posibles: Esposa, Hijo propio, Esposo, No-en-familia, Otro pariente, Soltero.

- race (raza): Raza del individuo. Valores posibles: Blanca, Asiático-Isleño del Pacífico, Indio Americano-Eskimal, Otro, Negra.

- sex (sexo): Sexo del individuo. Valores posibles: Femenino, Masculino.

- capital-gain (ganancia de capital): Ganancia de capital obtenida (variable continua).

- capital-loss (pérdida de capital): Pérdida de capital sufrida (variable continua).

- hours-per-week (horas por semana): Número de horas trabajadas por semana (variable continua).

- native-country (país de origen): País de origen del individuo. Valores posibles: Estados Unidos, Camboya, Inglaterra, Puerto Rico, Canadá, Alemania, Dependencias de EE.UU. (Guam-USVI-etc), India, Japón, Grecia, Sur, China, Cuba, Irán, Honduras, Filipinas, Italia, Polonia, Jamaica, Vietnam, México, Portugal, Irlanda, Francia, República Dominicana, Laos, Ecuador, Taiwán, Haití, Colombia, Hungría, Guatemala, Nicaragua, Escocia, Tailandia, Yugoslavia, El Salvador, Trinidad y Tobago, Perú, Hong Kong, Países Bajos (Holanda).

- income (ingreso): Variable objetivo que indica si el individuo gana más de 50 mil dólares o menos. Valores posibles: <=50K, >50K.

Siga los siguientes pasos para solucionar el taller

Paso 1: Importar Librerías y Conjunto de Datos

In [20]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


df = pd.read_csv('https://raw.githubusercontent.com/jazaineam1/Andes_ADDBD/refs/heads/main/SesionTallerSNS/income_evaluation.csv')

Paso 2: Preprocesamiento de Datos

Limpiar el conjunto de datos, manejar los valores nulos y convertir variables categóricas en variables dummies.

Escalar las variables numéricas para que todas tengan la misma escala.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   age              32561 non-null  int64 
 1    workclass       32561 non-null  object
 2    fnlwgt          32561 non-null  int64 
 3    education       32561 non-null  object
 4    education-num   32561 non-null  int64 
 5    marital-status  32561 non-null  object
 6    occupation      32561 non-null  object
 7    relationship    32561 non-null  object
 8    race            32561 non-null  object
 9    sex             32561 non-null  object
 10   capital-gain    32561 non-null  int64 
 11   capital-loss    32561 non-null  int64 
 12   hours-per-week  32561 non-null  int64 
 13   native-country  32561 non-null  object
 14   income          32561 non-null  object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB


Paso 3: Aplicar Algoritmo de Clustering

Elegir entre K-means y DBSCAN para realizar la segmentación.

Si se elige K-means, se debe usar el método del codo para determinar el número óptimo de clusters.

In [29]:

# Verificar los nombres de las columnas en el DataFrame
print(df.columns)

# Seleccionar las variables numéricas
numeric_features = ['age', ' fnlwgt', ' education-num', ' capital-gain', ' capital-loss', ' hours-per-week']


X = df[numeric_features]

# Escalar las variables numéricas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar KMeans
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X_scaled)



Index(['age', ' workclass', ' fnlwgt', ' education', ' education-num',
       ' marital-status', ' occupation', ' relationship', ' race', ' sex',
       ' capital-gain', ' capital-loss', ' hours-per-week', ' native-country',
       ' income', 'cluster'],
      dtype='object')


KMeans(n_clusters=2, random_state=42)

Paso 4: Incluir la Variable de Segmentación en el Conjunto de Datos

Incluir la nueva columna de clusters generados como una variable adicional en el conjunto de datos. Es decir cree una nueva variable indicando el grupo de segmentación generado.


In [30]:
# Obtener las etiquetas de los clusters
labels = kmeans.labels_

# Añadir las etiquetas al DataFrame original
df['cluster'] = labels

# Mostrar los primeros registros con las etiquetas de los clusters
print(df.head())

   age          workclass   fnlwgt   education   education-num  \
0   39          State-gov    77516   Bachelors              13   
1   50   Self-emp-not-inc    83311   Bachelors              13   
2   38            Private   215646     HS-grad               9   
3   53            Private   234721        11th               7   
4   28            Private   338409   Bachelors              13   

        marital-status          occupation    relationship    race      sex  \
0        Never-married        Adm-clerical   Not-in-family   White     Male   
1   Married-civ-spouse     Exec-managerial         Husband   White     Male   
2             Divorced   Handlers-cleaners   Not-in-family   White     Male   
3   Married-civ-spouse   Handlers-cleaners         Husband   Black     Male   
4   Married-civ-spouse      Prof-specialty            Wife   Black   Female   

    capital-gain   capital-loss   hours-per-week  native-country  income  \
0           2174              0               40   U

In [41]:

# Verificar los nombres de las columnas en el DataFrame
print(df.columns)

# Seleccionar las variables numéricas
numeric_features = ['age', ' fnlwgt', ' education-num', ' capital-gain', ' capital-loss', ' hours-per-week']


X = df[numeric_features]

# Escalar las variables numéricas
scaler = StandardScaler()
X_scaled = pd.DataFrame(scaler.fit_transform(X))
X_scaled['cluster'] = df['cluster'] 

# Aplicar KMeans
kmeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(X_scaled)



Index(['age', ' workclass', ' fnlwgt', ' education', ' education-num',
       ' marital-status', ' occupation', ' relationship', ' race', ' sex',
       ' capital-gain', ' capital-loss', ' hours-per-week', ' native-country',
       ' income', 'cluster'],
      dtype='object')




KMeans(n_clusters=5, random_state=42)

In [42]:
X_scaled

Unnamed: 0,0,1,2,3,4,5,cluster
0,0.030671,-1.063611,1.134739,0.148453,-0.21666,-0.035429,1
1,0.837109,-1.008707,1.134739,-0.145920,-0.21666,-2.222153,1
2,-0.042642,0.245079,-0.420060,-0.145920,-0.21666,-0.035429,1
3,1.057047,0.425801,-1.197459,-0.145920,-0.21666,-0.035429,1
4,-0.775768,1.408176,1.134739,-0.145920,-0.21666,-0.035429,1
...,...,...,...,...,...,...,...
32556,-0.849080,0.639741,0.746039,-0.145920,-0.21666,-0.197409,1
32557,0.103983,-0.335433,-0.420060,-0.145920,-0.21666,-0.035429,1
32558,1.423610,-0.358777,-0.420060,-0.145920,-0.21666,-0.035429,1
32559,-1.215643,0.110960,-0.420060,-0.145920,-0.21666,-1.655225,1


In [32]:
df[' income'].unique()

array([' <=50K', ' >50K'], dtype=object)

Paso 5: Dividir los Datos en Conjuntos de Entrenamiento y Prueba

Dividir el conjunto de datos en train y test usando train_test_split.

In [43]:
from sklearn.model_selection import train_test_split
import numpy as np

# Separar las características y la variable objetivo
# Las características son las variables numéricas
X = df[numeric_features]
y = np.where(df[' income']==' >50K', 1, 0)

# Dividir los datos en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar las dimensiones de los conjuntos resultantes
print("Tamaño del conjunto de entrenamiento:", X_train.shape)
print("Tamaño del conjunto de prueba:", X_test.shape)

Tamaño del conjunto de entrenamiento: (26048, 6)
Tamaño del conjunto de prueba: (6513, 6)


Paso 6: Entrenar el Modelo de Clasificación

Entrenar un Random Forest Classifier para predecir si los ingresos son mayores o menores a 50 mil dólares.

In [71]:
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = clf.predict(X_test)
y_pred2 = np.where(clf.predict_proba(X_test)[:,1]>0.25,1,0)
y_pred2


array([0, 1, 0, ..., 1, 0, 0])

Paso 7: Obtención de resultados y métricas del modelo

In [72]:
# Evaluar el modelo
print("Exactitud:", accuracy_score(y_test, y_pred))
print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred))

Exactitud: 0.8033164440350069
Matriz de confusión:
 [[4430  512]
 [ 769  802]]
Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.85      0.90      0.87      4942
           1       0.61      0.51      0.56      1571

    accuracy                           0.80      6513
   macro avg       0.73      0.70      0.71      6513
weighted avg       0.79      0.80      0.80      6513



In [73]:
# Evaluar el modelo
print("Exactitud:", accuracy_score(y_test, y_pred2))
print("Matriz de confusión:\n", confusion_matrix(y_test, y_pred2))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred2))

Exactitud: 0.7520343927529556
Matriz de confusión:
 [[3810 1132]
 [ 483 1088]]
Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.89      0.77      0.83      4942
           1       0.49      0.69      0.57      1571

    accuracy                           0.75      6513
   macro avg       0.69      0.73      0.70      6513
weighted avg       0.79      0.75      0.76      6513

