# **Segunda Actividad Integradora**

## <font color="yellow">Objetivo</font> 
Aplicar los conceptos aprendidos en el curso de Minería de Datos para realizar un análisis integral de un dataset real utilizando diversas técnicas de preprocesamiento y análisis exploratorio de datos. Esta actividad busca evaluar la capacidad del estudiante para aplicar conocimientos de manejo de datos, discretización, análisis y visualización para extraer información relevante, y comunicar sus hallazgos de manera clara y concisa.

## <font color="yellow">Instrucciones</font>
**1. Dataset Asignado:**

Utiliza el dataset "Adult" proporcionado por el docente. Este dataset contiene información recolectada durante un censo realizado en 1994 en Estados Unidos con el fin de determinar las características de las personas en relación a si ganan más de U$D 50,000 al año o no. El archivo adult_data.xls posee datos de 32,561 personas, y algunos de sus atributos son: 
- Edad, sexo, estado civil, nivel educativo
- Tipo de trabajo, número de horas semanales que trabaja
- Raza, país de origen o Capital.

**2. Análisis y Respuesta de Preguntas:**
   1. Verificación de Datos:
      - a. Verifica si la base de datos posee atributos con datos faltantes.
      - b. Verifica si existen atributos que necesiten normalización de sus valores. 
      - c. Identifica si hay atributos con valores inválidos.
   2. Relación de Campos: El nivel educativo de la persona está indicado en dos campos: Education y Education_num. Analiza cómo se relacionan estos dos atributos y documenta tus hallazgos.
   3. Reemplazo de Valores Faltantes:
      - a. Completa los valores faltantes de los atributos Education_num y Capital_Loss con el valor mínimo.
      - b. Completa el resto de los atributos que presenten valores faltantes con su correspondiente valor promedio.
   4. Generación de Atributos Nuevos: Genera atributos nuevos para solucionar los problemas encontrados en los incisos 1b y 1c.
      
**3. Discretización del Atributo Hours_per_week:** 

Realiza tres discretizaciones diferentes del atributo Hours_per_week y compara los resultados obtenidos:
   - a. En cuatro intervalos por partes iguales.
   - b. En los siguientes cuatro intervalos: [1..10], [11..50], [51..70], [71..MAX].
     
**4. Análisis de Atributos Seleccionados:**
- Selecciona los atributos: Edad, Education_num, Hours_per_week y Class. Realiza todos los posibles diagramas de dispersión utilizando la opción Scatter tomando al atributo Class como atributo para colorear. 
- Analiza los distintos diagramas y relaciona los atributos.
   - a. ¿Qué puedes decir de las edades con respecto a la ganancia anual?
   - b. ¿Puedes afirmar que las personas que poseen un nivel educativo por debajo de 8 y que trabajan menos de 40 horas no ganan más de 50 mil dólares por año?
   - c. ¿Existe alguna relación entre el nivel educativo y el hecho de ganar más de 50 mil dólares por año?
   - d. ¿Hay alguna relación con la cantidad de horas semanales trabajadas?

**Video Explicativo**: Realiza un video de máximo 1 minuto donde presentes las conclusiones del trabajo. El video debe ser preciso y conciso, destacando los puntos más relevantes del análisis. 


## Dataset Asignado
Cargamos e importamos el dataset de <code>"adult_data.csv"</code>:


In [35]:
import pandas as df
import seaborn as sns

df = pd.read_csv("adult_data.csv",  sep=";")
print("Primeros valores del set de datos adul_data:")
print(df.head(3))
print("\nInformacion sobre las variables:")
print(df.info())

Primeros valores del set de datos adul_data:
   Age         Work_Class  fnlwgt   Education  Eduction_num  \
0   39          State-gov   77516   Bachelors          13.0   
1   50   Self-emp-not-inc   83311   Bachelors          13.0   
2   38            Private  215646     HS-grad           9.0   

        Marital_status          Occupation    Relationship    Rice   Sex  \
0        Never-married        Adm-clerical   Not-in-family   White  Male   
1   Married-civ-spouse     Exec-managerial         Husband   White  Male   
2             Divorced   Handlers-cleaners   Not-in-family   White  Male   

   Capital_gain  Capital_loss  Hours_per_week  Native_country   Class  
0        2174.0           0.0            40.0   United-States   <=50K  
1           0.0           0.0            13.0   United-States   <=50K  
2           0.0           0.0            40.0   United-States   <=50K  

Informacion sobre las variables:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560

In [36]:
# estadisticas descriptivas
estadistica = df.describe()
print("Resumen Estadístico:\n", estadistica)

Resumen Estadístico:
                 Age        fnlwgt  Eduction_num  Capital_gain  Capital_loss  \
count  32561.000000  3.256100e+04  32531.000000  32551.000000  32549.000000   
mean      38.589325  1.897784e+05     10.080815   1077.979908     87.336016   
std       13.693699  1.055500e+05      2.572948   7386.402293    403.031007   
min       17.000000  1.228500e+04      1.000000      0.000000      0.000000   
25%       28.000000  1.178270e+05      9.000000      0.000000      0.000000   
50%       37.000000  1.783560e+05     10.000000      0.000000      0.000000   
75%       48.000000  2.370510e+05     12.000000      0.000000      0.000000   
max      190.000000  1.484705e+06     16.000000  99999.000000   4356.000000   

       Hours_per_week  
count    32545.000000  
mean        40.436718  
std         12.347939  
min          1.000000  
25%         40.000000  
50%         40.000000  
75%         45.000000  
max         99.000000  


## Análisis y Respuesta de Preguntas:
### 1. Verificacion de los datos

In [37]:
# Verificar datos nulos
faltantes = df.isnull().sum()
print("Datos faltantes por columna:")
print(faltantes[faltantes > 0])  # Muestra solo las columnas con datos faltantes


Datos faltantes por columna:
Work_Class        1836
Eduction_num        30
Occupation        1843
Capital_gain        10
Capital_loss        12
Hours_per_week      16
Native_country     583
dtype: int64


De acuerdo con el resumen estadístico del conjunto de datos, los atributos como <code>fnlwgt, Capital_gain, Capital_loss y Hours_per_week</code> tienen una variabilidad considerable entre sus valores mínimos y máximos.

Por ejemplo:

<code>fnlwgt</code> tiene un rango entre 12,285 y 1,484,705.
<code>Capital_gain</code> tiene un rango entre 0 y 99,999.
<code>Hours_per_week</code> tiene un rango entre 1 y 99.
Estos valores tienen diferencias en sus rangos, lo que puede afectar negativamente a algunos algoritmos. Es recomendable normalizar estos atributos.

### 2. Relacion de los Campos
   
**Education:** Este campo contiene el nivel educativo descrito de manera textual. Los valores son categorías como "Bachelors", "Masters", "HS-grad", "Doctorate", etc.

**Education_num:** Este campo es un valor numérico que representa el nivel educativo de manera cuantitativa. Un valor numérico más alto indica un nivel educativo más alto. Por ejemplo, un valor de "13" puede corresponder a un "Bachelors" o "Undergraduate degree", mientras que un valor de "16" podría corresponder a un "Doctorate" o "PhD".

**Relación Esperada**
La relación esperada es que los valores en la columna Education_num deben correlacionarse con los valores en la columna Education de manera lógica y consistente. 

**Verificación de la Relación entre las Columnas**

Se verifica los valores en Education_num si son coherentes con los valores de Education mediante un análisis descriptivo:

In [39]:
# Verificar la relación entre los dos campos 'Education' y 'Education_num'
relation = df[['Education', 'Eduction_num']].groupby('Education').agg(
    ['min', 'max', 'mean', 'count']).sort_values([('Eduction_num', 'mean')])

print(relation)


             Eduction_num                   
                      min   max  mean  count
Education                                   
Preschool             1.0   1.0   1.0     51
1st-4th               2.0   2.0   2.0    168
5th-6th               3.0   3.0   3.0    333
7th-8th               4.0   4.0   4.0    646
9th                   5.0   5.0   5.0    514
10th                  6.0   6.0   6.0    931
11th                  7.0   7.0   7.0   1174
12th                  8.0   8.0   8.0    432
HS-grad               9.0   9.0   9.0  10488
Some-college         10.0  10.0  10.0   7284
Assoc-voc            11.0  11.0  11.0   1382
Assoc-acdm           12.0  12.0  12.0   1067
Bachelors            13.0  13.0  13.0   5353
Masters              14.0  14.0  14.0   1720
Prof-school          15.0  15.0  15.0    576
Doctorate            16.0  16.0  16.0    412


Aquí se puede observar lo siguiente: La columna <code>Education_num</code> tiene un valor fijo para cada nivel educativo. 

Por ejemplo:
- <code>Preschool</code> tiene un valor de 1.0
- <code>Bachelors</code> tiene un valor de 13.0
- <code>Doctorate</code> tiene un valor de 16.0

Esto sugiere que la columna <code>Education_num</code> fue diseñada para proporcionar una representación numérica del nivel educativo.

Repetición de valores: Para cada valor de <code>Education_num</code>, existe un conteo (count) que indica cuántas personas pertenecen a ese nivel educativo. Por ejemplo, <code>HS-grad</code> tiene 10,488 registros, lo que indica que es el nivel educativo más común en este conjunto de datos.

Verificación de la consistencia: Los valores min, max, y mean para cada nivel educativo coinciden con los valores de <code>Education_num</code> asociados, lo que muestra que no hay inconsistencias entre las dos columnas.

### 3. Reemplazo de valores faltantes

Para las columnas específicas <code>Education_num</code> y <code>Capital_loss</code>, reemplazaremos los valores faltantes con el valor mínimo de cada columna:

In [40]:
# Reemplazar valores faltantes en 'Education_num' con el valor mínimo
df['Eduction_num'].fillna(df['Eduction_num'].min())

# Reemplazar valores faltantes en 'Capital_loss' con el valor mínimo
df['Capital_loss'].fillna(df['Capital_loss'].min())


0        0.0
1        0.0
2        0.0
3        0.0
4        0.0
        ... 
32556    0.0
32557    0.0
32558    0.0
32559    0.0
32560    0.0
Name: Capital_loss, Length: 32561, dtype: float64

Para el resto de las columnas numéricas que puedan tener valores faltantes, usaremos el valor promedio (media) de cada columna.

In [41]:
# Seleccionar solo columnas numéricas
numeric_columns = df.select_dtypes(include=['number']).columns

# Reemplazar valores faltantes en las columnas numéricas con el valor promedio
df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].mean())

# Verificar nuevamente si hay valores faltantes
print(df.isnull().sum())


Age                  0
Work_Class        1836
fnlwgt               0
Education            0
Eduction_num         0
Marital_status       0
Occupation        1843
Relationship         0
Rice                 0
Sex                  0
Capital_gain         0
Capital_loss         0
Hours_per_week       0
Native_country     583
Class                0
dtype: int64


### 4. Generación de Atributos Nuevos
Dado que las columnas <code>Work_Class</code>, <code>Occupation</code>, y <code>Native_country</code> tienen valores faltantes y son de tipo object (es decir, son categóricas o de texto), es necesario abordarlas de manera diferente que las columnas numéricas.

Se reemplaza los valores faltantes en columnas categóricas con <code>"Unknown"</code> (desconocido):

In [50]:
# Reemplazar valores faltantes en columnas categóricas con 'Unknown'
categorical_columns = df.select_dtypes(include=['object']).columns

for col in categorical_columns:
    df[col] = df[col].fillna('Unknown')

# Verificar si hay valores faltantes después de hacer el reemplazo
print(df.isnull().sum())


Age               0
Work_Class        0
fnlwgt            0
Education         0
Eduction_num      0
Marital_status    0
Occupation        0
Relationship      0
Rice              0
Sex               0
Capital_gain      0
Capital_loss      0
Hours_per_week    0
Native_country    0
Class             0
dtype: int64


In [49]:
# Codificación One-Hot para la variable categórica 'sex'
ddf_one_hot_encoded = pd.get_dummies(df, columns=['Sex'])
# Ver el DataFrame después de One-Hot Encoding
print(df_encoded.head())

   Age  fnlwgt   Education  Eduction_num    Rice  Capital_gain  Capital_loss  \
0   39   77516   Bachelors          13.0   White        2174.0           0.0   
1   50   83311   Bachelors          13.0   White           0.0           0.0   
2   38  215646     HS-grad           9.0   White           0.0           0.0   
3   53  234721        11th           7.0   Black           0.0           0.0   
4   28  338409   Bachelors          13.0   Black           0.0           0.0   

   Hours_per_week  Native_country  Work_Class_ Local-gov  ...  \
0            40.0   United-States                  False  ...   
1            13.0   United-States                  False  ...   
2            40.0   United-States                  False  ...   
3            40.0   United-States                  False  ...   
4            40.0            Cuba                  False  ...   

   Occupation_ Transport-moving  Relationship_ Not-in-family  \
0                         False                         True   


Normalizacion

In [19]:
from sklearn.preprocessing import MinMaxScaler

# Seleccionar las columnas numéricas para normalizar
columns_to_normalize = ['Age', 'fnlwgt', 'Eduction_num', 'Capital_gain', 'Capital_loss', 'Hours_per_week']

# Crear el objeto MinMaxScaler
scaler = MinMaxScaler()

# Aplicar la normalización Min-Max a las columnas seleccionadas
df[columns_to_normalize] = scaler.fit_transform(df[columns_to_normalize])

# Verificar el resumen estadístico después de la normalización
print(df[columns_to_normalize].describe())

                Age        fnlwgt  Eduction_num  Capital_gain  Capital_loss  \
count  32561.000000  32561.000000  32561.000000  32561.000000  32561.000000   
mean       0.124794      0.120545      0.605388      0.010780      0.020050   
std        0.079154      0.071685      0.171451      0.073853      0.092506   
min        0.000000      0.000000      0.000000      0.000000      0.000000   
25%        0.063584      0.071679      0.533333      0.000000      0.000000   
50%        0.115607      0.112788      0.600000      0.000000      0.000000   
75%        0.179191      0.152651      0.733333      0.000000      0.000000   
max        1.000000      1.000000      1.000000      1.000000      1.000000   

       Hours_per_week  
count    32561.000000  
mean         0.402415  
std          0.125968  
min          0.000000  
25%          0.397959  
50%          0.397959  
75%          0.448980  
max          1.000000  
