**Escuela de Ingeniería en Computación**

**IC6200 - Inteligencia Artificial - Proyecto 1 - Machine Learning**

**Estudiantes:**

Gerald Núñez Chavarría, Sebastián Arroniz, Sebastián Bérmudez.

**Profesor:**

Kenneth Obando Rodríguez

**Fecha de entrega:**

26/04/2024

## **1. Entendimiento del Negocio**
A continuación se presentan los objetivos del negocio y de la aplicación de la minería de datos en este proyecto de machine-learning, el cuál esta basado en el set de datos llamado "Costa Rican Household Poverty Level Prediction". 
### **1.1 Objetivo del Negocio**
**Objetivo 1:** El principal objetivo del negocio es mejorar la precisión de la clasificación de hogares en niveles de pobreza utilizando modelos de machine learning, lo que permitirá a las agencias dirigir de manera más efectiva los recursos hacia quienes más lo necesitan.

**Criterio de éxito:** El modelo predice el 90% de los casos de manera correcta. 

### **1.2 Objetivo de la Minería de Datos**

**Objetivo 1:** Limpieza y preparación de datos: Preparar el conjunto de datos "Costa Rican Household Poverty Level Prediction" para su análisis y modelado, eliminando valores atípicos, tratando los valores faltantes y transformando variables según sea necesario. **Criterio de éxito:** Lograr un conjunto de datos limpio y completo listo para su análisis, con menos del 10% de datos faltantes y variables transformadas de manera adecuada. 

**Objetivo 2:** Análisis exploratorio de datos: Realizar un análisis exploratorio de los datos para comprender la distribución de las variables, identificar posibles relaciones y determinar la relevancia de las características para la predicción del nivel de pobreza del hogar. **Criterio de éxito:** Identificación de al menos X variables con alta correlación con el nivel de pobreza del hogar, y comprensión clara de la distribución de las características en el conjunto de datos.

**Objetivo 3:** Seleccionar y entrenar un modelo de clasificación/regresión que brinde una mayor precisión para la predicción del nivel de pobreza. **Criterio de éxito:** El modelo predice al menos un X% y se valida mediante la técnica "croos validation". 


## **2. Entendimientos de los Datos**

A continuación, se presenta de dónde se obtienen los datos y además, se describen los datos, se seleccionan variables importantes, se realizan ajustes y se verifica la calidad de los datos. 

### **2.1 Recolección Inicial de Datos.**

Lo primero, es obtener el set de datos a utilizar, que es el de "Costa Rican Household Poverty Level Prediction", para esto, se descarga el archivo test.csv y train.csv que se encuentran en la página Kaggle en el siguiente link: https://www.kaggle.com/competitions/costa-rican-household-poverty-prediction/data. Los archivos se agregan en el directorio llamado `docs` y dentro del subdirectorio llamado `data`.

In [2]:
import pandas as pd

# read train data creating a pandas data frame
df_train = pd.read_csv('../docs/data/train.csv')


Para verificar que la lectura de datos fue exitosa podemos llamar a la función `.head()` para mostrar las primeras cinco filas de cada set de datos (train y test)

In [None]:
df_train.head()

### **2.2 Descripción de los Datos**
A partir de ahora se trabaja únicamente con los datos de entrenamiento. Debido a que estos son los que el modelo utiliza para aprender. Por esto se les debe analizar, describir, limpiar, modificar, etc... para obtener información valiosa para el modelo. Porqué si en el modelo **"entra basura, sale basura"**. 

En esta sección se muestra el tamaño, variables principales a utilizar, cantidad de registros y tipos de variables de los set de datos `train`.

Primero, obtengamos la cantidad de filas y de columnas:

In [None]:
df_train.shape

Se puede observar que son 9957 filas y 143 columnas. Podemos obtener más detalles utilzando la función `info()`. 

In [None]:
df_train.info()

Las filas empiezan desde la 0 y llegan hasta la 9556. Las columnas empiezan desde Id y llegan hasta Target. Los tipos de datos son flotantes(8), enteros(130) y objetos(5).

En el sito de Kaggle https://www.kaggle.com/competitions/costa-rican-household-poverty-prediction/data puede observar el nombre de las 143 columnas y su significado. 

### **2.3 Exploración de los Datos**
Para realizar la exploración de los datos, se van a seleccionar seis variables principales para poder describir y analizar un poco sobre los datos, las variables seleccionadas son: `rooms`, `escolari`, `hogar_total`, `age`, `overcrowding`, `Target`. 

El motivo de selección se debe a su potencial para poder clasificar el estado económico de los hogares. Por ejemplo, `rooms` podría estar relacionada con el tamaño de la vivienda y, por lo tanto, con las condiciones de vida, mientras que `escolari` (años de escolaridad) podría estar relacionada con el nivel educativo de los miembros del hogar, lo cual es un factor importante en el desarrollo y la movilidad económica. `hogar_total` (número total de personas en el hogar) y `age` (edad) también podrían proporcionar información importante sobre la composición y la demografía del hogar. `overcrowding` (sobrepoblación) es otra variable que podría indicar condiciones de vida inadecuadas si hay demasiadas personas por habitación en el hogar. Por último la variable objetivo `Target` que viene en el set de datos de entrenamiento y es una clasificación ordinal de cada fila con los siguientes valores:

1 = pobreza extrema

2 = pobreza moderada

3 = hogares vulnerables

4 = hogares no vulnerables. 

Ahora, apliquemos a estas variables la función `describe()` que permite obtener estadísticas de los datos en estas variables. Las estadíscticas que se obtienen son: Cuenta el número de observaciones no NA/nulas (`count`), el máximo de los valores del objeto (`max`), el mínimo de los valores del objeto(`min`), la media de los valores (`mean`) y la desviación estándar de las observaciones (`std`).

In [None]:
# Select the variables for the data frame and apply describe
df_main_variables = df_train[['rooms', 'escolari', 'hogar_total', 'age', 'overcrowding', 'Target']]
df_main_variables.describe()

Ahora, analizando cada variable con el objetivo de ir obteniendo información valiosa de los datos:

1. **rooms (número de habitaciones):**
   - La media de 4.96 habitaciones sugiere que, en promedio, las viviendas tienen alrededor de 5 habitaciones.
   - La desviación estándar relativamente baja de 1.47 indica que la cantidad de habitaciones tiende a variar poco entre las viviendas.
   - La distribución muestra que el mínimo es 1 habitación y el máximo es 11 habitaciones, lo que sugiere una variedad en el tamaño de las viviendas dentro de la muestra.

2. **escolari (años de escolaridad):**
   - La media de 7.20 años de escolaridad indica que, en promedio, las personas en los hogares tienen poco más de 7 años de educación formal.
   - La desviación estándar de 4.73 muestra una variabilidad relativamente alta en el nivel educativo de la muestra.
   - La mínima de 0 años sugiere que hay personas sin educación formal en la muestra, mientras que la máxima de 21 años indica que algunas personas tienen educación universitaria o superior.

3. **hogar_total (número total de personas en el hogar):**
   - La media de aproximadamente 4 personas por hogar sugiere que, en promedio, los hogares tienen alrededor de 4 miembros.
   - La desviación estándar de 1.77 indica cierta variabilidad en el tamaño de los hogares.
   - La distribución muestra que el tamaño mínimo del hogar es 1 persona y el máximo es 13 personas, lo que sugiere una amplia gama de tamaños de hogar en la muestra.

4. **age (edad):**
   - La media de 34.30 años indica que la edad promedio en la muestra es de alrededor de 34 años.
   - La desviación estándar de 21.61 muestra una variabilidad considerable en las edades de la muestra.
   - La mínima de 0 años podría indicar la presencia de bebés o niños muy pequeños en algunos hogares, mientras que la máxima de 97 años sugiere la presencia de personas mayores.

5. **overcrowding (sobrepoblación):**
   - La media de 3. indica que, en promedio, hay alrededor de 1.6 personas por habitación en los hogares de la muestra.
   - La desviación estándar de 0.82 sugiere cierta variabilidad en la sobrepoblación entre los hogares.
   - La distribución muestra que el mínimo es 0.2 personas por habitación y el máximo es 6 personas por habitación, lo que indica una variedad en las condiciones de vida dentro de la muestra.

6. **Target (variable objetivo):**
   - La media de 3.30 indica que el nivel promedio de la variable objetivo es de alrededor de 3, lo que sugiere que la mayoría de los hogares se encuentran en la categoría de "hogares vulnerables".
   - La desviación estándar de 1.01 indica que, en promedio, los valores de Target tienden a desviarse en aproximadamente 1 punto de la media.
   - El valor mínimo de 1 y el valor máximo de 4 indican la presencia de hogares en todas las categorías de pobreza y vulnerabilidad.

Ahora vamos a realizar un histograma para cada una de las variables, con el objetivo de visualizar graficamente lo ya analizado sobre la distribución de cada variable. 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Selected variables
main_variables = ['rooms', 'escolari', 'hogar_total', 'age', 'overcrowding', 'Target']

# Generate histogram for each variable
for variable in main_variables:
    plt.figure(figsize=(6, 4))
    sns.histplot(df_main_variables[variable], kde=True)
    plt.title(f'Histograma de {variable}')
    plt.xlabel(variable)
    plt.ylabel('Frecuencia')
    plt.show()

Ahora, para obtener más información, podemos crear un diagrama de pares:

In [None]:
# Create a representation of relation between variables
sns.pairplot(df_main_variables[main_variables])
plt.show()

Se pueden realizar apreciaciones importantes, cómo el hecho de que entre más escolaridad (`escolari`), menos sobre población por habitación (`overcrowding`). 

### **2.4 Calidad de los Datos**

Por último es importante revisar la calidad de los datos. Lo primero que haremos, es verificar cuántos valores nulos existen, para esto, vamos a contar cuántos valores nulos existen por columna, para seguidamente mostrar todas las columnas que tienen valores nulos. Hay que tener en cuenta que la función `isnull()` únicamente cuenta los valores que son nulos indicados explicitamente o vacíos. Es decir, si se utiliza un código cómo por ejemplo `-1` para indicar que no se cuenta con el dato, entonces no nos dariamos cuenta. 

In [None]:
# Count all null values for colums and show the colums with null values
missing_values = df_train.isnull().sum()
print(missing_values[missing_values != 0])

Se puede observar que de las 143 columnas del set de datos de entrenamiento únicamente 5 son afectadas por datos nulos o vacíos. Sin embargo, en las primeras tres filas la cantidad de datos faltantes o nulos es mayor al 60% de las 9557 columnas del set de datos, lo cuál puede afectar significativamente el modelo al tomar en cuenta estas variables para realizar la clasificación. Se deben tomar desiciones respecto a estas variables en la sección 3. 

También, sería importante observar las variables que pandas identificó cómo tipo objeto y observar si tienen valores únicos o existe un desorden en los valores que no coincide con la definción de las variables y que puede afectar el entrenamiento del modelo. 

In [None]:
# Select all columns with 'object' type
columnas_object = df_train.select_dtypes(include=['object']).columns
print(columnas_object)

Como se puede apreciar, observar los valores únicos no es necesario para las variables `Id` y `idhogar`, ya que van a tener valores variados.  Sin embargo, para las otras tres variables, que a continuación se anota su definición:

`dependency`: Tasa de dependencia, calculada = (número de miembros del hogar menores de 19 años o mayores de 64)/(número de miembros del hogar entre 19 y 64 años)

`edjefe`: años de educación del varón cabeza de familia, basado en la interacción de escolari (años de educación), cabeza de familia y sexo, sí=1 y no=0

`edjefa`: años de educación del cabeza de familia femenino, basado en la interacción de escolari (años de educación), cabeza de familia y sexo, sí=1 y no=0

Sería importante analizar que valores tienen para ver con que se va a entrenar el modelo. 

In [None]:
# Verify unique values for object variabes
print(df_train['dependency'].unique())
print(df_train['edjefe'].unique())
print(df_train['edjefa'].unique())

Las variables tienen datos que no coinciden con la definición y van a ensuciar el modelo, también se debe sulocionar este problema en la sección 3. 

Por último, se mencionaba en la discusión publicada en la página de Kaggle, que hay algunos hogares que tienen un diferente Target, cuándo debería estar clasificados bajo uno mismo, comprobemos si es cierto:

In [None]:
household_targets = {} # Dictionary to store the target value for each household ID
conflicting_households = [] # List to store the IDs of households with conflicting target values
for row in df_train.iterrows():
    id_hogar = row[1]['idhogar'] 
    target = row[1]['Target'] 
    if id_hogar in household_targets:
        if household_targets[id_hogar] != target:
            conflicting_households.append(id_hogar)
    else:
        household_targets[id_hogar] = target

len(set(conflicting_households))


Cómo se puede observar, hay 85 hogares que tienen conflicto de clasificación, esto es un problema que también se debe corregir en la sección 3. 

## **3. Preparación de los Datos**

En esta sección se presenta cómo se seleccionan, limpian, construyen y transforman los datos con el objetivo de obtener un set de datos de una mejor calidad y evitar que entre "basura" en el modelo. 

### **3.1 Selección de los Datos**

Segundo, existen columnas que pueden ser eliminadas porqué realmente no aportan un valor al modelo para clasificar el nivel de pobreza. Otras pueden ser eliminadas porqué tienen un valor redundante (otra variable refleja casi lo mismo). Las primeras variables eliminadas serán:

`r4h1`: Males younger than 12 years of age

`r4h2`: Males 12 years of age and older

`r4h3`: Total males in the household

`r4m1`: Females younger than 12 years of age

`r4m2`: Females 12 years of age and older

`r4m3`: Total females in the household

Esto porqué no nos aporta nada clasificar esto por género y ya contamos con las siguientes variables:

`r4t1`: persons younger than 12 years of age

`r4t2`: persons 12 years of age and older

`r4t3`: Total persons in the household

Otras variables que se pueden eliminar, son las que su valor es únicamente un cálculo al cuadrado, ya que no nos aporta nada más que obtener el valor de otra variable elevado al cuadrado. Estas son:

`SQBescolari`: escolari squared

`SQBage`: age squared

`SQBhogar_total`: hogar_total squared

`SQBedjefe`: edjefe squared

`SQBhogar_nin`: hogar_nin squared

`SQBovercrowding`: overcrowding squared

`SQBdependency`: dependency squared

`SQBmeaned`: square of the mean years of education of adults (>=18) in the household

`agesq`: Age squared

Esta son las variables que se consideran innecesarias y que no aportan al entrenamiento del modelo, sin embargo, no serán eliminadas de innmediato ya que sirven para corregir otras. 

### **3.2 Limpieza de los Datos**



Lo primero es corregir las columnas que tienen valores nulos. Este cálculo ya se hizo, pero refresquemos:

In [None]:
# Count all null values for colums and show the colums with null values
missing_values = df_train.isnull().sum()
print(missing_values[missing_values != 0])

Podemos observar que las variables involucradas son: `v2a1`, `v18q1`, `rez_esc`, `meaneduc` y `SQBmeaned`. 

mpecemos con `meaneduc` (`SQBmeaneduc` será eliminada luego, por lo tanto no necesita arreglar los valores), que mide el promedio de educación de los adultos mayores a 18 años en ese hogar. Entonces, observemos cuál es el `idhogar` dónde tenemos un `meaneduc` nulo. 

In [None]:
# Select all hogar id's where meaneduc is equal to NaN (null)
df_train[df_train['meaneduc'].isnull()][['idhogar', 'age', 'escolari', 'meaneduc']]

Del resultado podemos observar si hay personas mayores de 18 años en dónde los campos de `meaneduc` son igual a NaN. Además, que realmente solo son 3 hogares que tienen este defecto (hay repetidos). Veamos si viven más personas en estos hogares o únicamente las 5 que se muestran en los resultados. 

In [None]:
print(len(df_train[df_train['idhogar'] == df_train.iloc[1291]['idhogar']]))
print(len(df_train[df_train['idhogar'] == df_train.iloc[1840]['idhogar']]))
print(len(df_train[df_train['idhogar'] == df_train.iloc[2049]['idhogar']]))

El resultado es favorable, porqué demuestra que solo estas personas viven en esos hogares lo que facilita rellenar los datos nulos de `meaneduc`. Para el primer hogar (fila 1291) simplemente es sustituir el valor nulo de `meaneduc` por el valor de `escolari` ya que no vive nadie más por lo tanto ese es el promedio. Para el segundo caso y tercer caso, se toman los valores de escolari de ambas filas y se dividen entre 2, para obtener el promedio de `meaneduc` y rellenar esos valores nulos. 

In [None]:
# First household
escolari_value = df_train.loc[1291, 'escolari']

df_train.loc[1291, 'meaneduc'] = escolari_value

# Second household
escolari_value1 = df_train.loc[1840, 'escolari']
escolari_value2 = df_train.loc[1841, 'escolari']
meaneduc = (escolari_value1 + escolari_value2) / 2

df_train.loc[1840, 'meaneduc'] = meaneduc
df_train.loc[1841, 'meaneduc'] = meaneduc


# Third household
escolari_value1 = df_train.loc[2049, 'escolari']
escolari_value2 = df_train.loc[2050, 'escolari']
meaneduc = (escolari_value1 + escolari_value2) / 2

df_train.loc[2049, 'meaneduc'] = meaneduc
df_train.loc[2050, 'meaneduc'] = meaneduc

# Now we are filled this NaN values. 
print(df_train.loc[[1291, 1840, 1841, 2049, 2050]][['idhogar', 'meaneduc']])

Ahora toca arreglar una variable muy importante cómo lo es `v2a1` que hace referencia al pago mensual renta por mes y tiene 6860 valores pérdidos. No obstante, hay otras variables que hacen referencia al tipo de vivienda, y nos inidican por ejemplo si es casa propia o un lugar precario, entre otros. Demos un vistazo:

In [None]:
no_rent = df_train[df_train['v2a1'].isnull()]
print("Casa propia: ", no_rent[no_rent['tipovivi1']==1]['Id'].count())
print("Es propietario de su casa pagando cuotas: ", no_rent[no_rent['tipovivi2']==1]['Id'].count())
print("Alquila: ", no_rent[no_rent['tipovivi3']==1]['Id'].count())
print("Precario: ", no_rent[no_rent['tipovivi4']==1]['Id'].count())
print("Other: ", no_rent[no_rent['tipovivi5']==1]['Id'].count())
print("Total ", 6860)

De hecho, la mayoría son propietarios de sus casas, sólo unos pocos tienen situaciones extrañas. Probablemente podemos suponer que no pagan alquiler, y poner 0 en estos casos, para no lidiar con los valores nulos.

In [17]:
df_train['v2a1'] = df_train['v2a1'].fillna(0)

En cuánto al número de tabletas que posee el hogar (`v18q1`) que tiene 7342 conlumnas nulas, podemos utilizar la variables `v18q` que indica el si el hogar posee o no tabletas, podemos inspeccionar a ver si los valores nulos a la vez coinciden con qué el hogar no tiene tabletas. 

In [None]:
# Verifiy if the null values of v18q1 is a consecuence of a 0 (does not have tablets) in v18q
nan_tablet = df_train[df_train['v18q1'].isnull()]
nan_tablet[nan_tablet['v18q']==0]['Id'].count()

Efectivamente, quiere decir que cuándo `v18q1` es nulo es porqué no hay tabletas en el hogar. Entonces podemos cambiar todos los nulos por 0. 

In [18]:
# Fill all nan values for v18q1 with zeros.
df_train['v18q1'] = df_train['v18q1'].fillna(0)

Y la última variable a la que le debemos limpiar sus valores nulos es `rez_esc` que indica la cantidad de años de retraso escolar que lleva una persona. Esta tiene 7928 valores nulos. Intentemos ver primero que todo si sigue algún patrón:

In [19]:
df_train['rez_esc'] = df_train['rez_esc'].fillna(0)

### **3.3 Transformaciones en los Datos**

Las variables categoricas `dependency`, `edjefe` y `edjefa` tienen valores que pueden confundir al modelo, observemos nuevamente:

In [None]:
# Verify unique values for object variabes
print(df_train['dependency'].unique())
print(df_train['edjefe'].unique())
print(df_train['edjefa'].unique())

De momento corran este código luego expico bien qué es

In [20]:
import numpy as np

df_train['dependency'] = np.sqrt(df_train['SQBdependency'])

conditions = [
    (df_train['edjefe']=='no') & (df_train['edjefa']=='no'), #both no
    (df_train['edjefe']=='yes') & (df_train['edjefa']=='no'), # yes and no
    (df_train['edjefe']=='no') & (df_train['edjefa']=='yes'), #no and yes 
    (df_train['edjefe']!='no') & (df_train['edjefe']!='yes') & (df_train['edjefa']=='no'), # number and no
    (df_train['edjefe']=='no') & (df_train['edjefa']!='no') # no and number
    ]

choices = [0, 1, 1, df_train['edjefe'], df_train['edjefa']]
df_train['edjefx']=np.select(conditions, choices)
df_train['edjefx']=df_train['edjefx'].astype(int)
df_train.drop(['edjefe', 'edjefa'], axis=1, inplace=True)

for i in set(conflicting_households):
    household_subset = df_train[df_train['idhogar']==i][['idhogar', 'parentesco1', 'Target']]
    target = household_subset[household_subset['parentesco1']==1]['Target'].tolist()[0]
    for row in household_subset.iterrows():
        idx = row[0]
        if row[1]['parentesco1'] != 1:
            df_train.at[idx, 'Target'] = target

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_main_variables['dependency'] = np.sqrt(dataset['SQBdependency'])


## **4. Modelado**

En la parte del modelado, lo primero es cargar el set de datos de prueba. 

In [79]:
import pandas as pd

# read train and test data creating a pandas data frame
df_test = pd.read_csv('../docs/data/test.csv')

Luego, creamos esta función para realizar todas las operaciones para seleccionar, limpiar, agregar y modificar datos. A esta función le llamaremos `clean_data` y es para limpiar el set de datos de entrenamiento. 

In [1]:
def clean_data(dataset):
    # Fix meaneduc nan values
    escolari_value = dataset.loc[1291, 'escolari']
    dataset.loc[1291, 'meaneduc'] = escolari_value

    escolari_value1 = dataset.loc[1840, 'escolari']
    escolari_value2 = dataset.loc[1841, 'escolari']
    meaneduc = (escolari_value1 + escolari_value2) / 2
    dataset.loc[1840, 'meaneduc'] = meaneduc
    dataset.loc[1841, 'meaneduc'] = meaneduc

    escolari_value1 = dataset.loc[2049, 'escolari']
    escolari_value2 = dataset.loc[2050, 'escolari']
    meaneduc = (escolari_value1 + escolari_value2) / 2
    dataset.loc[2049, 'meaneduc'] = meaneduc
    dataset.loc[2050, 'meaneduc'] = meaneduc
    
    # Fill with zeros v2a1 nan values. 
    dataset['v2a1'] = dataset['v2a1'].fillna(0)
    
    # Fill with zeros v18q1 nan values.
    dataset['v18q1'] = dataset['v18q1'].fillna(0)
    
    # Fill with zeros rez_esc nan values
    dataset['rez_esc'] = dataset['rez_esc'].fillna(0)
    
    df_main_variables['dependency'] = np.sqrt(dataset['SQBdependency'])

    conditions = [
        (dataset['edjefe']=='no') & (dataset['edjefa']=='no'), #both no
        (dataset['edjefe']=='yes') & (dataset['edjefa']=='no'), # yes and no
        (dataset['edjefe']=='no') & (dataset['edjefa']=='yes'), #no and yes 
        (dataset['edjefe']!='no') & (dataset['edjefe']!='yes') & (dataset['edjefa']=='no'), # number and no
        (dataset['edjefe']=='no') & (dataset['edjefa']!='no') # no and number
        ]

    choices = [0, 1, 1, dataset['edjefe'], dataset['edjefa']]
    dataset['edjefx']=np.select(conditions, choices)
    dataset['edjefx']=dataset['edjefx'].astype(int)
    dataset.drop(['edjefe', 'edjefa'], axis=1, inplace=True)

## **5. Criterios de Selección**

## **6. Conclusiones**