**Escuela de Ingeniería en Computación**

**IC6200 - Inteligencia Artificial - Proyecto 1 - Machine Learning**

**Estudiantes:**

Gerald Núñez Chavarría, Sebastián Arroniz, Sebastián Bérmudez.

**Profesor:**

Kenneth Obando Rodríguez

**Fecha de entrega:**

26/04/2024

## **1. Entendimiento del Negocio**
A continuación se presentan los objetivos del negocio y de la aplicación de la minería de datos en este proyecto de machine-learning, el cuál esta basado en el set de datos llamado "Costa Rican Household Poverty Level Prediction". 
### **1.1 Objetivo del Negocio**
**Objetivo 1:** El principal objetivo del negocio es mejorar la precisión de la clasificación de hogares en niveles de pobreza utilizando modelos de machine learning, lo que permitirá a las agencias dirigir de manera más efectiva los recursos hacia quienes más lo necesitan.

**Criterio de éxito:** El modelo predice el 90% de los casos de manera correcta. 

### **1.2 Objetivo de la Minería de Datos**

**Objetivo 1:** Limpieza y preparación de datos: Preparar el conjunto de datos "Costa Rican Household Poverty Level Prediction" para su análisis y modelado, eliminando valores atípicos, tratando los valores faltantes y transformando variables según sea necesario. **Criterio de éxito:** Lograr un conjunto de datos limpio y completo listo para su análisis, con menos del 10% de datos faltantes y variables transformadas de manera adecuada. 

**Objetivo 2:** Análisis exploratorio de datos: Realizar un análisis exploratorio de los datos para comprender la distribución de las variables, identificar posibles relaciones y determinar la relevancia de las características para la predicción del nivel de pobreza del hogar. **Criterio de éxito:** Identificación de al menos X variables con alta correlación con el nivel de pobreza del hogar, y comprensión clara de la distribución de las características en el conjunto de datos.

**Objetivo 3:** Seleccionar y entrenar un modelo de clasificación/regresión que brinde una mayor precisión para la predicción del nivel de pobreza. **Criterio de éxito:** El modelo predice al menos un X% y se valida mediante la técnica "croos validation". 


## **2. Entendimientos de los Datos**

A continuación, se presenta de dónde se obtienen los datos y además, se describen los datos, se seleccionan variables importantes, se realizan ajustes y se verifica la calidad de los datos. 

### **2.1 Recolección Inicial de Datos.**

Lo primero, es obtener el set de datos a utilizar, que es el de "Costa Rican Household Poverty Level Prediction", para esto, se descarga el archivo test.csv y train.csv que se encuentran en la página Kaggle en el siguiente link: https://www.kaggle.com/competitions/costa-rican-household-poverty-prediction/data. Los archivos se agregan en el directorio llamado `docs` y dentro del subdirectorio llamado `data`.

In [1]:
import pandas as pd

# read train and test data creating a pandas data frame
df_train = pd.read_csv('../docs/data/train.csv')
df_test = pd.read_csv('../docs/data/test.csv')


Para verificar que la lectura de datos fue exitosa podemos llamar a la función `.head()` para mostrar las primeras cinco filas de cada set de datos (train y test)

In [None]:
df_train.head()

In [None]:
df_test.head()

### **2.2 Descripción de los Datos**
A partir de ahora se trabaja únicamente con los datos de entrenamiento. Debido a que estos son los que el modelo utiliza para aprender. Por esto se les debe analizar, describir, limpiar, modificar, etc... para obtener información valiosa para el modelo. Porqué si en el modelo **"entra basura, sale basura"**. 

En esta sección se muestra el tamaño, variables principales a utilizar, cantidad de registros y tipos de variables de los set de datos `train`.

Primero, obtengamos la cantidad de filas y de columnas:

In [None]:
df_train.shape

Se puede observar que son 9957 filas y 143 columnas. Podemos obtener más detalles utilzando la función `info()`. 

In [None]:
df_train.info()

Las filas empiezan desde la 0 y llegan hasta la 9556. Las columnas empiezan desde Id y llegan hasta Target. Los tipos de datos son flotantes(8), enteros(130) y objetos(5).

En el sito de Kaggle https://www.kaggle.com/competitions/costa-rican-household-poverty-prediction/data puede observar el nombre de las 143 columnas y su significado. 

### **2.3 Exploración de los Datos**
Para realizar la exploración de los datos, se van a seleccionar seis variables principales para poder describir y analizar un poco sobre los datos, las variables seleccionadas son: `rooms`, `escolari`, `hogar_total`, `age`, `overcrowding`, `Target`. 

El motivo de selección se debe a su potencial para poder clasificar el estado económico de los hogares. Por ejemplo, `rooms` podría estar relacionada con el tamaño de la vivienda y, por lo tanto, con las condiciones de vida, mientras que `escolari` (años de escolaridad) podría estar relacionada con el nivel educativo de los miembros del hogar, lo cual es un factor importante en el desarrollo y la movilidad económica. `hogar_total` (número total de personas en el hogar) y `age` (edad) también podrían proporcionar información importante sobre la composición y la demografía del hogar. `overcrowding` (sobrepoblación) es otra variable que podría indicar condiciones de vida inadecuadas si hay demasiadas personas por habitación en el hogar. Por último la variable objetivo `Target` que viene en el set de datos de entrenamiento y es una clasificación ordinal de cada fila con los siguientes valores:

1 = pobreza extrema

2 = pobreza moderada

3 = hogares vulnerables

4 = hogares no vulnerables. 

Ahora, apliquemos a estas variables la función `describe()` que permite obtener estadísticas de los datos en estas variables. Las estadíscticas que se obtienen son: Cuenta el número de observaciones no NA/nulas (`count`), el máximo de los valores del objeto (`max`), el mínimo de los valores del objeto(`min`), la media de los valores (`mean`) y la desviación estándar de las observaciones (`std`).

In [None]:
# Select the variables for the data frame and apply describe
df_main_variables = df_train[['rooms', 'escolari', 'hogar_total', 'age', 'overcrowding', 'Target']]
df_main_variables.describe()

Ahora, analizando cada variable con el objetivo de ir obteniendo información valiosa de los datos:

1. **rooms (número de habitaciones):**
   - La media de 4.96 habitaciones sugiere que, en promedio, las viviendas tienen alrededor de 5 habitaciones.
   - La desviación estándar relativamente baja de 1.47 indica que la cantidad de habitaciones tiende a variar poco entre las viviendas.
   - La distribución muestra que el mínimo es 1 habitación y el máximo es 11 habitaciones, lo que sugiere una variedad en el tamaño de las viviendas dentro de la muestra.

2. **escolari (años de escolaridad):**
   - La media de 7.20 años de escolaridad indica que, en promedio, las personas en los hogares tienen poco más de 7 años de educación formal.
   - La desviación estándar de 4.73 muestra una variabilidad relativamente alta en el nivel educativo de la muestra.
   - La mínima de 0 años sugiere que hay personas sin educación formal en la muestra, mientras que la máxima de 21 años indica que algunas personas tienen educación universitaria o superior.

3. **hogar_total (número total de personas en el hogar):**
   - La media de aproximadamente 4 personas por hogar sugiere que, en promedio, los hogares tienen alrededor de 4 miembros.
   - La desviación estándar de 1.77 indica cierta variabilidad en el tamaño de los hogares.
   - La distribución muestra que el tamaño mínimo del hogar es 1 persona y el máximo es 13 personas, lo que sugiere una amplia gama de tamaños de hogar en la muestra.

4. **age (edad):**
   - La media de 34.30 años indica que la edad promedio en la muestra es de alrededor de 34 años.
   - La desviación estándar de 21.61 muestra una variabilidad considerable en las edades de la muestra.
   - La mínima de 0 años podría indicar la presencia de bebés o niños muy pequeños en algunos hogares, mientras que la máxima de 97 años sugiere la presencia de personas mayores.

5. **overcrowding (sobrepoblación):**
   - La media de 3. indica que, en promedio, hay alrededor de 1.6 personas por habitación en los hogares de la muestra.
   - La desviación estándar de 0.82 sugiere cierta variabilidad en la sobrepoblación entre los hogares.
   - La distribución muestra que el mínimo es 0.2 personas por habitación y el máximo es 6 personas por habitación, lo que indica una variedad en las condiciones de vida dentro de la muestra.

6. **Target (variable objetivo):**
   - La media de 3.30 indica que el nivel promedio de la variable objetivo es de alrededor de 3, lo que sugiere que la mayoría de los hogares se encuentran en la categoría de "hogares vulnerables".
   - La desviación estándar de 1.01 indica que, en promedio, los valores de Target tienden a desviarse en aproximadamente 1 punto de la media.
   - El valor mínimo de 1 y el valor máximo de 4 indican la presencia de hogares en todas las categorías de pobreza y vulnerabilidad.

Ahora vamos a realizar un histograma para cada una de las variables, con el objetivo de visualizar graficamente lo ya analizado sobre la distribución de cada variable. 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Selected variables
main_variables = ['rooms', 'escolari', 'hogar_total', 'age', 'overcrowding', 'Target']

# Generate histogram for each variable
for variable in main_variables:
    plt.figure(figsize=(6, 4))
    sns.histplot(df_main_variables[variable], kde=True)
    plt.title(f'Histograma de {variable}')
    plt.xlabel(variable)
    plt.ylabel('Frecuencia')
    plt.show()

Ahora, para obtener más información, podemos crear un diagrama de pares:

In [None]:
# Create a representation of relation between variables
sns.pairplot(df_main_variables[main_variables])
plt.show()

Se pueden realizar apreciaciones importantes, cómo el hecho de que entre más escolaridad (`escolari`), menos sobre población por habitación (`overcrowding`). 

### **2.4 Calidad de los Datos**

Por último es importante revisar la calidad de los datos. Lo primero que haremos, es verificar cuántos valores nulos existen, para esto, vamos a contar cuántos valores nulos existen por columna, para seguidamente mostrar todas las columnas que tienen valores nulos. Hay que tener en cuenta que la función `isnull()` únicamente cuenta los valores que son nulos indicados explicitamente o vacíos. Es decir, si se utiliza un código cómo por ejemplo `-1` para indicar que no se cuenta con el dato, entonces no nos dariamos cuenta. 

In [None]:
# Count all null values for colums and show the colums with null values
missing_values = df_train.isnull().sum()
print(missing_values[missing_values != 0])

Se puede observar que de las 143 columnas del set de datos de entrenamiento únicamente 5 son afectadas por datos nulos o vacíos. Sin embargo, en las primeras tres filas la cantidad de datos faltantes o nulos es mayor al 60% de las 9557 columnas del set de datos, lo cuál puede afectar significativamente el modelo al tomar en cuenta estas variables para realizar la clasificación. Se deben tomar desiciones respecto a estas variables en la sección 3. 

También, sería importante observar las variables que pandas identificó cómo tipo objeto y observar si tienen valores únicos o existe un desorden en los valores que no coincide con la definción de las variables y que puede afectar el entrenamiento del modelo. 

In [None]:
# Select all columns with 'object' type
columnas_object = df_train.select_dtypes(include=['object']).columns
print(columnas_object)

Como se puede apreciar, observar los valores únicos no es necesario para las variables `Id` y `idhogar`, ya que van a tener valores variados.  Sin embargo, para las otras tres variables, que a continuación se anota su definición:

`dependency`: Tasa de dependencia, calculada = (número de miembros del hogar menores de 19 años o mayores de 64)/(número de miembros del hogar entre 19 y 64 años)

`edjefe`: años de educación del varón cabeza de familia, basado en la interacción de escolari (años de educación), cabeza de familia y sexo, sí=1 y no=0

`edjefa`: años de educación del cabeza de familia femenino, basado en la interacción de escolari (años de educación), cabeza de familia y sexo, sí=1 y no=0

Sería importante analizar que valores tienen para ver con que se va a entrenar el modelo. 

In [None]:
# Verify unique values for object variabes
print(df_train['dependency'].unique())
print(df_train['edjefe'].unique())
print(df_train['edjefa'].unique())

Las variables tienen datos que no coinciden con la definición y van a ensuciar el modelo, también se debe sulocionar este problema en la sección 3. 

## **3. Preparación de los Datos**

En esta sección se presenta cómo se seleccionan, limpian, construyen y transforman los datos con el objetivo de obtener un set de datos de una mejor calidad y evitar que entre "basura" en el modelo. 

### **3.1 Selección de los Datos**

Lo primero es seleccionar los datos. Existen columnas que pueden ser eliminadas porqué realmente no aportan un valor al modelo para clasificar el nivel de pobreza. Otras pueden ser eliminadas porqué tienen un valor redundante (otra variable refleja casi lo mismo). Las primeras variables eliminadas serán:

`r4h1`: Males younger than 12 years of age

`r4h2`: Males 12 years of age and older

`r4h3`: Total males in the household

`r4m1`: Females younger than 12 years of age

`r4m2`: Females 12 years of age and older

`r4m3`: Total females in the household

Esto porqué no nos aporta nada clasificar esto por género y ya contamos con las siguientes variables:

`r4t1`: persons younger than 12 years of age

`r4t2`: persons 12 years of age and older

`r4t3`: Total persons in the household

Otras variables que se pueden eliminar, son las que su valor es únicamente un cálculo al cuadrado, ya que no nos aporta nada más que obtener el valor de otra variable elevado al cuadrado. Estas son:

`SQBescolari`: escolari squared

`SQBage`: age squared

`SQBhogar_total`: hogar_total squared

`SQBedjefe`: edjefe squared

`SQBhogar_nin`: hogar_nin squared

`SQBovercrowding`: overcrowding squared

`SQBdependency`: dependency squared

`SQBmeaned`: square of the mean years of education of adults (>=18) in the household

`agesq`: Age squared

Esta son las variables que se consideran innecesarias y que no aportan al entrenamiento del modelo. Por lo tanto, se seleccionan todas las variables a exepción de las mencionadas en esta sección, que serán eliminadas en la siguiente sección dónde se limpian los datos. 

### **3.2 Limpieza de los Datos**



## **4. Modelado**

## **5. Criterios de Selección**

## **6. Conclusiones**