<img src = "https://drive.google.com/uc?export=view&id=1WaM3ez8iLaUk3VyWNYZQuifnvbEX4vbK" alt = "Encabezado MLDS" width = "100%">  </img>


#**Quiz 4 - Preparación de los datos con *Pandas***
---

Este es un quiz para practicar las habilidades adquiridas usando *pandas* en el proceso de manipulación, limpieza y preprocesamiento de conjuntos de datos. Nuevamente utilizaremos el [dataset Titanic](https://www.kaggle.com/c/titanic) disponible en *Kaggle*.

El conjunto de datos del Titanic cuenta con múltiples variables de la tragedia:

| Variable | Definición	| Valores |
| --- | --- | --- |
| survival | 	Supervivencia  | 	0 = No, 1 = Sí |
| pclass 	| Clase del tiquete | 	1 = 1ra, 2 = 2da, 3 = 3ra
| sex 	| Sexo 	| |
| Age |	Edad en años 	| |
| sibsp |	# de hermanos / cónyuge abordo del Titanic 	| |
| parch |	# de padres / hijos abordo del Titanic 	| |
| ticket |	Número del ticket | |
| fare 	| Costo del ticket | |
| cabin |	Número de la cabina 	| |
| embarked |	Puerto de embarque |	C = Cherbourg, Q = Queenstown, S = Southampton |

En este quiz usted debe realizar un proceso de limpieza y pre-procesamiento de los datos usando *Pandas* con el objetivo de practicar los conceptos y sus habilidades en la preparación los datos.

> **Nota:** Esta tarea va a ser calificada en la plataforma **[UNCode](https://juezun.github.io/)**. Para esto, en cada ejercicio se indicará si es calificable o no, también los lugares donde debe escribir su código sin modificar lo demás con un aproximado de cantidad de líneas a escribir. No se preocupe si su código toma más líneas, esto es simplemente un aproximado destinado a que pueda replantear su estrategia si el código está tomando más de las esperadas. No es un requisito estricto y soluciones más largas también son válidas. Al finalizar, para realizar el envío (*submission*), descargue el notebook como un archivo **`.ipynb`** y haga su entrega a través de la plataforma de aprendizaje.

Ejecute la siguiente celda para importar *pandas*.

In [None]:
# Importar pandas
import pandas as pd
import numpy as np

In [None]:
#TEST_CELL
!python --version
print('Pandas', pd.__version__)

Python 3.10.12
Pandas 1.5.3


Este material fue realizado con las siguientes versiones:

- Python 3.10.6
- pandas 1.5.3

## **0.  Leer el archivo de datos**
---
> **IMPORTANTE:**

  1. Por favor descargue el archivo con el conjunto de datos desde el siguiente enlace: **[titanic.csv](https://raw.githubusercontent.com/JuezUN/datasets/master/titanic.csv)**.
  
  2. En el enlace, haga clic secundario y seleccione la opción **"Guardar como..."**.

  3. Cargue este archivo en su sistema de archivos de **Google Colaboratory**. Para hacer esto:
    
    * Haga clic donde aparece el icono del directorio en la parte izquierda de la ventana en *Google Colaboratory* (resaltado en azul en la siguiente imagen con el número 1).
    * Después, haga clic en el icono **"Subir"** (resaltado en azul en la siguiente imagen con el número 2).
    * Seleccione el archivo **`titanic.csv`** que previamente descargó y haga clic en **"Aceptar"**.

  <img src = "https://drive.google.com/uc?export=view&id=13W59jfdOpAn_DYIjpXt4WPBZiU7BlRGY" alt = "Sistema archivos colab" width = "70%">  </img>

4. Ejecute la siguiente celda para cargar el conjunto de datos dentro del DataFrame de *pandas* llamado **`full_df`**:

In [None]:
### EJECUTAR ESTA CELDA SIN MODIFICARLA. SI FALLA, DEBE SEGUIR EL PROCEDIMIENTO DESCRITO ANTES.
full_df = pd.read_csv('titanic.csv')

No se preocupe por el archivo del dataset en ***UNCode***, el ambiente de calificación ya cuenta con este archivo para calificar sus ejercicios.

## **1.  Eliminación de registros con valores faltantes**
---

El conjunto de datos *Titanic* cuenta con varias filas y columnas con valores faltantes. Una alternativa para limpiar el *dataset* es eliminar los registros (filas) que tengan al menos una variable faltante o eliminar las variables (columnas) que tengan al menos un valor faltante.  

Utilizando *pandas*:
1. Guarde en el *DataFrame* **`non_null_rows_df`** el conjunto de datos luego de ser eliminadas las filas con valores faltantes.
2. Almacene en el *DataFrame* **`non_null_cols_df`** el conjunto de datos luego de ser eliminadas las columnas con valores faltantes.
  
**IMPORTANTE**: Tenga cuidado de no sobreescribir ni modificar el *Dataframe* original **`full_df`**. En caso que por error lo modifique, deberá cargarlo nuevamente.


<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* *Pandas* tiene varias funciones para tratar con valores faltantes como **`fillna`**, **`dropna`**, **`isna`** y **`notna`**, que permiten realizar distintas tareas con este tipo de valores.
* En *pandas*, al igual que en *NumPy*, es posible usar en varias funciones el argumento **`axis`**. Es muy útil cuando se quiere distinguir entre filas y columnas para realizar una operación determinada. Verifique que la dimensión en la que realiza la operación sea la correcta.


### **1.1.  Eliminación de filas con valores faltantes**


In [None]:
# VARIABLE CALIFICADA non_null_rows_df

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
non_null_rows_df = pd.DataFrame(full_df.dropna()) # Reemplace el DataFrame vacío por la respuesta correcta.
### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
non_null_rows_df.count()

PassengerId    183
Survived       183
Pclass         183
Name           183
Sex            183
Age            183
SibSp          183
Parch          183
Ticket         183
Fare           183
Cabin          183
Embarked       183
dtype: int64

**Salida esperada:**

```python
PassengerId    183
Survived       183
Pclass         183
Name           183
Sex            183
Age            183
SibSp          183
Parch          183
Ticket         183
Fare           183
Cabin          183
Embarked       183
dtype: int64
```

### **1.2.  Eliminación de columnas con valores faltantes**


In [None]:
# VARIABLE CALIFICADA non_null_cols_df

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
non_null_cols_df = pd.DataFrame(full_df.dropna(axis=1)) # Reemplace el DataFrame vacío por la respuesta correcta.
### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
non_null_cols_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
SibSp          891
Parch          891
Ticket         891
Fare           891
dtype: int64

**Salida esperada:**

```python
PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
SibSp          891
Parch          891
Ticket         891
Fare           891
dtype: int64
```

## **2. Capacidad de almacenamiento**
---


Dada la dimensión del *dataset* original de $891$ filas y $12$ columnas, éste tenía una capacidad original para almacenar $10692$ datos (aunque algunos fueran vacíos). Realizar la eliminación de variables o registros debido a un formato erróneo o información faltante es un compromiso entre cantidad y calidad en el conjunto de datos.

¿Cuántos valores o celdas tienen los nuevos conjuntos de datos creados con la eliminación de datos faltantes?

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Los objetos *DataFrame* de *Pandas* poseen propiedades que nos revelan características interesantes. Muchas veces es necesario utilizar estas propiedades. Algunas de ellas son: **`index`**, **`dtypes`**, **`ndim`**, **`size`**, **`shape`**, entre otras.


### **2.1.  ¿Cuál es la capacidad del DataFrame `non_null_rows_df`?**

In [None]:
# VARIABLE CALIFICADA full_rows

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
full_rows = non_null_rows_df.size
### FIN DEL CÓDIGO ###

full_rows

2196

### **2.2.  ¿Cuál es la capacidad del DataFrame `non_null_cols_df`?**

In [None]:
# VARIABLE CALIFICADA full_cols

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
full_cols = non_null_cols_df.size
### FIN DEL CÓDIGO ###

full_cols

8019

Teniendo en cuenta el número resultante de registros con cada opción, ya sea eliminar columnas o eliminar filas: ¿qué funcionaría mejor para una tarea de análisis de datos? ¿por qué?

**Escriba aquí sus respuestas con sus propias palabras (no calificable):** ...
Eliminar las filas implica tener 4 veces menos datos que con las columnas. Por lo cual para realizar análisis basandose en una mayor muestra, es menester eliminar las columnas.

## **3.  Imputación de edades**
---
Muchas veces no es deseable eliminar columnas enteras, aunque contengan algunos pocos registros con valores faltantes, pues puede implicar perder muchos otros datos valiosos.

En algunos casos, al realizar la limpieza de datos, se puede optar por llevar a cabo un procedimiento de [**imputación de datos**](https://es.wikipedia.org/wiki/Imputaci%C3%B3n_(estad%C3%ADstica)). Esto consiste en reemplazar los valores faltantes por otros valores específicos. Por ejemplo, la media para variables numéricas, o el valor más frecuente en caso de variables categóricas.

> **IMPORTANTE: Este tipo de procedimientos debe ser validado con los expertos del negocio o dominio para no sesgar los datos de alguna manera, pues implica la creación de datos artificiales que pueden no corresponder con la realidad.**


En la siguiente celda podrá crear una copia del *DataFrame* original. Esta copia se modificará para tener la respuesta completa en los siguientes puntos.

In [None]:
### NO MODIFICAR ESTA CELDA
# Crear copia de full_df
imputed_cols_df = full_df.copy()
imputed_cols_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* *Pandas* tiene varias funciones para tratar con valores faltantes como **`fillna`**, **`dropna`**, **`isna`** y **`notna`**, que permiten realizar distintas tareas con este tipo de valores.
* Verifique en sus notas o en los recursos previos las funciones necesarias para hacer operaciones como la sumatoria, el promedio o hallar el máximo de un objeto en *pandas*, y aplique las que sean necesarias para este ejercicio.


Utilizando *pandas* guarde en **`imputed_cols_df`** el *DataFrame* que resulte luego de reemplazar los valores faltantes en la columna **`Age`** con el valor medio de esa variable. Tenga cuidado de no sobreescribir el *DataFrame* original **`full_df`**.

Aunque podríamos realizar este procedimiento en una sola línea de código, lo haremos en $2$ partes:

### **3.1. Encuentre la media de la variable `Age`**

In [None]:
# VARIABLE CALIFICADA: age_mean

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
age_mean = imputed_cols_df['Age'].mean(numeric_only=True)
### FIN DEL CÓDIGO ###


### **3.2. Asigne a los valores faltantes de la columna `Age` el valor medio**

Asigne a los valores faltantes de la columna **`Age`** el valor medio de esa variable en el dataframe **`imputed_cols_df`**:

In [None]:
# VARIABLE CALIFICADA: imputed_cols_df['Age']

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
imputed_cols_df['Age'] = imputed_cols_df['Age'].replace(np.nan,age_mean) # Modifique esta línea
### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
# Verificamos que no queden valores faltantes:
imputed_cols_df['Age'].isna().sum()

0

La salida de la celda anterior debería ser:
```python
0
```

## **4.  Creación de la característica `Family`**
---
El conjunto de datos cuenta con las variables **`SibSp`** y **`Parch`** para el registro de familiares a bordo del navío. **`SibSp`** corresponde al número de tripulantes que son hermanos o cónyuge del pasajero. Por su parte, **`Parch`** representa el número de padres (o abuelos) e hijos (o nietos).

Para condensar esta información en una única variable se pueden sumar para obtener el tamaño de la familia de cada tripulante.

Cree una nueva columna llamada **`Family`** que almacene la suma de las columnas **`SibSp`** y **`Parch`**. Use y modifique el *DataFrame* **`imputed_cols_df`**.


<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* *Pandas* permite utilizar operadores como la suma y multiplicación entre sus objetos, respetando las reglas de *NumPy*.
* Asegúrese de usar el nombre correcto de la nueva columna y las columnas originales, y de no modificar el *dataset* original para prevenir errores en la calificación.


In [None]:
# VARIABLE CALIFICADA: imputed_cols_df['Family']

### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
imputed_cols_df['Family'] = imputed_cols_df['SibSp']+imputed_cols_df['Parch']
### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
imputed_cols_df['Family'].head(10)

0    1
1    1
2    0
3    1
4    0
5    0
6    0
7    4
8    2
9    1
Name: Family, dtype: int64

La salida de la celda anterior debería ser:
```python
0    1
1    1
2    0
3    1
4    0
5    0
6    0
7    4
8    2
9    1
Name: Family, dtype: int64
```

**¡Muy buen trabajo!** Ha terminado el quiz. ¡Felicidades!

## **Entrega**

Para entregar el notebook por favor haga lo siguiente:
1. Descargue el notebook (`Archivo` -> `Descargar .ipynb`).
2. Ingrese a la plataforma de aprendizaje.
3. Realice el envío del *notebook* que descargó en la tarea (o quiz) correspondiente.
4. Recuerde que si tiene algún error, puede hacer múltiples intentos.

## **Créditos**
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
  - Alberto Nicolai Romero Martínez
  - Miguel Angel Ortiz Marín

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*
