# Módulo 1: Introducción al Análisis Exploratorio

<a href="https://github.com/saturdays-ai-santiago/Saturdays-AI-Santiago/blob/master/Sesi%C3%B3n%201/Modulo1_%20Introduccion_a_Machine_Learning.pdf" target="_blank">
     <img src="http://www.deltanalytics.org/uploads/2/6/1/4/26140521/screen-shot-2019-01-05-at-4-48-15-pm_orig.png" width="500" height="400">
</a>




Lo que haremos en este notebook:
-----

1. Comprobación del tipo de variable
2. Comprobación de variables faltantes
3. Número de observaciones en el conjunto de datos.
4. Estadística descriptiva.

### Import packages

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime
import dateutil.parser

# El siguiente comando significa que la salida de varios comandos en una celda se emitirá de una vez
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# El siguiente comando le dice a jupyter que muestre hasta 80 columnas, esto mantiene todo visible
pd.set_option('display.max_columns', 80)
pd.set_option('expand_frame_repr', True)

# Muestra las figuras en el notebook
%matplotlib inline

### Import dataset

Leemos el conjunto de datos

In [0]:
path = '../data/'
filename = 'loans.csv'

try:
    df = pd.read_csv(path+filename)
except FileNotFoundError:
    # Si no se encuentran los datos, bajarlos de GitHub
    import os
    os.system(f'git clone --single-branch --depth=1 https://github.com/DeltaAnalytics/machine_learning_for_good_data {path}')
    df = pd.read_csv(path+filename)

En la celda de abajo, tomamos una muestra aleatoria de 2 filas para tener una idea de los datos.

In [0]:
df.sample(n=2)

### 1) Comprobación del tipo de dato
<a id='type_check'></a>

El tipo de dato (Type) es muy importante en la programación de Python, ya que afecta a los tipos de funciones que se pueden utilizar. Hay algunos tipos diferentes de datos que verás regularmente(ver [este](https://en.wikibooks.org/wiki/Python_Programming/Data_Types) link para más detalle):
* **int** - Un número sin decimales. Ejemplo: campo de importe del préstamo
* **float** - un número con decimales. 
* **str** - str es la abreviación de string. Este tipo se define formalmente como una secuencia de caracteres Unicode. Más simplemente, string significa que los datos se tratan como una palabra, no como un número. ejemplo: sector
* **boolean** - Solo puede ser verdadero o falso. Actualmente no hay un ejemplo en los datos, pero pronto crearemos un campo de género.
* **datetime** - Valores destinados a contener datos de tiempo. Ejemplo: posted_date

Revisemos el tipo de nuestras variables usando los ejemplos que vimos en la celda de arriba.

In [0]:
# Aquí están todas las columnas.
df.columns.tolist()

In [0]:
# Encuentra el dtype, también conocido como tipo de datos, para una columna
df['id_number'].dtype

In [0]:
# Prueba esto: elige un par de columnas y comprueba su tipo por tu cuenta
df['status'].dtype

### 2) ¿Me faltan valores?

<a id='missing_check'></a>

Si nos faltan datos, ¿los datos faltantes son aleatorios o no? Si faltan datos al azar, la distribución de los datos sigue siendo representativa de la población. Probablemente puedes ignorar los valores faltantes. Sin embargo, si los datos faltan sistemáticamente, el análisis que realices puede estar sesgado. Debes considerar cuidadosamente la mejor manera de limpiar los datos, ya que puede implicar la eliminación de algunos de ellos.

Queremos ver cuántos valores faltan en ciertas columnas de variables. Una forma de hacer esto es contar el número de observaciones nulas.

Para esto, escribimos una función corta para aplicar al dataframe.

Imprimimos las primeras observaciones, pero se puede eliminar .head () para imprimir todas las columnas.

In [0]:
#Crea una nueva función:
def num_missing(x):
    return sum(x.isnull())

#Aplicándola por columna:
print("Valores faltantes por columna:")
## Comprueba cuántos faltan por columna y luego verifica cuáles tienen los valores faltantes
print(df.apply(num_missing, axis=0).where(lambda x : x != 0).dropna().head(20)) 
#axis=0 Define que la función se aplica en cada columna.

In [0]:
df.isnull().sum()

### 3) Chequeos de Sanidad de los datos
<a id='obs_check'></a>

**¿El conjunto de datos coincide con lo que esperaba encontrar?**
- Es el rango de valores lo que se esperaba. Por ejemplo, todas las cantidades de préstamo están por encima de 0.
- ¿Tienes el número de filas que esperarías?
- ¿Están los datos para el intervalo de fechas esperada?. Por ejemplo, ¿hay un año extraño en los datos como 1880?
- ¿Hay peaks inesperados cuando graficas los datos a lo largo del tiempo?


En el siguiente comando, averiguamos el número de préstamos y el número de columnas mediante la función shape. También puedes usar len (df.index) para encontrar el número de filas.

In [0]:
print(f'Hay {df.shape[0]} observaciones y {df.shape[1]} características')

Recuerda, cada fila es una observación y cada columna es una característica potencial.

Recuerda que necesitamos grandes cantidades de datos para el aprendizaje automático (machine learning).

### 4) Estadística descriptiva del conjunto de datos

<a id='desc_stats'></a>

El comando "describe" a continuación proporciona estadísticas de resumen clave para cada columna numérica.

In [0]:
df.describe()

Para obtener las mismas estadísticas de resumen para las columnas categóricas (string) necesitamos hacer un poco de trabajo de datos. La primera línea de código filtra para todas las columnas que son de tipo de dato "object". Como sabemos de antes, esto significa que se consideran una cadena. La última fila de código proporciona estadísticas de resumen para estos campos de caracteres.

In [0]:
categorical = df.dtypes[df.dtypes == "object"].index
df[categorical].describe()

En la tabla anterior, hay 4 campos realmente útiles:

1) **count** - número total de campos rellenados (no vacíos).

2) **unique** - nos dice en cuántas formas "únicas" se rellena este campo. Por ejemplo, 4 en description.languages nos dice que hay 4 idiomas diferentes para descripciones.

3) **top** - nos dice cual es el dato más popular. Por ejemplo, la principal actividad en este conjunto de datos es Food, que nos dice que la mayoría de los préstamos se encuentran en Food.

4) **freq** - tells us how frequent the most popular category is in our dataset. For example, del sector Food, que es el más popular, hay 1738 solicitudes.

Lo que sigue
-----

En la siguiente sección, pasamos al análisis de datos exploratorios (EDA por sus siglas en inglés).

<br>
<br> 
<br>

----