<p>
<font size='5' face='Georgia, Arial'>IIC2115 - Programación como herramienta para la ingeniería</font><br>
</p>

# Análisis exploratorio de datos

El análisis exploratorio de datos es una herramienta sumamente útil a la hora de resolver problemas. Es una combinación multidisciplinaria de inferencia de datos, desarrollo de algoritmos y tecnología para resolver problemas analíticamente complejos.

A diferencia de otros tópicos, en el centro de este están los datos, por lo general grandes volúmenes de información sin procesar, transmitida y almacenada en bases de datos de distintos tipos. El objetivo principal se centra en extraer información valiosa de los datos, _buceando_ a un nivel granular para extraer y comprender comportamientos complejos, tendencias e inferencias. Esencialmente, se trata de revelar información oculta que pueda ayudar a tomar decisiones y acciones inteligentes, como las siguientes:

* Netflix analiza en sus datos los patrones de visualización de películas para comprender qué impulsa el interés del usuario y lo usa para tomar decisiones sobre qué serie original producir.
* Target (cadena de retail estadounidense) identifica cuáles son los principales segmentos de clientes dentro de su base de datos y los comportamientos únicos de compra dentro de esos segmentos, lo que ayuda a orientar la mensajería a diferentes tipos de público.
* Procter & Gamble utiliza modelos de series de tiempo para comprender más claramente la demanda futura, lo que ayuda a planificar los niveles de producción de mejor manera.

¿Cómo analizan los expertos los datos para extraer información? Todo comienza con la exploración de datos. Cuando se les presenta una pregunta desafiante, los analistas se convierten en algo similar a un detective, investigando pistas y tratando de comprender el patrón o las características dentro de los datos. Esto requiere una gran dosis de creatividad analítica.

Luego, según sea necesario, los analistas de datos pueden aplicar una técnica cuantitativa para profundizar aún más en la información: modelos predictivos y generativos, segmentación, predicción de series de tiempo, etc. El objetivo es generar científicamente una visión general de lo que realmente dicen los datos.

Esta información basada en datos es fundamental para proporcionar orientación estratégica. En este sentido, los analistas de datos actúan como consultores, guiando a las partes interesadas sobre cómo actuar ante los hallazgos.

## Herramientas básicas en Python

A continuación se muestra una lista de bibliotecas que se utilizan regularmente para realizar cálculo científico, y análisis y visualización de datos en Python.

* NumPy: es una biblioteca de cálculo científico. Contiene, entre otras cosas, funciones básicas de álgebra lineal, y capacidades avanzadas de generación de números aleatorios. Su característica más poderosa es el arreglo n-dimensional.
* SciPy: basado en NumPy. Es una de las bibliotecas más útiles para una gran variedad de tópicos en ingeniería y ciencia. Implementa elementos como la transformada discreta de Fourier, álgebra lineal, optimización y matrices dispersas (sparse).
* Matplotlib: se utiliza para generar una gran variedad de gráficos, desde histogramas hasta mapas de calor.
* Seaborn: muy similar a Matplotlib pero con algunas diferencias en los tipos de gráficos que se pueden generar.
* Pandas: permite realizar operaciones sobre datos estructurados. Se usa ampliamente para la manipulación y preparación de datos. Pandas se agregó recientemente a Python y ha sido fundamental para impulsar el uso de este en la comunidad de ciencia de datos.
* Scikit Learn: basado en NumPy, SciPy y matplotlib, esta biblioteca contiene una gran cantidad de herramientas  para el aprendizaje de máquina y el modelamiento estadístico, que incluyen clasificación, regresión, clustering y reducción de dimensionalidad.

Es recomendable buscar estas librerías en la red, entender un poco mejor su funcionamiento y cómo instalarlas en nuestro entorno. Muchas ya se encuentran instaladas y vienen por defecto en Python o Anaconda, pero otras hay que instalarlas manualmente para que funcionen.

## El proceso de análisis de datos

Ahora que estamos familiarizados con los nombres y objetivos de las bibliotecas adicionales, realizaremos una revisión de la resolución de problemas de datos a través de Python. En particular, el objetivo de esta sección es construir un modelo predictivo eficaz, lo que nos llevará por los siguientes 3 etapas claves:

* Análisis exploratorio
* Limpieza y depuración
* Construcción de modelos predictivos

### Análisis exploratorio

Para esta etapa del proceso, utiliaremos la librería Pandas. En particular, la utilizaremos para leer un conjunto de datos y realizar un análisis exploratorio. 

Primero vamos a corroborar que Pandas se encuentre instalado en nuestro equipo, para ello ejecutamos la siguiente línea. 

In [None]:
import pandas as pd

Si nos entrega un error "ModuleNotFoundError" significa que no contamos con la librería, por lo que es necesario instalarla, ejecutando `pip`, que nos permite instalar librerías en Python. El formato de la sentencia es `pip install NOMBRE_LIBRERIA`. En este caso es `pip install pandas`. Este tipo de comandos no se ejecutan en Python, sino que en la consola/terminal de nuestro entorno. En el caso de Jupyter o Colab se utiliza el carácter exclamación "!" para introducir una secuencia de consola.

In [None]:
!pip install pandas

Al ejecutar el comando `pip install` verás como se cargan las librerías necesarias o te informará que todo está en orden si es que ya cuentas con Pandas. Cabe destacar que no todas las librerías cuentan con la facilidad de ser instaladas mediante `pip install`. Además, algunas librerías que veremos más adelante, dependen de otras librerías, las que deben estar instaladas antes de instalar nuestra librería objetivo. Por eso, es muy importante informarse sobre este proceso.

Continuando con el análisis exploratorio, antes de cargar los datos, vamos a describir las 2 estructuras de datos clave en Pandas: Series y DataFrames

**Series** se puede entender como un arreglo unidimensional etiquetado/indexado. Se puede acceder a elementos individuales de esta Serie a través de estas etiquetas.

**DataFrame** es similar a un libro de Excel, tiene nombres de columnas que hacen referencia a ellas y tiene filas, a las que se puede acceder mediante el uso de números de estas. La diferencia esencial es que acá, los nombres de columna y los números de fila se conocen como índice de columna y fila.

Series y DataFrames forman el modelo de datos básicos para Pandas en Python. Los conjuntos de datos se leen primero en DataFrames y luego se pueden aplicar fácilmente varias operaciones (por ejemplo, agrupar por, agregación, etc.) a sus columnas.

Utilizaremos para el ejemplo un set de datos de información de créditos bancarios que se encuentra en el archivo `train.csv`. Para importarlo, basta con utilizar la función *read_csv()*:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
from IPython.display import display #para mostrar más de un elemento por celda de Jupyter

df = pd.read_csv("train.csv")
display(df.head(10))

Si te ha salido otro error "ModuleNotFoundError" ya sabes que hacer!

La función `describe()` proporciona el conteo, media, desviación, mínimo, cuartiles y máximo de los datos.

In [None]:
df.describe()

A continuación algunas aspectos que pueden deducirse de esta información:

* LoanAmount tiene (614-592) 22 valores perdidos.
* Loan_Amount_Term tiene (614-600) 14 valores faltantes.
* Credit_History tiene (614-564) 50 valores perdidos.
* También podemos observar que alrededor del 84% de los solicitantes tienen un historial crediticio (la media del campo Credit_History es 0.84).

Para los valores no numéricos (por ejemplo, Property_Area, Credit_History, etc.), podemos ver la distribución de frecuencias para comprender si tienen sentido o no. La tabla de frecuencias se puede imprimir con el siguiente comando:

In [None]:
property_area = df['Property_Area']
display(property_area)

In [None]:
property_area.value_counts()

Del mismo modo, podemos mirar los valores únicos del historial de crédito. Es importante tener en cuenta que `df['columna']` es una técnica de indexación básica para acceder a una columna particular del DataFrame. Puede ser una lista de columnas también.

#### Análisis distribucional

Ahora que estamos familiarizados con las características básicas de los datos, estudiemos la distribución de algunas de sus variables. Comencemos con las variables numéricas `ApplicantIncome` y `LoanAmount`, en particular, con el histograma de `ApplicantIncome` usando los siguientes comandos:

In [None]:
df['ApplicantIncome'].hist(bins=50)
plt.show()

Aquí observamos que hay algunos valores extremos. Esta es también la razón por la cual se requieren 50 _bins_ para representar claramente la distribución.

A continuación, revisaremos Box Plots para comprender las distribuciones:

In [None]:
df.boxplot(column = 'ApplicantIncome')
plt.show()

Esto gráfico indica la presencia de valores extremos más claramente que el histograma. Esto se puede atribuir a la disparidad de ingresos en la sociedad. Parte de esto puede ser impulsado por el hecho de que estamos viendo personas con diferentes niveles de educación:

In [None]:
df.boxplot(column='ApplicantIncome', by = 'Education')
plt.show()

Podemos ver que no hay diferencias sustanciales entre los ingresos medios de los graduados y los no graduados. Pero hay un mayor número de graduados con ingresos muy altos, que parecen ser los valores atípicos.

Ahora, veamos el histograma y el Box Plot de `LoanAmount`:

In [None]:
df['LoanAmount'].hist(bins=50)
plt.show()
df.boxplot(column='LoanAmount')
plt.show()

Nuevamente hay valores extremos. Con el fin de facilitar el posterior modelamiento predictivo, tanto `ApplicantIncome` como `LoanAmount` requieren una cierta cantidad de depuración de datos (los valores extremos son difíciles de predecir). `LoanAmount` tiene además valores incompletos y también extremos, mientras que `ApplicantIncome` tiene algunos valores extremos, que exigen una comprensión más profunda. Continuaremos con el análisis de estas variables más adelante. A continuación revisaremos el análisis de variables categóricas. Pero antes...

#### Interludio: funciones lambda
Las funciones `lambda` son una forma alternativa de definir funciones en Python. Veamos un ejemplo.

In [None]:
sumar_uno = lambda x: x+1

#es (casi) equivalente a

def sumar_uno(x):
    return x+1

In [None]:
#para que el gráfico se genere dentro del notebook y no en una ventana aparte
%matplotlib inline 

import numpy as np
from matplotlib import pyplot as plt

gauss = lambda x, mu, sigma: (1./(np.sqrt(2*np.pi)*sigma)) * np.exp(-0.5*((x - mu)/sigma)**2)

mu = 0.
sigma = 0.2
x = np.linspace(-2,2,300)
plt.plot(x, gauss(x, mu, sigma), '-r')
plt.show()

Además de lo anterior, las funciones `lambda` pueden ser definidas de forma anónima; es decir, funciones que no tienen nombre. Estas funciones pueden ser vistas como _fugaces_ y son utilizadas únicamente donde fueron creadas. Esta anonimidad se combina bien con las funciones que veremos a continuación: `map`, `filter`, `reduce`.

#### `map`

La función `map` aplica, en esencia, una misma función a todos los elementos de un objeto iterable (lista, diccionario, set, etc.). Recibe como parámetros una función y al menos un objeto iterable. Retorna un generador que resulta de aplicar la función sobre el iterable. `map(f, iterable)` es equivalente a `(f(x) for x in iterable)`

La cantidad de iterables entregada a `map` debe corresponder con la cantidad de parámetros que recible la función `f`.

In [None]:
pow2 = lambda x : x**2
t = np.linspace(-1.,1., 100)#crea un arreglo numpy de 100 elementos, partiendo desde -1 y llegando a 1
plt.plot(t, list(map(pow2, t)), '-b')
plt.show()

Map puede ser aplicado también en más de una lista:

In [None]:
a = [1, 2, 3, 4]
b = [17, 12, 11, 10]
c = [-1, -4, 5, 9]

c1 = list(map(lambda x, y: x + y, a, b))

c2 = list(map(lambda x, y, z: x + y + z, a, b, c))

c3 = list(map(lambda x, y, z: 2.5*x + 2*y - z, a, b, c))

print(c1)
print(c2)
print(c3)

#### `filter`   

`filter(f, secuencia)` retorna el resultado de aplicar la función `f` a `secuencia`, dejando fuera los datos en que el resultado de aplicar `f` al elemento fue `False`. La función `f` **debe** retornar un valor de tipo booleano.

In [None]:
def fibonacci(n):
    a,b = 0,1
    values = []
    for i in range(1,n):
        values.append(b)
        a, b = b, a + b
    return values
        
fib = fibonacci(11)
impares = list(filter(lambda x: x % 2 != 0, fib))
print(impares)

pares = list(filter(lambda x: x % 2 == 0, fib))
print(pares)

#### `reduce`

`reduce(f, [s1,s2,s3,...,sn])` retorna lo que resulta de aplicar la función `f` a la secuencia `[s1, s2, s3, ..., sn]` de la siguiente forma: `f(f(f(f(s1,s2),s3),s4),s5),...`  ![](figs/reduce.png)

In [None]:
from functools import reduce
reduce(lambda x, y: x+y, range(1,10))

#### Análisis de variables categóricas

Ahora que conocemos las distribuciones para `ApplicantIncome` y `LoanIncome`, analicemos las variables categóricas en más detalle. Utilizaremos tablas dinámicas tipo Excel y tabulación cruzada. Es importante notar que aquí el estado del préstamo ha sido codificado como 1 para sí y 0 para no. Por lo tanto, la media representa la probabilidad de obtener un préstamo.

In [None]:
temp1 = df['Credit_History'].value_counts(ascending=True)
print('Tabla de frecuencia para el historial de crédito:')
print(temp1)

In [None]:
#la función map que aparece a continuación no es la que vimos anteriormente. esta es de pandas y no funciona igual.
temp2 = df.pivot_table(values='Loan_Status',index=['Credit_History'],aggfunc = lambda x: x.map({'Y':1,'N':0}).mean())
print('\nProbabilidad de obtener un crédito, en base a la existencia de historial crediticio:')
print(temp2)

Estas mismas tablas se pueden mostrar como un gráfico de barras usando la biblioteca *matplotlib* con el siguiente código:

In [None]:
ax1 = temp1.plot(kind='bar')
ax1.set_xlabel('Credit_History')
ax1.set_ylabel('Count of Applicants')
ax1.set_title("Applicants by Credit_History")


ax2 = temp2.plot(kind = 'bar')
ax2.set_xlabel('Credit_History')
ax2.set_ylabel('Probability of getting loan')
ax2.set_title("Probability of getting loan by credit history")

plt.show()

Esto muestra que las posibilidades de obtener un préstamo son ocho veces mayores si el solicitante tiene un historial crediticio válido.

Alternativamente, estos dos gráficos también se pueden visualizar combinándolos en un gráfico apilado:

In [None]:
temp3 = pd.crosstab(df['Credit_History'], df['Loan_Status'])
temp3.plot(kind='bar', stacked=True, color=['red','blue'], grid=False)
plt.show()

También es posible agregar la información de género:

In [None]:
temp4 = pd.crosstab([df['Credit_History'],df['Gender']], df['Loan_Status'])
temp4.plot(kind='bar', stacked=True, color=['red','blue'], grid=False)
plt.show()

Acabamos de ver cómo podemos hacer un análisis exploratorio en Python usando Pandas, lo que nos entregó información relevante que será utilizada en la siguiente etapa.

### Limpieza y depuración de los datos

Mientras exploramos los datos, encontramos algunos problemas en estos, que deben resolverse antes de que estén listos para construir un modelo predictivo. Aquí algunos de los problemas de los que ya somos conscientes:

* Faltan valores en algunas variables.
* Al observar las distribuciones, vimos que ApplicantIncome y LoanAmount parecían contener valores extremos.

Además de estos problemas con los campos numéricos, también debemos ver los campos no numéricos, es decir, Género, Área de la propiedad, Casado, Educación y Dependientes para ver, si contienen información útil o incompleta.

#### Verificación de los valores faltantes

Echemos un vistazo a los valores faltantes en todas las variables:

In [None]:
df.apply(lambda x: sum(x.isnull()),axis=0) 

Aunque los valores perdidos no son muy altos en número, muchas variables los tienen y cada uno de ellos debe estimarse y agregarse en los datos. Es importante tener en cuenta que los valores perdidos pueden no ser siempre NaN o null.

#### ¿Cómo completar los valores perdidos en LoanAmount?

Existen numerosas formas de completar los valores faltantes del monto del préstamo, siendo el más simple el reemplazo por la media, que se puede hacer mediante el siguiente código:

In [None]:
df['LoanAmount'].fillna(df['LoanAmount'].mean(), inplace=True)

Podemos tomar otro enfoque a través del siguiente proceso. Primero, veamos el Box Plot para ver si existe una tendencia:

In [None]:
df = pd.read_csv("train.csv")
df.boxplot(column='LoanAmount', by = ['Education','Self_Employed'])
plt.show()

Es posible apreciar algunas variaciones en la mediana del monto del préstamo para cada grupo y esto puede usarse para llenar los valores faltantes. Pero primero, debemos asegurarnos de que cada una de las variables de Self_Employed y Education no debe tener valores perdidos. Veamos la tabla de frecuencias:

In [None]:
df['Self_Employed'].value_counts()

Como aproximadamente 86% de los valores son "No", es seguro llenar los valores faltantes como "No", ya que hay una alta probabilidad de éxito. Esto se puede hacer usando el siguiente código:

In [None]:
df['Self_Employed'].fillna('No',inplace=True)

Ahora, crearemos una tabla dinámica, que nos proporciona valores medios para todos los grupos de valores únicos de las características `Self_Employed` y `Education`. A continuación, definimos una función, que devuelve los valores de estas celdas y la aplica para completar los valores que faltan del monto del préstamo:

In [None]:
table = df.pivot_table(values='LoanAmount', index='Self_Employed' ,columns='Education', aggfunc=np.median)
print(table)

In [None]:
def fage(x):
    return table.loc[x['Self_Employed'],x['Education']]

df[df['LoanAmount'].isnull()].apply(fage, axis=1)

In [None]:
display(df.head(10))

In [None]:
df['LoanAmount'].fillna(df[df['LoanAmount'].isnull()].apply(fage, axis=1), inplace=True)
table.plot(kind='bar')
plt.show()

In [None]:
display(df.head(10))

#### ¿Cómo tratar los valores extremos?

Analicemos LoanAmount primero. Dado que los valores extremos seguramente no se deben a un error, es factible que algunas personas soliciten préstamos de alto valor debido a necesidades específicas. Entonces, en lugar de tratarlos como valores atípicos, probemos una transformación logarítmica para anular su efecto:

In [None]:
df['LoanAmount_log'] = np.log(df['LoanAmount'])
df['LoanAmount_log'].hist(bins=20)
plt.show()

Ahora la distribución se ve mucho más cerca de una normal (preferible para muchos modelos predictivos) y el efecto de los valores extremos ha disminuido significativamente.

Ahora, en relación a `ApplicantIncome`, una intuición puede ser que algunos solicitantes tienen un ingreso más bajo, pero tiene avales fuertes. Por lo tanto, podría ser una buena idea combinar ambos ingresos como ingreso total y tomar una transformación de este valor:

In [None]:
df['TotalIncome'] = df['ApplicantIncome'] + df['CoapplicantIncome']
df['TotalIncome_log'] = np.log(df['TotalIncome'])
df['TotalIncome_log'].hist(bins=20) 
plt.show()

Ahora vemos que la distribución es mucho mejor que antes. 

### Construcción de modelos predictivos

Ahora que los datos han sido filtrados, veamos código en Python para crear un modelos predictivos para nuestro conjunto de datos. Skicit-Learn (sklearn) es la biblioteca más utilizada en Python para este propósito. 

In [None]:
!pip install sklearn

Como sklearn requiere que todas las entradas sean numéricas, debemos convertir todas nuestras variables categóricas en numéricas codificando las categorías. Esto se puede hacer usando el siguiente código:

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

df = pd.read_csv("train.csv").dropna() # eliminamos las filas con algún valor desconocido para evitar problemas

var_mod = ['Gender','Married','Dependents','Education','Self_Employed','Property_Area','Loan_Status']
le = LabelEncoder()
for i in var_mod:
    df[i] = le.fit_transform(df[i])
df.dtypes 

A continuación, importaremos los módulos requeridos, luego definiremos una función de clasificación genérica, que toma un modelo como entrada y determina el rendimiento.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
import numpy as np

def classification_model(model, data, predictors, outcome):
    model.fit(data[predictors],data[outcome])
    predictions = model.predict(data[predictors])
    accuracy = metrics.accuracy_score(predictions,data[outcome])
    print("Rendimiento : %s" % "{0:.3%}".format(accuracy))

El rendimiento reportado, corresponde al porcentaje de acierto del modelo en el mismo conjunto en que se calibró.

#### Regresión logística

Hagamos nuestro primer modelo de Regresión Logística. Podemos hacer fácilmente algunas hipótesis intuitivas para comenzar. Las posibilidades de obtener un préstamo serán mayores para:

* Solicitantes con mayores ingresos.
* Solicitantes con nivel de educación superior.
* Propiedades en áreas urbanas con altas perspectivas de crecimiento.
* Los solicitantes tienen un historial de crédito (lo vimos anteriromente).

En base a esto, construyamos un primer modelo basado en los primeros tres criterios: `ApplicantIncome`, `Education` y `Property_Area`.

In [None]:
outcome_var = 'Loan_Status'
model = LogisticRegression()
predictor_var = ['ApplicantIncome', 'Education', 'Property_Area']
classification_model(model,df,predictor_var,outcome_var)

A continuación, podemos usar más variables en el modelo, con el fin de verificar si podemos alcanzar un mejor nivel de predicción:

In [None]:
predictor_var = ['ApplicantIncome', 'Education', 'Property_Area', 'Credit_History']
classification_model(model, df,predictor_var,outcome_var)

A pesar de que podría dar la impresión que este conjunto de variables es superior al anterior al combinar la información, es necesario hacer un rápido análisis para verificar esto:

In [None]:
predictor_var = ['Credit_History']
classification_model(model, df,predictor_var,outcome_var)

Podemos ver que para este caso en particular, la variable `Credit_History` es la que contiene la información más relevante, ya que por si sola permite alcanzar el mismo rendimiento que la combinación de todas.