<h1 align="center">¡Abrir el notebook desde Colab!</h1>
<br>
<p align="center">
<a align="center" href="https://colab.research.google.com/github/martinezarraigadamaria/IntroProgramacionPythonFCE2023/blob/master/clases/Extra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
</p>    

# Material Extra

---
> Utilización de librerías para Data Science: numpy, pandas.

> Elementos gráficos: matplotlib y seaborn.

# Manipulando Datos con Pandas

<img align="middle" src="https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg" alt="crispdm" width="300"/>

El conjunto de datos utilizado contiene información de referencia y de rendimiento de préstamos para 5,960 préstamos. El objetivo (BAD) es una variable binaria que indica si un solicitante finalmente incurrió en incumplimiento o en grave mora en alguna entidad bancaria. Y por muestreo rápido. 

Los datos son los siguientes:

- BAD: 1 = candidato con préstamo incumplido o con mora; 0 = candidato que paga su deuda y no tiene registro negativo

- LOAN: Monto de solicitud de préstamo

- MORTDUE: Monto adeudado de la hipoteca existente

- VALUE: Valor actual del bien o propiedad

- REASON: DebtCon = consolidación de la deuda; HomeImp = mejoras para el hogar

- JOB: Categorias ocupacionales o profesionales

- YOJ: Años en su trabajo actual

- DEROG: Número de informes derogados o cancelados importantes

- DELINQ: Número de lineas de crédito morosas

- CLAGE: Antiguedad de la linea de crédito más antigua en meses

- NINQ: Número de consultas crediticas recientes

- CLNO: Número de líneas de crédito

- DEBTINC: -

Antes que nada, lo primero que tenemos que hacer para poder utilizar Pandas es importar la librería en nuestro código.


In [None]:
# Importaciones pertinentes 
import pandas as pd

## Lectura de Datos

Vamos a traer los datos que necesitamos para trabajar, mediante la lectura del archivo CSV:

* hmeq


Para ello podemos utilizar la función [**`read_csv()`**](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). 
Veamos qué resulta:

In [None]:
# Cargar un archivo
url = "https://raw.githubusercontent.com/martinezarraigadamaria/IntroProgramacionPythonFCE2023/main/datos/hmeq.csv"
df = pd.read_csv(url)

In [None]:
df

In [None]:
# Cargar un archivo desde google drive

#from pydrive.auth import GoogleAuth
#from pydrive.drive import GoogleDrive
#from google.colab import auth
#from oauth2client.client import GoogleCredentials

#auth.authenticate_user()
#gauth = GoogleAuth()
#gauth.credentials = GoogleCredentials.get_application_default()
#drive = GoogleDrive(gauth)

#fileDownloaded = drive.CreateFile({'id':'1tTfExujk3q0-X6p3QBwNKygDdjXmiQyZ'})
#fileDownloaded.GetContentFile('hmeq.csv')

## Exploración de **`DataFrames`**

In [None]:
# Ver primeras filas (por defecto mostrará las primeras 5 filas, usando .head(n) veremos las primeras n filas)
df.head()

In [None]:
# Ver últimas filas
df.tail()

In [None]:
# Obtener una muestra aleatoria
df.sample(5)

In [None]:
# Obtener una muestra aleatoria con una semilla fija
df.sample(5, random_state=123)

In [None]:
# ¿Qué tipo de objeto es?
print('Mis datos:',type(df))

En el caso de Pandas tenemos que cada columna de un **DataFrame** tendrá un tipo asociado.

In [None]:
# ¿Qué contiene este objeto?
df.dtypes

Al tipo de dato **`object`** lo podemos interpretar como un string.

Una propiedad muy importante de los **DataFrames** es que están compuestos por filas y columnas, como una tabla de doble entrada. Estos elementos constituyen ***atributos*** de los mismos y se denominan ***índice*** y ***columnas***.

In [None]:
print(df.index)

## Selección de Columnas de un **`DataFrame`**

In [None]:
print(df.columns)

Para seleccionar una columna, lo que hacemos es utilizar un par de **`[]`** luego del nombre del DataFrame y dentro de estos le pasamos entre comillas (dobles o simples) el nombre de la columna indicada. Por ejemplo:

In [None]:
# Seleccionar columnas por nombre
df['JOB']

In [None]:
# Seleccionar columnas por indice
df[df.columns[1]]

## Selección de Filas de un **`DataFrame`**

Veamos cómo podemos hacer para filtrar filas en un DataFrame. 

In [None]:
# Seleccionar filas por índice
df.iloc[0]

In [None]:
# Seleccionar filas por condición
nombre_columna = "BAD"
condicion = 0
df[nombre_columna]==condicion

La comparación anterior nos devuelve una columna llena de valores ***booleanos***. Sabemos que como tipo **`int`**, **`False`** representa el **`0`** y **`True`** el **`1`**. ¿Podremos hacer la suma a lo largo del ***índice*** de esta ***serie***?

En Pandas, existe el método **`.sum()`**, que puede aplicarse a DataFrames y Series.

In [None]:
(df[nombre_columna]==condicion).sum()

In [None]:
# Cuántas filas y columnas tienen?
print(df.shape) 

In [None]:
# Ver cantidad de valores únicos en una columnas
nombre_columna = "BAD"
print("Cantidad de valores únicos: ", df[nombre_columna].nunique())
print("¿Cuáles son esos valores únicos?", df[nombre_columna].unique())

In [None]:
# Ver cantidad de valores que cumplen una condición
nombre_columna = "DEROG"
condicion = 0
(df[nombre_columna]==condicion).sum()

### Paréntesis: Métodos vs. Atributos

Habrán visto que a veces aplicamos al **DataFrame** comandos luego de un punto, y a veces estos terminan en un par de `()` y otras veces no.

Esto es porque aquellos que no terminan en `()`, como por ejemplo **`.shape`** o **`.index`**, son ***atributos*** del DataFrame. Es decir, se trata de propiedades asociadas al objeto.

Por otro lado, los que terminan en `()`, por ejemplo **`.head()`** o **`.sample()`**, se tratan de ***métodos*** del DataFrame. Es decir, son funciones que se aplican exclusivamente a este tipo de objetos.


## Limpieza de **`DataFrames`**

In [None]:
# El significado de la variable "DEBTINC" no está clara. Por lo que se excluye del análisis
df.drop('DEBTINC', axis=1, inplace=True) 

In [None]:
df.head()

In [None]:
# Ver si hay valores faltantes
nombre_columna = "MORTDUE"
df[nombre_columna].isnull().sum()

In [None]:
for col in df.columns:
    print("En la columna", col , "hay", df[col].isnull().sum(), "datos faltantes.")

In [None]:
# Eliminar una fila con valores nulos
df.dropna(axis=0, how='any', inplace=True)

In [None]:
df.shape

A continuación creamos una nueva columna **`STATUS`** para diferenciar mejor la situación de cada solicitante.

In [None]:
df.loc[df.BAD == 1, 'STATUS'] = 'DEFAULT'
df.loc[df.BAD == 0, 'STATUS'] = 'PAID'

In [None]:
df.head()

## Continuamos con la exploración de **`DataFrames`**

### ¿Cuál es la Relación con Numpy?

Otro de los atributos que tiene un DataFrame es **`.values`**. Averigüemos de qué se trata:

In [None]:
print(df.values)

In [None]:
print(type(df.values))

Y no solo el DataFrame tiene este atributo, sino otros objetos, como los índices y columnas también! Veamos un poco:

In [None]:
print(type(df.columns))
print(df.columns.values)
print(type(df.columns.values))

A esto nos referimos cuando decimos que Pandas está construído sobre la base de Numpy!

Recuerdan que en las primeras clases habíamos visto los operadores **`and`**, **`or`** y **`not`**? En Pandas podemos usar los mismos operadores, utilizando los siguiente símbolos:

- and: **`&`**
- or: **`|`**
- not: **`~`**

Para negar una columna de *booleanos*, utilizaremos **`~`**.

In [None]:
(~(df['JOB'] == "Other")).sum()

In [None]:
(df['JOB'].str.isnumeric()).sum()

## Máscaras sobre un **`DataFrame`**

Si queremos filtrar filas que nos interesan primero vamos a tener que generar una ***máscara*** o serie de valores con un indicador **`True`** o **`False`** para cada fila del DataFrame, donde **`True`** quedará asignado a las filas que queremos mantener:

In [None]:
# Aquí definimos una máscara
filas_mora = df['BAD'] == 1

In [None]:
filas_mora

Para obtener nuestro DataFrame filtrado, aplicamos esta máscara sobre nuestro DataFrame original, utilizando **`[]`**.

In [None]:
df_filtrado = df[filas_mora]
print('Shape df          ', df.shape)
print('Shape df_filtrado  ', df_filtrado.shape)
print('Filas eliminadas       ', df.shape[0]-df_filtrado.shape[0])

## Operaciones y Estadísticas Sobre los Datos de un **`DataFrame`**

Veamos algunas operaciones que podemos realizar con DataFrames y cómo obtener estadísticas sobre los datos.

In [None]:
# Frecuencia de variables BAD
df['BAD'].value_counts()

In [None]:
df['JOB'].value_counts()

In [None]:
df['MORTDUE'].mean()

A continuación, veamos cómo podemos cambiar el nombre de una columna

In [None]:
df.rename(columns= {"YOJ": "YEAR OF JOB"}, inplace=True)
df

Veamos algunos estadísticos sobre este DataFrame, utilizando el método **`.describe()`**

In [None]:
df.describe()

Estadísticas descriptivas de préstamos PAGADOS

In [None]:
df[df['BAD']==0].drop('BAD', axis=1).describe().style.format("{:.2f}")

Estadísticas descriptivas de préstamos INCUMPLIDOS

In [None]:
df[df['BAD']==1].drop('BAD', axis=1).describe().style.format("{:.2f}")

# Visualización

<img src="https://upload.wikimedia.org/wikipedia/commons/0/01/Created_with_Matplotlib-logo.svg" alt="matplotlib" width="200"/>
<img src="http://seaborn.pydata.org/_images/logo-mark-lightbg.svg" alt="seaborn" width="200"/>

La librería de visualización básica por excelencia en Python es [Matplotlib](https://matplotlib.org/), pero en el análisis y la ciencia de datos fueron ganando mucho lugar los paquetes un poco más de "alto nivel" como [Seaborn](https://seaborn.pydata.org/) y [Plotly](https://plotly.com/python/plotly-express/), que nos permiten tener gráficos "más lindos" con menos trabajo de código.

Veamos algunas visualizaciones adicionales de los datos que estuvimos trabajando.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

### Gráficos de Barras/Líneas [barplot](https://seaborn.pydata.org/generated/seaborn.barplot.html)

In [None]:
sns.barplot(x=df['STATUS'], y=df['MORTDUE'])

#Otra posibilidad
#sns.barplot(x='STATUS', y='MORTDUE', data = df)

In [None]:
sns.barplot(x=df['STATUS'], y=df['MORTDUE'], hue = df['REASON'])

### Gráficos de dispersión [scatters](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)

In [None]:
# Utilizando el módulo matplotlib.pyplot
df.plot.scatter("YEAR OF JOB", "LOAN")

In [None]:
# Utilizando seaborn
sns.scatterplot(x=df["MORTDUE"], y=df["LOAN"], hue = df['BAD'])

### Gráficos de barra [countplot](https://seaborn.pydata.org/generated/seaborn.countplot.html)

Las variables categóricas toman valores de un conjunto pre-definido, usualmente pero no necesariamente finito. Para visualizarlas, puede usarse un gráfico de barras, que representa cada valor observado con una columna, y el conteo de ese valor con la altura de la columna.

In [None]:
plt.figure()
sns.countplot(x=df["STATUS"], color='steelblue')
#for ax in axes:
plt.tick_params(labelrotation=30)

Las visualizaciones simples son prácticas para conocer la forma de los datos rápidamente, porque condensan mucha información.

## Gráficos de dispersión

### Histogramas

El gráfico generado es un **histograma de frecuencias**. En el eje x se grafican los valores que toma la columna, divididos en intervalos o bins. En el eje y se grafica el conteo de ocurrencias de valores en cada intervalo.

### [displot](https://seaborn.pydata.org/generated/seaborn.displot.html)

In [None]:
sns.displot(df["YEAR OF JOB"], aspect=2) #cambiar los bins=5,20 0 50 y ver...

### [histplot](https://seaborn.pydata.org/generated/seaborn.histplot.html)

In [None]:
col = 'LOAN'

fig, axes = plt.subplots(nrows=2, figsize=(16, 8))
sns.histplot(df[col], bins=100, ax=axes[0], color='gray')
axes[0].axvline(df[col].mean(), color='orangered',
            linestyle='--', label='Media')
axes[0].axvline(df[col].median(), color='indigo',
            linestyle='-.', label='Mediana')

filtered_df = df[df["STATUS"] == "DEFAULT"]
sns.histplot(filtered_df[col], bins=100, ax=axes[1], color='gray')
axes[1].axvline(filtered_df[col].mean(), color='orangered',
            linestyle='--', label='Media')
axes[1].axvline(filtered_df[col].median(), color='indigo',
            linestyle='-.', label='Mediana')

axes[0].legend()
sns.despine()

Para más información sobre subplots visitar la [documentación](https://matplotlib.org/3.5.0/api/_as_gen/matplotlib.pyplot.subplots.html).

### Gráficos para medidas de dispersión

Las medidas de dispersión vistas en el teórico son la desviación estándar, la varianza, entre otros. Cuando se comparan dos características diferentes (que pueden tener magnitudes diferentes) puede no ser conveniente comparar directamente los valores de las desviaciones estándar, sino que podemos usar el coeficiente de variación (desviación estándar dividida la media).

### [boxplot](https://seaborn.pydata.org/generated/seaborn.boxplot.html)

In [None]:
plt.figure(figsize=(12, 4))
sns.boxplot(x=df["LOAN"])
sns.despine()

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x="LOAN", y='STATUS',
                color='orangered')

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x="LOAN", y='STATUS', hue = "REASON",
                color='orangered')