## Máster en Big Data y Data Science

### Metodologías de gestión y diseño de proyectos de big data

#### AP1 - Exploración de los datos

---

En esta libreta se realiza un EDA -básico- de los datos del escenario. 

---

##### Importación de librerías

In [19]:
import pandas as pd
from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

----

##### Lectura de los datasets

In [20]:
df_creditos = pd.read_csv("../../data/raw/datos_creditos.csv", sep=";")
df_creditos.head(1)

Unnamed: 0,id_cliente,edad,importe_solicitado,duracion_credito,antiguedad_empleado,situacion_vivienda,ingresos,objetivo_credito,pct_ingreso,tasa_interes,estado_credito,falta_pago
0,713061558.0,22,35000,3,123.0,ALQUILER,59000,PERSONAL,0.59,16.02,1,Y


In [21]:
df_tarjetas = pd.read_csv("../../data/raw/datos_tarjetas.csv", sep=";")
df_tarjetas.head(1)

Unnamed: 0,id_cliente,antiguedad_cliente,estado_civil,estado_cliente,gastos_ult_12m,genero,limite_credito_tc,nivel_educativo,nivel_tarjeta,operaciones_ult_12m,personas_a_cargo
0,713061558.0,36.0,CASADO,ACTIVO,1088.0,M,4010.0,UNIVERSITARIO_COMPLETO,Blue,24.0,2.0


----

##### Descripción de los datasets

In [22]:
def reporte_descripcion_dataset(df):
    columnas = df.columns
    print("Columnas del dataset:\n")
    for col in columnas:
        print(col)
    print(f"\nCantidad de filas: {df.shape[0]}")

In [23]:
print("Descripción del dataset 'datos_creditos'")
reporte_descripcion_dataset(df_creditos)

Descripción del dataset 'datos_creditos'
Columnas del dataset:

id_cliente
edad
importe_solicitado
duracion_credito
antiguedad_empleado
situacion_vivienda
ingresos
objetivo_credito
pct_ingreso
tasa_interes
estado_credito
falta_pago

Cantidad de filas: 10127


In [24]:
print("Descripción del dataset 'datos_tarjetas'")
reporte_descripcion_dataset(df_tarjetas)

Descripción del dataset 'datos_tarjetas'
Columnas del dataset:

id_cliente
antiguedad_cliente
estado_civil
estado_cliente
gastos_ult_12m
genero
limite_credito_tc
nivel_educativo
nivel_tarjeta
operaciones_ult_12m
personas_a_cargo

Cantidad de filas: 10127


----

##### Obtención de metadatos 

Se proponen dos opciones, una utiliznado la librería "ydata-profiling" y otra con la librería "dtale"

In [25]:
profile = ProfileReport(df_creditos, title="Reporte de exploración de datos - Dataset: Créditos")
profile.to_file("../../docs/reporte_datos_creditos.html")

profile = ProfileReport(df_tarjetas, title="Reporte de exploración de datos - Dataset: Tarjetas")
profile.to_file("../../docs/reporte_datos_tarjetas.html")

100%|██████████| 12/12 [00:00<00:00, 930.76it/s]00:01, 12.00it/s, Describe variable: falta_pago] 
Summarize dataset: 100%|██████████| 71/71 [00:04<00:00, 15.59it/s, Completed]                                       
Generate report structure: 100%|██████████| 1/1 [00:02<00:00,  2.69s/it]
Render HTML: 100%|██████████| 1/1 [00:01<00:00,  1.48s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 40.22it/s]
100%|██████████| 11/11 [00:00<00:00, 286.81it/s]00:02,  7.12it/s, Describe variable: personas_a_cargo]
Summarize dataset: 100%|██████████| 56/56 [00:03<00:00, 14.20it/s, Completed]                                       
Generate report structure: 100%|██████████| 1/1 [00:02<00:00,  2.46s/it]
Render HTML: 100%|██████████| 1/1 [00:01<00:00,  1.02s/it]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 59.99it/s]


In [29]:
df_creditos.head()

Unnamed: 0,id_cliente,edad,importe_solicitado,duracion_credito,antiguedad_empleado,situacion_vivienda,ingresos,objetivo_credito,pct_ingreso,tasa_interes,estado_credito,falta_pago
0,713061558.0,22,35000,3,123.0,ALQUILER,59000,PERSONAL,0.59,16.02,1,Y
1,768805383.0,21,1000,2,5.0,PROPIA,9600,EDUCACIÓN,0.1,11.14,0,N
2,818770008.0,25,5500,3,1.0,HIPOTECA,9600,SALUD,0.57,12.87,1,N
3,713982108.0,23,35000,2,4.0,ALQUILER,65500,SALUD,0.53,15.23,1,N
4,710821833.0,24,35000,4,8.0,ALQUILER,54400,SALUD,0.55,14.27,1,Y


In [33]:
plt.figure(figsize=(7,5))
sns.countplot(y=df_creditos['objetivo_credito'], order=df_creditos['objetivo_credito'].value_counts().index)
plt.savefig("grafico_exploracion.png")
plt.show()

In [35]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(7,5))  # Define el tamaño del gráfico
sns.countplot(y=df_creditos['situacion_vivienda'], order=df_creditos['situacion_vivienda'].value_counts().index)  # Crea el gráfico
plt.title("Distribución de la Situación de Vivienda")  # Agrega un título
plt.xlabel("Cantidad de Clientes")  # Etiqueta del eje X
plt.ylabel("Situación de Vivienda")  # Etiqueta del eje Y
plt.savefig("grafico_exploracion2.png") # Gurdar ekl gráfico
plt.show()  # Muestra el gráfico


**Dtale**

No instalada en el entorno, para hacerlo se deberá ejecutar:
- pip install dtale
- uv add dtale
- conda install dtale

In [31]:
# import dtale as dt

In [32]:
# Se usa la librería dtale para poder obtener una vista interactiva de los datos

# Dataset: datos_creditos

creditos = dt.show(df_creditos)
creditos.open_browser()

NameError: name 'dt' is not defined

In [8]:
# Dataset: datos_tarjetas

reporte = dt.show(datos)
reporte.open_browser()

----

##### Gráficos de interés

In [None]:
plt.figure(figsize=(7,5))
sns.countplot(y=df_creditos['objetivo_credito'], order=df_creditos['objetivo_credito'].value_counts().index)
plt.show()