## Máster en Big Data y Data Science

### Metodologías de gestión y diseño de proyectos de big data

#### AP2 - Visualización de los datos

---

En esta libreta se generan los modelos de visualización (gráficos) sobre los datasets 
del escenario para su posterior integración en la herramienta a utilizar. 

---

In [1]:
# Importación de librerías

import pandas as pd
# En esta línea se podría producir un error, se debe instalar plotly
import plotly.express as px
import plotly.graph_objects as go

----

##### Lectura del dataset

In [2]:
df = pd.read_csv("../../../data/final/datos_finales.csv", sep=";")
df.head(5)

Unnamed: 0,operaciones_ult_12m,gastos_ult_12m,limite_credito_tc,antiguedad_cliente,tasa_interes,ingresos,pct_ingreso,antiguedad_empleado,edad,estado_civil_N,estado_credito_N,importe_solicitado,duracion_credito,situacion_vivienda,objetivo_credito,falta_pago,estado_cliente,genero,nivel_educativo,personas_a_cargo
0,mayor_100,mayor_10k,3k_a_5k,2y_a_4y,hasta_7p,50k_a_100k,hasta_20,5_a_10,menor_25,C,P,11000,3,HIPOTECA,INVERSIONES,N,ACTIVO,F,SECUNDARIO_COMPLETO,3.0
1,15_a_30,menor_1k,3k_a_5k,2y_a_4y,15p_a_20p,20k_a_50k,hasta_20,menor_5,menor_25,S,C,1500,2,ALQUILER,MEJORAS_HOGAR,Y,PASIVO,M,DESCONOCIDO,0.0
2,15_a_30,2k_a_4k,5k_a_10k,2y_a_4y,7p_a_15p,20k_a_50k,20_a_40,5_a_10,menor_25,D,P,10000,2,OTROS,EDUCACIÓN,Y,PASIVO,M,POSGRADO_COMPLETO,3.0
3,75_a_100,2k_a_4k,menor_3k,menor_2y,7p_a_15p,20k_a_50k,20_a_40,menor_5,25_a_30,S,P,6000,4,ALQUILER,INVERSIONES,N,ACTIVO,F,UNIVERSITARIO_INCOMPLETO,2.0
4,50_a_75,4k_a_6k,3k_a_5k,2y_a_4y,7p_a_15p,50k_a_100k,20_a_40,menor_5,25_a_30,C,P,10000,2,HIPOTECA,EDUCACIÓN,N,ACTIVO,F,UNIVERSITARIO_INCOMPLETO,2.0


----

##### Definición de gráficos de interés

In [9]:
# Cantidad de créditos por objetivo del mismo

creditos_x_objetivo = px.histogram(df, x='objetivo_credito', 
                                   title='Conteo de créditos por objetivo')
creditos_x_objetivo.update_layout(xaxis_title='Objetivo del crédito', yaxis_title='Cantidad')

In [4]:
# Histograma de los importes de créditos otorgados

histograma_importes = px.histogram(df, x='importe_solicitado', nbins=10, title='Importes solicitados en créditos')
histograma_importes.update_layout(xaxis_title='Importe solicitado', yaxis_title='Cantidad')

In [5]:
# Conteo de ocurrencias por estado
estado_credito_counts = df['estado_credito_N'].value_counts()

# Gráfico de torta de estos valores
fig = go.Figure(data=[go.Pie(labels=estado_credito_counts.index, values=estado_credito_counts)])
fig.update_layout(title_text='Distribución de créditos por estado registrado')
fig.show()

In [6]:
# Conteo de ocurrencias por caso
falta_pago_counts = df['falta_pago'].value_counts()

# Create a Pie chart
fig = go.Figure(data=[go.Pie(labels=falta_pago_counts.index, values=falta_pago_counts)])
fig.update_layout(title_text='Distribución de créditos en función de registro de mora')
fig.show()

In [7]:
# Gráfico de barras apiladas: Comparar la distribución de créditos por estado y objetivo
barras_apiladas = px.histogram(df, x='objetivo_credito', color='estado_credito_N', 
                               title='Distribución de créditos por estado y objetivo',
                               barmode='stack')
barras_apiladas.update_layout(xaxis_title='Objetivo del crédito', yaxis_title='Cantidad')
barras_apiladas.show()

In [8]:
# Definir el orden personalizado
orden_antiguedad = ['menor_2y', '2y_a_4y', 'mayor_4y']

# Ordenar los datos según el orden personalizado
df_ordenado = df.groupby('antiguedad_cliente')['importe_solicitado'].mean().reset_index()
df_ordenado['antiguedad_cliente'] = pd.Categorical(df_ordenado['antiguedad_cliente'], categories=orden_antiguedad, ordered=True)
df_ordenado = df_ordenado.sort_values('antiguedad_cliente')

# Crear el gráfico de líneas
lineas_importes_antiguedad = px.line(df_ordenado, x='antiguedad_cliente', y='importe_solicitado',
                                     title='Evolución de los importes solicitados por antigüedad del cliente')
lineas_importes_antiguedad.update_layout(xaxis_title='Antigüedad del cliente', yaxis_title='Importe solicitado promedio')
lineas_importes_antiguedad.show()

In [10]:
# 1. Distribución de los importes solicitados (`importe_solicitado`) 
# por objetivo del crédito (`objetivo_credito`) en un gráfico de cajas.
fig = px.box(
    df,
    x="objetivo_credito",
    y="importe_solicitado",
    title="Distribución del Importe Solicitado por Objetivo del Crédito",
    labels={
        "objetivo_credito": "Objetivo del Crédito",
        "importe_solicitado": "Importe Solicitado"
    }
)

fig.update_layout(xaxis_tickangle=-45)
fig.show()


In [11]:
# 2. Relación entre el importe solicitado (`importe_solicitado`) con la duración del crédito (`duracion_credito`), 
# coloreado por estado del crédito (`estado_credito_N`) en un gráfico de dispersión.
fig = px.scatter(
    df,
    x="duracion_credito",
    y="importe_solicitado",
    color="estado_credito_N",
    title="Relación entre Importe Solicitado y Duración del Crédito por Estado del Crédito",
    labels={
        "duracion_credito": "Duración del Crédito (meses)",
        "importe_solicitado": "Importe Solicitado",
        "estado_credito_N": "Estado del Crédito"
    }
)

fig.update_traces(marker=dict(size=6, opacity=0.7))
fig.show()

In [None]:
# 3. Análisis de la correlación entre variables como `importe_solicitado`, `duracion_credito`, 
# y `personas_a_cargo` en un mapa de calor.

# Selección de variables numéricas para el análisis de correlación
variables_corr = df[["importe_solicitado", "duracion_credito", "personas_a_cargo"]]

# Cálculo de la matriz de correlación
correlacion = variables_corr.corr()

# Mapa de calor con plotly
fig = px.imshow(
    correlacion,
    text_auto=True,
    color_continuous_scale="RdBu_r",
    title="Mapa de Calor de Correlación entre Variables Seleccionadas",
    labels=dict(color="Correlación")
)

fig.update_layout(xaxis_title="", yaxis_title="")
fig.show()

Otros gráficos a implementar:

1. Distribución de los importes solicitados (`importe_solicitado`) por objetivo del crédito (`objetivo_credito`) en un gráfico de cajas.
2. Relación entre el importe solicitado (`importe_solicitado`) con la duración del crédito (`duracion_credito`), coloreado por estado del crédito (`estado_credito_N`) en un gráfico de dispersión.
3. Análisis de la correlación entre variables como `importe_solicitado`, `duracion_credito`, y `personas_a_cargo` en un mapa de calor.

Entre otros...