## Máster en Big Data y Data Science

### Metodologías de gestión y diseño de proyectos de big data

#### AP2 - Visualización de los datos

---

En esta libreta se generan los modelos de visualización (gráficos) sobre los datasets 
del escenario para su posterior integración en la herramienta a utilizar. 

---

In [2]:
# Importación de librerías

import pandas as pd
# En esta línea se podría producir un error, se debe instalar plotly
import plotly.express as px
import plotly.graph_objects as go

----

##### Lectura del dataset

In [3]:
df = pd.read_csv("../../../data/final/datos_finales.csv", sep=";")
df.head(5)

Unnamed: 0,operaciones_ult_12m,gastos_ult_12m,limite_credito_tc,antiguedad_cliente,tasa_interes,ingresos,pct_ingreso,antiguedad_empleado,edad,estado_civil_N,...,importe_solicitado,duracion_credito,situacion_vivienda,objetivo_credito,falta_pago,regla_duracion_pct,estado_cliente,genero,nivel_educativo,personas_a_cargo
0,30_a_50,2k_a_4k,5k_a_10k,2y_a_4y,7p_a_15p,hasta_20k,40_a_60,menor_5,25_a_30,S,...,5500,3,HIPOTECA,SALUD,N,ok,ACTIVO,F,UNIVERSITARIO_COMPLETO,5.0
1,15_a_30,2k_a_4k,5k_a_10k,mayor_4y,7p_a_15p,50k_a_100k,40_a_60,5_a_10,menor_25,C,...,35000,4,ALQUILER,SALUD,Y,ok,ACTIVO,M,DESCONOCIDO,1.0
2,15_a_30,menor_1k,3k_a_5k,menor_2y,7p_a_15p,50k_a_100k,40_a_60,5_a_10,25_a_30,C,...,35000,3,ALQUILER,EDUCACIÓN,N,ok,ACTIVO,M,UNIVERSITARIO_INCOMPLETO,3.0
3,30_a_50,2k_a_4k,mayor_10k,2y_a_4y,7p_a_15p,50k_a_100k,40_a_60,5_a_10,menor_25,C,...,35000,4,ALQUILER,SALUD,N,ok,ACTIVO,M,DESCONOCIDO,4.0
4,15_a_30,2k_a_4k,mayor_10k,2y_a_4y,7p_a_15p,hasta_20k,hasta_20,5_a_10,menor_25,S,...,1600,3,PROPIA,INVERSIONES,N,ok,ACTIVO,M,UNIVERSITARIO_INCOMPLETO,3.0


----

##### Definición de gráficos de interés

In [19]:
# Cantidad de créditos por objetivo del mismo

creditos_x_objetivo = px.histogram(df, x='objetivo_credito', 
                                   title='Conteo de créditos por objetivo')
creditos_x_objetivo.update_layout(xaxis_title='Objetivo del crédito', yaxis_title='Cantidad')

In [18]:
# Histograma de los importes de créditos otorgados

histograma_importes = px.histogram(df, x='importe_solicitado', nbins=10, title='Importes solicitados en créditos')
histograma_importes.update_layout(xaxis_title='Importe solicitado', yaxis_title='Cantidad')

In [20]:
# Conteo de ocurrencias por estado
estado_credito_counts = df['estado_credito_N'].value_counts()

# Gráfico de torta de estos valores
fig = go.Figure(data=[go.Pie(labels=estado_credito_counts.index, values=estado_credito_counts)])
fig.update_layout(title_text='Distribución de créditos por estado registrado')
fig.show()

In [21]:
# Conteo de ocurrencias por caso
falta_pago_counts = df['falta_pago'].value_counts()
# falta_pago_counts

# Create a Pie chart
fig = go.Figure(data=[go.Pie(labels=falta_pago_counts.index, values=falta_pago_counts)])
fig.update_layout(title_text='Distribución de créditos en función de registro de mora')
fig.show()

In [22]:
# Gráfico de barras apiladas: Comparar la distribución de créditos por estado y objetivo
barras_apiladas = px.histogram(df, x='objetivo_credito', color='estado_credito_N', 
                               title='Distribución de créditos por estado y objetivo',
                               barmode='stack')
barras_apiladas.update_layout(xaxis_title='Objetivo del crédito', yaxis_title='Cantidad')
barras_apiladas.show()

In [23]:
# Definir el orden personalizado
orden_antiguedad = ['menor_2y', '2y_a_4y', 'mayor_4y']

# Ordenar los datos según el orden personalizado
df_ordenado = df.groupby('antiguedad_cliente')['importe_solicitado'].mean().reset_index()
df_ordenado['antiguedad_cliente'] = pd.Categorical(df_ordenado['antiguedad_cliente'], categories=orden_antiguedad, ordered=True)
df_ordenado = df_ordenado.sort_values('antiguedad_cliente')

# Crear el gráfico de líneas
lineas_importes_antiguedad = px.line(df_ordenado, x='antiguedad_cliente', y='importe_solicitado',
                                     title='Evolución de los importes solicitados por antigüedad del cliente')
lineas_importes_antiguedad.update_layout(xaxis_title='Antigüedad del cliente', yaxis_title='Importe solicitado promedio')
lineas_importes_antiguedad.show()

In [None]:
# Distribución de los importes solicitados (`importe_solicitado`) por objetivo del crédito (`objetivo_credito`) en un gráfico de cajas
cajas_grafico = px.box(df, x='objetivo_credito', y='importe_solicitado',
              title='Distribución de importes solicitados por objetivo del crédito',
              labels={'objetivo_credito': 'Objetivo del crédito', 'importe_solicitado': 'Importe solicitado'})
cajas_grafico.show()

In [None]:
# Relación entre el importe solicitado (`importe_solicitado`) con la duración del crédito (`duracion_credito`), coloreado por estado del crédito (`estado_credito_N`) en un gráfico de dispersión.
dispersion_grafico = px.scatter(df, x='duracion_credito', y='importe_solicitado',
                  color='estado_credito_N',
                  title='Relación entre importe solicitado y duración del crédito',
                  labels={'duracion_credito': 'Duración del crédito', 'importe_solicitado': 'Importe solicitado', 'estado_credito_N': 'Estado del crédito'})
dispersion_grafico.show()

In [None]:
# Análisis de la correlación entre variables como `importe_solicitado`, `duracion_credito`, y `personas_a_cargo` en un mapa de calor.
import plotly.figure_factory as ff

# Selecciona las variables numéricas para la correlación
variables = ['importe_solicitado', 'duracion_credito', 'personas_a_cargo']
corr_matrix = df[variables].corr()

# Crear el mapa de calor
mapa_calor = ff.create_annotated_heatmap(
    z=corr_matrix.values,
    x=variables,
    y=variables,
    annotation_text=corr_matrix.round(2).values,
    colorscale='Viridis'
)

mapa_calor.update_layout(title='Mapa de calor de correlaciones entre variables')
mapa_calor.show()