# **Personal Finance** - Analyze Financial Habits

# Sobre el conjunto de datos

Usabilidad de la base de datos: 7.06
Tamaño base de datos: 4.19 MB

### **Contexto**

En un mundo donde las decisiones financieras personales impactan directamente en la estabilidad económica de los hogares, comprender los patrones de comportamiento financiero es fundamental. Sin embargo, los datos reales sobre finanzas personales suelen ser sensibles y difíciles de obtener debido a su naturaleza privada.

El Personal Finance ML Dataset ha sido creado para simular de forma sintética (2020 - 2024), pero realista, el comportamiento financiero de personas de diferentes regiones, niveles de ingreso y situaciones crediticias. Este conjunto de datos reproduce de manera real las dinámicas del mundo real, permitiendo analizar hábitos financieros y estudiar la relación entre ingresos, gastos y deudas.

### **Descripción de los datos**

El dataset contiene 32.424 registros individuales (filas), donde cada fila representa el perfil financiero de una persona. Los datos incluyen información demográfica, económica, crediticia y temporal, con el objetivo de reflejar la diversidad de comportamientos financieros a nivel global.

* **user_id**: Identificador único que representa a cada individuo.
* **age**: Edad del individuo, expresada en años (rango de 18 a 70).
* **gender**: Género del individuo: Masculino, Femenino u Otro.
* **education_level**: Nivel educativo más alto alcanzado (por ejemplo, Secundaria, Grado, Máster o Doctorado).
* **employment_status**: Situación laboral actual del individuo (por ejemplo, Empleado, Desempleado, Estudiante, Jubilado).
* **job_title**: Puesto de trabajo o cargo desempeñado.
* **monthly_income_usd**: Ingreso mensual aproximado en dólares estadounidenses.
* **monthly_expenses_usd**: Gastos mensuales aproximados en dólares estadounidenses.
* **savings_usd**: Total de ahorros acumulados por el individuo.
* **has_loan**: Indica si el individuo tiene un préstamo activo: Sí o No.
* **loan_type**: Tipo de préstamo asociado, en caso de tenerlo (por ejemplo, personal, hipotecario, automotriz o educativo).
* **loan_amount_usd**: Monto total del préstamo en dólares estadounidenses.
* **loan_term_months**: Duración del préstamo expresada en meses.
* **monthly_emi_usd**: Cuota mensual del préstamo (EMI, Equated Monthly Installment).
* **loan_interest_rate_pct**: Tasa de interés anual aplicada al préstamo, expresada en porcentaje.
* **debt_to_income_ratio**: Relación entre los pagos de deuda y los ingresos del individuo (DTI).
* **credit_score**: Puntuación crediticia sintética en una escala de 300 a 850.
* **savings_to_income_ratio**: Relación entre los ahorros y los ingresos anuales del individuo.
* **region**: Región geográfica en la que reside el individuo.
* **record_date**: Fecha de registro de la información financiera.
### **Objetivo del Proyecto**

El objetivo de este proyecto es realizar un proceso completo de limpieza y análisis exploratorio (EDA) sobre el conjunto de datos del Personal Finance ML Dataset, con el fin de comprender las características principales de la población representada y extraer patrones significativos sobre el comportamiento financiero individual.

De manera provisional, el análisis podría orientarse hacia alguno de los siguientes enfoques:
	•	Evaluar la salud financiera de los individuos según sus ingresos, gastos y nivel de ahorro.
	•	Identificar patrones de riesgo crediticio mediante el estudio del credit_score, debt_to_income_ratio y loan_status.
	•	Segregar perfiles financieros en función de la región, nivel educativo o tipo de préstamo.
	•	Explorar relaciones entre ingresos, ahorros y endeudamiento, generando visualizaciones que faciliten la interpretación.

En una segunda etapa, los resultados del EDA podrán servir como base para desarrollar un modelo de predicción o segmentación, dependiendo del enfoque que finalmente se elija.

# 1.-Librerías

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd #manejo de estructura de datos tabulares

# Visualización de datos
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


# importamos los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

# importamos configuracion de pandas
# -----------------------------------------------------------------------
pd.options.display.max_columns = None

# 2.-Cargar datos

In [2]:
df = pd.read_csv("../data/raw/synthetic_personal_finance_dataset.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32424 entries, 0 to 32423
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   user_id                  32424 non-null  object 
 1   age                      32424 non-null  int64  
 2   gender                   32424 non-null  object 
 3   education_level          32424 non-null  object 
 4   employment_status        32424 non-null  object 
 5   job_title                32424 non-null  object 
 6   monthly_income_usd       32424 non-null  float64
 7   monthly_expenses_usd     32424 non-null  float64
 8   savings_usd              32424 non-null  float64
 9   has_loan                 32424 non-null  object 
 10  loan_type                12995 non-null  object 
 11  loan_amount_usd          32424 non-null  float64
 12  loan_term_months         32424 non-null  int64  
 13  monthly_emi_usd          32424 non-null  float64
 14  loan_interest_rate_pct