<img src = "https://drive.google.com/uc?export=view&id=1vU_Lg5LD6Dn521znF_9E6OsJgwptOT9E" alt = "Encabezado MLDS" width = "100%">  </img>

# **Entendimiento de los Datos**
---

Este notebook es una plantilla que le puede servir como guía para el segundo entregable del proyecto aplicado.

## **0. Integrantes del equipo de trabajo**
---

Por favor incluya los nombres completos y número de identificación de los integrantes del equipo de trabajo:

1. Jorge leonardo Garzon Castañeda 
   - 1032434194
2. Ivan Dario Duque Molina
   - 79656996
3. Daniel Francisco Sanchez Hernandez
   - 1073168523




## Actualizacion obgetivo general

El objetivo general del proyecto es utilizar el dataset para desarrollar servicios expuestos a través de una API REST. Esta API permitirá a las instalaciones de los clientes responder preguntas clave sobre el comportamiento crediticio, tales como:

- ¿En qué grupos de ingresos se presentan los peores comportamientos de crédito?

- ¿Cuál es la relación entre el monto del préstamo y el comportamiento crediticio?

- ¿Cómo influye la propiedad de la vivienda en el comportamiento crediticio?

- ¿La tasa de interés del préstamo afecta el comportamiento crediticio?

- ¿Cómo impacta la antigüedad laboral en el comportamiento de crédito?

- ¿El propósito del crédito influye en el comportamiento de pago?

- ¿En qué destino del crédito se observan los mejores comportamientos?

- ¿En qué rangos de edad se presentan los peores comportamientos de crédito?

- ¿En qué niveles de antigüedad laboral se registran los peores comportamientos de crédito?

Cabe destacar que los clientes ya cuentan con una plataforma encargada de capturar y normalizar los datos.

## **1. Carga de datos**
---
Proporcione únicamente el código de Python necesario para descargar el conjunto de datos que será utilizado en el proyecto. Si es necesario, realice operaciones de adquisición e integración del conjunto de datos.

In [None]:
# Enlace de descarga del dataset
https://www.kaggle.com/api/v1/datasets/download/laotse/credit-risk-dataset

In [14]:

import pandas as pd
import numpy as np
import scipy.stats as stats


load_df = pd.read_csv('credit_risk_dataset.csv')

df = load_df.copy()

rename = {
    'person_age': 'edad',
    'person_income': 'ingreso_anual',
    'person_home_ownership': 'tipo_vivienda',
    'person_emp_length': 'antiguedad_laboral',
    'loan_intent': 'proposito_prestamo',
    'loan_grade': 'calificacion_prestamo',
    'loan_amnt': 'monto_prestamo',
    'loan_int_rate': 'tasa_interes',
    'loan_status': 'estado_prestamo',
    'loan_percent_income': 'porcentaje_ingreso_prestamo',
    'cb_person_default_on_file': 'historial_incumplimientos',
    'cb_person_cred_hist_length': 'longitud_historial_crediticio'
}

df = df.rename(columns=rename)

## **2. Análisis Exploratorio de los Datos**
---

Normalmente en el análisis exploratorio, se trata de dar respuesta a los siguientes elementos:

### **2.1. Resumen General**
---

- ¿Cuántos registros contiene el *dataset*?
- ¿En qué formato están guardados los datos?
- ¿Qué tamaño en MB tiene el conjunto de datos?

In [3]:
# ¿Cuántos registros contiene el *dataset*?
print(f"El dataset contiene {len(df)} registros")


El dataset contiene 32581 registros


In [4]:
# ¿En qué formato están guardados los datos?
print(f"Formato de los datos: {df.info()}")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32581 entries, 0 to 32580
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   edad                           32581 non-null  int64  
 1   ingreso_anual                  32581 non-null  int64  
 2   tipo_vivienda                  32581 non-null  object 
 3   antiguedad_laboral             31686 non-null  float64
 4   proposito_prestamo             32581 non-null  object 
 5   calificacion_prestamo          32581 non-null  object 
 6   monto_prestamo                 32581 non-null  int64  
 7   tasa_interes                   29465 non-null  float64
 8   estado_prestamo                32581 non-null  int64  
 9   porcentaje_ingreso_prestamo    32581 non-null  float64
 10  historial_incumplimientos      32581 non-null  object 
 11  longitud_historial_crediticio  32581 non-null  int64  
dtypes: float64(3), int64(5), object(4)
memory usag

In [5]:
# ¿Qué tamaño en MB tiene el conjunto de datos?
tamano_en_bytes = df.memory_usage(deep=True).sum()
memoria_mb = tamano_en_bytes / (1024 * 1024)
print(f"Tamaño del dataset: {memoria_mb:.2f} MB")

Tamaño del dataset: 8.63 MB


### **2.2. Análisis estadístico descriptivo**
---

Describa el conjunto de datos por medio de estadística descriptiva, aportando interpretaciones precisas que ayuden a entender los datos.

In [7]:
# Estadisticas de variables numéricas
numeric_stats = df.describe().T
numeric_stats['missing'] = df.isnull().sum()
numeric_stats['missing_percent'] = (df.isnull().sum() / len(df)) * 100


print("Estadísticas de variables numéricas:")
display(numeric_stats)

# Variables categóricas
categorical_cols = df.select_dtypes(include=['object']).columns
categorical_stats = pd.DataFrame()

for col in categorical_cols:
    value_counts = df[col].value_counts()
    value_percent = df[col].value_counts(normalize=True) * 100
    stats = pd.DataFrame({
        'cantidad': value_counts,
        'porcentaje': value_percent
    })
    print(f"\nDistribución de {col}:")
    display(stats)

# Distribución de estado_prestamo
print("\nDistribución de estado_prestamo:")
loan_status_dist = df['estado_prestamo'].value_counts()
loan_status_percent = df['estado_prestamo'].value_counts(normalize=True) * 100
display(pd.DataFrame({
    'cantidad': loan_status_dist,
    'perporcentajecent': loan_status_percent
}))



Estadísticas de variables numéricas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,missing,missing_percent
edad,32581.0,27.7346,6.348078,20.0,23.0,26.0,30.0,144.0,0,0.0
ingreso_anual,32581.0,66074.84847,61983.119168,4000.0,38500.0,55000.0,79200.0,6000000.0,0,0.0
antiguedad_laboral,31686.0,4.789686,4.14263,0.0,2.0,4.0,7.0,123.0,895,2.747
monto_prestamo,32581.0,9589.371106,6322.086646,500.0,5000.0,8000.0,12200.0,35000.0,0,0.0
tasa_interes,29465.0,11.011695,3.240459,5.42,7.9,10.99,13.47,23.22,3116,9.563856
estado_prestamo,32581.0,0.218164,0.413006,0.0,0.0,0.0,0.0,1.0,0,0.0
porcentaje_ingreso_prestamo,32581.0,0.170203,0.106782,0.0,0.09,0.15,0.23,0.83,0,0.0
longitud_historial_crediticio,32581.0,5.804211,4.055001,2.0,3.0,4.0,8.0,30.0,0,0.0



Distribución de tipo_vivienda:


Unnamed: 0_level_0,cantidad,porcentaje
tipo_vivienda,Unnamed: 1_level_1,Unnamed: 2_level_1
RENT,16446,50.477272
MORTGAGE,13444,41.263313
OWN,2584,7.931003
OTHER,107,0.328412



Distribución de proposito_prestamo:


Unnamed: 0_level_0,cantidad,porcentaje
proposito_prestamo,Unnamed: 1_level_1,Unnamed: 2_level_1
EDUCATION,6453,19.806022
MEDICAL,6071,18.633559
VENTURE,5719,17.553175
PERSONAL,5521,16.945459
DEBTCONSOLIDATION,5212,15.997053
HOMEIMPROVEMENT,3605,11.064731



Distribución de calificacion_prestamo:


Unnamed: 0_level_0,cantidad,porcentaje
calificacion_prestamo,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10777,33.077561
B,10451,32.076977
C,6458,19.821368
D,3626,11.129186
E,964,2.95878
F,241,0.739695
G,64,0.196434



Distribución de historial_incumplimientos:


Unnamed: 0_level_0,cantidad,porcentaje
historial_incumplimientos,Unnamed: 1_level_1,Unnamed: 2_level_1
N,26836,82.367024
Y,5745,17.632976



Distribución de estado_prestamo:


Unnamed: 0_level_0,cantidad,perporcentajecent
estado_prestamo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,25473,78.183604
1,7108,21.816396


### **2.3. Resumen de la Calidad de los datos**
---

- ¿Se detecta la ausencia de datos, la presencia de datos erróneos o la existencia de datos de baja calidad en el conjunto?
- ¿Se identifican registros con datos ilegibles o con dificultades de codificación durante la revisión del conjunto de datos?
- ¿Se observa una diversidad de formatos en el conjunto de datos que pueda dificultar su consistencia o comprensión?
- ¿Se identificaron y abordaron posibles problemas, como valores atípicos, duplicados o datos faltantes?

#### Respuestas
1. ¿Se detecta la ausencia de datos, la presencia de datos erróneos o la existencia de datos de baja calidad en el conjunto?

    - Se econtraron edades superiores a 105 años
    - Se encontraron registros con antigüedad laboral 123 años

2. ¿Se identifican registros con datos ilegibles o con dificultades de codificación durante la revisión del conjunto de datos?

    - No se encontraron registros ilegibles en la validacion de las columnas categoricas.
    - No se encontraron caracteres extraños en las columnas numericas y texto,

3. ¿Se observa una diversidad de formatos en el conjunto de datos que pueda dificultar su consistencia o comprensión?

    - Valores atípicos en edad 100: 5
    - Valores extremadamente altos en antigüedad laboral mayor a 50: 2

4. ¿Se identificaron y abordaron posibles problemas, como valores atípicos, duplicados o datos faltantes?

    - tasa_interes y antigüedad laboral contienen valores nulos
    - se encontraron 165 registros duplicados 

In [8]:
# ¿Se detecta la ausencia de datos, la presencia de datos erróneos o la existencia de datos de baja calidad en el conjunto?

# Valores de porcentaje_ingreso_prestamo posiblemente en formato incorrecto
porcentaje_decimal = (df['porcentaje_ingreso_prestamo'] > 1).sum()
print(f"Valores de porcentaje_ingreso_prestamo posiblemente en formato incorrecto (> 1): {porcentaje_decimal}")
print("\n")

# Verificar formato incorrecto o inconsistente en tasas y porcentajes
print("Verificación de formatos en tasas y porcentajes:")

tasa_decimal = (df['tasa_interes'] < 1).sum()
print(f"- Valores de tasa_interes posiblemente en formato decimal (< 1): {tasa_decimal}")
print("\n")

# Verificar valores ilógicos o inconsistentes
print("Verificación de valores ilógicos:")
print(f"- Edades negativas: {len(df[df['edad'] < 0])}")
print(f"- Edades muy altas (>100): {len(df[df['edad'] > 105])}")
print(f"- Ingresos anuales negativos: {len(df[df['ingreso_anual'] <= 0])}")
print(f"- Antigüedad laboral negativa: {len(df[df['antiguedad_laboral'] < 0])}")


Valores de porcentaje_ingreso_prestamo posiblemente en formato incorrecto (> 1): 0


Verificación de formatos en tasas y porcentajes:
- Valores de tasa_interes posiblemente en formato decimal (< 1): 0


Verificación de valores ilógicos:
- Edades negativas: 0
- Edades muy altas (>100): 5
- Ingresos anuales negativos: 0
- Antigüedad laboral negativa: 0


In [9]:
# ¿Se identifican registros con datos ilegibles o con dificultades de codificación durante la revisión del conjunto de datos?

# Verificación de problemas de codificación en campos de texto
print("Problemas en campos de texto:")
for col in categorical_cols:
    # Buscar caracteres extraños o problemas de codificación
    unusual_chars = df[col].astype(str).str.contains('[^\\w\\s\\-]', regex=True).sum()
    print(f"- Caracteres inusuales en {col}: {unusual_chars}")

print("\n")

# Verificar la estructura de valores en variables categóricas
print("Verificando variables categóricas:")
for col in categorical_cols:
    # Mostrar valores únicos para verificar consistencia
    print(f"Valores en {col}:")
    print(df[col].unique())
    print("\n")
    # Verificar si hay espacios en blanco al inicio o final que pueden causar problemas
    espacios_problematicos = df[col].str.strip().ne(df[col]).sum() if df[col].dtype == 'object' else 0
    if espacios_problematicos > 0:
        print(f"- {espacios_problematicos} valores con espacios problemáticos en {col}")



Problemas en campos de texto:
- Caracteres inusuales en tipo_vivienda: 0
- Caracteres inusuales en proposito_prestamo: 0
- Caracteres inusuales en calificacion_prestamo: 0
- Caracteres inusuales en historial_incumplimientos: 0


Verificando variables categóricas:
Valores en tipo_vivienda:
['RENT' 'OWN' 'MORTGAGE' 'OTHER']


Valores en proposito_prestamo:
['PERSONAL' 'EDUCATION' 'MEDICAL' 'VENTURE' 'HOMEIMPROVEMENT'
 'DEBTCONSOLIDATION']


Valores en calificacion_prestamo:
['D' 'B' 'C' 'A' 'E' 'F' 'G']


Valores en historial_incumplimientos:
['Y' 'N']




In [10]:
# ¿Se observa una diversidad de formatos en el conjunto de datos que pueda dificultar su consistencia o comprensión?

# Verificación de formatos en las variables numéricas
print("Análisis de formatos en variables numéricas:")
print("\n")

# Verificar si el rango de valores parece coherente
print("Verificación de rangos de valores:")
print(f"- Edad: {df['edad'].min()} a {df['edad'].max()} años")
print(f"- Antigüedad laboral: {df['antiguedad_laboral'].min()} a {df['antiguedad_laboral'].max()} años")
print(f"- Tasa de interés: {df['tasa_interes'].min()} a {df['tasa_interes'].max()}%")
print(f"- Ingreso anual: ${df['ingreso_anual'].min()} a ${df['ingreso_anual'].max()}")
print("\n")



# Identificar posibles problemas de escala en variables numéricas
print("Problemas de escala en variables numéricas:")
print(f"- Valores atípicos en edad (>100): {len(df[df['edad'] > 100])}")
print(f"- Valores extremadamente altos en antigüedad laboral (>50): {len(df[df['antiguedad_laboral'] > 50])}")
print("\n")

Análisis de formatos en variables numéricas:


Verificación de rangos de valores:
- Edad: 20 a 144 años
- Antigüedad laboral: 0.0 a 123.0 años
- Tasa de interés: 5.42 a 23.22%
- Ingreso anual: $4000 a $6000000


Problemas de escala en variables numéricas:
- Valores atípicos en edad (>100): 5
- Valores extremadamente altos en antigüedad laboral (>50): 2




In [11]:
# ¿Se identificaron y abordaron posibles problemas, como valores atípicos, duplicados o datos faltantes?

# Verificando la ausencia de datos
missing_data = df.isnull().sum()
missing_percent = (df.isnull().sum() / len(df)) * 100
missing_df = pd.DataFrame({'Missing Values': missing_data, 'Percentage': missing_percent})
missing_df = missing_df[missing_df['Missing Values'] > 0].sort_values(by='Missing Values', ascending=False)

print("Columnas con datos faltantes:")
display(missing_df)
print("\n")

# Verificar valores duplicados
duplicados = df.duplicated().sum()
print(f"Registros duplicados: {duplicados}")
print("\n")

Columnas con datos faltantes:


Unnamed: 0,Missing Values,Percentage
tasa_interes,3116,9.563856
antiguedad_laboral,895,2.747




Registros duplicados: 165




### **2.4. Tipos de variables**
---

- ¿El conjunto de datos tiene una variable objetivo a estimar?, de ser así, ¿es una variable continúa o categórica?
- Analice la distribución de las etiquetas, identifique si hay desbalanceo de datos.

In [15]:
# ---INGRESE SU CÓDIGO---

#El conjunto de datos contiene la variable "estado_prestamo", que indica si el préstamo fue pagado o no.
#Es una variable categorica, por lo que se puede utilizar para clasificar los datos.
array_columnas = np.array(df.columns)
indice_columna = np.where(array_columnas == 'estado_prestamo')[0][0]
nombre_variable = array_columnas[indice_columna]
print(f"Variable categorica a utilziar es: {nombre_variable}")
print("\n")

#Realizamos la validacion de que la columna estado_prestamo es categorica o no.
es_categorica = set(df['estado_prestamo'].unique()).issubset({'Activo', 'Inactivo'})
print(f"La variable {nombre_variable} es categorica: {es_categorica}")
print("\n")

#Realizamos la conversion del tipo de variable a categorica utlizando las categorias (Activo, Inactivo).
if not es_categorica:
    array_data = df[nombre_variable]
    array_categorical = np.where(array_data == 1, 'Activo', 'Inactivo')
    df[nombre_variable] = array_categorical
    print(f"La variable {nombre_variable} ha sido convertida a tipo categorico.")
    print("\n")

#Realizamos el contento de las categorias de la variable "estado_prestamo".
conteo_categorias = df[nombre_variable].value_counts()
DataFrameCategorias = pd.DataFrame({'estado_prestamo' : conteo_categorias})

print(f"Conteo de categorias en la variable {nombre_variable}:")
print("\n")
print(conteo_categorias)

print("\n")
print('Si el valor de p-valor es menor al valor de significancia, se rechaza la hipotesis nula, es el p-valor es mayor a el valor de significancia, no se rechaza la hipotesis nula.')
print("\n")

valor_significancia = 0.05
print(f"Valor de significancia: {valor_significancia}\n")


# Realizamos la prueba de Chi-cuadrado para determinar si hay desbalanceo en las categorias de la variable "estado_prestamo".
# La hipotesis nula es que no hay desbalanceo en las categorias de la variable "estado_prestamo".
chi2, p_valor = stats.chisquare(DataFrameCategorias['estado_prestamo'])

print(f"Valor del Chi_cuadrado: {chi2}\n")
print(f"Valor del p-valor: {p_valor}\n")

#validacion de la hipotesis nula.
if p_valor < valor_significancia:
    print("Se rechaza la hipótesis nula: hay desbalanceo en las categorías.")
else:  
    print("No se rechaza la hipótesis nula: no hay desbalanceo en las categorias.")




Variable categorica a utilziar es: estado_prestamo


La variable estado_prestamo es categorica: False


La variable estado_prestamo ha sido convertida a tipo categorico.


Conteo de categorias en la variable estado_prestamo:


estado_prestamo
Inactivo    25473
Activo       7108
Name: count, dtype: int64


Si el valor de p-valor es menor al valor de significancia, se rechaza la hipotesis nula, es el p-valor es mayor a el valor de significancia, no se rechaza la hipotesis nula.


Valor de significancia: 0.05

Valor del Chi_cuadrado: 10351.8377275099

Valor del p-valor: 0.0

Se rechaza la hipótesis nula: hay desbalanceo en las categorías.


1. ¿El conjunto de datos tiene una variable objetivo a estimar?, de ser así, ¿es una variable continúa o categórica?

    - El conjunto de datos cuenta con la variable a estimar que es la columna "estado_prestamo", la cual nos indica si el prestamo esta activo o no, la variable inicialmente es una variable continua, pero dentro del proceso de validacion y verificacion se contempla pasar a un tipo de variable categorica que facilita y agiliza la validacion de la misma, se pasa a dos categorias ("Activo", "Inactivo")


2. Analice la distribución de las etiquetas, identifique si hay desbalanceo de datos.

    - Para la variable "estado_prestamo" ya transformada a una variable categorica, se utiliza la prueba de chi-cuadrado utilizando la libreria scipy (Scientific Python) para poder realizar la validacion de las frecuencias esperadas y obtener el p-valor el cual se compara con el valor de significancia de 0.05 o 5% y teniendi un valor de confianza del 95%, al realziar la comparacion se evidencia que hay pruebas suficientes para descargar la hipotesis nula y tomar como correcta la hipotesis alternativa que indica que existe un desbalanceo de datos para la variable "estado_prestamo".

## **Créditos**
* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).
    
**Universidad Nacional de Colombia** - *Facultad de Ingeniería*