# Actividad 4 - EDA (Análisis Exploratorio de Datos)
### Objetivo
El objetivo de esta actividad es describir los datos utilizando técnicas estadísticas y de visualización para comprender patrones, detectar errores y encontrar relaciones relevantes entre variables.

### Conjunto de datos: riesgo crediticio

### Parte 1: Análisis descriptivo (univariante)

In [None]:
# Cargar el archivo CSV
import pandas as pd

df = pd.read_csv('credit_risk_dataset.csv')

# Mostrar información del DataFrame
df.info()

### 1.1. Porcentaje de valores faltantes por columna

In [None]:
# Calcular el porcentaje de valores faltantes por columna
df.isna().mean() * 100

### 1.2. Estadísticas descriptivas para variables numéricas

In [None]:
# Calcular estadísticas descriptivas para las variables numéricas
df.describe()

### 1.3. Asimetría y curtosis de 'person_age' y 'loan_int_rate'

In [None]:
from scipy.stats import skew, kurtosis

# Calcular asimetría y curtosis
age_skewness = skew(df['person_age'])
age_kurtosis = kurtosis(df['person_age'])
rate_skewness = skew(df['loan_int_rate'].dropna())
rate_kurtosis = kurtosis(df['loan_int_rate'].dropna())

(age_skewness, age_kurtosis, rate_skewness, rate_kurtosis)

### 1.4. Histogramas de las variables 'person_age' y 'loan_int_rate'

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Crear histogramas
fig, axes = plt.subplots(2, 1, figsize=(10, 10))

sns.histplot(df['person_age'], kde=True, ax=axes[0], bins=30)
axes[0].set_title('Distribución de person_age')

sns.histplot(df['loan_int_rate'].dropna(), kde=True, ax=axes[1], bins=30)
axes[1].set_title('Distribución de loan_int_rate')

plt.tight_layout()
plt.show()

### 1.5. Boxplot de la variable 'person_age' y detección de valores atípicos

In [None]:
# Boxplot para 'person_age'
sns.boxplot(x=df['person_age'])
plt.title('Boxplot de person_age')
plt.show()

# Calcular valores atípicos
percentile_25 = df['person_age'].quantile(0.25)
percentile_75 = df['person_age'].quantile(0.75)
iqr = percentile_75 - percentile_25
upper_limit = percentile_75 + 1.5 * iqr
lower_limit = percentile_25 - 1.5 * iqr

IQR_outliers = df[(df['person_age'] <= lower_limit) | (df['person_age'] >= upper_limit)]
IQR_outliers

### 1.6. Estadísticas descriptivas para variables cualitativas

In [None]:
# Obtener estadísticas para variables cualitativas
df.describe(include='object')

### 1.7. Gráficos de barras para variables cualitativas

In [None]:
# Gráficos de barras
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

sns.countplot(x='person_home_ownership', data=df, ax=axes[0, 0])
axes[0, 0].set_title('person_home_ownership')

sns.countplot(x='loan_intent', data=df, ax=axes[0, 1])
axes[0, 1].set_title('loan_intent')

sns.countplot(x='loan_grade', data=df, ax=axes[1, 0])
axes[1, 0].set_title('loan_grade')

sns.countplot(x='cb_person_default_on_file', data=df, ax=axes[1, 1])
axes[1, 1].set_title('cb_person_default_on_file')

plt.tight_layout()
plt.show()

### Parte 2: Análisis de correlación

### 2.1. Boxplot de la variable 'loan_percent_income' según 'loan_status'

In [None]:
# Crear boxplot para loan_percent_income según loan_status
sns.boxplot(x='loan_status', y='loan_percent_income', data=df)
plt.title('Distribución de loan_percent_income según loan_status')
plt.show()

### 2.2. Gráficos de barras con hue para 'loan_status'

In [None]:
# Gráficos de barras con hue para loan_status
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

sns.countplot(x='person_home_ownership', hue='loan_status', data=df, ax=axes[0, 0])
axes[0, 0].set_title('person_home_ownership según loan_status')

sns.countplot(x='loan_intent', hue='loan_status', data=df, ax=axes[0, 1])
axes[0, 1].set_title('loan_intent según loan_status')

sns.countplot(x='loan_grade', hue='loan_status', data=df, ax=axes[1, 0])
axes[1, 0].set_title('loan_grade según loan_status')

sns.countplot(x='cb_person_default_on_file', hue='loan_status', data=df, ax=axes[1, 1])
axes[1, 1].set_title('cb_person_default_on_file según loan_status')

plt.tight_layout()
plt.show()

### 2.3. Mapa de calor de correlaciones

In [None]:
# Seleccionar solo las columnas numéricas
correlation_matrix = df.select_dtypes(include=['float64', 'int64']).corr()

# Crear mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Mapa de calor de correlaciones entre variables numéricas')
plt.show()