In [2]:
# Abrir y leer el archivo README.md para revisar su contenido
with open('README.md', 'r') as file:
    readme_content = file.read()

readme_content[:2000]  # Mostrar una parte inicial del contenido para revisión

'# Prueba para analisis de datos\n\nPrueba utilizada para aplicar a las plazas de analisis de datos (Entry-level, Junior, y lider)\n'

In [5]:
# Importación de bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score

# 1. Cargar y explorar los datos
# Cargar el conjunto de datos proporcionado
datos_originales = pd.read_csv('default_dataset.csv', sep=',')

# Explorar la estructura y calidad de los datos
print("Información general del dataset:")
print(datos_originales.info())  # Verificación de tipos de datos y valores nulos
print("\nEstadísticas descriptivas:")
print(datos_originales.describe())  # Estadísticas descriptivas iniciales

# 2. Limpieza de Datos
# Eliminar filas con más del 50% de datos faltantes
datos = datos_originales.dropna(thresh=int(0.5 * datos_originales.shape[1]))

# Imputar valores faltantes
datos.fillna(datos.median(), inplace=True)
datos.fillna(datos.mode().iloc[0], inplace=True)

# 3. Selección de Variables y Preprocesamiento
# Selección de características más relevantes
correlaciones = datos.corr()
variables_seleccionadas = correlaciones['default'].sort_values(ascending=False).index[:10]
X = datos[variables_seleccionadas].drop(columns=['default', 'ID'])
y = datos['default']

# Normalización de las variables numéricas
transformador = StandardScaler()
X_normalizado = transformador.fit_transform(X)

# 4. Entrenamiento del Modelo
# Entrenamiento de un modelo Random Forest
modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_normalizado, y)

# 5. Generación de Predicciones y Clasificación en Grupos de Riesgo
# Obtener las probabilidades predichas
probabilidades_predichas = modelo.predict_proba(X_normalizado)[:, 1]

# Clasificación de los clientes en grupos de riesgo
# Definir los límites de los grupos de riesgo
limites_grupos_riesgo = [0, 0.01, 0.015, 0.03, 0.045, 0.08, 0.15, 0.30, 1]
nombres_grupos_riesgo = ['T1', 'T2', 'T3', 'T4', 'T5', 'T6', 'T7', 'T8']
grupos_riesgo = pd.cut(probabilidades_predichas, bins=limites_grupos_riesgo, labels=nombres_grupos_riesgo)

# 6. Generación del Archivo de Resultados
# Crear el DataFrame de resultados y guardarlo en un archivo CSV
resultados = pd.DataFrame({'ID': datos['ID'], 'Grupo de Riesgo': grupos_riesgo})
resultados.to_csv('clasificacion_predicciones.csv', index=False)
print("\nArchivo 'clasificacion_predicciones.csv' generado con éxito.")

# 7. Recomendaciones y Mejoras
# Comentamos posibles mejoras y recomendaciones

# 7.1. Optimización Adicional
# Se recomienda ajustar los hiperparámetros utilizando Random Search o Bayesian Optimization
# para mejorar la precisión y generalización del modelo.

# 7.2. Inclusión de Nuevas Variables
# Considerar la inclusión de variables adicionales, como datos socioeconómicos o más detalles
# sobre el historial crediticio, para aumentar la capacidad predictiva del modelo.

# 7.3. Implementación de un API
# Para obtener puntos adicionales, se sugiere desarrollar un API en Python utilizando Flask o FastAPI,
# que permita exponer el modelo para su consumo en tiempo real.



# ----------------------------------------------------------------------------------------------------------------------------------------#
# 8. Comparación con los datos de 2019 (Código Comentado)
# Este código está comentado ya que requiere los datos de 2019 para ejecutarse.

# # Cargar los datos de febrero de 2019
# datos_febrero = pd.read_csv('ruta_a_tu_archivo_febrero.csv', sep=',')

# # Preprocesamiento similar al conjunto de entrenamiento
# X_febrero = escalador.transform(datos_febrero.drop(columns=['ID']))
# y_probabilidad_febrero = modelo.predict_proba(X_febrero)[:, 1]

# # Clasificación en grupos de riesgo
# grupos_riesgo_febrero = pd.cut(y_probabilidad_febrero, bins=[0, 0.01, 0.015, 0.03, 0.045, 0.08, 0.15, 0.30, 1],
#                               labels=['T1', 'T2', 'T3', 'T4', 'T5', 'T6', 'T7', 'T8'])

# # Generación del archivo CSV para febrero 2019
# resultado_febrero = pd.DataFrame({'ID': datos_febrero['ID'], 'Grupo de Riesgo': grupos_riesgo_febrero})
# resultado_febrero.to_csv('clasificacion_febrero_2019.csv', index=False)
# print("\nArchivo 'clasificacion_febrero_2019.csv' generado con éxito.")

Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27999 entries, 0 to 27998
Data columns (total 25 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   ID         27999 non-null  int64
 1   LIMIT_BAL  27999 non-null  int64
 2   SEX        27999 non-null  int64
 3   EDUCATION  27999 non-null  int64
 4   MARRIAGE   27999 non-null  int64
 5   AGE        27999 non-null  int64
 6   PAY_0      27999 non-null  int64
 7   PAY_2      27999 non-null  int64
 8   PAY_3      27999 non-null  int64
 9   PAY_4      27999 non-null  int64
 10  PAY_5      27999 non-null  int64
 11  PAY_6      27999 non-null  int64
 12  BILL_AMT1  27999 non-null  int64
 13  BILL_AMT2  27999 non-null  int64
 14  BILL_AMT3  27999 non-null  int64
 15  BILL_AMT4  27999 non-null  int64
 16  BILL_AMT5  27999 non-null  int64
 17  BILL_AMT6  27999 non-null  int64
 18  PAY_AMT1   27999 non-null  int64
 19  PAY_AMT2   27999 non-null  int64
 20  PAY_AMT3   27999 