Análisis del riesgo de incumplimiento de los prestatarios
Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una puntuación de crédito para un cliente potencial. La puntuación de crédito se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

[En este cuaderno se te brindan pistas, breves instrucciones y sugerencias para pensar. No los ignores, ya que están diseñados para equiparte con la estructura del proyecto y te ayudarán a analizar lo que estás haciendo en un nivel más profundo. Antes de enviar tu proyecto, asegúrate de eliminar todas las sugerencias y descripciones que se te hayan proporcionado. Más bien, haz que este informe parezca como si se lo estuvieras enviando a tus compañeros de equipo para demostrar tus hallazgos: ¡no deben saber que recibiste ayuda externa de nuestra parte! Para ayudarte, hemos colocado las pistas que debes eliminar entre corchetes.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

1  Abre el archivo de datos y mira la información general.
[Empieza con la importación de las librerías y la carga de los datos. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [1]:

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from IPython.display import display


In [2]:
documento = os.path.join('..','DataFrames','credit_scoring_eng.csv')
df=pd.read_csv(documento)


In [3]:
display(df.describe())
print(f'El DATAFRAME contiene aproximadamente {df.shape[0]} filas y {df.shape[1]} columnas ')

display(df.head())




In [4]:
print(df.info())


Con esto suponemos que days_employed y total_income tienes datos nulos

In [5]:
df_nulos=df[df['days_employed'].isna() & df['total_income'].isna()].reset_index(drop=True)
df_nulos2=df[df['days_employed'].isna() & df['total_income'].isna()]
#.isna() o .isnull() es lo mismo al igual que .notna() y .notnull()
datos_faltantes=df.isnull().sum()


In [6]:
print(f'Datos Faltantes:\n {datos_faltantes}')
print('Con los datos filtrados e insertando .reset_index(drop=True)')
display(df_nulos.head())
print('Con los datos filtrados sin insertar .reset_index(drop=True)')
display(df_nulos2.head())


#matriz.shape[0] se utiliza cuando se trata con matrices o array de numpy matriz=np.array([[1,2,3],[1,2,3]]) 
#len(matriz) se utiliza cuando se trata con una simple lista que contiene otras listas matriz=[[1,2,3],[1,2,3]]
#Ambas nos dara 2

##matriz.shape[2] se utiliza cuando se trata con matrices o array de numpy matriz=np.array([[1,2,3],[1,2,3]]) 
#len(matriz[0]) se utiliza cuando se trata con una simple lista que contiene otras listas matriz=[[1,2,3],[1,2,3]]
#Ambas nos dara 3 en caso de que los elementos sean de la misma cantidad de Columnas 
#(Filas x Columnas) siempre se leen las filas y despues las columnas 
print(f'Los datos Nulos tienen {df_nulos.shape[0]} filas. ')


**Conclusión intermedia**

[¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? ¿Qué conclusión podemos sacar de esto?]

[Calcula el porcentaje de los valores ausentes en comparación con el conjunto de datos completo. ¿Se trata de una porción de datos considerablemente grande? Si es así, es posible que quieras completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. Tendrás que decidir qué característica, según tú, podría ser la razón. En segundo lugar, debemos verificar si los valores ausentes dependen de alguna manera del valor de otros indicadores con las columnas con características de clientes, específicas e identificadas.]

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora.]

In [7]:
#FORMA QUE SE ME OCURRIO SIN EMBARGO RECURRIR A LA FORMA 2 DE CHATGPT ES MAS EFICIENTE
print(df_nulos['income_type'].value_counts(),'\n')
df_nabus=df_nulos[df_nulos['income_type']=='business'].reset_index(drop=True)
df_nacivser=df_nulos[df_nulos['income_type']=='civil servant'].reset_index(drop=True)
df_naret=df_nulos[df_nulos['income_type']=='retiree'].reset_index(drop=True)
df_naemp=df_nulos[df_nulos['income_type']=='employee'].reset_index(drop=True)
df_naent=df_nulos[df_nulos['income_type']=='entrepreneur'].reset_index(drop=True)
print(f'Business: {df_nabus.shape[0]}\nCivil Servant: {df_nacivser.shape[0]}\nRetiree: {df_naret.shape[0]}\nEmployee: {df_naemp.shape[0]}\nEntrepreneur: {df_naent.shape[0]}\nTotal: {df_nabus.shape[0]+df_nacivser.shape[0]+df_naret.shape[0]+df_naemp.shape[0]+df_naent.shape[0]}')

In [8]:

#FORMA 1 CHATPGPT ESTA NO ME GUSTO MUCHO CREO QUE LA FORMA 2 DE CHATPGT ES MAS EFICIENTE
# Agrupar por 'income_type' y contar el número de filas en cada grupo
income_type = df_nulos.groupby('income_type').size()
print(income_type,'\n')
# Imprimir los resultados
print(f"Business: {income_type.get('business', 0)}")
print(f"Civil Servant: {income_type.get('civil servant', 0)}")
print(f"Retiree: {income_type.get('retiree', 0)}")
print(f"Employee: {income_type.get('employee', 0)}")
print(f"Entrepreneur: {income_type.get('entrepreneur', 0)}")
print(f"Total: {income_type.sum()}")


In [9]:
#FORMA 2 CHATPGPT ESTA ES LA FORMA MAS EFICIENTE A MI PARECER

income_type2 = df_nulos['income_type'].value_counts()
print(income_type2,'\n')
print(f"Business: {income_type2.get('business', 0)}")
print(f"Civil Servant: {income_type2.get('civil servant', 0)}")
print(f"Retiree: {income_type2.get('retiree', 0)}")
print(f"Employee: {income_type2.get('employee', 0)}")
print(f"Entrepreneur: {income_type2.get('entrepreneur', 0)}")
print(f"Total: {income_type2.sum()}")


***Concluciones Intermedias***
------------------------------
Los datos muestran que `employee` es la categoria que mas datos nulos **1105** seguido de `business` con **508** despues `retiree` con **413** y los ultimos `civil servant`y `entrepreneur` con **147** y **1** respectivamente.

In [10]:
plt.figure(figsize=(4,3))
plt.hist(df['total_income'])
plt.title('Distribucion del ingreso Total"')
plt.xlabel('Ingreso Total')
plt.ylabel('Cantidad de personas o Frecuencia')
plt.show()

In [11]:

plt.figure(figsize=(4, 3))

df_clean=df.dropna().reset_index(drop=True)

plt.boxplot(df_clean['total_income'],vert=False)
plt.title('Distribucion del Ingreso Total')
plt.xlabel('Total Income o Ingresos Totales')
plt.show()

In [12]:

plt.figure(figsize=(4,3))
#Pone la informacion en el orden que viene
plt.hist(df['education'])
 # Rotar 45 grados y alinear a la derecha
plt.xticks(rotation=45,ha='right')
#Pone la informacion descendente
#df['education'].value_counts().plot(kind='bar')
plt.title('Distribucion de la educacion')
plt.ylabel('Frecuencia')
plt.xlabel('Nivel de Educacion')
plt.show()

In [13]:
df.hist(bins=30,figsize=(20,15))
plt.show()

# CONCLUSIONES INTERMEDIAS
​
CONCLUSIONES INTERMEDIAS:
¿Crees que están ausentes al azar o hay algún patrón?
----------------------------------------------------------
No creo que esten al azar, segun veo estan distribuidos, con un patron aparente
​
Sin embargo podemos notar que la distribucion se inclina a secundary education, por lo que nos da a enteder que es donde hay mas, sin embargo donde hay mas ingresos es en bachelor's degree. Por otra parte tambien de las primeras 2 tablas podemos analizar que el ingreso con mayor frecuencia se da en bachelor's degree.

​
Conclusión intermedia
-----------------------------------
[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

[Si crees que aún no podemos llegar a ninguna conclusión, investiguemos más a fondo nuestro conjunto de datos. Pensemos en otras razones que podrían llevar a la ausencia de datos y verifiquemos si podemos encontrar algún patrón que nos haga pensar que los valores ausentes no son aleatorios. Ya que es tu trabajo, esta sección es opcional.]

In [14]:

df['datos_faltantes']= df['days_employed'].isna() & df['total_income'].isna()

print(df.groupby('income_type')['datos_faltantes'].sum())
df.groupby('income_type')['datos_faltantes'].sum().plot(kind='bar')
plt.title('Cantidad de datos faltantes para cada tipo de empleo')
plt.xlabel('Tipo de empleo')
plt.ylabel('Cantidad de datos faltantes')
plt.show()

In [15]:

df['days_employed'] = df['days_employed'].abs()

correlation = df.select_dtypes(include=[np.number]).corr()
print(correlation['days_employed'])

grouped_data = df.groupby('income_type')['days_employed'].mean()
print(grouped_data)


**Conclusión intermedia**

[¿Podemos finalmente confirmar que los valores ausentes son accidentales? Verifica cualquier otra cosa que creas que podría ser importante aquí.]

**Respuesta:**
En lo personal considero que los datos faltantes son aleatorios, y ademas hay dos tipos de datos faltantes:
- `Los nulos`
-  `Los 0`

**Conclusiones**

[¿Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?]

[Explica cómo abordarás los valores ausentes. Ten en cuenta las categorías en las que faltan valores.]

[Planifica brevemente tus próximos pasos en la transformación de datos. Probablemente tendrás que abordar diferentes tipos de problemas: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.]


**Respuesta**
No eliminare ningun datos nullo o 0, los 0 los puedo manejar perfectamente con mis demas datos, sin embargo los nullos tendre que darles un valor determinado como 0 para proceder a darles un analisis apropiado ademas de que los unicos datos que presentan datos nulos son columnas con datos numericos como:
- `days employed`
- `total income`

In [16]:
df=pd.read_csv(documento)


In [17]:
print(df.isna().sum())

In [18]:
columnas_a_cambiar=['days_employed','total_income']
for i in columnas_a_cambiar:
    df[i]=df[i].fillna(0)
    
    

In [19]:
print(df.isna().sum())

AHORA ELIMINAREMOS LOS DUPLICADOS Y LOS CORREGIREMOS CUALQUIER ERROR EN LA INFORMACION DE CADENAS COMO EN EDUCATION

In [20]:
df=df.drop_duplicates().reset_index(drop=True)
print(f'{df['education'].unique()}\n')
df['education']=df['education'].str.lower()
print(f'{df['education'].unique()}')

In [21]:
print(df.info())

VERIFICAMOS QUE NINGUN OTRA COLUMNA TENGA VALORES ALTERADOS QUE PUEDAN AFECTAR NUESTRO ANALISIS:


In [22]:
for i in df.columns:
    print(f'{i}: {df[i].unique()}')

TODAVIA OBSERVAMOS PECULIARIDADES COMO EN LOS DATOS DE CHILDREN APARECE UN -1 SABEMOS QUE NO SE PUEDE TENER -1 HIJOS POR LO QUE PODEMOS OPTAR POR CONVERTIR ESTE DATO EN 0 O ASUMIR QUE FUE UN ERROR Y CONVERTIRLO A 1, EN MI CASO LO CONVERTIRE A 1, ASI COMO LOS DIAS TRABAJADOS EN NEGATIVOS CONVERTIRLOS A POSTIVOS CON ABS()

In [23]:
df['children']=df['children'].replace({-1:2, 20:2})
df['days_employed']=df['days_employed'].abs()

In [24]:
for i in df.columns:
    print(f'{i}: {df[i].unique()}')

**YA PREPARAMOS TODOS LOS DATOS, AHORA ANALIZAREMOS**

**LO QUE NOS INTERESA SABER ES:**
- 1.-SI LOS HIJOS INFLUYEN EN SI SE TIENE UNA DEUDA O NO.
- 2.-SI EL GRADO DE ESTUDIO TIENE QUE VER CON EL TOTAL DE INGRESOS.
- 3.-SI EL TIPO DE INGRESO TIENE QUE VER CON EL TOTAL DE INGRESOS
- 4.-SI EL ESTADO FAMILIAR TIENE QUE VER CON QUE SE ADQUIERA DEUDA O NO.
- 5.-SI EL AÑO NACIDO TIENE QUE VER CON EL TOTAL DE INGRESOS.




In [49]:
# Agrupar por la cantidad de hijos y contar cuántas personas tienen deuda (debt=1)
print(f'CANTIDAD DE HIJOS VS CON DEUDA:\n{df[df['debt'] == 1].groupby('children').size().apply(lambda x: f'{x} familias con deudas')}')
df[df['debt'] == 1].groupby('children').size().plot(kind='bar',title='CANTIDAD DE HIJOS VS CON DEUDAS')
plt.ylabel('Frecuencia')
plt.show()
df[df['debt'] == 0].groupby('children').size().plot(kind='bar',title='CANTIDAD DE HIJOS VS SIN DEUDAS')
plt.ylabel('Frecuencia')
plt.show()


In [26]:
#forma de CHATGPT DE JUNTARLAS:
# Crear una figura con dos subplots (uno para con deudas y otro para sin deudas)
fig, axes = plt.subplots(1, 2, figsize=(12, 6))  # 1 fila, 2 columnas

# Gráfico de personas con deudas (debt == 1)
df[df['debt'] == 1].groupby('children').size().plot(kind='bar', ax=axes[0], color='orange', title='CANTIDAD DE HIJOS VS CON DEUDAS')
axes[0].set_ylabel('Frecuencia')

# Gráfico de personas sin deudas (debt == 0)
df[df['debt'] == 0].groupby('children').size().plot(kind='bar', ax=axes[1], color='blue', title='CANTIDAD DE HIJOS VS SIN DEUDAS')
axes[1].set_ylabel('Frecuencia')

# Mostrar la figura con ambos gráficos
plt.tight_layout()  # Ajustar el diseño
plt.show()

correlacion_hijos_deudas=df['children'].corr(df['debt'])
print(f'Correlacion -1,1 entre mas cercano a estos valores significa que existe una correlacion alta positiva o negativa\nPOSITIVA:QUIERE DECIR QUE SI AUMENTA UNA AUMENTA OTRA\nNEGATIVA:QUIERE DECIR QUE SI AUMENTA UNA BAJA OTRA.\nCORRELACION:{correlacion_hijos_deudas}')

In [48]:
#EL GRADO DE ESTUDIO TIENE QUE VER CON EL TOTAL DE INGRESOS?
display(df.groupby('education')['total_income'].mean().apply(lambda x: f'${x:,.2f}'))
ax=df.groupby('education')['total_income'].mean().plot(kind='bar',color='blue',title='PROMEDIO DE INGRESOS POR NIVEL EDUCATIVO',figsize=(6,8))
for p in ax.patches:
    ax.annotate(f'{p.get_height():.1f}',(p.get_x()+ p.get_width()/2.,p.get_height()),ha='center',va='center',xytext=(0,10),textcoords='offset points')
plt.ylabel('Promedio de Ingresos')
plt.show()


In [47]:
#Tiene que ver el tipo de ingreso con el total de ingresos?
display(df.groupby('income_type')['total_income'].mean().apply(lambda x: f'${x:,.2f}'))
ax= df.groupby('income_type')['total_income'].mean().plot(kind='bar',title='PROMEDIO DE INGRESOS POR TIPO DE INGRESO',figsize=(8,8))
for p in ax.patches:
    ax.annotate(f'{p.get_height():.1f}', (p.get_x() + p.get_width() / 2., p.get_height()), 
                ha='center', va='center', xytext=(0, 10), textcoords='offset points')
plt.show()

In [46]:
#el estado familiar tiene que ver con adquirir deuda o no?
print(df.groupby('family_status')['total_income'].mean().apply(lambda x: f'${x:,.2f}'))
df.groupby('family_status')['total_income'].mean().plot(kind='pie',title='ESTATUS FAMILIAR VS PROMEDIO DE INGRESOS',autopct='%1.1f%%')
plt.ylabel(' ')
plt.show()


In [68]:
#El dob_year tiene que ver con el total_income?
print(df.groupby('dob_years')['total_income'].mean().apply(lambda x: f'${x:,.2f}'))
df.groupby('dob_years')['total_income'].mean().plot(kind='bar',title='AÑO DE NACIMIENTO VS PROMEDIO DE INGRESOS',figsize=(15,15))
plt.ylabel('PROMEDIO DE INGRESOS')
plt.xlabel('AÑO DE NACIMIENTO 1900+')
plt.show()
correlacion=df['dob_years'].corr(df['total_income'])
print(f'Correlacion -1,1 entre mas cercano a estos valores significa que existe una correlacion alta positiva o negativa\nPOSITIVA:QUIERE DECIR QUE SI AUMENTA UNA AUMENTA OTRA\nNEGATIVA:QUIERE DECIR QUE SI AUMENTA UNA BAJA OTRA.\nCORRELACION:{correlacion}')


**CONCLUSIONES**


Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?

- 1.-Los hijos no influyen en si se adquiere una deuda, por lo que se observa en las graficas
- 2.-Se puede apreciar que el nivel educativo si influye de alguna manera con el total de ingresos que se tienen.
- 3.-No se puede apreciar muy bien si tenga que ver el tipo de ingreso con el total de ingresos, sin embargo se puede observar que los que mas ingresos tienen son los emprendedores con mas $35,000, despues le siguen los empresarios,funcionarios, trabajadores y los demas respectivcamente
- 4.- Segun la grafica de Pie que podemos ver no se aprecia algun patron dependiendo al total de ingresos que se generan, todos generan un promedio de mas de 20,000
- 5.-No veo una correlacion lineal clara entre el dob_years con el total_income percibido, estas serian mis conclusiones.