# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

[En este cuaderno se te brindan pistas, breves instrucciones y sugerencias para pensar. No los ignores, ya que están diseñados para equiparte con la estructura del proyecto y te ayudarán a analizar lo que estás haciendo en un nivel más profundo. Antes de enviar tu proyecto, asegúrate de eliminar todas las sugerencias y descripciones que se te hayan proporcionado. Más bien, haz que este informe parezca como si se lo estuvieras enviando a tus compañeros de equipo para demostrar tus hallazgos: ¡no deben saber que recibiste ayuda externa de nuestra parte! Para ayudarte, hemos colocado las pistas que debes eliminar entre corchetes.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

## Abre el archivo de datos y mira la información general. 

[Empieza con la importación de las librerías y la carga de los datos. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [None]:
# Cargar todas las librerías


# Carga los datos


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Ahora vamos a explorar nuestros datos. Querrás ver cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.]

In [None]:
# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos



In [None]:
# vamos a mostrar las primeras filas N



[Describe lo que ves y notas en tu muestra de datos mostrada en la pantalla. ¿Existe algún problema que pueda necesitar investigación y cambios adicionales?]

In [None]:
# Obtener información sobre los datos


[¿Hay valores ausentes en todas las columnas o solo en algunas? Describe brevemente lo que ves en 1 o 2 oraciones.]

In [None]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos



[¿Los valores ausentes parecen simétricos? ¿Podemos estar seguros de esta suposición? Explica brevemente tus pensamientos en esta sección. Probablemente desees realizar investigaciones adicionales y contar los valores ausentes en todas las filas con valores ausentes para confirmar que las muestras que faltan son del mismo tamaño.]

In [None]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.



**Conclusión intermedia**

[¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? ¿Qué conclusión podemos sacar de esto?]

[Calcula el porcentaje de los valores ausentes en comparación con el conjunto de datos completo. ¿Se trata de una porción de datos considerablemente grande? Si es así, es posible que quieras completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. Tendrás que decidir qué característica, según *tú*, podría ser la razón. En segundo lugar, debemos verificar si los valores ausentes dependen de alguna manera del valor de otros indicadores con las columnas con características de clientes, específicas e identificadas.]

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora.]

In [None]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes



In [None]:
# Comprobación de la distribución



Describe aquí tus hallazgos.]

**Posibles razones por las que hay valores ausentes en los datos**

[Propón tus ideas sobre por qué crees que los valores pueden estar ausentes. ¿Crees que están ausentes al azar o hay algún patrón?]

[Empecemos a comprobar si los valores ausentes son aleatorios.]

In [None]:
# Comprobando la distribución en el conjunto de datos entero



**Conclusión intermedia**

[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

[Si crees que aún no podemos llegar a ninguna conclusión, investiguemos más a fondo nuestro conjunto de datos. Pensemos en otras razones que podrían llevar a la ausencia de datos y verifiquemos si podemos encontrar algún patrón que nos haga pensar que los valores ausentes no son aleatorios. Ya que es tu trabajo, esta sección es opcional.]

In [None]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes



**Conclusión intermedia**

[¿Podemos finalmente confirmar que los valores ausentes son accidentales? Verifica cualquier otra cosa que creas que podría ser importante aquí.]

In [None]:
# Comprobación de otros patrones: explica cuáles

**Conclusiones**

[¿Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?]

[Explica cómo abordarás los valores ausentes. Ten en cuenta las categorías en las que faltan valores.]

[Planifica brevemente tus próximos pasos en la transformación de datos. Probablemente tendrás que abordar diferentes tipos de problemas: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.]

## Transformación de datos

[Repasemos cada columna para ver qué problemas podemos tener en ellas.]

[Comienza con la eliminación de duplicados y la corrección de la información educativa si es necesario.]

In [None]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente


In [None]:
# Arregla los registros si es necesario


In [None]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido



[Comprueba los datos de la columna `children`]

In [None]:
# Veamos la distribución de los valores en la columna `children`


[¿Hay cosas extrañas en esta columna? Si es así, ¿cuál es el porcentaje de datos problemáticos? ¿Cómo es posible que hayan ocurrido? Toma una decisión sobre lo que harás con estos datos y explica tu razonamiento.]

In [None]:
# [arregla los datos según tu decisión]


In [None]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado



[Comprueba los datos en la columna `days_employed`. En primer lugar, piensa qué tipo de problemas podría haber, qué posiblemente desees comprobar y cómo lo harás.]

In [None]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje


[Si la cantidad de datos problemáticos es alta, podría deberse a problemas técnicos. Puede que queramos proponer la razón más obvia por la que podría haber sucedido y cuáles podrían haber sido los datos correctos, ya que no podemos eliminar estas filas problemáticas.]

In [None]:
# Aborda los valores problemáticos, si existen.



In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado


Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.]

In [None]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje



[Decide qué harás con los valores problemáticos y explica por qué.]

In [None]:
# Resuelve los problemas en la columna `dob_years`, si existen


In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado


[Ahora revisemos la columna `family_status`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar.]

In [None]:
# Veamos los valores de la columna



In [None]:
# Aborda los valores problemáticos en `family_status`, si existen



In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado


[Ahora revisemos la columna `gender`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [None]:
# Veamos los valores en la columna

In [None]:
# Aborda los valores problemáticos, si existen

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado



[Ahora vamos a revisar la columna `income_type`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [None]:
# Veamos los valores en la columna

In [None]:
# Aborda los valores problemáticos, si existen

In [None]:
# Comprueba el resultado - asegúrate de que esté arreglado



[Ahora veamos si hay duplicados en nuestros datos. Si los hay, tendrás que decidir qué harás con ellos y explicar por qué.]

In [None]:
# Comprobar los duplicados



In [None]:
# Aborda los duplicados, si existen

In [None]:
# Última comprobación para ver si tenemos duplicados


In [None]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones

[Describe tu nuevo conjunto de datos: di brevemente qué has cambiado y cuál es el porcentaje de cambios, si hubo alguno.]


# Trabajar con valores ausentes

[Para acelerar el trabajo con algunos datos, puede que necesites trabajar con diccionarios para algunos valores, en los que se proporcionan IDs. Explica por qué y con qué diccionarios vas a trabajar.]

In [None]:
# Encuentra los diccionarios

### Restaurar valores ausentes en `total_income`

[Indica brevemente qué columnas tienen valores ausentes que debes abordar. Explica cómo las arreglarás.]


[Empieza por abordar los valores ausentes del ingreso total. Crea una categoría de edad para los clientes. Crea una nueva columna con la categoría de edad. Esta estrategia puede ayudar a calcular valores para el ingreso total.]


In [None]:
# Vamos a escribir una función que calcule la categoría de edad

    

In [None]:
# Prueba si la función funciona bien


In [None]:
# Crear una nueva columna basada en la función



In [None]:
# Comprobar cómo los valores en la nueva columna



[Piensa en los factores de los que suelen depender los ingresos. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Para tomar esta decisión, probablemente querrás ver la distribución de los factores que, según tu análisis, pueden tener un impacto en los ingresos de uno.]

[Crea una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.]

In [None]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien

In [None]:
# Examina los valores medios de los ingresos en función de los factores que identificaste

In [None]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste


[Repite tales comparaciones para múltiples factores. Asegúrate de considerar diferentes aspectos y explica tu razonamiento.]



[Determina qué características definen mejor los ingresos y decide si utilizarás una mediana o una media. Explica por qué tomaste esta decisión.]


In [None]:
#  Escribe una función que usaremos para completar los valores ausentes
        
        

In [None]:
# Comprueba si funciona


In [None]:
# Aplícalo a cada fila


In [None]:
# Comprueba si tenemos algún error


[Si has encontrado errores al preparar los valores para los datos ausentes, probablemente signifique que hay algo especial en los datos de la categoría. Piénsalo un poco: tal vez hará falta arreglar algunas cosas manualmente, si hay suficientes datos para encontrar medianas/medias.]


In [None]:
# Reemplazar los valores ausentes si hay algún error


[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [None]:
# Comprobar el número de entradas en las columnas



###  Restaurar valores en `days_employed`

[Piensa en los parámetros que pueden ayudarte a restaurar los valores ausentes en esta columna. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Probablemente llevarás a cabo una investigación similar a la que realizaste cuando restauraste los datos en la columna anterior.]

In [None]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados




In [None]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados

[Decide qué vas a utilizar: medias o medianas. Explica por qué.]

In [None]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado


In [None]:
# Comprueba que la función funciona



In [None]:
# Aplicar la función al income_type



In [None]:
# Comprueba si la función funcionó



In [None]:
# Reemplazar valores ausentes



[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [None]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes

## Clasificación de datos

[Para poder responder a las preguntas y probar las diferentes hipótesis, querrás trabajar con datos clasificados. Mira las preguntas formuladas que debes responder. Piensa qué parte de los datos tiene que ser clasificada para responder a estas preguntas. A continuación, encontrarás una plantilla a través de la cual puedes trabajar para clasificar los datos. El primer procesamiento paso a paso cubre los datos de texto; el segundo aborda los datos numéricos que necesitan ser clasificados. Puedes usar ambas o ninguna de las instrucciones sugeridas, eso solo depende de ti.]

[Independientemente de cómo decidas abordar la clasificación, asegúrate de proporcionar una explicación clara de la razón por la que tomaste tu decisión. Recuerda: este es tu trabajo y aquí tú tomas todas las decisiones.]


In [None]:
# Muestra los valores de los datos seleccionados para la clasificación



[Vamos a comprobar los valores únicos]

In [None]:
# Comprobar los valores únicos

[¿Qué grupos principales puedes identificar en función de los valores únicos?]

[Según estos temas, probablemente querremos clasificar nuestros datos.]


In [None]:
# Escribamos una función para clasificar los datos en función de temas comunes


In [None]:
# Crea una columna con las categorías y cuenta los valores en ellas



[Si decides clasificar los datos numéricos, también tendrás que crear las categorías para ello.]

In [None]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación


In [None]:
# Obtener estadísticas resumidas para la columna



[Decide qué rangos utilizarás para agrupar y explica por qué.]

In [None]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos



In [None]:
# Crear una columna con categorías


In [None]:
# Contar los valores de cada categoría para ver la distribución


## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [None]:
# Comprueba los datos sobre los hijos y los pagos puntuales


# Calcular la tasa de incumplimiento en función del número de hijos



**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]


**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [None]:
# Comprueba los datos del estado familiar y los pagos a tiempo



# Calcular la tasa de incumplimiento basada en el estado familiar



**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [None]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo



# Calcular la tasa de incumplimiento basada en el nivel de ingresos



**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [None]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos



**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]


# Conclusión general 

[Enumera tus conclusiones en esta última sección. Asegúrate de incluir todas las conclusiones importantes que hiciste y que te llevaron a la forma en que procesaste y analizaste los datos. Habla de los valores ausentes, los duplicados y las posibles razones y soluciones para los artefactos problemáticos que tuviste que abordar.]

[Enumera tus conclusiones con respecto a las preguntas planteadas aquí también.]
