----

# Análisis del riesgo de incumplimiento de los prestatarios

Tu proyecto consiste en preparar un informe para la división de préstamos de un banco. Deberás averiguar si el estado civil y el número de hijos de un cliente tienen un impacto en el incumplimiento de pago de un préstamo. El banco ya tiene algunos datos sobre la solvencia crediticia de los clientes.

Tu informe se tendrá en cuenta al crear una **puntuación de crédito** para un cliente potencial. La **puntuación de crédito** se utiliza para evaluar la capacidad de un prestatario potencial para pagar su préstamo.

[En este cuaderno se te brindan pistas, breves instrucciones y sugerencias para pensar. No los ignores, ya que están diseñados para equiparte con la estructura del proyecto y te ayudarán a analizar lo que estás haciendo en un nivel más profundo. Antes de enviar tu proyecto, asegúrate de eliminar todas las sugerencias y descripciones que se te hayan proporcionado. Más bien, haz que este informe parezca como si se lo estuvieras enviando a tus compañeros de equipo para demostrar tus hallazgos: ¡no deben saber que recibiste ayuda externa de nuestra parte! Para ayudarte, hemos colocado las pistas que debes eliminar entre corchetes.]

[Antes de sumergirte en el análisis de tus datos, explica los propósitos del proyecto y las hipótesis que vas a evaluar.]

## Abre el archivo de datos y mira la información general. 

[Empieza con la importación de las librerías y la carga de los datos. Es posible que te des cuenta de que necesitas librerías adicionales a medida que avanzas, lo cual es totalmente normal, solo asegúrate de actualizar esta sección cuando lo hagas.]

In [2]:
import pandas as pd

credit_proyect = pd.read_csv("/datasets/credit_scoring_eng.csv")# Cargar todas las librerías


# Carga los datos


In [3]:
credit_proyect

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Ejercicio 1. Exploración de datos

**Descripción de los datos**
- `children` - el número de hijos en la familia
- `days_employed` - experiencia laboral en días
- `dob_years` - la edad del cliente en años
- `education` - la educación del cliente
- `education_id` - identificador de educación
- `family_status` - estado civil
- `family_status_id` - identificador de estado civil
- `gender` - género del cliente
- `income_type` - tipo de empleo
- `debt` - ¿había alguna deuda en el pago de un préstamo?
- `total_income` - ingreso mensual
- `purpose` - el propósito de obtener un préstamo

[Ahora vamos a explorar nuestros datos. Querrás ver cuántas columnas y filas hay, observa algunas filas para identificar posibles problemas con los datos.]

In [4]:
credit_proyect.shape# Vamos a ver cuántas filas y columnas tiene nuestro conjunto de datos



(21525, 12)

In [5]:
credit_proyect.head()# vamos a mostrar las primeras filas N



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


[Describe lo que ves y notas en tu muestra de datos mostrada en la pantalla. ¿Existe algún problema que pueda necesitar investigación y cambios adicionales?]
- Días de experiencia laboral en negativo.
- Columna education tiene valores en mayúscula

In [6]:
credit_proyect.info()# Obtener información sobre los datos


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


[¿Hay valores ausentes en todas las columnas o solo en algunas? Describe brevemente lo que ves en 1 o 2 oraciones.]
- Existen valores ausentes en columnas days_employed y columna total_income.
- Ambas columnas tienen la misma cantidad de información ausente.

In [7]:
# Veamos la tabla filtrada con valores ausentes de la primera columna donde faltan datos
credit_proyect_filtered = credit_proyect[credit_proyect["days_employed"].isnull()]
credit_proyect_filtered

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[¿Los valores ausentes parecen simétricos? ¿Podemos estar seguros de esta suposición? Explica brevemente tus pensamientos en esta sección. Probablemente desees realizar investigaciones adicionales y contar los valores ausentes en todas las filas con valores ausentes para confirmar que las muestras que faltan son del mismo tamaño.]
- Al parecer los valores ausentes son simétricos en las columnas "days_employed" y "total_income"

In [8]:
# Apliquemos múltiples condiciones para filtrar datos y veamos el número de filas en la tabla filtrada.
credit_proyect_filtered = credit_proyect[(credit_proyect["days_employed"].isnull()) & (credit_proyect["total_income"].isnull())]
print(f" tenemos un total de {len(credit_proyect_filtered)} valores ausentes")

 tenemos un total de 2174 valores ausentes


In [9]:
print(f" tenemos un total de {len(credit_proyect)} valores")

 tenemos un total de 21525 valores


In [10]:
porcentaje_ausentes = round(len(credit_proyect_filtered) / len(credit_proyect) * 100,2)
print(f" los valores ausentes son un {porcentaje_ausentes}% de los datos totales")

 los valores ausentes son un 10.1% de los datos totales


**Conclusión intermedia**

[¿El número de filas en la tabla filtrada coincide con el número de valores ausentes? ¿Qué conclusión podemos sacar de esto?]

[Calcula el porcentaje de los valores ausentes en comparación con el conjunto de datos completo. ¿Se trata de una porción de datos considerablemente grande? Si es así, es posible que quieras completar los valores ausentes. Para hacer eso, primero debemos definir si los datos ausentes podrían deberse a la característica específica del cliente, como el tipo de empleo u otra cosa. Tendrás que decidir qué característica, según *tú*, podría ser la razón. En segundo lugar, debemos verificar si los valores ausentes dependen de alguna manera del valor de otros indicadores con las columnas con características de clientes, específicas e identificadas.]

[Explica tus próximos pasos y cómo se correlacionan con las conclusiones que has hecho hasta ahora.]

- El número de filas coincide con los valores ausentes.
- Dado el porcentaje de ausentes en relación a los datos totales, no puedo concluir si son muchos o pocos aún.

Crearemos una tabla limpia, sin datos ausentes, para ver la relación con la columna "education_id", y ver la distribución de chicha columna, para ver si encontramos datos que nos explique un poco los datos ausentes

In [11]:
# limpiar información
credit_proyect_clean = credit_proyect.dropna()
print(credit_proyect_clean)

       children  days_employed  dob_years            education  education_id  \
0             1   -8437.673028         42    bachelor's degree             0   
1             1   -4024.803754         36  secondary education             1   
2             0   -5623.422610         33  Secondary Education             1   
3             3   -4124.747207         32  secondary education             1   
4             0  340266.072047         53  secondary education             1   
...         ...            ...        ...                  ...           ...   
21520         1   -4529.316663         43  secondary education             1   
21521         0  343937.404131         67  secondary education             1   
21522         1   -2113.346888         38  secondary education             1   
21523         3   -3112.481705         38  secondary education             1   
21524         2   -1984.507589         40  secondary education             1   

           family_status  family_status

In [12]:
# comprobar que se limpiaron los datos
credit_proyect_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19351 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          19351 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         19351 non-null  int64  
 3   education         19351 non-null  object 
 4   education_id      19351 non-null  int64  
 5   family_status     19351 non-null  object 
 6   family_status_id  19351 non-null  int64  
 7   gender            19351 non-null  object 
 8   income_type       19351 non-null  object 
 9   debt              19351 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           19351 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 1.9+ MB


In [13]:
# Vamos a investigar a los clientes que no tienen datos sobre la característica identificada y la columna con los valores ausentes
variable_ed = "education_id"

serie_clean = credit_proyect_clean[variable_ed]
serie_filtered = credit_proyect_filtered[variable_ed]

print("los valores con datos limpios")
print(serie_clean.value_counts())
print("-----")
print("los valores con datos ausentes")
print(serie_filtered.value_counts())

los valores con datos limpios
1    13693
0     4716
2      675
3      261
4        6
Name: education_id, dtype: int64
-----
los valores con datos ausentes
1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64


In [14]:
# Comprobación de la distribución
p_serie_clean = len(serie_clean)
p_serie_filtered = len(serie_filtered)

print("distribucion de los valores completos")
print(round(serie_clean.value_counts() / p_serie_clean *100,2))
print("-----")
print("distribucion de los valores ausentes")
print(round(serie_filtered.value_counts() / p_serie_filtered * 100,2))

distribucion de los valores completos
1    70.76
0    24.37
2     3.49
3     1.35
4     0.03
Name: education_id, dtype: float64
-----
distribucion de los valores ausentes
1    70.84
0    25.02
2     3.17
3     0.97
Name: education_id, dtype: float64


Describe aquí tus hallazgos.]
- No existe mucha diferencia, por lo que este método no comprueba la correlación.

**Posibles razones por las que hay valores ausentes en los datos**

[Propón tus ideas sobre por qué crees que los valores pueden estar ausentes. ¿Crees que están ausentes al azar o hay algún patrón?]

[Empecemos a comprobar si los valores ausentes son aleatorios.]
- Según lo que pienso, es que hubieron personas que no quisieron facilitar los datos con respecto a días trabajados y el total de sueldo ganado.

In [15]:
# Comprobando la distribución en el conjunto de datos entero
print("Datos enteros")
print(credit_proyect.describe())
print("-----")
print("Datos ausentes")
print(credit_proyect_filtered.describe())


Datos enteros
           children  days_employed     dob_years  education_id  \
count  21525.000000   19351.000000  21525.000000  21525.000000   
mean       0.538908   63046.497661     43.293380      0.817236   
std        1.381587  140827.311974     12.574584      0.548138   
min       -1.000000  -18388.949901      0.000000      0.000000   
25%        0.000000   -2747.423625     33.000000      1.000000   
50%        0.000000   -1203.369529     42.000000      1.000000   
75%        1.000000    -291.095954     53.000000      1.000000   
max       20.000000  401755.400475     75.000000      4.000000   

       family_status_id          debt   total_income  
count      21525.000000  21525.000000   19351.000000  
mean           0.972544      0.080883   26787.568355  
std            1.420324      0.272661   16475.450632  
min            0.000000      0.000000    3306.762000  
25%            0.000000      0.000000   16488.504500  
50%            0.000000      0.000000   23202.870000  
75%   

**Conclusión intermedia**

[¿Es similar la distribución en el conjunto de datos original a la distribución de la tabla filtrada? ¿Qué significa eso para nosotros?]

- La distribución en todas las columnas es muy parecida, con poca diferencia, por lo que aún no podemos llegar a una conclusión.

[Si crees que aún no podemos llegar a ninguna conclusión, investiguemos más a fondo nuestro conjunto de datos. Pensemos en otras razones que podrían llevar a la ausencia de datos y verifiquemos si podemos encontrar algún patrón que nos haga pensar que los valores ausentes no son aleatorios. Ya que es tu trabajo, esta sección es opcional.]

In [16]:
# Comprueba otras razones y patrones que podrían llevar a valores ausentes
print("datos ausentes de days_employed por genre")
print(credit_proyect[credit_proyect['days_employed'].isnull()]['gender'].value_counts())
print("-----")
print('datos ausentes de total_income por genre')
print(credit_proyect[credit_proyect['total_income'].isnull()]['gender'].value_counts())

datos ausentes de days_employed por genre
F    1484
M     690
Name: gender, dtype: int64
-----
datos ausentes de total_income por genre
F    1484
M     690
Name: gender, dtype: int64


**Conclusión intermedia**

[¿Podemos finalmente confirmar que los valores ausentes son accidentales? Verifica cualquier otra cosa que creas que podría ser importante aquí.]

- El recuento de datos faltantes por género muestra que los datos no faltan al azar, es decir, falta el mismo número de personas de ambos sexos en las columnas de días_empleados e ingresos_totales.

In [17]:
# Comprobación de otros patrones: explica cuáles


**Conclusiones**

[¿Encontraste algunos patrones? ¿Cómo llegaste a esta conclusión?]
- **Según se puede observar en las tablas de ausentes y las tablas con datos completos, de clasificación cuantitativa, la distribución en todas las columnas es muy similar, por lo que se podría concluir que los datos ausentes estan de manera aleatoria.**


[Explica cómo abordarás los valores ausentes. Ten en cuenta las categorías en las que faltan valores.]

- **Podría concluir que los datos ausentes muestran un 10% de los datos, podría no influir al eliminarlos, pero quiero estar seguro de esto**




[Planifica brevemente tus próximos pasos en la transformación de datos. Probablemente tendrás que abordar diferentes tipos de problemas: duplicados, diferentes registros, artefactos incorrectos y valores ausentes.]

## Transformación de datos

[Repasemos cada columna para ver qué problemas podemos tener en ellas.]

[Comienza con la eliminación de duplicados y la corrección de la información educativa si es necesario.]

In [18]:
# Veamos todos los valores en la columna de educación para verificar si será necesario corregir la ortografía y qué habrá que corregir exactamente
credit_proyect["education"].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [19]:
# Arregla los registros si es necesario
credit_proyect['education'] = credit_proyect['education'].str.lower()
credit_proyect['education'].value_counts().sort_values(ascending=False)

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [20]:
# Comprobar todos los valores en la columna para asegurarnos de que los hayamos corregido
credit_proyect['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

[Comprueba los datos de la columna `children`]

In [21]:
# Veamos la distribución de los valores en la columna `children`
credit_proyect["children"].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

[¿Hay cosas extrañas en esta columna? Si es así, ¿cuál es el porcentaje de datos problemáticos? ¿Cómo es posible que hayan ocurrido? Toma una decisión sobre lo que harás con estos datos y explica tu razonamiento.]

- Primero contabilizaremos la cantidad de personas en los datos extraños que existen en esta columna.

In [22]:
# [arregla los datos según tu decisión]
credit_proyect["children"].value_counts()


 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

- Lo que haremos será pasar el valor -1 a positivo, ya que porbablemente fue error de tipeo, y dada la cantidad de personas con el dato -1, no inlfuirá mucho en los datos.

In [23]:
credit_proyect['children'] = credit_proyect['children'].abs()

In [24]:
print(credit_proyect["children"].value_counts())
print("----")
print(credit_proyect["children"].count())

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64
----
21525


- Ya no tenemos el problema del valor -1.
- Ahora veremos el % de la cantidad que tiene 20 hijos, dato extraño también.

In [25]:
#Vamos a sacar el % de los valores con 20 hijos, para ver si podemos eliminarlo o no
twenty_date = 76
total = 21525
porcentaje_twenty = round((twenty_date / total) * 100,2)
print(f" El porcentaje con valor 20 es de {porcentaje_twenty}% del valor total")

 El porcentaje con valor 20 es de 0.35% del valor total


In [26]:
#Es un porcentaje muy bajo, por lo que procederemos a eliminar todos los valores con 20 hijos
credit_proyect = credit_proyect.drop(credit_proyect[credit_proyect["children"] == 20].index)

In [27]:
# Comprobar la columna `children` de nuevo para asegurarnos de que todo está arreglado
credit_proyect["children"].value_counts()


0    14149
1     4865
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

[Comprueba los datos en la columna `days_employed`. En primer lugar, piensa qué tipo de problemas podría haber, qué posiblemente desees comprobar y cómo lo harás.]

In [28]:
# Encuentra datos problemáticos en `days_employed`, si existen, y calcula el porcentaje
credit_proyect["days_employed"].describe()


count     19284.000000
mean      63141.233527
std      140910.281638
min      -18388.949901
25%       -2747.876441
50%       -1204.164714
75%        -290.206221
max      401755.400475
Name: days_employed, dtype: float64

In [29]:
credit_proyect[credit_proyect["days_employed"] > 0].describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,3438.0,3438.0,3438.0,3438.0,3438.0,3438.0,3438.0
mean,0.091914,365012.75258,59.1242,0.914485,0.984875,0.052938,21943.583773
std,0.32764,21084.103702,7.583268,0.517615,1.316754,0.223942,12848.298935
min,0.0,328728.720605,0.0,0.0,0.0,0.0,3306.762
25%,0.0,346644.380031,56.0,1.0,0.0,0.0,13260.6225
50%,0.0,365249.346345,60.0,1.0,0.0,0.0,18945.0055
75%,0.0,383275.750772,64.0,1.0,2.0,0.0,27162.39675
max,4.0,401755.400475,74.0,4.0,4.0,1.0,117616.523


In [30]:
# Se sacará el porcentaje de datos
datos_totales_days = 21348
datos_positivos_days = 3438
porcentaje_days = round((datos_positivos_days / datos_totales_days) * 100,2)
porcentaje_days

16.1

-**En consideración que los datos que aparecen en positivo, son datos incongruentes, los eliminaré**

In [31]:
credit_proyect = credit_proyect.drop(credit_proyect[credit_proyect["days_employed"] > 0].index)

In [32]:
credit_proyect[credit_proyect["days_employed"] > 0].describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,,
std,,,,,,,
min,,,,,,,
25%,,,,,,,
50%,,,,,,,
75%,,,,,,,
max,,,,,,,


In [33]:
# Transformaremos los datos en negativo a positivo
credit_proyect['days_employed'] = abs(credit_proyect['days_employed'])


In [34]:
credit_proyect["days_employed"].describe()

count    15846.000000
mean      2353.798816
std       2304.164544
min         24.141633
25%        757.151250
50%       1631.100855
75%       3157.881359
max      18388.949901
Name: days_employed, dtype: float64

[Si la cantidad de datos problemáticos es alta, podría deberse a problemas técnicos. Puede que queramos proponer la razón más obvia por la que podría haber sucedido y cuáles podrían haber sido los datos correctos, ya que no podemos eliminar estas filas problemáticas.]
- **Se cambiaron los datos negativos a positivos.**

- **Se eliminaron los datos que se encontraban en un principio en positivos, ya que éstos datos corespondían a 172 años hacia arriba**




In [35]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_proyect['days_employed'].head(10)

0     8437.673028
1     4024.803754
2     5623.422610
3     4124.747207
5      926.185831
6     2879.202052
7      152.779569
8     6929.865299
9     2188.756445
10    4171.483647
Name: days_employed, dtype: float64

Ahora echemos un vistazo a la edad de clientes para ver si hay algún problema allí. Una vez más, piensa qué datos pueden ser extraños en esta columna, es decir, qué dato no puede ser la edad de alguien.]

In [36]:
# Revisa `dob_years` en busca de valores sospechosos y cuenta el porcentaje
credit_proyect["dob_years"].unique()


array([42, 36, 33, 32, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24, 21,
       28, 63, 47, 34, 25, 31, 30, 20, 49, 37, 45, 61, 44, 53, 52, 46, 23,
       38, 39, 51, 62, 29, 59, 55, 64, 58,  0, 60, 22, 66, 69, 57, 19, 67,
       71, 70, 68, 72, 75, 74, 73])

- Aca el problema que veo, es que hay un valor de personas con 0 años.
- Contaremos cuantas personas con 0 años existe, para sacar el % y decidir que hacer con este problema

In [37]:
credit_proyect["dob_years"].value_counts().sort_values()

75      1
73      2
74      2
72      5
71     10
69     11
70     11
19     14
68     19
67     35
66     44
20     51
65     58
63     77
0      83
64     86
21    110
62    117
60    133
61    141
22    182
59    188
57    247
23    253
58    253
24    263
55    281
56    299
54    333
53    353
25    356
51    374
52    388
26    405
50    450
46    459
47    467
49    476
45    483
27    488
28    502
43    502
32    505
48    517
37    528
44    535
30    537
29    543
36    550
31    557
39    568
33    577
42    585
38    589
34    597
40    598
41    599
35    614
Name: dob_years, dtype: int64

In [38]:
credit_proyect["dob_years"].count()

18011

In [39]:
# Se encontraron 83 personas con 0 años, por lo que sacaremos el porcentaje de ese dato
credit_proyect_v = 83
total = 18011
credit_porcentaje = round((credit_proyect_v / total) * 100,2)
print(f" el porcentaje de los valores con edad 0 es de {credit_porcentaje}%")

 el porcentaje de los valores con edad 0 es de 0.46%


[Decide qué harás con los valores problemáticos y explica por qué.]
- El % es muy bajo, por lo que eliminaremos este dato con 0 años, ya que darle una media no sirve, ya que transformaría a float64

In [40]:
# Resuelve los problemas en la columna `dob_years`, si existen
credit_proyect = credit_proyect.drop(credit_proyect[credit_proyect["dob_years"] == 0].index)


In [41]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_proyect["dob_years"].value_counts()

35    614
41    599
40    598
34    597
38    589
42    585
33    577
39    568
31    557
36    550
29    543
30    537
44    535
37    528
48    517
32    505
28    502
43    502
27    488
45    483
49    476
47    467
46    459
50    450
26    405
52    388
51    374
25    356
53    353
54    333
56    299
55    281
24    263
58    253
23    253
57    247
59    188
22    182
61    141
60    133
62    117
21    110
64     86
63     77
65     58
20     51
66     44
67     35
68     19
19     14
70     11
69     11
71     10
72      5
74      2
73      2
75      1
Name: dob_years, dtype: int64

[Ahora revisemos la columna `family_status`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar.]

In [42]:
# Veamos los valores de la columna
credit_proyect["family_status"].value_counts()


married              10422
civil partnership     3568
unmarried             2479
divorced               986
widow / widower        473
Name: family_status, dtype: int64

In [43]:
# Aborda los valores problemáticos en `family_status`, si existen
# No se visualizan datos problamáticos


In [44]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_proyect["family_status"].value_counts()

married              10422
civil partnership     3568
unmarried             2479
divorced               986
widow / widower        473
Name: family_status, dtype: int64

[Ahora revisemos la columna `gender`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [45]:
# Veamos los valores en la columna
credit_proyect["gender"].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [46]:
credit_proyect["gender"].value_counts()

F      11333
M       6594
XNA        1
Name: gender, dtype: int64

In [47]:
#Como el valor de XNA es 1 sola persona, lo eliminaremos
credit_proyect = credit_proyect.drop(credit_proyect[credit_proyect["gender"] == "XNA"].index)

In [48]:
credit_proyect["gender"].value_counts()

F    11333
M     6594
Name: gender, dtype: int64

- Aca el problema era el dato XNA, que tenia solo una persona, por lo que se eliminó ese dato

In [49]:
# Aborda los valores problemáticos, si existen


In [50]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_proyect["gender"].unique()


array(['F', 'M'], dtype=object)

[Ahora vamos a revisar la columna `income_type`. Mira qué tipo de valores hay y qué problemas puedes tener que abordar]

In [51]:
# Veamos los valores en la columna
credit_proyect["income_type"].unique()

array(['employee', 'business', 'retiree', 'civil servant', 'entrepreneur',
       'student', 'paternity / maternity leave'], dtype=object)

In [52]:
# Aborda los valores problemáticos, si existen
# Cambiare los datos de "paternity / maternity leave" a "paternitys leave"
credit_proyect.loc[credit_proyect['income_type'] == "paternity / maternity leave", 'income_type'] = 'paternitys leave'

In [53]:
# Comprueba el resultado - asegúrate de que esté arreglado
credit_proyect["income_type"].unique()


array(['employee', 'business', 'retiree', 'civil servant', 'entrepreneur',
       'student', 'paternitys leave'], dtype=object)

[Ahora veamos si hay duplicados en nuestros datos. Si los hay, tendrás que decidir qué harás con ellos y explicar por qué.]

In [54]:
# Comprobar los duplicados
credit_proyect.duplicated().sum()


71

In [55]:
credit_proyect[credit_proyect.duplicated(keep=False)].sort_values(by="education")

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
14432,2,,36,bachelor's degree,0,married,0,F,civil servant,0,,getting an education
3690,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
3452,0,,29,bachelor's degree,0,married,0,M,employee,0,,buy residential real estate
9013,2,,36,bachelor's degree,0,married,0,F,civil servant,0,,getting an education
18349,1,,30,bachelor's degree,0,married,0,F,civil servant,0,,purchase of the house for my family
...,...,...,...,...,...,...,...,...,...,...,...,...
7995,0,,57,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
7938,0,,71,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
7808,0,,57,secondary education,1,civil partnership,1,F,retiree,0,,having a wedding
9627,0,,56,secondary education,1,married,0,F,retiree,0,,transactions with my real estate


In [56]:
# Aborda los duplicados, si existen
credit_proyect = credit_proyect.drop_duplicates().reset_index()

In [57]:
# Última comprobación para ver si tenemos duplicados
credit_proyect.duplicated().sum()

0

In [58]:
# Comprueba el tamaño del conjunto de datos que tienes ahora, después de haber ejecutado estas primeras manipulaciones
credit_proyect.shape

(17856, 13)

[Describe tu nuevo conjunto de datos: di brevemente qué has cambiado y cuál es el porcentaje de cambios, si hubo alguno.]
- **Se eliminan los duplicados**

# Trabajar con valores ausentes

[Para acelerar el trabajo con algunos datos, puede que necesites trabajar con diccionarios para algunos valores, en los que se proporcionan IDs. Explica por qué y con qué diccionarios vas a trabajar.]

In [59]:
# Encuentra los diccionarios
education_dict = credit_proyect[['education','education_id']]

family_dict = credit_proyect[['family_status','family_status_id']]

education_dict
family_dict

Unnamed: 0,family_status,family_status_id
0,married,0
1,married,0
2,married,0
3,married,0
4,civil partnership,1
...,...,...
17851,divorced,3
17852,civil partnership,1
17853,civil partnership,1
17854,married,0


### Restaurar valores ausentes en `total_income`

[Indica brevemente qué columnas tienen valores ausentes que debes abordar. Explica cómo las arreglarás.]


[Empieza por abordar los valores ausentes del ingreso total. Crea una categoría de edad para los clientes. Crea una nueva columna con la categoría de edad. Esta estrategia puede ayudar a calcular valores para el ingreso total.]

- Creo que por error cambie de lugar la parte del proyecto de restaurar valores ausentes

In [60]:
credit_proyect["dob_years"].sort_values()

10815    19
7637     19
6875     19
12983    19
8504     19
         ..
12813    73
15484    73
10238    74
9587     74
7345     75
Name: dob_years, Length: 17856, dtype: int64

In [61]:
# Vamos a escribir una función que calcule la categoría de edad
def age_group(dob_years):
    if dob_years <= 35:
        return "joven"
    if dob_years <= 60:
        return "adulto"
    if dob_years > 60:
        return "adulto mayor"
    
    

In [62]:
# Prueba si la función funciona bien
print(age_group(42))

adulto


In [63]:
# Crear una nueva columna basada en la función
credit_proyect['age_group'] = credit_proyect['dob_years'].apply(age_group)


In [64]:
# Comprobar cómo los valores en la nueva columna
credit_proyect.head(10)


Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adulto
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adulto
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,joven
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,joven
4,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,joven
5,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adulto
6,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adulto
7,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,joven
8,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adulto
9,10,2,4171.483647,36,bachelor's degree,0,married,0,M,business,0,18230.959,buy real estate,adulto


[Piensa en los factores de los que suelen depender los ingresos. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Para tomar esta decisión, probablemente querrás ver la distribución de los factores que, según tu análisis, pueden tener un impacto en los ingresos de uno.]

[Crea una tabla que solo tenga datos sin valores ausentes. Estos datos se utilizarán para restaurar los valores ausentes.]

In [65]:
# Crea una tabla sin valores ausentes y muestra algunas de sus filas para asegurarte de que se ve bien
credit_proyect_clean = credit_proyect.dropna() 

In [66]:
credit_proyect_clean['total_income'].isna().sum()

0

In [67]:
# Examina los valores medios de los ingresos en función de los factores que identificaste
credit_proyect_clean['total_income'].mean()

27845.938624017246

In [68]:
# Examina los valores medianos de los ingresos en función de los factores que identificaste
credit_proyect_clean['total_income'].median()

24179.1815

[Repite tales comparaciones para múltiples factores. Asegúrate de considerar diferentes aspectos y explica tu razonamiento.]



In [69]:
#mean_values = credit_proyect.groupby("age_group")['total_income'].mean()
#median_values = credit_proyect.groupby("age_group")['total_income'].median()

#print(mean_values)
#print("-----")
#print(median_values)


[Determina qué características definen mejor los ingresos y decide si utilizarás una mediana o una media. Explica por qué tomaste esta decisión.]
- Considero que en este caso lo mejor es asignarle la mediana a los datos ausentes, ya que hay mucha diferencia entre el valor mínimo y valor máximo, y la mayoria de las personas estan mas cerca del valor mínimo.


In [70]:
#  Escribe una función que usaremos para completar los valores ausentes

def reemplazar_nas_median(credit_proyect):
    median_values = credit_proyect.groupby("age_group")['total_income'].median()
    
    credit_proyect.loc[(credit_proyect["age_group"] == "joven") & credit_proyect['total_income'].isna(), 'total_income'] = median_values.loc["joven"]
    credit_proyect.loc[(credit_proyect["age_group"] == "adulto") & credit_proyect['total_income'].isna(), 'total_income'] = median_values.loc["adulto"]
    credit_proyect.loc[(credit_proyect["age_group"] == "adulto mayor") & credit_proyect['total_income'].isna(), 'total_income'] = median_values.loc["adulto mayor"]
    return credit_proyect

print(reemplazar_nas_median(credit_proyect))





       index  children  days_employed  dob_years            education  \
0          0         1    8437.673028         42    bachelor's degree   
1          1         1    4024.803754         36  secondary education   
2          2         0    5623.422610         33  secondary education   
3          3         3    4124.747207         32  secondary education   
4          5         0     926.185831         27    bachelor's degree   
...      ...       ...            ...        ...                  ...   
17851  21519         1    2351.431934         37      graduate degree   
17852  21520         1    4529.316663         43  secondary education   
17853  21522         1    2113.346888         38  secondary education   
17854  21523         3    3112.481705         38  secondary education   
17855  21524         2    1984.507589         40  secondary education   

       education_id      family_status  family_status_id gender income_type  \
0                 0            married      

In [71]:
# Comprueba si funciona
credit_proyect['total_income'].isna().sum()

0

In [72]:
# Aplícalo a cada fila
# Creo que ya se aplicó a cada fila

In [73]:
# Comprueba si tenemos algún error
credit_proyect['total_income'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
17851    False
17852    False
17853    False
17854    False
17855    False
Name: total_income, Length: 17856, dtype: bool

In [74]:
credit_proyect['total_income'].describe()

count     17856.000000
mean      27437.398437
std       16032.238753
min        3418.824000
25%       18129.348500
50%       24547.677000
75%       32011.075250
max      362496.645000
Name: total_income, dtype: float64

In [75]:
#Se cambian el tipo de dato en "total_income" de float64 a int64
credit_proyect['total_income'] = credit_proyect['total_income'].astype('int')

credit_proyect.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17856 entries, 0 to 17855
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             17856 non-null  int64  
 1   children          17856 non-null  int64  
 2   days_employed     15772 non-null  float64
 3   dob_years         17856 non-null  int64  
 4   education         17856 non-null  object 
 5   education_id      17856 non-null  int64  
 6   family_status     17856 non-null  object 
 7   family_status_id  17856 non-null  int64  
 8   gender            17856 non-null  object 
 9   income_type       17856 non-null  object 
 10  debt              17856 non-null  int64  
 11  total_income      17856 non-null  int64  
 12  purpose           17856 non-null  object 
 13  age_group         17856 non-null  object 
dtypes: float64(1), int64(7), object(6)
memory usage: 1.9+ MB


[Si has encontrado errores al preparar los valores para los datos ausentes, probablemente signifique que hay algo especial en los datos de la categoría. Piénsalo un poco: tal vez hará falta arreglar algunas cosas manualmente, si hay suficientes datos para encontrar medianas/medias.]

-**Al parecer ya se reemplazaron los valores ausentes**


In [76]:
# Reemplazar los valores ausentes si hay algún error
# No encontré errores al reemplazar los valores ausentes
print(credit_proyect['total_income'])

0        40620
1        17932
2        23341
3        42820
4        40922
         ...  
17851    18551
17852    35966
17853    14347
17854    39054
17855    13127
Name: total_income, Length: 17856, dtype: int64


[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [77]:
# Comprobar el número de entradas en las columnas
credit_proyect.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17856 entries, 0 to 17855
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             17856 non-null  int64  
 1   children          17856 non-null  int64  
 2   days_employed     15772 non-null  float64
 3   dob_years         17856 non-null  int64  
 4   education         17856 non-null  object 
 5   education_id      17856 non-null  int64  
 6   family_status     17856 non-null  object 
 7   family_status_id  17856 non-null  int64  
 8   gender            17856 non-null  object 
 9   income_type       17856 non-null  object 
 10  debt              17856 non-null  int64  
 11  total_income      17856 non-null  int64  
 12  purpose           17856 non-null  object 
 13  age_group         17856 non-null  object 
dtypes: float64(1), int64(7), object(6)
memory usage: 1.9+ MB


###  Restaurar valores en `days_employed`

[Piensa en los parámetros que pueden ayudarte a restaurar los valores ausentes en esta columna. Eventualmente, tendrás que averiguar si debes usar valores medios o medianos para reemplazar los valores ausentes. Probablemente llevarás a cabo una investigación similar a la que realizaste cuando restauraste los datos en la columna anterior.]

- Realizaremos el mismo metodo que hicimos para total_income

In [78]:
# Distribución de las medianas de `days_employed` en función de los parámetros identificados
print(credit_proyect_clean['days_employed'].median())


1631.7857046793995


In [79]:
# Distribución de las medias de `days_employed` en función de los parámetros identificados
print(credit_proyect_clean['days_employed'].mean())



2354.5061640850236


[Decide qué vas a utilizar: medias o medianas. Explica por qué.]
- Ocuparé la media, ya que es el valor que está mas en el medio entre la mínima y la máxima.

In [80]:
mean_values_days = credit_proyect.groupby("income_type")['days_employed'].mean()
mean_values_days

income_type
business            2117.879986
civil servant       3387.514221
employee            2327.164891
entrepreneur         520.848083
paternitys leave    3296.759962
retiree                     NaN
student              578.751554
Name: days_employed, dtype: float64

In [81]:
credit_proyect.head(15)

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620,purchase of the house,adulto
1,1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932,car purchase,adulto
2,2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341,purchase of the house,joven
3,3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820,supplementary education,joven
4,5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922,purchase of the house,joven
5,6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484,housing transactions,adulto
6,7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731,education,adulto
7,8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337,having a wedding,joven
8,9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108,purchase of the house for my family,adulto
9,10,2,4171.483647,36,bachelor's degree,0,married,0,M,business,0,18230,buy real estate,adulto


In [82]:
# Escribamos una función que calcule medias o medianas (dependiendo de tu decisión) según el parámetro identificado
def reemplazar_nas_mean(credit_proyect):
    mean_values = credit_proyect.groupby("income_type")['days_employed'].mean()
    
    credit_proyect.loc[(credit_proyect["income_type"] == "business") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["business"]
    credit_proyect.loc[(credit_proyect["income_type"] == "civil servant") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["civil servant"]
    credit_proyect.loc[(credit_proyect["income_type"] == "employee") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["employee"]
    credit_proyect.loc[(credit_proyect["income_type"] == "entrepreneur") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["entrepreneur"]
    credit_proyect.loc[(credit_proyect["income_type"] == "paternitys leave") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["paternitys leave"]
    credit_proyect.loc[(credit_proyect["income_type"] == "retiree") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["employee"]
    credit_proyect.loc[(credit_proyect["income_type"] == "student") & credit_proyect['days_employed'].isna(), 'days_employed'] = mean_values.loc["student"]
    return credit_proyect

print(reemplazar_nas_mean(credit_proyect))


       index  children  days_employed  dob_years            education  \
0          0         1    8437.673028         42    bachelor's degree   
1          1         1    4024.803754         36  secondary education   
2          2         0    5623.422610         33  secondary education   
3          3         3    4124.747207         32  secondary education   
4          5         0     926.185831         27    bachelor's degree   
...      ...       ...            ...        ...                  ...   
17851  21519         1    2351.431934         37      graduate degree   
17852  21520         1    4529.316663         43  secondary education   
17853  21522         1    2113.346888         38  secondary education   
17854  21523         3    3112.481705         38  secondary education   
17855  21524         2    1984.507589         40  secondary education   

       education_id      family_status  family_status_id gender income_type  \
0                 0            married      

In [83]:
# Comprueba que la función funciona
credit_proyect['days_employed'].isna().sum()


0

In [84]:
# Aplicar la función al income_type

credit_proyect.groupby("income_type")['days_employed'].mean()


income_type
business            2117.879986
civil servant       3387.514221
employee            2327.164891
entrepreneur         520.848083
paternitys leave    3296.759962
retiree             2327.164891
student              578.751554
Name: days_employed, dtype: float64

In [85]:
# Comprueba si la función funcionó

credit_proyect['days_employed'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
17851    False
17852    False
17853    False
17854    False
17855    False
Name: days_employed, Length: 17856, dtype: bool

In [86]:
# Reemplazar valores ausentes

#Se reemplazaron

[Cuando creas que has terminado con `total_income`, comprueba que el número total de valores en esta columna coincida con el número de valores en otras columnas.]

In [87]:
# Comprueba las entradas en todas las columnas: asegúrate de que hayamos corregido todos los valores ausentes
credit_proyect.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17856 entries, 0 to 17855
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             17856 non-null  int64  
 1   children          17856 non-null  int64  
 2   days_employed     17856 non-null  float64
 3   dob_years         17856 non-null  int64  
 4   education         17856 non-null  object 
 5   education_id      17856 non-null  int64  
 6   family_status     17856 non-null  object 
 7   family_status_id  17856 non-null  int64  
 8   gender            17856 non-null  object 
 9   income_type       17856 non-null  object 
 10  debt              17856 non-null  int64  
 11  total_income      17856 non-null  int64  
 12  purpose           17856 non-null  object 
 13  age_group         17856 non-null  object 
dtypes: float64(1), int64(7), object(6)
memory usage: 1.9+ MB


In [88]:
credit_proyect['days_employed'] = credit_proyect['days_employed'].astype('int')

credit_proyect.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17856 entries, 0 to 17855
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   index             17856 non-null  int64 
 1   children          17856 non-null  int64 
 2   days_employed     17856 non-null  int64 
 3   dob_years         17856 non-null  int64 
 4   education         17856 non-null  object
 5   education_id      17856 non-null  int64 
 6   family_status     17856 non-null  object
 7   family_status_id  17856 non-null  int64 
 8   gender            17856 non-null  object
 9   income_type       17856 non-null  object
 10  debt              17856 non-null  int64 
 11  total_income      17856 non-null  int64 
 12  purpose           17856 non-null  object
 13  age_group         17856 non-null  object
dtypes: int64(8), object(6)
memory usage: 1.9+ MB


## Clasificación de datos

[Para poder responder a las preguntas y probar las diferentes hipótesis, querrás trabajar con datos clasificados. Mira las preguntas formuladas que debes responder. Piensa qué parte de los datos tiene que ser clasificada para responder a estas preguntas. A continuación, encontrarás una plantilla a través de la cual puedes trabajar para clasificar los datos. El primer procesamiento paso a paso cubre los datos de texto; el segundo aborda los datos numéricos que necesitan ser clasificados. Puedes usar ambas o ninguna de las instrucciones sugeridas, eso solo depende de ti.]

[Independientemente de cómo decidas abordar la clasificación, asegúrate de proporcionar una explicación clara de la razón por la que tomaste tu decisión. Recuerda: este es tu trabajo y aquí tú tomas todas las decisiones.]

- Tomé la determinación de trabajar clasificando los datos por categóricos y otra clasificación con datos numéricos. Para tener un orden y poder ir respondiendo las hipotesis


In [89]:
# Muestra los valores de los datos seleccionados para la clasificación
# Datos Categóricos.
grupo1 = credit_proyect[['purpose', "family_status"]]
grupo1


Unnamed: 0,purpose,family_status
0,purchase of the house,married
1,car purchase,married
2,purchase of the house,married
3,supplementary education,married
4,purchase of the house,civil partnership
...,...,...
17851,buy commercial real estate,divorced
17852,housing transactions,civil partnership
17853,property,civil partnership
17854,buying my own car,married


[Vamos a comprobar los valores únicos]

In [90]:
# Comprobar los valores únicos
print(grupo1['purpose'].unique())
print("-----")
print(grupo1["family_status"].unique())

['purchase of the house' 'car purchase' 'supplementary education'
 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'to have a wedding'
 'buy residential real estate' 'construction of own property' 'property'
 'building a property' 'buying my own car' 'buying a second-hand car'
 'building a real estate' 'housing' 'transactions with my real estate'
 'cars' 'to become educated' 'second-hand car purchase'
 'getting an education' 'car' 'wedding ceremony'
 'to get a supplementary education' 'purchase of my own house'
 'real estate transactions' 'getting higher education'
 'transactions with commercial real estate' 'to own a car'
 'purchase of a car' 'profile education' 'university education'
 'to buy a car' 'buying property for renting out' 'housing renovation'
 'going to university']
-----
['married' 'civil partnership' 'divorced' 'unmarried' 'widow / widower']


In [91]:
grupo1['purpose'].count()

17856

In [92]:
grupo1['purpose'].value_counts()

wedding ceremony                            664
having a wedding                            634
to have a wedding                           629
real estate transactions                    559
buy commercial real estate                  551
housing transactions                        548
buying property for renting out             546
transactions with commercial real estate    538
purchase of my own house                    538
property                                    537
housing                                     535
purchase of the house for my family         529
transactions with my real estate            529
construction of own property                528
purchase of the house                       527
building a property                         523
buy residential real estate                 516
buy real estate                             514
housing renovation                          512
building a real estate                      508
buying my own car                       

[¿Qué grupos principales puedes identificar en función de los valores únicos?]
- Hay muchos datos que podriamos agrupar por valores únicos. Por ejemplo: Comprar una casa, Construir una casa propia. Ambas podrían estar en la categoria de Propiedad.

[Según estos temas, probablemente querremos clasificar nuestros datos.]


In [93]:
# Escribamos una función para clasificar los datos en función de temas comunes
def tem_com(comun):
    if comun == 'purchase of the house' or comun == "purchase of the house for my family" or comun == "construction of own property" or comun == "property" or comun == "building a property" or comun == "purchase of my own house" or comun == "housing renovation" or comun == "housing":
        return "propiedad"
    if comun == "car purchase" or comun == "buying a second-hand car" or comun == "buying my own car" or comun == "cars" or comun == "second-hand car purchase" or comun == "car" or comun == "to own a car" or comun == "purchase of a car" or comun == "to buy a car":
        return "vehiculo"
    if comun == "supplementary education" or comun == "education" or comun == "to become educated" or comun == "getting an education" or comun == "to get a supplementary education" or comun == "getting higher education" or comun == "profile education" or comun == "university education" or comun == "going to university":
        return "educacion"
    if comun == "to have a wedding" or comun == "having a wedding" or comun == "wedding ceremony":
        return "matrimonio"
    if comun == "housing transactions" or comun == "buy real estate" or comun == "buy commercial real estate" or comun == "buy residential real estate" or comun == "transactions with commercial real estate" or comun == "building a real estate" or comun == "transactions with my real estate" or comun == "real estate transactions" or comun == "buying property for renting out":
        return "negocio"

In [94]:
# Crea una columna con las categorías y cuenta los valores en ellas
credit_proyect['category'] = credit_proyect['purpose'].apply(tem_com)
credit_proyect['category'].value_counts()

negocio       4809
propiedad     4229
vehiculo      3559
educacion     3332
matrimonio    1927
Name: category, dtype: int64

In [95]:
credit_proyect['category'].count()

17856

[Si decides clasificar los datos numéricos, también tendrás que crear las categorías para ello.]

In [96]:
# Revisar todos los datos numéricos en la columna seleccionada para la clasificación
# La siguiente clasificación son datos numéricos que pueden servir para responder las hipotesis
grupo2 = credit_proyect[["children", "debt", "total_income"]]

In [97]:
# Obtener estadísticas resumidas para la columna
grupo2.describe()


Unnamed: 0,children,debt,total_income
count,17856.0,17856.0,17856.0
mean,0.548499,0.08647,27436.874552
std,0.78697,0.281064,16032.245725
min,0.0,0.0,3418.0
25%,0.0,0.0,18129.0
50%,0.0,0.0,24547.0
75%,1.0,0.0,32010.75
max,5.0,1.0,362496.0


[Decide qué rangos utilizarás para agrupar y explica por qué.]

- Decidí agrupar la total_income y clasificarlo en rangos de sueldos, ya que es donde están las diferencias de datos mas grandes entre mínimo y máximo. Además son muchisimos datos, por lo que lo mejor es agruparlos por rango.

In [98]:
# Crear una función para clasificar en diferentes grupos numéricos basándose en rangos
def salary_range(salary):
    if salary <= 30000:
        return "salario bajo"
    if salary <= 180000:
        return "salario medio"
    if salary <= 363000:
        return "salario alto"
    
print(salary_range(180000))


salario medio


In [99]:
# Crear una columna con categorías
credit_proyect['salary_level'] = credit_proyect['total_income'].apply(salary_range)

In [100]:
credit_proyect

Unnamed: 0,index,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,category,salary_level
0,0,1,8437,42,bachelor's degree,0,married,0,F,employee,0,40620,purchase of the house,adulto,propiedad,salario medio
1,1,1,4024,36,secondary education,1,married,0,F,employee,0,17932,car purchase,adulto,vehiculo,salario bajo
2,2,0,5623,33,secondary education,1,married,0,M,employee,0,23341,purchase of the house,joven,propiedad,salario bajo
3,3,3,4124,32,secondary education,1,married,0,M,employee,0,42820,supplementary education,joven,educacion,salario medio
4,5,0,926,27,bachelor's degree,0,civil partnership,1,M,business,0,40922,purchase of the house,joven,propiedad,salario medio
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17851,21519,1,2351,37,graduate degree,4,divorced,3,M,employee,0,18551,buy commercial real estate,adulto,negocio,salario bajo
17852,21520,1,4529,43,secondary education,1,civil partnership,1,F,business,0,35966,housing transactions,adulto,negocio,salario medio
17853,21522,1,2113,38,secondary education,1,civil partnership,1,M,employee,1,14347,property,adulto,propiedad,salario bajo
17854,21523,3,3112,38,secondary education,1,married,0,M,employee,1,39054,buying my own car,adulto,vehiculo,salario medio


In [101]:
# Contar los valores de cada categoría para ver la distribución
print(credit_proyect['age_group'].value_counts())
print("-----")
print(credit_proyect['category'].value_counts())
print("-----")
print(credit_proyect['salary_level'].value_counts())

adulto          10709
joven            6542
adulto mayor      605
Name: age_group, dtype: int64
-----
negocio       4809
propiedad     4229
vehiculo      3559
educacion     3332
matrimonio    1927
Name: category, dtype: int64
-----
salario bajo     12658
salario medio     5183
salario alto        15
Name: salary_level, dtype: int64


## Comprobación de las hipótesis


**¿Existe una correlación entre tener hijos y pagar a tiempo?**

In [118]:
# Comprueba los datos sobre los hijos y los pagos puntuales
print(credit_proyect.groupby("children")['debt'].value_counts())
print("-----")

# Calcular la tasa de incumplimiento en función del número de hijos
def porcent_data(nopay, pay):
    pago_porcent = round((nopay / pay) * 100,2)
    return pago_porcent

print(porcent_data(4,40))
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 0 hijos es del 8,2%")
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 1 hijo es del 9,39%")
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 2 hijos es del 9,5%")
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 3 hijos es del 8,07%")
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 4 hijos es del 10%")
print("La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 5 hijos es del 0%")



children  debt
0         0       9992
          1        892
1         0       4149
          1        430
2         0       1830
          1        192
3         0        296
          1         26
4         0         36
          1          4
5         0          9
Name: debt, dtype: int64
-----
10.0
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 0 hijos es del 8,2%
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 1 hijo es del 9,39%
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 2 hijos es del 9,5%
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 3 hijos es del 8,07%
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 4 hijos es del 10%
La tasa de incumplimiento en el pago de cuotas de créditos para las personas con 5 hijos es del 0%


In [103]:
loan_table = pd.pivot_table(credit_proyect, 
                             index = ['children'], 
                             values= 'debt', 
                             aggfunc = ['sum', len, 'mean']
                            )
loan_table

Unnamed: 0_level_0,sum,len,mean
Unnamed: 0_level_1,debt,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,892,10884,0.081955
1,430,4579,0.093907
2,192,2022,0.094955
3,26,322,0.080745
4,4,40,0.1
5,0,9,0.0


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]
- Primero se agrupo por "children" en la columna debt, para ver la relación hijos y pago, luego se hizo un value_counts(), para ver la cantidad de personas en las cuales han pagado y las personas que no han pagado la cuota.
- Despues realizo una función para sacar el porcentaje de manera automatizada (en forma de calculadora), y sacar cada tasa de incumplimiento dependiendo de los hijos que tengan.

- Se realiza tabla dinámica que refleja el número de no pagos, número total entre pagos y no pagos y la relación media de ambas.


**Se saca por conclusión que las personas de 0 a 4 hijos, el porcentaje de incumplimiento es bastante parecida, aunque las personas con 4 hijos tienden a tener mayor deuda al pagar**

**¿Existe una correlación entre la situación familiar y el pago a tiempo?**

In [104]:
# Comprueba los datos del estado familiar y los pagos a tiempo
print(credit_proyect.groupby("family_status")['debt'].value_counts())
print("-----")

 #Calcular la tasa de incumplimiento basada en el estado familiar
def porcent_data(nopay, pay):
    pago_porcent = round((nopay / pay) * 100,2)
    return pago_porcent
print(porcent_data(31,441))

print("El porcentaje de incumplimiento en el pago de crédito para las uniones civiles es de 11,11%")
print("El porcentaje de incumplimiento en el pago de crédito para las personas divorciadas es de 8,0%")
print("El porcentaje de incumplimiento en el pago de crédito para las personas casadas es de 8,64%")
print("El porcentaje de incumplimiento en el pago de crédito para las personas solteras es de 11,73")
print("El porcentaje de incumplimiento en el pago de crédito para las personas viudas es de 7,03%")


family_status      debt
civil partnership  0       3187
                   1        354
divorced           0        913
                   1         73
married            0       9555
                   1        826
unmarried          0       2216
                   1        260
widow / widower    0        441
                   1         31
Name: debt, dtype: int64
-----
7.03
El porcentaje de incumplimiento en el pago de crédito para las uniones civiles es de 11,11%
El porcentaje de incumplimiento en el pago de crédito para las personas divorciadas es de 8,0%
El porcentaje de incumplimiento en el pago de crédito para las personas casadas es de 8,64%
El porcentaje de incumplimiento en el pago de crédito para las personas solteras es de 11,73
El porcentaje de incumplimiento en el pago de crédito para las personas viudas es de 7,03%


In [105]:
loan_table2 = pd.pivot_table(credit_proyect, 
                             index = ['family_status'], 
                             values= 'debt', 
                             aggfunc = ['sum', len, 'mean']
                            )
loan_table2

Unnamed: 0_level_0,sum,len,mean
Unnamed: 0_level_1,debt,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
civil partnership,354,3541,0.099972
divorced,73,986,0.074037
married,826,10381,0.079568
unmarried,260,2476,0.105008
widow / widower,31,472,0.065678


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]
- Se hizo lo mismo que en la hipotesis anterior

- Se realiza tabla dinámica que refleja el número de no pagos, número total entre pagos y no pagos y la relación media de ambas.

**Las personas viudas tienen mejor tendencia a la hora de pagar un crédito, al igual que las personas que estan divorciadas**

**¿Existe una correlación entre el nivel de ingresos y el pago a tiempo?**

In [106]:
# Comprueba los datos del nivel de ingresos y los pagos a tiempo
print(credit_proyect.groupby("salary_level")['debt'].value_counts())
print("-----")


# Calcular la tasa de incumplimiento basada en el nivel de ingresos
def porcent_data(nopay, pay):
    pago_porcent = round((nopay / pay) * 100,2)
    return pago_porcent
print(porcent_data(394,4789))

print("El porcentaje de incumplimiento en el pago de crédito para los salarios altos es de 7,14%")
print("El porcentaje de incumplimiento en el pago de crédito para los salarios bajos es de 9,98%")
print("El porcentaje de incumplimiento en el pago de crédito para los salarios medios es de 8,93%")

salary_level   debt
salario alto   0          14
               1           1
salario bajo   0       11509
               1        1149
salario medio  0        4789
               1         394
Name: debt, dtype: int64
-----
8.23
El porcentaje de incumplimiento en el pago de crédito para los salarios altos es de 7,14%
El porcentaje de incumplimiento en el pago de crédito para los salarios bajos es de 9,98%
El porcentaje de incumplimiento en el pago de crédito para los salarios medios es de 8,93%


In [107]:
loan_table3 = pd.pivot_table(credit_proyect, 
                             index = ['salary_level'], 
                             values= 'debt', 
                             aggfunc = ['sum', len, 'mean']
                            )
loan_table3

Unnamed: 0_level_0,sum,len,mean
Unnamed: 0_level_1,debt,debt,debt
salary_level,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
salario alto,1,15,0.066667
salario bajo,1149,12658,0.090773
salario medio,394,5183,0.076018


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]
- Se realizó el mismo metodo que las hipotesis anteriores

- Se realiza tabla dinámica que refleja el número de no pagos, número total entre pagos y no pagos y la relación media de ambas.

**Se concluye que entre la tasa de incumplimiento entre salarios alto y salarios medios no hay diferencias. Sin embargo los salarios bajos tienden a tener mayor incumplimiento**

**¿Cómo afecta el propósito del crédito a la tasa de incumplimiento?**

In [108]:
# Consulta los porcentajes de tasa de incumplimiento para cada propósito del crédito y analízalos
print(credit_proyect.groupby("category")['debt'].value_counts())
print("-----")

def porcent_data(nopay, pay):
    pago_porcent = round((nopay / pay) * 100,2)
    return pago_porcent
print(porcent_data(327,3005))

print("La tasa de incumplimiento para las personas que piden crédito para la educación es de 10,88% ")
print("La tasa de incumplimiento para las personas que piden crédito para matrimonios es de 9,18%")
print("La tasa de incumplimiento para las personas que piden crédito para negocios es de 8,95%")
print("La tasa de incumplimiento para las personas que piden crédito para gastos de propiedad es de 7,75%")
print("La tasa de incumplimiento para las personas que piden crédito para gastos de vehículos es de 11,11%")

category    debt
educacion   0       3005
            1        327
matrimonio  0       1765
            1        162
negocio     0       4414
            1        395
propiedad   0       3925
            1        304
vehiculo    0       3203
            1        356
Name: debt, dtype: int64
-----
10.88
La tasa de incumplimiento para las personas que piden crédito para la educación es de 10,88% 
La tasa de incumplimiento para las personas que piden crédito para matrimonios es de 9,18%
La tasa de incumplimiento para las personas que piden crédito para negocios es de 8,95%
La tasa de incumplimiento para las personas que piden crédito para gastos de propiedad es de 7,75%
La tasa de incumplimiento para las personas que piden crédito para gastos de vehículos es de 11,11%


**Conclusión**

[Escribe tus conclusiones en base a tus manipulaciones y observaciones.]
- Se utilizó el mismo metodo que en las otras hipotesis.

- Se realiza tabla dinámica que refleja el número de no pagos, número total entre pagos y no pagos y la relación media de ambas.

**Se pueden sacar varias conclusiones con estos datos**
- Las personas que tienen mayores problemas para pagar las cuotas de los créditos son las personas que utilizan el crédito para los gastos de vehículos y educación.

- Las personas que quieren el crédito para gastos en sus propiedades, son las personas que tienen mejor % de pago de cuotas.


In [109]:
loan_table4 = pd.pivot_table(credit_proyect, 
                             index = ['category'], 
                             values= 'debt', 
                             aggfunc = ['sum', len, 'mean']
                            )
loan_table4

Unnamed: 0_level_0,sum,len,mean
Unnamed: 0_level_1,debt,debt,debt
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
educacion,327,3332,0.098139
matrimonio,162,1927,0.084069
negocio,395,4809,0.082138
propiedad,304,4229,0.071885
vehiculo,356,3559,0.100028


# Conclusión general 

[Enumera tus conclusiones en esta última sección. Asegúrate de incluir todas las conclusiones importantes que hiciste y que te llevaron a la forma en que procesaste y analizaste los datos. Habla de los valores ausentes, los duplicados y las posibles razones y soluciones para los artefactos problemáticos que tuviste que abordar.]

1. **Al final de este proyecto, pudimos llevar a cabo un preprocesamiento de datos para nuestro cliente que está tratando de analizar el riesgo de incumplimiento en el pago del préstamo de crédito. En este proyecto se realizó lo suguiente:**

1.1. **limpiamos algunos datos**

1.2. **hicimos alguna conversión de tipos**.

1.3. **categorizamos los datos**.

1.4. **procesamos los duplicados en los datos**.

1.5. **Realizamos algunas funciones**.

1.6. **preparamos los datos para el análisis**.

1.7. **se realizaron tablas dinámicas para que confirmaran nuestras hipotesis**.

- **Al realizar lo antes mencionado, concluimos que:**

2. **Las personas con 5 hijos practicamente no piden créditos, ya que tienen mayores gastos, y les es mas dificil pagar un crédito, por lo que las pocas personas con 5 hijos que piden crédito, son en casos excepcionales, y éstos si los pagan.**

3. **Las personas viudas y solteras, tienen el mejor porcentaje de pago entre los estados civiles. Las personas solteras tienen una tasa de incumplimiento mayor.**

4. **No veo una correlación entre el nivel de ingresos y la morosidad en el pago del préstamo.**

5. **Las personas que piden crédito para la educación o para la compra de vehículos, tienen la peor tasa de pago del crédito. En cambio las personas que utilizan el crédito para su propiedad, ya sea comprar o modificar, tienen la mejor tasa de pago**

[Enumera tus conclusiones con respecto a las preguntas planteadas aquí también.]
