<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.01/bds_pandas_006_00.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">Integración de métodos 🐼 </font>**

 # **<font color="DeepPink">Módulos</font>**

❤ https://pandas.pydata.org ❤ https://plotly.com/

In [None]:
import pandas as pd
import numpy as np

In [None]:
import plotly.express as px

 # **<font color="DeepPink">Conjunto de datos</font>**

<p align="justify">
La calificación crediticia o <i>credit scoring</i> es una técnica de gestión de riesgos ampliamente utilizada en el sector financiero. Hace uso de la información personal y los datos proporcionados por los solicitantes un préstamo o tarjeta de crédito para estimar futuros impagos.<br><br>
En este caso, el banco tiene la autoridad para determinar si debe proporcionar o no una tarjeta de crédito al solicitante. La calificación de riesgo puede estimar el nivel de riesgo de manera objetiva.<br><br>
Se requiere un modelo de aprendizaje automático para predecir si un usuario será un "buen" o "mal" pagador. Sin embargo, no existe una definición de "bueno" o "malo", por lo que se deberá establecer en base a su historial de pagos.
</p>

Se utilizarán 2 conjuntos de datos en este cuaderno:

* Registro de clientes (contiene información general sobre el solicitante, como el género, fecha de nacimiento, nivel de educación, bienes que tiene a su nombre, etc.)

* Registro de crédito (contiene los registros de pago del solicitante)


In [None]:
df_clientes = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/credit_card_application2.csv", index_col=0)

In [None]:
df_clientes.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


Este DataFrame contiene la información general del solicitante. El conjunto de datos contiene las siguientes variables:

- **ID**: el número del cliente.

- **CODE_GENDER**: género: M (Masculino) / F (Femenino).

- **FLAG_OWN_CAR**: propietario vehículo: Y (Si) / N (No).

- **FLAG_OWN_REALTY**:  propietario inmueble: Y (Si) / N (No).

- **CNT_CHILDREN**: cantidad de hijos.

- **AMT_INCOME_TOTAL**: ingreso anual.

- **NAME_INCOME_TYPE**: tipo de ingreso.

- **NAME_EDUCATION_TYPE**: nivel educativo.

- **NAME_FAMILY_STATUS**: estado civil.

- **NAME_HOUSING_TYPE**: vivienda.

- **DAYS_BIRTH**: días hasta el nacimiento contando desde hoy hacia atrás, por ejemplo -1 significa ayer.

- **DAYS_EMPLOYED**: días empleado contando desde hoy hacia atrás. Si es positivo, significa la cantidad de días desempleado.

- **FLAG_MOBIL**: tiene número de celular: 1 (Si) / 0 (No).

- **FLAG_WORK_PHONE**: tiene número de teléfono laboral: 1 (Si) / 0 (No).

- **FLAG_PHONE**: tiene número de teléfono fijo: 1 (Si) / 0 (No).

- **FLAG_EMAIL**: tiene dirección de correo electrónico: 1 (Si) / 0 (No).

- **OCCUPATION_TYPE**:	ocupación.

- **CNT_FAM_MEMBERS**:	tamaño del grupo familiar.

In [None]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 18 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   ID                   100000 non-null  int64  
 1   CODE_GENDER          100000 non-null  object 
 2   FLAG_OWN_CAR         100000 non-null  object 
 3   FLAG_OWN_REALTY      100000 non-null  object 
 4   CNT_CHILDREN         100000 non-null  int64  
 5   AMT_INCOME_TOTAL     100000 non-null  float64
 6   NAME_INCOME_TYPE     100000 non-null  object 
 7   NAME_EDUCATION_TYPE  100000 non-null  object 
 8   NAME_FAMILY_STATUS   100000 non-null  object 
 9   NAME_HOUSING_TYPE    100000 non-null  object 
 10  DAYS_BIRTH           100000 non-null  int64  
 11  DAYS_EMPLOYED        100000 non-null  int64  
 12  FLAG_MOBIL           100000 non-null  int64  
 13  FLAG_WORK_PHONE      100000 non-null  int64  
 14  FLAG_PHONE           100000 non-null  int64  
 15  FLAG_EMAIL        

<p align="justify">
✅ El método <code>info</code> de <code>pandas</code> se utiliza para obtener información concisa sobre un <code>DataFrame</code>. Proporciona un resumen de los datos, incluyendo la cantidad de filas (entries), columnas, el tipo de datos de cada columna, la cantidad de valores no nulos y el uso de memoria.<br><br>
👀 Se observa que la columna <code>OCCUPATION_TYPE</code> tiene 68593 valores no nulos, por lo tanto existen 31407 valores faltantes o nulos (<code>NaN</code>).  

In [None]:
print("")
print(f"El DataFrame tiene {df_clientes.shape[0]} filas y {df_clientes.shape[1]} columnas")

El DataFrame tiene 100000 filas y 18 columnas


In [None]:
df_clientes.nunique()

ID                     100000
CODE_GENDER                 2
FLAG_OWN_CAR                2
FLAG_OWN_REALTY             2
CNT_CHILDREN               10
AMT_INCOME_TOTAL          401
NAME_INCOME_TYPE            5
NAME_EDUCATION_TYPE         5
NAME_FAMILY_STATUS          5
NAME_HOUSING_TYPE           6
DAYS_BIRTH              11379
DAYS_EMPLOYED            5448
FLAG_MOBIL                  1
FLAG_WORK_PHONE             2
FLAG_PHONE                  2
FLAG_EMAIL                  2
OCCUPATION_TYPE            18
CNT_FAM_MEMBERS            11
dtype: int64

<p align="justify">
✅ El método <code>nunique</code> de <code>pandas</code> se utiliza para calcular el número de valores únicos en una <code>serie</code> o columna de un <code>DataFrame</code>. Devuelve la cantidad de valores distintos presentes en la serie, excluyendo los valores duplicados.
<br><br>
Además, el método <code>nunique</code> admite el parámetro opcional <code>dropna</code>, que se utiliza para especificar si se deben incluir los valores nulos (NaN) en el recuento de valores únicos. El valor por defecto del parámetro es <code>True</code>, lo que significa que los valores nulos se excluyen del recuento. Puedes establecer <code>dropna=False</code> si deseas incluir los valores nulos en el recuento.
<br><br>
👀 Se observan varias columnas con 2 posibles valores (binomiales) y una columna con 1 solo valor único (<code>FLAG_MOBIL</code>), esta no aporta valor al análisis y debe ser excluida.



In [None]:
df_credito = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/credit_card_record.csv", index_col=0 )

In [None]:
df_credito.head(10)

Unnamed: 0_level_0,MONTHS_BALANCE,STATUS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
5001711,0,X
5001711,-1,0
5001711,-2,0
5001711,-3,0
5001712,0,C
5001712,-1,C
5001712,-2,C
5001712,-3,C
5001712,-4,C
5001712,-5,C


Este DataFrame contiene el registro de pago del solicitante. El conjunto de datos contiene las siguientes variables:

- **ID**: el número del cliente.

- **MONTHS_BALANCE**: mes de registro. El mes de los datos extraídos es el punto de partida, al revés, 0 es el mes actual, -1 es el mes anterior, etc.

- **STATUS**: Estado de deuda
    * 0: 1-29 días de atraso
    * 1: 30-59 días de atraso
    * 2: 60-89 días de atraso
    * 3: 90-119 días de atraso
    * 4: 120-149 días de atraso
    * 5: deudas incobrables, atraso por más de 150 días
    * C: pagado ese mes
    * X: no hay préstamo para el mes

In [None]:
df_credito.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1048575 entries, 5001711 to 5150487
Data columns (total 2 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   MONTHS_BALANCE  1048575 non-null  int64 
 1   STATUS          1048575 non-null  object
dtypes: int64(1), object(1)
memory usage: 24.0+ MB


In [None]:
print(f"El DataFrame tiene {df_credito.shape[0]} filas y {df_credito.shape[1]} columnas")

El DataFrame tiene 1048575 filas y 2 columnas


In [None]:
df_credito.nunique()

MONTHS_BALANCE    61
STATUS             8
dtype: int64

# **<font color="DeepPink">Preprocesamiento de los datos</font>**

<p align="justify">
El preprocesamiento de datos, también conocido como <i>data wrangling</i>, se refiere al proceso de limpieza, transformación y preparación de los datos antes de ser analizados o utilizados en modelos de machine learning.
<br><br>
El preprocesamiento es una parte fundamental del proceso de análisis de datos, ya que los datos en bruto rara vez están en un estado óptimo para su análisis directo. Al realizarlo, se asegura la calidad y la integridad de los datos, permitiendo un análisis más preciso y confiable, y facilitando la extracción de información y conocimientos significativos de los datos.
</p>

A continuación se realizan algunas tareas de preprocesamiento tales como:
* verificar datos duplicados,
* comprobar y trabajar el valores nulos,
* verificar y modificar el tipo de dato,
* renombrar y eliminar columnas,
* crear nuevas columnas, etc.


## **<font color="DeepPink">`DataFrame` de datos de clientes</font>**

In [None]:
df_clientes.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


<p align="justify">
✅ El método <code>rename</code> de pandas se utiliza para cambiar el nombre de etiquetas de filas o columnas en un <code>DataFrame</code>. Permite renombrar elementos existentes.
<br><br>
Los parámetros principales son:
</p>

* `columns`: permite especificar un diccionario para renombrar las columnas del DataFrame. Las claves representan los nombres actuales de las columnas y los valores correspondientes representan los nuevos nombres que se desean asignar.

* `index`: permite especificar un diccionario para renombrar las filas del DataFrame. Si se proporciona un diccionario, las claves representan los nombres actuales de las filas y los valores correspondientes representan los nuevos nombres que se desean asignar.

<p align="justify">
También es posible usar una función para renombrar las filas o columnas en vez de un diccionario. Si se proporciona una función, se aplica la función a cada nombre de fila o columna según sea el caso y se utiliza el resultado como el nuevo nombre.
</p>

In [None]:
df_clientes.rename(columns={'CODE_GENDER':'Genero','FLAG_OWN_CAR':'Auto','FLAG_OWN_REALTY':'Propiedad',
                            'CNT_CHILDREN':'Hijos','AMT_INCOME_TOTAL':'Ingreso_anual',
                            'NAME_EDUCATION_TYPE':'Nivel_educativo','NAME_FAMILY_STATUS':'Estado_civil',
                            'NAME_HOUSING_TYPE':'Vivienda','FLAG_EMAIL':'Email', 'FLAG_MOBIL':'Celular',
                            'DAYS_BIRTH':'Dias_nacimiento', 'DAYS_EMPLOYED':'Dias_empleado',
                            'NAME_INCOME_TYPE':'Tipo_trabajo','FLAG_WORK_PHONE':'Telefono_laboral',
                            'FLAG_PHONE':'Telefono_fijo','CNT_FAM_MEMBERS':'Tamaño_familia',
                            'OCCUPATION_TYPE':'Ocupacion'},
                   inplace=True)
df_clientes.head(2)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Celular,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0


### **<font color="DeepPink">Celular</font>**

<p align="justify">
✅ El método <code>drop</code> de <code>pandas</code> se utiliza para eliminar filas o columnas de un <code>DataFrame</code>. Permite eliminar elementos no deseados y ajustar la estructura del <code>DataFrame</code> según sea necesario.
<br><br>
Los parámetros principales son los siguientes:
</p>

* `labels`: especifica las etiquetas de las filas o columnas que se deben eliminar. Puede ser una sola etiqueta o una lista de etiquetas. Si deseas eliminar múltiples filas o columnas, simplemente proporciona una lista con las etiquetas correspondientes.

* `axis`: indica el eje a lo largo del cual se realizará el borrado. Un valor de `0` indica que se eliminarán filas, mientras que un valor de `1` indica que se eliminarán columnas.

* `inplace`: Es un parámetro booleano opcional que determina si el `DataFrame` original debe modificarse directamente o si se debe devolver una copia del `DataFrame` modificado. Si `inplace=True`, se realizará una modificación directa en el `DataFrame` original.

👀 Cuando aplicó el método `nunique` al `DataFrame` la variable `Celular` poseía un solo valor, por lo tanto es eliminada.

In [None]:
# df_clientes.drop('Celular', axis=1, inplace=True)
df_clientes.drop(columns = 'Celular', inplace=True)

👀 Si se utiliza `inplace=True` el `DataFrame` original se modifica directamente y no se devuelve nada.

### **<font color="DeepPink">Ocupación</font>**

<p align="justify">
✅ El método <code>isna</code> de <code>pandas</code>, al igual que <code>isnull</code>, se utiliza para verificar si existen valores nulos (NaN) en un <code>DataFrame</code> o una <code>Serie</code>. Retorna una matriz de valores booleanos con el mismo tamaño que el <code>DataFrame</code> o la <code>Serie</code> original, donde <code>True</code> indica la presencia de valores nulos y <code>False</code> indica valores no nulos.
<br><br>
Si se aplica el método <code>sum()</code> al resultado de <code>df_clientes.isna()</code>, se obtiene la cantidad de valores nulos en cada columna del <code>DataFrame</code>. El método <code>sum()</code> suma los valores booleanos en cada columna, donde <code>True</code> se trata como $1$ y <code>False</code> se trata como $0$.
<br><br>
Luego el resultado de cada columna se divide por la longitud del <code>DataFrame</code> <code>len(df_clientes)</code> y se obtiene el porcentaje de valores nulos por columna.

In [None]:
(df_clientes.isna().sum()/len(df_clientes)).sort_values(ascending = False)

Ocupacion           0.31407
ID                  0.00000
Vivienda            0.00000
Email               0.00000
Telefono_fijo       0.00000
Telefono_laboral    0.00000
Dias_empleado       0.00000
Dias_nacimiento     0.00000
Estado_civil        0.00000
Genero              0.00000
Nivel_educativo     0.00000
Tipo_trabajo        0.00000
Ingreso_anual       0.00000
Hijos               0.00000
Propiedad           0.00000
Auto                0.00000
Tamaño_familia      0.00000
dtype: float64

👀 La columna `Ocupacion` tiene 31% de valores nulos. Serán reemlazados por el valor `unknown`.

<p align="justify">
✅ El método <code>fillna</code> de pandas se utiliza para rellenar los valores nulos (NaN) en un <code>DataFrame</code> o una <code>Serie</code> con un valor específico o una <b>estrategia de llenado</b>. Permite tratar los valores faltantes de manera flexible y ajustar los datos de acuerdo a las necesidades del análisis.

In [None]:
df_clientes.Ocupacion.fillna(value='unknown', inplace=True)

In [None]:
(df_clientes.isna().sum()/len(df_clientes)).sort_values(ascending = False)

ID                  0.0
Vivienda            0.0
Ocupacion           0.0
Email               0.0
Telefono_fijo       0.0
Telefono_laboral    0.0
Dias_empleado       0.0
Dias_nacimiento     0.0
Estado_civil        0.0
Genero              0.0
Nivel_educativo     0.0
Tipo_trabajo        0.0
Ingreso_anual       0.0
Hijos               0.0
Propiedad           0.0
Auto                0.0
Tamaño_familia      0.0
dtype: float64

👀 La columna `Ocupacion` ya no posee valores nulos! 🦾

### **<font color="DeepPink">Género, Auto, Propiedad</font>**

<p align="justify">
✅ El método <code>replace</code> de <code>pandas</code> se utiliza para reemplazar valores específicos en un <code>DataFrame</code> o una <code>Serie</code> con nuevos valores. Permite realizar cambios en los datos según criterios definidos y ajustarlos según las necesidades del análisis.

Los parámetros principales son los siguientes:

* `to_replace`: especifica el valor o los valores que se desean reemplazar en el `DataFrame` o la `Serie`. Puede ser un valor escalar, una lista de valores, un diccionario de mapeo.

* `value`: Especifica el valor o los valores que se utilizarán como reemplazo. Puede ser un valor escalar, una lista de valores o un diccionario de mapeo.

In [None]:
#df_clientes.Genero.replace(['F','M'], [1,0], inplace=True)
df_clientes.Auto.replace(['Y','N'], [1,0], inplace=True)
df_clientes.Propiedad.replace(['Y','N'], [1,0], inplace=True)

In [None]:
#Diccionario de mapeo:
#df_clientes.replace({'Auto':{'Y':1,'N':0},'Propiedad':{'Y':1,'N':0}}, inplace=True)

### **<font color="DeepPink">Tamaño familia</font>**

<p align="justify">
✅ El método <code>astype</code> de <code>pandas</code> se utiliza para cambiar el tipo de datos de una columna en un <code>DataFrame</code> o de una <code>Serie</code>. Permite realizar conversiones de tipos de datos de manera explícita y ajustar los datos para realizar cálculos o análisis adecuados.

In [None]:
df_clientes.Tamaño_familia = df_clientes.Tamaño_familia.astype(int)

In [None]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 17 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  object 
 2   Auto              100000 non-null  int64  
 3   Propiedad         100000 non-null  int64  
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Dias_nacimiento   100000 non-null  int64  
 11  Dias_empleado     100000 non-null  int64  
 12  Telefono_laboral  100000 non-null  int64  
 13  Telefono_fijo     100000 non-null  int64  
 14  Email             100000 non-null  int64  
 15  Ocupacion         100000 non-null  object 
 16  Tamaño_familia    100

### **<font color="DeepPink">Nuevas variables: Desempleado, Años empleado y Edad</font>**

<p align="justify">
✅ El método <code>apply</code> en <code>pandas</code> se utiliza para aplicar una función a lo largo de un eje de un <code>DataFrame</code> o una <code>Serie</code>. Puede aplicar una función a cada fila o columna de un <code>DataFrame</code> o a cada elemento de una <code>Serie</code>.
<br><br>
Se crea una nueva variable llamada <code>Desempleado</code> en base a la información de la columna <code>Dias_empleado</code>. Se aplica una función <code>lambda</code> que recorre la columna <code>Dias_empleado</code> y,

 * si el valor observado en cada fila es $\geq 0$ el resultado que se asigna a la nueva columna `Desempleado` es $1$,
 * por el contrario, si el valor observado es $< 0$ el resultado asignado a la nueva columna es $0$.

<p align="justify">
Entonces, la variables <code>Desempleado</code> tomará dos valores posibles (binaria): $1$ cuando está desempleado y $0$ cuando no lo está.  

In [None]:
df_clientes['Desempleado'] = df_clientes.Dias_empleado.apply(lambda x: 1 if x >= 0 else 0)

👀 La función `lambda` puede ser especialmente útil cuando se requiere una operación simple y no es necesario definir una función separada.

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia,Desempleado
0,5008804,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0
1,5008805,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0
2,5008806,M,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,0,0,0,Security staff,2,0
3,5008808,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
4,5008809,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
5,5008810,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
6,5008811,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
7,5008812,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1
8,5008813,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1
9,5008814,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1


<p align="justify">
Se crea una nueva variable llamada <code>Años_empleado</code> en base a la información de la columna <code>Dias_empleado</code>. Se aplica una función <code>lambda</code> que recorre la columna <code>Dias_empleado</code> y,

* si el valor observado en cada fila es $<$ 0 el resultado que se asigna a la nueva columna `Años_empleado` surge de dividir la cantidad de días (en negativo) por 365.25,
* por el contrario, si el valor observado es $\geq$ 0 el resultado asignado a la nueva columna es 0.

In [None]:
df_clientes['Años_empleado'] = df_clientes.Dias_empleado.apply(lambda x: round(-x/365.25, 2) if x < 0 else 0)

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia,Desempleado,Años_empleado
0,5008804,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0,12.44
1,5008805,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0,12.44
2,5008806,M,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,0,0,0,Security staff,2,0,3.1
3,5008808,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
4,5008809,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
5,5008810,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
6,5008811,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
7,5008812,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0
8,5008813,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0
9,5008814,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0


Se crea una nueva variable llamada `Edad` en base a la información de la columna `Dias_nacimiento`. Se aplica una función `lambda` que recorre la columna `Dias_nacimiento` y divide la cantidad de días (en negativo) por 365.25, el resultado se irá asignando a la nueva columna `Edad`.

In [None]:
df_clientes['Edad'] = df_clientes.Dias_nacimiento.apply(lambda x: round(-x/365.25, 2))

Eliminamos aquellas columnas que previamente usamos para generar nuevas variables:

In [None]:
df_clientes.drop(columns=["Dias_nacimiento","Dias_empleado"], inplace=True)
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100000 entries, 0 to 99999
Data columns (total 18 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  object 
 2   Auto              100000 non-null  int64  
 3   Propiedad         100000 non-null  int64  
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Telefono_laboral  100000 non-null  int64  
 11  Telefono_fijo     100000 non-null  int64  
 12  Email             100000 non-null  int64  
 13  Ocupacion         100000 non-null  object 
 14  Tamaño_familia    100000 non-null  int64  
 15  Desempleado       100000 non-null  int64  
 16  Años_empleado     100

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia,Desempleado,Años_empleado,Edad
0,5008804,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
1,5008805,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
2,5008806,M,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,0,0,0,Security staff,2,0,3.1,58.79
3,5008808,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
4,5008809,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
5,5008810,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
6,5008811,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
7,5008812,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
8,5008813,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
9,5008814,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5


### **<font color="DeepPink">Eliminar datos duplicados</font>**

<p align="justify">
✅ El método <code>drop_duplicates</code> de <code>pandas</code> se utiliza para eliminar duplicados de un <code>DataFrame</code>. Permite identificar y eliminar filas duplicadas en función de los valores de las columnas especificadas.


Los parámetros principales son los siguientes:

* `subset`: especifica las columnas que se utilizarán para identificar duplicados. Si no se proporciona, se considerarán todas las columnas.
* `keep`: determina qué duplicados mantener. Puede tomar uno de los siguientes valores:

    * 'first': mantiene la primera aparición de cada duplicado y elimina las subsiguientes. Por defecto esta es la opción que selecciona.
    * 'last': mantiene la última aparición de cada duplicado y elimina las anteriores.
    * `False`: elimina todas las apariciones de los duplicados.

<p align="justify">
En resumen, el método <code>drop_duplicates</code> es útil para eliminar filas duplicadas de un <code>DataFrame</code>. Puede ajustarse para eliminar duplicados basados en todas las columnas o en columnas específicas, y permite mantener la primera o última aparición de cada duplicado o eliminar todas las apariciones.

In [None]:
df_clientes = df_clientes.drop_duplicates(subset = df_clientes.columns[1:], )

<p align="justify">
👀 Para identificar las columnas a eliminar se utilizó el método <code>columns</code> de <code>pandas</code>, este método se utiliza para obtener una lista de las etiquetas de columna de un <code>DataFrame</code>. Luego con la expresión <code>[1:]</code> se filtraron aquellas columnas a partir del índice 1 (<code>Genero</code>) hasta el final.


In [None]:
df_clientes.head()

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia,Desempleado,Años_empleado,Edad
0,5008804,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
2,5008806,M,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,0,0,0,Security staff,2,0,3.1,58.79
3,5008808,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
7,5008812,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
10,5008815,M,1,1,0,270000.0,Working,Higher education,Married,House / apartment,1,1,1,Accountants,2,0,2.11,46.19


## **<font color="DeepPink">Registro de crédito</font>**

In [None]:
df_credito.head()

Unnamed: 0_level_0,MONTHS_BALANCE,STATUS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
5001711,0,X
5001711,-1,0
5001711,-2,0
5001711,-3,0
5001712,0,C


Se utiliza el método `replace` para reemplazar múltiples valores por un valor específico:

In [None]:
df_credito.STATUS.replace(['1', '2', '3', '4', '5'], 1, inplace=True)   # mal pagador
df_credito.STATUS.replace(['0', 'X', 'C'], 0, inplace=True)             # buen pagador
#df_credito.STATUS = df_credito.STATUS.astype(int)

​👀 Cuando el atraso en el pago es superior a 30 días, se asigna la etiqueta `1`, sino se asigna la etiqueta `0`.

In [None]:
df_credito.head()

Unnamed: 0_level_0,MONTHS_BALANCE,STATUS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
5001711,0,0
5001711,-1,0
5001711,-2,0
5001711,-3,0
5001712,0,0


In [None]:
df_credito.STATUS.value_counts()

0    1034381
1      14194
Name: STATUS, dtype: int64

<p align="justify">
✅ El método <code>groupby</code> en <code>pandas</code> se utiliza para agrupar datos en un <code>DataFrame</code> según una o varias columnas y luego realizar operaciones en cada uno de esos grupos.


Puede profundizar sobre este método en la [documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).

<p align="justify">
El agrupamiento se realiza por la columna <code>ID</code> del DataFrame, y luego calcula el valor máximo de la columna <code>STATUS</code> para cada grupo.

In [None]:
df_credito_agrup = pd.DataFrame(df_credito.groupby(by = "ID")["STATUS"].max())
df_credito_agrup

Unnamed: 0_level_0,STATUS
ID,Unnamed: 1_level_1
5001711,0
5001712,0
5001713,0
5001714,0
5001715,0
...,...
5150482,0
5150483,0
5150484,0
5150485,0


<p align="justify">
✅ El método <code>reset_index</code> en <code>pandas</code> se utiliza para restablecer el índice de un <code>DataFrame</code>. Cuando se realiza una operación como <code>groupby</code>, el resultado puede generar un DataFrame con un índice que no sea secuencial. El método <code>reset_index</code> permite volver a establecer un índice simple y secuencial. Al indicar <code>drop=False</code> no se descarta el índice anterior, sino que se incorpora como columna al <code>DataFrame</code>.

In [None]:
df_credito_agrup.reset_index(drop=False, inplace=True)
df_credito_agrup.head()

Unnamed: 0,ID,STATUS
0,5001711,0
1,5001712,0
2,5001713,0
3,5001714,0
4,5001715,0


In [None]:
df_credito_agrup.STATUS.value_counts()

0    40635
1     5350
Name: STATUS, dtype: int64

In [None]:
df_credito_agrup.rename(columns={"STATUS":"Calificacion"}, inplace=True)

## **<font color="DeepPink">Combinación de ambos `DataFrames`</font>**

<p align="justify">
✅ El método <code>merge</code> en pandas se utiliza para combinar dos o más <code>DataFrames</code> en función de una o más columnas comunes. La función <code>merge</code> es similar a la operación SQL JOIN y proporciona una forma flexible de unir <code>DataFrames</code> en función de criterios específicos.

Los parámetros principales son los siguientes:

* `left` y `right` son los DataFrames que se desean combinar.
* `how` especifica el tipo de combinación a realizar. Los valores comunes son: 'inner' (intersección), 'outer' (unión), 'left' (izquierda) y 'right' (derecha). Por defecto, es 'inner'.
* `on` o `left_on` y `right_on` especifican las columnas comunes en las que se realizará la combinación. Si las columnas tienen el mismo nombre en ambos `DataFrames`, se puede usar `on` para especificar una sola columna. Si los nombres de las columnas difieren, se deben utilizar `left_on` y `right_on` para especificar las columnas correspondientes en cada `DataFrame`.

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Image_0001.01.jpg?raw=true" width="800" height="">
</p>


In [None]:
df = pd.merge(left=df_clientes, right=df_credito_agrup, on='ID', how='inner')
df.head()

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tamaño_familia,Desempleado,Años_empleado,Edad,Calificacion
0,5008804,M,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87,1
1,5008806,M,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,0,0,0,Security staff,2,0,3.1,58.79,0
2,5008808,F,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32,0
3,5008812,F,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5,0
4,5008815,M,1,1,0,270000.0,Working,Higher education,Married,House / apartment,1,1,1,Accountants,2,0,2.11,46.19,0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9587 entries, 0 to 9586
Data columns (total 19 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                9587 non-null   int64  
 1   Genero            9587 non-null   object 
 2   Auto              9587 non-null   int64  
 3   Propiedad         9587 non-null   int64  
 4   Hijos             9587 non-null   int64  
 5   Ingreso_anual     9587 non-null   float64
 6   Tipo_trabajo      9587 non-null   object 
 7   Nivel_educativo   9587 non-null   object 
 8   Estado_civil      9587 non-null   object 
 9   Vivienda          9587 non-null   object 
 10  Telefono_laboral  9587 non-null   int64  
 11  Telefono_fijo     9587 non-null   int64  
 12  Email             9587 non-null   int64  
 13  Ocupacion         9587 non-null   object 
 14  Tamaño_familia    9587 non-null   int64  
 15  Desempleado       9587 non-null   int64  
 16  Años_empleado     9587 non-null   float64


In [None]:
df = df.drop(columns=['ID'])

In [None]:
df.loc[:,["Auto","Propiedad","Telefono_laboral","Telefono_fijo","Email","Desempleado","Calificacion"]] = df[["Auto","Propiedad","Telefono_laboral","Telefono_fijo","Email","Desempleado","Calificacion"]].astype('object')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9587 entries, 0 to 9586
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Genero            9587 non-null   object 
 1   Auto              9587 non-null   object 
 2   Propiedad         9587 non-null   object 
 3   Hijos             9587 non-null   int64  
 4   Ingreso_anual     9587 non-null   float64
 5   Tipo_trabajo      9587 non-null   object 
 6   Nivel_educativo   9587 non-null   object 
 7   Estado_civil      9587 non-null   object 
 8   Vivienda          9587 non-null   object 
 9   Telefono_laboral  9587 non-null   object 
 10  Telefono_fijo     9587 non-null   object 
 11  Email             9587 non-null   object 
 12  Ocupacion         9587 non-null   object 
 13  Tamaño_familia    9587 non-null   int64  
 14  Desempleado       9587 non-null   object 
 15  Años_empleado     9587 non-null   float64
 16  Edad              9587 non-null   float64


 # **<font color="DeepPink">Análisis exploratorio de datos (EDA)</font>**

<p align="justify">
El análisis exploratorio de datos (EDA, por sus siglas en inglés) es un enfoque sistemático para analizar y comprender los datos antes de aplicar cualquier modelo o algoritmo. El EDA implica explorar y visualizar los datos para obtener información y detectar patrones, tendencias, relaciones y posibles valores atípicos.

 ## **<font color="DeepPink">Estadística descriptiva</font>**

<p align="justify">
✅ El método <code>describe</code> en pandas es útil para calcular las <b>estadísticas descriptivas</b> de un <code>DataFrame</code>. Proporciona un resumen de las medidas centrales, la dispersión e inofrmación general de los datos en el <code>DataFrame</code>.

In [None]:
round(df.describe().T,2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Hijos,9587.0,0.42,0.77,0.0,0.0,0.0,1.0,19.0
Ingreso_anual,9587.0,181271.05,99426.65,27000.0,112500.0,157500.0,225000.0,1575000.0
Tamaño_familia,9587.0,2.18,0.93,1.0,2.0,2.0,3.0,20.0
Años_empleado,9587.0,5.68,6.35,0.0,0.94,3.76,8.21,43.02
Edad,9587.0,43.76,11.63,20.5,34.03,42.73,53.52,68.86


In [None]:
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
Genero,9587,2,F,6264
Auto,9587,2,0,6057
Propiedad,9587,2,1,6454
Tipo_trabajo,9587,5,Working,4915
Nivel_educativo,9587,5,Secondary / secondary special,6673
Estado_civil,9587,5,Married,6465
Vivienda,9587,6,House / apartment,8582
Telefono_laboral,9587,2,0,7494
Telefono_fijo,9587,2,0,6829
Email,9587,2,0,8746


 ## **<font color="DeepPink">Análisis gráfico</font>**

In [None]:
import plotly.express as px

In [None]:
px.histogram(df,
       y='Genero',
       color='Calificacion',
       title='Distribución por Género',
       template="gridon",
       text_auto=True,
       labels={"Genero":"Género"}
       )

In [None]:
object_cols = df.select_dtypes(include='object')
for i in object_cols:
    fig = px.histogram(df, x=i, color='Calificacion', title=i, template="gridon")
    fig.update_layout(bargap=0.2)
    fig.show()

In [None]:
numeric_cols = df.select_dtypes(include=['int','float'])
numeric_cols

Unnamed: 0,Hijos,Ingreso_anual,Tamaño_familia,Años_empleado,Edad
0,0,427500.0,2,12.44,32.87
1,0,112500.0,2,3.10,58.79
2,0,270000.0,1,8.35,52.32
3,0,283500.0,1,0.00,61.50
4,0,270000.0,2,2.11,46.19
...,...,...,...,...,...
9582,0,112500.0,1,4.52,27.03
9583,1,135000.0,3,24.35,44.63
9584,1,112500.0,3,0.85,38.97
9585,0,180000.0,2,6.68,48.50


In [None]:
for i in numeric_cols:
    fig = px.histogram(df, x=i, color='Calificacion', title=i, template="gridon")
    fig.update_layout(bargap=0.2)
    fig.show()

In [None]:
for i in numeric_cols:
    fig = px.box(df, x=i, color='Calificacion', title=i, template="gridon")
    fig.update_layout(bargap=0.2)
    fig.show()

 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br><br>
✅ Realizamos tareas propias del preprocesamiento de datos tales como: verificar datos duplicados, comproba y trabajar valores nulos, modificar el tipo de dato para que se adecue a la realidad y al análisis necesario, crear nuevas variables y combinar DataFrames. <br>✅ También, hicimos un EDA básico mediante estadísticas descriptivas y análisis gráfico.<br>
</p>
<p align="justify">





<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
