## Limpieza de datos con Pandas

- Establecer los paquetes a utilizar.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("./assets/datos_banco_clientes.csv")

In [3]:
df.head(5)

Unnamed: 0,id_cliente,edad,genero,ingresos_mensuales,saldo_promedio,tipo_pago,puntaje_crediticio,mora,segmento,fecha_registro
0,1,56,F,1455.94,1027.82,,315.0,0,Clásico,2022-11-15
1,2,69,M,3433.34,7557.63,,428.0,0,Clásico,2020-03-25
2,3,46,M,3960.88,8461.54,,408.0,0,Premium,2022-01-29
3,4,32,F,3460.77,4094.61,tarjeta crédito,832.0,0,Empresarial,2021-06-07
4,5,60,M,1019.07,2932.03,efectivo,568.0,0,Clásico,2019-11-21


- Verificamos si cuenta con nulos.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_cliente          500 non-null    int64  
 1   edad                500 non-null    int64  
 2   genero              500 non-null    object 
 3   ingresos_mensuales  450 non-null    float64
 4   saldo_promedio      500 non-null    float64
 5   tipo_pago           450 non-null    object 
 6   puntaje_crediticio  450 non-null    float64
 7   mora                500 non-null    int64  
 8   segmento            500 non-null    object 
 9   fecha_registro      500 non-null    object 
dtypes: float64(3), int64(3), object(4)
memory usage: 39.2+ KB


In [6]:
df.isnull().sum()

id_cliente             0
edad                   0
genero                 0
ingresos_mensuales    50
saldo_promedio         0
tipo_pago             50
puntaje_crediticio    50
mora                   0
segmento               0
fecha_registro         0
dtype: int64

- Se va a transformar el tipo de dato de la columna fecha_registro.

In [7]:
df_copy = df

In [8]:
df_copy["fecha_registro"] = pd.to_datetime(df_copy["fecha_registro"])

In [9]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id_cliente          500 non-null    int64         
 1   edad                500 non-null    int64         
 2   genero              500 non-null    object        
 3   ingresos_mensuales  450 non-null    float64       
 4   saldo_promedio      500 non-null    float64       
 5   tipo_pago           450 non-null    object        
 6   puntaje_crediticio  450 non-null    float64       
 7   mora                500 non-null    int64         
 8   segmento            500 non-null    object        
 9   fecha_registro      500 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(3), int64(3), object(3)
memory usage: 39.2+ KB


- Como los valores faltantes son menores, entonces lo vamos a reemplazar por la media.

In [10]:
df_copy.describe()

Unnamed: 0,id_cliente,edad,ingresos_mensuales,saldo_promedio,puntaje_crediticio,mora,fecha_registro
count,500.0,500.0,450.0,500.0,450.0,500.0,500
mean,250.5,44.22,3526.241489,6171.94396,585.964444,0.192,2020-09-26 16:24:57.600000
min,1.0,18.0,263.74,562.84,300.0,0.0,2018-01-06 00:00:00
25%,125.75,32.0,2748.285,3398.7125,446.25,0.0,2019-06-01 06:00:00
50%,250.5,45.0,3465.91,5528.825,589.0,0.0,2020-10-08 00:00:00
75%,375.25,57.0,4264.6125,8472.165,723.0,0.0,2022-01-07 00:00:00
max,500.0,69.0,7194.66,17107.23,850.0,1.0,2023-06-24 00:00:00
std,144.481833,15.036082,1192.918786,3452.303927,157.969715,0.394268,


In [13]:
average_monthly_income = round(df_copy["ingresos_mensuales"].mean(), 2)
payment_type = df_copy["tipo_pago"].mode()[0]
average_credit_score = round(df_copy["puntaje_crediticio"].mean(), 2)

df_copy["ingresos_mensuales"] = df_copy["ingresos_mensuales"].fillna(average_monthly_income)
df_copy["tipo_pago"] = df_copy["tipo_pago"].fillna(payment_type)
df_copy["puntaje_crediticio"] = df_copy["puntaje_crediticio"].fillna(average_credit_score)

In [14]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id_cliente          500 non-null    int64         
 1   edad                500 non-null    int64         
 2   genero              500 non-null    object        
 3   ingresos_mensuales  500 non-null    float64       
 4   saldo_promedio      500 non-null    float64       
 5   tipo_pago           500 non-null    object        
 6   puntaje_crediticio  500 non-null    float64       
 7   mora                500 non-null    int64         
 8   segmento            500 non-null    object        
 9   fecha_registro      500 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(3), int64(3), object(3)
memory usage: 39.2+ KB


In [15]:
df_copy.head()

Unnamed: 0,id_cliente,edad,genero,ingresos_mensuales,saldo_promedio,tipo_pago,puntaje_crediticio,mora,segmento,fecha_registro
0,1,56,F,1455.94,1027.82,Yape,315.0,0,Clásico,2022-11-15
1,2,69,M,3433.34,7557.63,Yape,428.0,0,Clásico,2020-03-25
2,3,46,M,3960.88,8461.54,Yape,408.0,0,Premium,2022-01-29
3,4,32,F,3460.77,4094.61,tarjeta crédito,832.0,0,Empresarial,2021-06-07
4,5,60,M,1019.07,2932.03,efectivo,568.0,0,Clásico,2019-11-21


- ¿Cuántos clientes tienen menos de 30 años?

In [24]:
df_copy[df_copy["edad"]<30].shape[0]

107

- Eliminar la columna mora.

In [25]:
df_copy.drop(columns=["mora"], inplace=True)

In [27]:
df_copy.columns

Index(['id_cliente', 'edad', 'genero', 'ingresos_mensuales', 'saldo_promedio',
       'tipo_pago', 'puntaje_crediticio', 'segmento', 'fecha_registro'],
      dtype='object')

- Mostrar los 5 clientes con mayores ingresos mensuales.

In [28]:
df_copy.sort_values(by="ingresos_mensuales", ascending=False).head(5)

Unnamed: 0,id_cliente,edad,genero,ingresos_mensuales,saldo_promedio,tipo_pago,puntaje_crediticio,segmento,fecha_registro
40,41,20,M,7194.66,7204.1,Plin,613.0,Clásico,2021-07-16
317,318,55,M,6658.86,7867.84,efectivo,668.0,Clásico,2019-06-08
216,217,66,F,6588.03,11345.35,tarjeta crédito,585.96,Premium,2023-05-18
324,325,42,M,6572.1,14935.86,Plin,367.0,Clásico,2021-01-21
442,443,45,F,6532.32,9749.19,Yape,589.0,Premium,2019-01-26


- ¿Cuál es el ingreso promedio por tipo de pago?

In [31]:
round(df_copy.groupby("tipo_pago")["ingresos_mensuales"].mean(), 2)

tipo_pago
Plin               3566.25
Yape               3472.70
efectivo           3631.06
tarjeta crédito    3480.03
transferencia      3529.08
Name: ingresos_mensuales, dtype: float64

- ¿Cuantos clientes hay por el tipo de segmento?

In [32]:
df_copy["segmento"].value_counts()

segmento
Clásico        297
Premium        167
Empresarial     36
Name: count, dtype: int64

- Verificar si estan bien escritos los datos categóricos.

In [34]:
df_copy.select_dtypes(include="object").columns.tolist()

['genero', 'tipo_pago', 'segmento']

In [35]:
df_copy["genero"].unique()

array(['F', 'M'], dtype=object)

In [36]:
df_copy["tipo_pago"].unique()

array(['Yape', 'tarjeta crédito', 'efectivo', 'Plin', 'transferencia'],
      dtype=object)

In [37]:
df_copy["segmento"].unique()

array(['Clásico', 'Premium', 'Empresarial'], dtype=object)