In [1]:
import pandas as pd
import numpy as np

# DATOS DE CLIENTES

#### Carga de datos

In [2]:
clientes = pd.read_csv("raw-data/CLIENTES.csv", sep=",")
clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31248 entries, 0 to 31247
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   IDCLIENTE  31248 non-null  int64 
 1   SEGMENTO   31248 non-null  object
 2   EDAD       31248 non-null  object
 3   PRODUCTO   31248 non-null  object
dtypes: int64(1), object(3)
memory usage: 976.6+ KB


#### Revisar duplicidad

In [3]:
# MOSTRAR LOS REGISTROS REPETIDOS
clientes.loc[clientes.IDCLIENTE.duplicated(keep=False)]

Unnamed: 0,IDCLIENTE,SEGMENTO,EDAD,PRODUCTO
4329,15117,A2,MAYORES A 65 AÑOS,CTA & TC
4330,15117,A2,MAYORES A 65 AÑOS,CTA & TC
5193,240369,A3,MAYORES A 65 AÑOS,CTA
5194,240369,A3,MAYORES A 65 AÑOS,CTA
10226,86831,A2,MAYORES A 65 AÑOS,CTA & TC
10227,86831,A2,MAYORES A 65 AÑOS,CTA & TC
12232,180569,A3,MAYORES A 65 AÑOS,CTA
12233,180569,A3,MAYORES A 65 AÑOS,CTA
14027,77575,A3,MAYORES A 65 AÑOS,CTA
14028,77575,A3,MAYORES A 65 AÑOS,CTA


In [4]:
# BORRAR LOS DATOS DUPLICADOS
clientes.drop_duplicates(subset=["IDCLIENTE"], inplace=True)

In [5]:
# VISUALIZAR CANTIDAD DE DATOS UNICOS
clientes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31241 entries, 0 to 31247
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   IDCLIENTE  31241 non-null  int64 
 1   SEGMENTO   31241 non-null  object
 2   EDAD       31241 non-null  object
 3   PRODUCTO   31241 non-null  object
dtypes: int64(1), object(3)
memory usage: 1.2+ MB


#### REVISAR DATOS FALTANTES

In [6]:
clientes.isna().sum()

IDCLIENTE    0
SEGMENTO     0
EDAD         0
PRODUCTO     0
dtype: int64

In [14]:
clientes.SEGMENTO.unique()

array(['A3', 'A2', 'B1', 'A1', 'P2', 'P1', 'E2', 'E3', 'E1'], dtype=object)

In [15]:
clientes.EDAD.unique()

array(['36 A 45 AÑOS', 'EMPRESA', '46 A 65 AÑOS', '23 A 30 AÑOS',
       '31 A 35 AÑOS', 'MAYORES A 65 AÑOS', 'OTROS NO IDENTIFICADOS',
       '1 A 17 AÑOS', '18 A 22 AÑOS'], dtype=object)

In [16]:
clientes.PRODUCTO.unique()

array(['TC', 'CTA', 'CTA & TC'], dtype=object)

#### VISUALIZAR CANTIDAD MAXIMA DE CARACTERES EN LAS COLUMNAS DE TEXTO

Esto permite establecer la cantidad de caracteres maxima a almacenar en la BD

In [7]:
print("Maxima longitud de caracteres en SEGMENTO =>", clientes.SEGMENTO.str.len().max() )

Maxima longitud de caracteres en SEGMENTO => 2


In [8]:
print("Maxima longitud de caracteres en EDAD =>", clientes.EDAD.str.len().max() )

Maxima longitud de caracteres en EDAD => 22


In [9]:
print("Maxima longitud de caracteres en PRODUCTO =>", clientes.PRODUCTO.str.len().max() )

Maxima longitud de caracteres en PRODUCTO => 8


In [10]:
clientes.to_csv("clean-data/CLIENTES.csv", sep=",", encoding="utf-8-sig", index=False)

# DATOS DE POLIZAS

In [44]:
# CARGAR DATOS
polizas = pd.read_csv("raw-data/POLIZAS.csv", sep=",")
polizas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82004 entries, 0 to 82003
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   FECCHAEMISION     82004 non-null  int64  
 1   IDCLIENTE         82004 non-null  int64  
 2   CANAL             82004 non-null  object 
 3   MONTO             82004 non-null  float64
 4   NUMPOLIZA         82004 non-null  object 
 5   TIPO              82004 non-null  object 
 6   FECHAVENCIMIENTO  82004 non-null  int64  
 7   ESTADOACTUAL      82004 non-null  object 
 8   FECHACANCELACION  82004 non-null  int64  
dtypes: float64(1), int64(4), object(4)
memory usage: 5.6+ MB


In [45]:
# VISUALIZAR DATA
polizas.head()

Unnamed: 0,FECCHAEMISION,IDCLIENTE,CANAL,MONTO,NUMPOLIZA,TIPO,FECHAVENCIMIENTO,ESTADOACTUAL,FECHACANCELACION
0,20220112,39377,WEB,120.0,P-59425709,NUEVA,20230112,P,20230112
1,20220112,4246425,WEB,21.0,P-59425710,NUEVA,20220425,P,20220425
2,20220112,1347458,WEB,63.33,P-59425711,NUEVA,20230109,P,20230109
3,20220112,335442,WEB,2100.0,P-59425712,NUEVA,20220412,P,20220412
4,20220112,590057,ALT,600.0,P-59425713,RENOVACION,20230112,P,20230112


In [46]:
# TRANSFORMAR LAS FECHAS EN FORMATO FECHA YYYY-MM-DD
date_cols = ["FECCHAEMISION", "FECHAVENCIMIENTO", "FECHACANCELACION" ] 

for col in date_cols:
    polizas[col] = pd.to_datetime(polizas[col], format="%Y%m%d", errors="coerce")

In [47]:
# VISUALIZAR VALORES NULOS
polizas.isnull().sum()

FECCHAEMISION           0
IDCLIENTE               0
CANAL                   0
MONTO                   0
NUMPOLIZA               0
TIPO                    0
FECHAVENCIMIENTO        0
ESTADOACTUAL            0
FECHACANCELACION    16614
dtype: int64

In [52]:
# LABELING CANAL
polizas.CANAL = np.where(polizas.CANAL == "WEB", "ONLINE", "PRESENCIAL")

In [53]:
polizas.CANAL.unique()

array(['ONLINE', 'PRESENCIAL'], dtype=object)

In [76]:
polizas.TIPO.unique()

array(['NUEVA', 'RENOVACION'], dtype=object)

In [73]:
cat_cols = polizas.copy().select_dtypes(exclude=['number','datetime']).columns

for col in cat_cols:
    print(f"Maxima longitud de caracteres en {col} =>", polizas[col].str.len().max() )

Maxima longitud de caracteres en CANAL => 10
Maxima longitud de caracteres en NUMPOLIZA => 10
Maxima longitud de caracteres en TIPO => 10
Maxima longitud de caracteres en ESTADOACTUAL => 1


In [74]:
# EXPORTAR DATOS LIMPIOS
polizas.to_csv("clean-data/POLIZAS.csv", sep=",", encoding="utf-8-sig", index=False)