# Análisis Exploratorio de las Fuentes de Datos

## Imports

In [72]:
import pandas as pd

## Funciones auxiliares

In [2]:
def initial_eda(df):

    # Validar el tipo de dato del parámetro de entrada
    if isinstance(df, pd.DataFrame):

        # Shape
        print("Dimensiones : %d filas, %d columnas" % (df.shape[0], df.shape[1]))
        # Valores NA totales
        print("Valores NA Totales : %d " % (df.isna().sum().sum()))

        # Por cada columna: tipo de dato, cant. de valores distintos y cant. de valores NA
        print("%38s %10s     %10s %10s" % ("Columna", "Tipo de Datos", "Valores Distintos", "Valores NA"))
        for i in range(len(df.columns)):
            print("%38s %10s   %10s %10s" % (df.columns[i], 
                                             df.dtypes.iloc[i], 
                                             df.nunique().iloc[i], 
                                             df.isna().sum().iloc[i]))
        
    else:
        print("Se esperaba un Dataframe pero se recibió un %15s" % (type(df)))

## Análisis Exploratorio por Dataset

### Logins

#### Leer Datos

In [74]:
logins_data_df = pd.read_json('../source_files/logins_2024.json')

display(logins_data_df.head())

Unnamed: 0,callid,customerid,logindate,channel
0,708,1133466,8/25/2023 15:32:00,1
1,709,1133466,8/25/2023 15:26:49,2
2,799,1163726,7/28/2023 14:08:44,2
3,804,1164064,7/27/2023 10:32:28,1
4,805,1164338,8/25/2023 12:44:02,2


#### Análisis de Valores

In [75]:
initial_eda(logins_data_df)

Dimensiones : 129 filas, 4 columnas
Valores NA Totales : 0 
                               Columna Tipo de Datos     Valores Distintos Valores NA
                                callid      int64          129          0
                            customerid      int64          109          0
                             logindate     object          128          0
                               channel      int64            2          0


Conclusiones:
- No hay valores faltantes en ninguna de las columnas
- La columna "callid" tiene valores únicos, por lo cual podemos utilizarla como clave primaria para este dataset.

*Todas las claves primarias que se propuestas y utilizadas luego del análisis de los datos fuente deben ser validadas por los stakeholders del negocio* 

### Llamadas

#### Leer Datos

In [95]:
llamadas_data_df = pd.read_csv('../source_files/Llamadas_2024.csv', encoding='latin-1')

display(llamadas_data_df.head())

Unnamed: 0,Fecha,IDCliente,Campania,Telefono,Agente,Tiempohablado,Tiempototal
0,6/27/2023 13:22,46056,COBRANZA_INTELIGENTE_MX,5561408990,guadalupe.servin,0:00:06,0:00:14
1,6/27/2023 10:05,359213,COBRANZA_INTELIGENTE_MX,4611501750,guadalupe.servin,0:00:00,0:00:27
2,6/27/2023 10:07,524130,COBRANZA_INTELIGENTE_MX,4929272804,guadalupe.servin,0:00:00,0:00:18
3,6/27/2023 12:11,624903,COBRANZA_INTELIGENTE_MX,3231472175,guadalupe.servin,0:00:03,0:00:31
4,6/27/2023 10:09,724594,COBRANZA_INTELIGENTE_MX,9971345343,guadalupe.servin,0:00:00,0:00:23


#### Análisis de Valores

In [77]:
initial_eda(llamadas_data_df)

Dimensiones : 1326 filas, 7 columnas
Valores NA Totales : 0 
                               Columna Tipo de Datos     Valores Distintos Valores NA
                                 Fecha     object         1007          0
                             IDCliente      int64          773          0
                              Campania     object           14          0
                              Telefono      int64          941          0
                                Agente     object           10          0
                         Tiempohablado     object          223          0
                           Tiempototal     object          243          0


In [106]:
llamadas_data_df[llamadas_data_df['IDCliente'] == -1]

Unnamed: 0,Fecha,IDCliente,Campania,Telefono,Agente,Tiempohablado,Tiempototal,Clave
228,6/27/2023 9:28,-1,pe_adq_onboarding,969583200,pe_rrojas,0:00:08,0:00:19,6/27/2023 9:28-1
229,6/27/2023 9:31,-1,pe_adq_onboarding,969277671,pe_jascencio,0:00:07,0:00:21,6/27/2023 9:31-1
230,6/27/2023 9:35,-1,pe_adq_onboarding,996215858,pe_jascencio,0:00:02,0:00:14,6/27/2023 9:35-1
231,6/27/2023 9:37,-1,pe_adq_onboarding,930141290,pe_jascencio,0:00:14,0:00:22,6/27/2023 9:37-1
236,6/27/2023 14:27,-1,pe_adq_onboarding,998142067,pe_lchavez,0:00:04,0:00:27,6/27/2023 14:27-1
...,...,...,...,...,...,...,...,...
1280,8/28/2023 11:39,-1,pe_adq_onboarding,923424699,pe_jascencio,0:00:24,0:00:53,8/28/2023 11:39-1
1281,8/28/2023 11:22,-1,pe_adq_onboarding,956982103,pe_jascencio,0:00:27,0:00:56,8/28/2023 11:22-1
1282,8/28/2023 11:24,-1,pe_adq_onboarding,972666578,pe_jascencio,0:01:58,0:02:01,8/28/2023 11:24-1
1283,8/28/2023 11:28,-1,pe_adq_onboarding,981003595,pe_jascencio,0:01:54,0:01:57,8/28/2023 11:28-1


Conclusiones:
- No hay valores faltantes en ninguna de las columnas
- No existe ninguna columna con valores únicos. Como clave primaria para este dataset proponemos entonces la combinación de dos columnas: Fecha e IDCliente. 
- El valor CustomerID = -1 no existe en el dataset de Customers, posiblemente sea un identificador para cuando el Customer es desconocido.

*Podríamos utilizar también la campaña como parte de la clave primaria, si para una misma fecha podemos tener más de una campaña activa, es un punto a confirmar con los stakeholders del negocio*

#### Análisis de clave propuesta

In [105]:
llamadas_data_df_filtered = llamadas_data_df.copy()
llamadas_data_df_filtered = llamadas_data_df_filtered[llamadas_data_df_filtered["IDCliente"] != -1]

display(llamadas_data_df_filtered.shape)

llamadas_data_df_filtered["Clave"] = llamadas_data_df_filtered["Fecha"].astype(str) + llamadas_data_df_filtered["IDCliente"].astype(str)
display(llamadas_data_df_filtered["Clave"].nunique())

(1073, 8)

1073

Conclusiones: 
   No teniendo en cuenta el valor para Cliente desconocido, la clave propuesta es única.

### Customers

#### Leer Datos

In [78]:
customers_data_df = pd.read_csv('../source_files/Customers_2024.csv', encoding='latin-1')

display(customers_data_df.head())

Unnamed: 0,CustomerID,Gender,Type
0,544,F,GEM
1,1498,F,REGULAR
2,2141,F,REGULAR
3,10532,F,GEM
4,34657,M,GEM


#### Análisis de Valores

In [79]:
initial_eda(customers_data_df)

Dimensiones : 782 filas, 3 columnas
Valores NA Totales : 117 
                               Columna Tipo de Datos     Valores Distintos Valores NA
                            CustomerID      int64          782          0
                                Gender     object            2        117
                                  Type     object            2          0


Conclusiones:
- Existen valores faltantes en la columna "Gender"
- La columna "CustomerID" tiene valores únicos, por lo cual podemos utilizarla como clave primaria para este dataset.

### Canal Digital

#### Leer Datos

In [80]:
canal_data_df = pd.read_csv('../source_files/CanalDigital_2024.csv', encoding='latin-1')

display(canal_data_df.head())

Unnamed: 0,idcanal,desc_canal
0,1,Whatsapp
1,2,AppCallCore


#### Análisis de Valores

In [81]:
initial_eda(canal_data_df)

Dimensiones : 2 filas, 2 columnas
Valores NA Totales : 0 
                               Columna Tipo de Datos     Valores Distintos Valores NA
                               idcanal      int64            2          0
                            desc_canal     object            2          0


Conclusiones:
- No existen valores faltantes para ninguna de las columnas.
- Ambas columnas tienen valores únicos. La columna "idcanal" tiene valores numéricos enteros, y la otra columna contiene una descripción textual,por lo cual elegimos "idcanal" como clave primaria para este dataset. 

### Agentes

#### Leer Datos

In [82]:
agentes_data_df = pd.read_csv('../source_files/Agentes_2024.csv', encoding='latin-1')

display(agentes_data_df.head())

Unnamed: 0,idagente,agente,nivelexpertise,nombre,apellido
0,1,glopez,1,Graciela,López
1,2,guadalupe.servin,1,Guadalupe,Servin
2,3,maryory.huaranga,1,Mar,Huaranga
3,4,mx_esuazo,2,Ernesto,Suazo
4,5,mx_mtorres,1,Manuel,Torres


#### Análisis de Valores

In [83]:
initial_eda(agentes_data_df)

Dimensiones : 10 filas, 5 columnas
Valores NA Totales : 0 
                               Columna Tipo de Datos     Valores Distintos Valores NA
                              idagente      int64           10          0
                                agente     object           10          0
                        nivelexpertise      int64            2          0
                                nombre     object           10          0
                              apellido     object           10          0


Conclusiones:
- No existen valores faltantes en ninguna de las columnas.
- Las columnas "idagente" y "agente" tienen valores únicos, pero elegimos utilizar la primera como clave primaria para este dataset, por tener datos numéricos enteros.

## Análisis de Relación entre los Datasets

### Llamadas y agentes

In [84]:
llamadas_agentes_df = llamadas_data_df.join(agentes_data_df.set_index('agente'), on='Agente', how='left')

display(llamadas_agentes_df)

Unnamed: 0,Fecha,IDCliente,Campania,Telefono,Agente,Tiempohablado,Tiempototal,idagente,nivelexpertise,nombre,apellido
0,6/27/2023 13:22,46056,COBRANZA_INTELIGENTE_MX,5561408990,guadalupe.servin,0:00:06,0:00:14,2,1,Guadalupe,Servin
1,6/27/2023 10:05,359213,COBRANZA_INTELIGENTE_MX,4611501750,guadalupe.servin,0:00:00,0:00:27,2,1,Guadalupe,Servin
2,6/27/2023 10:07,524130,COBRANZA_INTELIGENTE_MX,4929272804,guadalupe.servin,0:00:00,0:00:18,2,1,Guadalupe,Servin
3,6/27/2023 12:11,624903,COBRANZA_INTELIGENTE_MX,3231472175,guadalupe.servin,0:00:03,0:00:31,2,1,Guadalupe,Servin
4,6/27/2023 10:09,724594,COBRANZA_INTELIGENTE_MX,9971345343,guadalupe.servin,0:00:00,0:00:23,2,1,Guadalupe,Servin
...,...,...,...,...,...,...,...,...,...,...,...
1321,7/28/2023 13:45,1203959,pe_adq_welcome,931837126,glopez,0:07:11,0:07:20,1,1,Graciela,López
1322,7/28/2023 13:41,1203822,pe_adq_welcome,974546959,glopez,0:00:22,0:01:20,1,1,Graciela,López
1323,7/28/2023 15:58,1203280,pe_adq_welcome,999225038,glopez,0:04:18,0:04:21,1,1,Graciela,López
1324,8/25/2023 13:17,1163602,mx_adq_onboarding,8311626972,pe_jascencio,0:00:09,0:00:19,7,2,Juan,Ascencio


In [85]:
llamadas_agentes_df[llamadas_agentes_df['idagente'].isnull()].shape

(0, 11)

Conclusiones:
- Podemos utilizar el campo "agente" del Dataset Llamadas como clave foránea al Dataset Agentes. En este caso, si bien el campo utilizado en el segundo Dataset no es su clave primaria, tiene valores únicos.

### Llamadas y customers

In [86]:
llamadas_customers_df = llamadas_data_df.join(customers_data_df.set_index('CustomerID'), on='IDCliente', how='left')

display(llamadas_customers_df)

Unnamed: 0,Fecha,IDCliente,Campania,Telefono,Agente,Tiempohablado,Tiempototal,Gender,Type
0,6/27/2023 13:22,46056,COBRANZA_INTELIGENTE_MX,5561408990,guadalupe.servin,0:00:06,0:00:14,M,GEM
1,6/27/2023 10:05,359213,COBRANZA_INTELIGENTE_MX,4611501750,guadalupe.servin,0:00:00,0:00:27,F,REGULAR
2,6/27/2023 10:07,524130,COBRANZA_INTELIGENTE_MX,4929272804,guadalupe.servin,0:00:00,0:00:18,,GEM
3,6/27/2023 12:11,624903,COBRANZA_INTELIGENTE_MX,3231472175,guadalupe.servin,0:00:03,0:00:31,,REGULAR
4,6/27/2023 10:09,724594,COBRANZA_INTELIGENTE_MX,9971345343,guadalupe.servin,0:00:00,0:00:23,F,REGULAR
...,...,...,...,...,...,...,...,...,...
1321,7/28/2023 13:45,1203959,pe_adq_welcome,931837126,glopez,0:07:11,0:07:20,F,GEM
1322,7/28/2023 13:41,1203822,pe_adq_welcome,974546959,glopez,0:00:22,0:01:20,M,GEM
1323,7/28/2023 15:58,1203280,pe_adq_welcome,999225038,glopez,0:04:18,0:04:21,M,GEM
1324,8/25/2023 13:17,1163602,mx_adq_onboarding,8311626972,pe_jascencio,0:00:09,0:00:19,M,REGULAR


In [109]:
llamadas_customers_df[llamadas_customers_df['Type'].isnull()].shape

(253, 9)

Conclusiones:
- Tenemos 253 llamadas para las cuales el cliente es desconocido, de un total de 1326 llamadas. Si bien es posible que estas llamadas no sean útiles para analizar algunas métricas que puedan definirse, se mantienen en el dataset porque contienen datos relevantes.
- Podemos utilizar el campo "IDCliente" del Dataset Llamadas como clave foránea al Dataset Customers. Enl campo utilizado en el segundo Dataset es su clave primaria.

### Logins y Canales Digitales

In [88]:
logins_canales_df = logins_data_df.join(canal_data_df.set_index('idcanal'), on='channel', how='left')

display(logins_canales_df)

Unnamed: 0,callid,customerid,logindate,channel,desc_canal
0,708,1133466,8/25/2023 15:32:00,1,Whatsapp
1,709,1133466,8/25/2023 15:26:49,2,AppCallCore
2,799,1163726,7/28/2023 14:08:44,2,AppCallCore
3,804,1164064,7/27/2023 10:32:28,1,Whatsapp
4,805,1164338,8/25/2023 12:44:02,2,AppCallCore
...,...,...,...,...,...
124,1080,1207045,8/28/2023 20:34:49,1,Whatsapp
125,1081,1207045,8/28/2023 20:36:45,1,Whatsapp
126,1082,1207045,8/28/2023 21:14:34,1,Whatsapp
127,1083,1207047,8/28/2023 18:13:13,2,AppCallCore


In [89]:
logins_canales_df[logins_canales_df['desc_canal'].isnull().isnull()].shape

(0, 5)

Conclusiones:
- Podemos utilizar el campo "channel" del Dataset Logins como clave foránea al Dataset Canales Digitales. Enl campo utilizado en el segundo Dataset es su clave primaria.

### Logins y Customers

In [90]:
logins_customers_df = logins_data_df.join(customers_data_df.set_index('CustomerID'), on='customerid', how='left')

display(logins_customers_df)

Unnamed: 0,callid,customerid,logindate,channel,Gender,Type
0,708,1133466,8/25/2023 15:32:00,1,F,REGULAR
1,709,1133466,8/25/2023 15:26:49,2,F,REGULAR
2,799,1163726,7/28/2023 14:08:44,2,M,REGULAR
3,804,1164064,7/27/2023 10:32:28,1,,REGULAR
4,805,1164338,8/25/2023 12:44:02,2,,REGULAR
...,...,...,...,...,...,...
124,1080,1207045,8/28/2023 20:34:49,1,F,GEM
125,1081,1207045,8/28/2023 20:36:45,1,F,GEM
126,1082,1207045,8/28/2023 21:14:34,1,F,GEM
127,1083,1207047,8/28/2023 18:13:13,2,F,REGULAR


In [91]:
logins_customers_df[logins_customers_df['Type'].isnull().isnull()].shape

(0, 6)

Conclusiones:
- Podemos utilizar el campo "customerid" del Dataset Logins como clave foránea al Dataset Customers. Enl campo utilizado en el segundo Dataset es su clave primaria.

## Análisis de fecha en datos de Facts

### Llamadas

#### Cantidad de valores diferentes

In [92]:
display("Fecha y hora: " + str(llamadas_data_df.nunique()["Fecha"]))

llamadas_data_df["Solo Fecha"] = llamadas_data_df["Fecha"].str[:10]
display("Fecha: " + str(llamadas_data_df.nunique()["Solo Fecha"]))

'Fecha y hora: 1007'

'Fecha: 7'

#### Lista de valores diferentes

In [93]:
display(llamadas_data_df["Solo Fecha"].unique())
display(llamadas_data_df["Fecha"].min())
display(llamadas_data_df["Fecha"].max())

array(['6/27/2023 ', '6/28/2023 ', '7/25/2023 ', '7/27/2023 ',
       '7/28/2023 ', '8/25/2023 ', '8/28/2023 '], dtype=object)

'6/27/2023 10:00'

'8/28/2023 9:57'