### FASE 1: EXPLORACIÓN Y LIMPIEZA

1. Exploración Inicial:
    - Realiza una exploración inicial de los datos para identificar posibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.
    - Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísEcas básicas de las columnas involucradas.
    - Une los dos conjuntos de datos de la forma más eficiente.

2. Limpieza de Datos:
    - Elimina o trata los valores nulos, si los hay, en las columnas clave para asegurar que los datos estén completos.
    - Verifica la consistencia y corrección de los datos para asegurarte de que los datos se presenten de forma coherente.
    - Realiza cualquier ajuste o conversión necesaria en las columnas (por ejemplo, cambiar Epos de datos) para garanEzar la adecuación de los datos para el análisis estadísEco.


In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

### 1. Exploración inicial Customer Flight Activity.csv

Cargamos datos de Customer Flight Activity.csv a DataFrame:

In [2]:
#leemos el primer .csv, lo convertimos a DataFrame:
df_custom_flight_activity = pd.read_csv("Customer Flight Activity.csv")

Revisamos filas y columnas:

In [3]:
#primero visualizamos las primeras filas (con .head() se muestran las primeras 5 filas):
df_custom_flight_activity.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [4]:
#observamos las últimas filas. En este caso también se muestran 5 filas:
df_custom_flight_activity.tail()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


In [5]:
#vamos a explorar filas al azar para visualizar la información:
#no se observan a primera vista valores nulos.
df_custom_flight_activity.sample(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
127592,595027,2017,8,8,0,8,2872,287.0,0,0
237357,139135,2018,3,0,0,0,0,0.0,0,0
324662,289732,2018,8,11,0,11,1155,115.0,0,0
208032,379238,2018,1,0,0,0,0,0.0,0,0
331888,837526,2018,11,0,0,0,0,0.0,0,0


In [6]:
#vamos a sacar número de filas y columnas:
df_custom_flight_activity.shape

(405624, 10)

In [7]:
#mostramos todas las columnas:
df_custom_flight_activity.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

Estructura de los datos y comprobamos si hay valores nulos:

In [8]:
#mostramos la cantidad de entradas no nulas y el tipo de dato de cada columna.
#no tenemos valores nulos y están correctos los tipos de dato. También se puede usar .dtypes() para comprobar el tipo de dato.
df_custom_flight_activity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


Estadísticas descriptivas:

In [23]:
#con .describe() tenemos un resumen estadístico de las columnas numéricas. En este caso todas las columnas son numéricas.
"""
    count: Cantidad de entradas no nulas.
    mean: Promedio de los valores.
    std: Desviación estándar, que mide la dispersión de los datos.
    min: Valor mínimo en la columna.
    25%, 50%, 75%: Percentiles. El percentil 50 es equivalente a la mediana.
    max: Valor máximo en la columna.
"""
#sacamos de las estadísticas descriptivas la columna Loyalty Number porque porque es un identificador único.
df_custom_flight_activity.drop(columns=['Loyalty Number']).describe().round(2)

Unnamed: 0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
count,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0,405624.0
mean,2017.5,6.5,4.12,1.03,5.15,1208.88,123.69,30.7,2.48
std,0.5,3.45,5.23,2.08,6.52,1433.16,146.6,125.49,10.15
min,2017.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2017.0,3.75,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,2017.5,6.5,1.0,0.0,1.0,488.0,50.0,0.0,0.0
75%,2018.0,9.25,8.0,1.0,10.0,2336.0,239.0,0.0,0.0
max,2018.0,12.0,21.0,11.0,32.0,6293.0,676.5,876.0,71.0


- Year:
    Valores de 2017 a 2018.
- Month:
    Datos de todos los meses del año.
- Flights Booked:
    Promedio 4 vuelos por mes, algunos clientes llegaron a 21.
- Flights with Companions:
    La mayoría no vuelan acompañados. Algunos han realizado hasta 11 vuelos con alguien en un mes.
- Total Flights:
    El númeor total varía de 0 a 32 vuelos.
- Distance:
    Los clietes vuean un promedio de 1208 km por mes, algunos llegan a 6293 km.
- Points Accumulated:
    Acumulan promedio de 123 puntos por mes, algunos alcanzan los 676 puntos.
- Points Redeemed:
    La mayoría no canjea sus puntos regularmente. Algunos llegan a 876 al mes.
- Dollar Cost Points Redeemed:
    el valor promedio de puntos canjeados es de 2,48 dolare, máximo de 71 dolares en puntos canjeados.

Valores nulos:

In [24]:
#volvemos a revisar que no haya valores nulos en las columnas.
df_custom_flight_activity.isnull().sum()

Loyalty Number                 0
Year                           0
Month                          0
Flights Booked                 0
Flights with Companions        0
Total Flights                  0
Distance                       0
Points Accumulated             0
Points Redeemed                0
Dollar Cost Points Redeemed    0
dtype: int64

Valores únicos:

In [11]:
#valores únicos por columna:
df_custom_flight_activity.nunique()

Loyalty Number                 16737
Year                               2
Month                             12
Flights Booked                    22
Flights with Companions           12
Total Flights                     33
Distance                        4746
Points Accumulated              1549
Points Redeemed                  587
Dollar Cost Points Redeemed       49
dtype: int64

In [12]:
#comprobamos duplicados:
df_custom_flight_activity.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
405619    False
405620    False
405621    False
405622    False
405623    False
Length: 405624, dtype: bool

In [25]:
#tenemos 1864 duplicados
df_custom_flight_activity.duplicated().sum()

1864

In [26]:
#comprobamos si hay duplicados en 'Loyalty Number' ya qeu es la columna identificativa
df_custom_flight_activity.duplicated(subset  = "Loyalty Number").sum() 

388887

### Resultado de la exploración de "Customer Flight Activity.csv":
 1) No hay valores nulos.
 2) Sólo tenemos columnas numéricas y están correctas.
 3) En la estadística descriptiva muestra

### 2. Exploración inicial Customer Loyalty History.csv

Cargamos datos de Customer Loyalty History.csv a DataFrame:

In [28]:
#leemos el primer .csv, lo convertimos a DataFrame y vemos las primeras filas:
df_custom_loyalty_history = pd.read_csv("Customer Loyalty History.csv")

Revisamos filas y columnas:

In [30]:
#visualizamos las primeras filas:
df_custom_loyalty_history.head()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,


In [31]:
#observamos las últimas filas:
df_custom_loyalty_history.tail()

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
16732,823768,Canada,British Columbia,Vancouver,V6E 3Z3,Female,College,,Married,Star,61850.19,Standard,2012,12,,
16733,680886,Canada,Saskatchewan,Regina,S1J 3C5,Female,Bachelor,89210.0,Married,Star,67907.27,Standard,2014,9,,
16734,776187,Canada,British Columbia,Vancouver,V5R 1W3,Male,College,,Single,Star,74228.52,Standard,2014,3,,
16735,906428,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,-57297.0,Married,Star,10018.66,2018 Promotion,2018,4,,
16736,652627,Canada,Manitoba,Winnipeg,R2C 0M5,Female,Bachelor,75049.0,Married,Star,83325.38,Standard,2015,12,2016.0,8.0


In [39]:
#vamos a explorar filas al azar:
#se observan valores nulos a primera vista en columna en 'Salary' 'Cancelation Year' y 'Cancelation Month'.
df_custom_loyalty_history.sample(5)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
13844,465603,Canada,Quebec,Montreal,H2Y 2W2,Male,College,,Single,Star,5625.91,Standard,2016,8,,
4308,626070,Canada,Quebec,Quebec City,G1B 3L5,Female,Bachelor,50935.0,Married,Nova,2805.1,Standard,2018,12,,
5899,440785,Canada,Ontario,Toronto,M8Y 4K8,Female,College,,Married,Nova,4522.88,Standard,2013,1,,
16123,745420,Canada,Ontario,Toronto,P2T 6G3,Male,Bachelor,92849.0,Single,Star,15055.54,Standard,2015,3,,
5390,445839,Canada,Quebec,Montreal,H2Y 2W2,Female,Bachelor,73015.0,Married,Nova,3755.81,Standard,2015,1,,


In [37]:
#número de filas y columnas:
df_custom_loyalty_history.shape

(16737, 16)

In [38]:
#estas son las columnas:
df_custom_loyalty_history.columns

Index(['Loyalty Number', 'Country', 'Province', 'City', 'Postal Code',
       'Gender', 'Education', 'Salary', 'Marital Status', 'Loyalty Card',
       'CLV', 'Enrollment Type', 'Enrollment Year', 'Enrollment Month',
       'Cancellation Year', 'Cancellation Month'],
      dtype='object')

In [None]:
Estructura de los datos y comprobamos si hay valores nulos:

In [41]:
#mostramos la cantidad de entradas no nulas y el tipo de dato de cada columna.
#Cancellation Year y Cancellation Month debemos cambiarlos a int 
df_custom_loyalty_history.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16737 entries, 0 to 16736
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Loyalty Number      16737 non-null  int64  
 1   Country             16737 non-null  object 
 2   Province            16737 non-null  object 
 3   City                16737 non-null  object 
 4   Postal Code         16737 non-null  object 
 5   Gender              16737 non-null  object 
 6   Education           16737 non-null  object 
 7   Salary              12499 non-null  float64
 8   Marital Status      16737 non-null  object 
 9   Loyalty Card        16737 non-null  object 
 10  CLV                 16737 non-null  float64
 11  Enrollment Type     16737 non-null  object 
 12  Enrollment Year     16737 non-null  int64  
 13  Enrollment Month    16737 non-null  int64  
 14  Cancellation Year   2067 non-null   float64
 15  Cancellation Month  2067 non-null   float64
dtypes: f

Estadísticas descriptivas:

In [44]:
#con .describe() tenemos un resumen estadístico de las columnas numéricas.
"""
    count: Cantidad de entradas no nulas.
    mean: Promedio de los valores.
    std: Desviación estándar, que mide la dispersión de los datos.
    min: Valor mínimo en la columna.
    25%, 50%, 75%: Percentiles. El percentil 50 es equivalente a la mediana.
    max: Valor máximo en la columna.
"""
#sacamos de las estadísticas descriptivas la columna Loyalty Number porque porque es un identificador único.
df_custom_loyalty_history.drop(columns=['Loyalty Number']).describe().round(2)

Unnamed: 0,Salary,CLV,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
count,12499.0,16737.0,16737.0,16737.0,2067.0,2067.0
mean,79245.61,7988.9,2015.25,6.67,2016.5,6.96
std,35008.3,6860.98,1.98,3.4,1.38,3.46
min,-58486.0,1898.01,2012.0,1.0,2013.0,1.0
25%,59246.5,3980.84,2014.0,4.0,2016.0,4.0
50%,73455.0,5780.18,2015.0,7.0,2017.0,7.0
75%,88517.5,8940.58,2017.0,10.0,2018.0,10.0
max,407228.0,83325.38,2018.0,12.0,2018.0,12.0


In [43]:
# hagamos lo mismo para las columnas categóricas, para eso tendremos que incluir entre los paréntesis el parámetro include = "object"
df_custom_loyalty_history.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


Valores nulos:

In [45]:
#volvemos a revisar que no haya valores nulos en las columnas.
#tenemos tres columnas con valores nulos.
df_custom_loyalty_history.isnull().sum()

Loyalty Number            0
Country                   0
Province                  0
City                      0
Postal Code               0
Gender                    0
Education                 0
Salary                 4238
Marital Status            0
Loyalty Card              0
CLV                       0
Enrollment Type           0
Enrollment Year           0
Enrollment Month          0
Cancellation Year     14670
Cancellation Month    14670
dtype: int64

Valores únicos:

In [46]:
#valores únicos por columna:
#si comparamos con el otro dataframe, vemos que tienen el mismo número de Loyalty Number (16737).
df_custom_loyalty_history.nunique()

Loyalty Number        16737
Country                   1
Province                 11
City                     29
Postal Code              55
Gender                    2
Education                 5
Salary                 5890
Marital Status            3
Loyalty Card              3
CLV                    7984
Enrollment Type           2
Enrollment Year           7
Enrollment Month         12
Cancellation Year         6
Cancellation Month       12
dtype: int64

In [51]:
print(df_custom_loyalty_history['Gender'].value_counts())

Gender
Female    8410
Male      8327
Name: count, dtype: int64


In [47]:
#comprobamos duplicados:
df_custom_loyalty_history.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
16732    False
16733    False
16734    False
16735    False
16736    False
Length: 16737, dtype: bool

In [48]:
#pero en este caso no tenemos duplicados:
df_custom_loyalty_history.duplicated().sum()

0

In [49]:
#y no tenemos duplicados en Loyalty Number:
df_custom_loyalty_history.duplicated(subset  = "Loyalty Number").sum() 

0

### Resultado de la exploración de "Customer Loyalty History.csv":
 - La columna 'salary' tiene 4238 valores nulos.
 - 'Cancellation Year' y 'Cancellation Month' tienen valores nulos. Es normal ya que estas dos columnas aplican a customers que cancelaron su suscripción.