# Evaluación Módulo 3

### Exploración, limpieza y visualización de los datos de clientes de una aerolínea


## ANÁLISIS EXPLORATORIO DE LOS DATOS: INFORME EDA

Los datos que se proporciona consisten en dos conjuntos de archivos que, en conjunto, describen el comportamiento de los clientes dentro de un programa de lealtad de una aerolínea:

### Customer Flight Activity.csv

Este archivo contiene información sobre la actividad de vuelo de los clientes, incluyendo el número de vuelos reservados, la distancia volada, puntos acumulados y redimidos, y costos asociados a los puntos redimidos. Las columnas que encontramos en el DataFrame del archivo "Customer Flight Activity.csv" son:

- Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del programa de lealtad de la aerolínea. Cada número de lealtad corresponde a un cliente específico.

- Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.

- Month: Representa el mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.

- Flights Booked: Número total de vuelos reservados por el cliente en ese mes específico.

- Flights with Companions: Número de vuelos reservados en los cuales el cliente viajó con acompañantes.

- Total Flights: El número total de vuelos que el cliente ha realizado, que puede incluir vuelos reservados en meses anteriores.

- Distance: La distancia total (presumiblemente en millas o kilómetros) que el cliente ha volado durante el mes.

- Points Accumulated: Puntos acumulados por el cliente en el programa de lealtad durante el mes, con base en la distancia volada u otros factores.

- Points Redeemed: Puntos que el cliente ha redimido en el mes, posiblemente para obtener beneficios como vuelos gratis, mejoras, etc.

- Dollar Cost Points Redeemed: El valor en dólares de los puntos que el cliente ha redimido durante el mes.

### Customer Loyalty History.csv

Este archivo proporciona un perfil detallado de los clientes, incluyendo su ubicación, nivel educativo, ingresos, estado civil, y detalles sobre su membresía en el programa de lealtad (como el tipo de tarjeta, valor de vida del cliente, y fechas de inscripción y cancelación). Las columnas que encontramos en el DataFrame del archivo "Customer Loyalty History.csv" son:

- Loyalty Number: Identificador único del cliente dentro del programa de lealtad. Este número permite correlacionar la información de este archivo con el archivo de actividad de vuelos.

- Country: País de residencia del cliente.

- Province: Provincia o estado de residencia del cliente (aplicable a países con divisiones provinciales o estatales, como Canadá).

- City: Ciudad de residencia del cliente.

- Postal Code: Código postal del cliente.

- Gender: Género del cliente (ej. Male para masculino y Female para femenino).

- Education: Nivel educativo alcanzado por el cliente (ej. Bachelor para licenciatura, College para estudios universitarios o técnicos, etc.).

- Salary: Ingreso anual estimado del cliente.

- Marital Status: Estado civil del cliente (ej. Single para soltero, Married para casado, Divorced para divorciado, etc.).

- Loyalty Card: Tipo de tarjeta de lealtad que posee el cliente. Esto podría indicar distintos niveles o categorías dentro del programa de lealtad.

- CLV (Customer Lifetime Value): Valor total estimado que el cliente aporta a la empresa durante toda la relación que mantiene con ella.

- Enrollment Type: Tipo de inscripción del cliente en el programa de lealtad (ej. Standard).

- Enrollment Year: Año en que el cliente se inscribió en el programa de lealtad.

- Enrollment Month: Mes en que el cliente se inscribió en el programa de lealtad.

- Cancellation Year: Año en que el cliente canceló su membresía en el programa de lealtad, si aplica.

- Cancellation Month: Mes en que el cliente canceló su membresía en el programa de lealtad, si aplica.

## INFORME DE TRANSFORMACIÓN DE LOS DATOS

Incluye la limpieza de datos, la normalización, la conversión de tipos de datos y la aplicación de reglas específicas. Las transformaciones se han realizado mediante funciones de Python aplicados a los datos extraídos.

In [1]:
# Importo las librerías que necesitaré:

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Visualización de datos en gráficas
# -----------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df_vuelos = pd.read_csv("files/Customer Flight Activity.csv", index_col=0)

df_vuelos.head(2)

Unnamed: 0_level_0,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
Loyalty Number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
100018,2017,1,3,0,3,1521,152.0,0,0
100102,2017,1,10,4,14,2030,203.0,0,0


In [3]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")
print("Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.")

El número de filas que tenemos es 405624, y el número de columnas es 9
Nota: La columna Loyalty Number no se cuenta en .shape porque es el índice, pero también forma parte del DataFrame.


In [4]:
# Convierto el índice de nuevo en una columna para revisar la columna "Loyalty Number"
df_vuelos = df_vuelos.reset_index()

In [5]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")

El número de filas que tenemos es 405624, y el número de columnas es 10


In [6]:
df_vuelos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               405624 non-null  int64  
 1   Year                         405624 non-null  int64  
 2   Month                        405624 non-null  int64  
 3   Flights Booked               405624 non-null  int64  
 4   Flights with Companions      405624 non-null  int64  
 5   Total Flights                405624 non-null  int64  
 6   Distance                     405624 non-null  int64  
 7   Points Accumulated           405624 non-null  float64
 8   Points Redeemed              405624 non-null  int64  
 9   Dollar Cost Points Redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [7]:
# no parece que haya valores NULOS, pero compruebo:
round(df_vuelos.isna().sum()/df_vuelos.shape[0]*100, 10)

Loyalty Number                 0.0
Year                           0.0
Month                          0.0
Flights Booked                 0.0
Flights with Companions        0.0
Total Flights                  0.0
Distance                       0.0
Points Accumulated             0.0
Points Redeemed                0.0
Dollar Cost Points Redeemed    0.0
dtype: float64

In [8]:
df_vuelos.duplicated().sum()

np.int64(1864)

In [9]:
# tenemos 1864 filas duplicadas, voy a comprobar si es así:
df_vuelos[df_vuelos.duplicated(keep=False)]

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
41,101902,2017,1,0,0,0,0,0.0,0,0
42,101902,2017,1,0,0,0,0,0.0,0,0
226,112142,2017,1,0,0,0,0,0.0,0,0
227,112142,2017,1,0,0,0,0,0.0,0,0
477,126100,2017,1,0,0,0,0,0.0,0,0
...,...,...,...,...,...,...,...,...,...,...
405111,971370,2018,12,0,0,0,0,0.0,0,0
405409,988392,2018,12,0,0,0,0,0.0,0,0
405410,988392,2018,12,0,0,0,0,0.0,0,0
405436,989528,2018,12,0,0,0,0,0.0,0,0


In [10]:
# voy a eliminar filas duplicadas conservando la primera aparición:
df_vuelos = df_vuelos.drop_duplicates(keep='first')

In [11]:
df_vuelos.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


In [15]:
print(f"El número de filas que tenemos es {df_vuelos.shape[0]}, y el número de columnas es {df_vuelos.shape[1]}")
print("Tenía 405624 filas menos las 1864 filas duplicadas son 403760 filas")

El número de filas que tenemos es 403760, y el número de columnas es 10
Tenía 405624 filas menos las 1864 filas duplicadas son 403760 filas


In [None]:
df_vuelos.duplicated().sum()
# ahora no tenemos filas duplicadas

np.int64(0)

In [16]:
df_vuelos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 403760 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               403760 non-null  int64  
 1   Year                         403760 non-null  int64  
 2   Month                        403760 non-null  int64  
 3   Flights Booked               403760 non-null  int64  
 4   Flights with Companions      403760 non-null  int64  
 5   Total Flights                403760 non-null  int64  
 6   Distance                     403760 non-null  int64  
 7   Points Accumulated           403760 non-null  float64
 8   Points Redeemed              403760 non-null  int64  
 9   Dollar Cost Points Redeemed  403760 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 33.9 MB


In [17]:
df_vuelos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,403760.0,549875.383713,258961.514684,100018.0,326699.0,550598.0,772152.0,999986.0
Year,403760.0,2017.500352,0.5,2017.0,2017.0,2018.0,2018.0,2018.0
Month,403760.0,6.501335,3.451982,1.0,4.0,7.0,10.0,12.0
Flights Booked,403760.0,4.13405,5.230064,0.0,0.0,1.0,8.0,21.0
Flights with Companions,403760.0,1.036569,2.080472,0.0,0.0,0.0,1.0,11.0
Total Flights,403760.0,5.170619,6.526858,0.0,0.0,1.0,10.0,32.0
Distance,403760.0,1214.460979,1434.098521,0.0,0.0,525.0,2342.0,6293.0
Points Accumulated,403760.0,124.263761,146.696179,0.0,0.0,53.0,240.0,676.5
Points Redeemed,403760.0,30.838587,125.758002,0.0,0.0,0.0,0.0,876.0
Dollar Cost Points Redeemed,403760.0,2.495973,10.172033,0.0,0.0,0.0,0.0,71.0


Voy a realizar la exploración y transformación columna por columna.

#### Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del programa de lealtad de la aerolínea. Cada número de lealtad corresponde a un cliente específico.

- Índice 0 
- Datos de tipo integer entre 100018 y 999986
- No encuentro valores nulos ni errores

In [20]:
df_vuelos['Loyalty Number'].isnull().sum()

np.int64(0)

In [21]:
df_vuelos['Loyalty Number'].unique()

array([100018, 100102, 100140, ..., 999731, 999788, 999891],
      shape=(16737,))

#### Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.

- Índice 1 
- Datos de tipo integer, valores 2017 y 2018
- No encuentro valores nulos ni errores

In [22]:
df_vuelos['Year'].unique()

array([2017, 2018])

In [23]:
df_vuelos['Year'].isnull().sum()

np.int64(0)