In [None]:
# 1.1 - Exploraci√≥n inicial de los datos (EDA)
# Se identifican valores nulos, at√≠picos y datos faltantes en las columnas relevantes.

import pandas as pd  # Manejo de datos
import numpy as np  # C√°lculos num√©ricos
import matplotlib.pyplot as plt  # Gr√°ficos b√°sicos
import seaborn as sns  # Visualizaci√≥n avanzada

# Configuraci√≥n para ver todas las columnas en la salida
pd.set_option('display.max_columns', None)

In [None]:
## Fase 1: Exploraci√≥n y Limpieza

In [None]:
# 1.2 - Carga de datos en DataFrames
# Se cargan los datasets en dataframes para su an√°lisis
try:
    df_flights = pd.read_csv("Customer Flight Activity.csv")
    df_customers = pd.read_csv("Customer Loyalty History.csv")
    print("Datos cargados correctamente.")
except FileNotFoundError:
    print("Error: No se encontraron los archivos.")

# Verificamos las primeras filas de cada dataset
print("\nPrimeras filas de df_flights:")
display(df_flights.head())

print("\nPrimeras filas de df_customers:")
display(df_customers.head())

# Dos archivos CSV: uno con la actividad de vuelos y otro con los datos de clientes.

In [None]:
print("N√∫mero exacto de filas en df_flights:", len(df_flights))
print("N√∫mero exacto de filas en df_customers:", len(df_customers))

In [None]:
# 1.3 - Exploraci√≥n inicial y uni√≥n de los datasets
# Se obtiene informaci√≥n general de cada dataset para identificar problemas potenciales

def exploracion_general(df, nombre):
    print(f"\n--- Exploraci√≥n de {nombre} ---")
    print("\nResumen estad√≠stico de variables num√©ricas:")
    print(df.describe())
    print("\nTipos de datos por columna:")
    print(df.dtypes)
    print("\nCantidad de valores nulos:")
    print(df.isnull().sum())
    print("\nPorcentaje de valores nulos por columna:")
    print((df.isnull().sum() / len(df) * 100).round(2))
    print("\nCantidad de valores duplicados:")
    print(df.duplicated().sum())

# Aplicamos la funci√≥n a ambos datasets
exploracion_general(df_flights, "df_flights")
exploracion_general(df_customers, "df_customers")

# Mensaje indicando que la exploraci√≥n ha finalizado
print(" Exploraci√≥n inicial completada.")

# Eliminar duplicados antes de unir los datasets
df_flights.drop_duplicates(inplace=True)
df_customers.drop_duplicates(inplace=True)
print(" Duplicados eliminados correctamente.")

# Unir los datasets de la forma m√°s eficiente
# Se combinan los datos de vuelos y clientes usando "Loyalty Number" como clave

df_merged = df_flights.merge(df_customers, on="Loyalty Number", how="left")
print("Datos combinados correctamente.")


In [None]:
# 1.2.1 - Tratamiento de valores nulos
# Se verifican y manejan los valores nulos en columnas clave

print("\n Valores nulos por columna antes del tratamiento:")
print(df_merged.isnull().sum()[df_merged.isnull().sum() > 0])  # Solo muestra columnas con nulos
print("\n Porcentaje de valores nulos por columna:")
print((df_merged.isnull().sum()[df_merged.isnull().sum() > 0] / len(df_merged) * 100).round(2))

# Imputamos valores nulos en 'Salary' con la media, ya que la distribuci√≥n parece normal
df_merged["Salary"].fillna(df_merged["Salary"].mean(), inplace=True)

# Eliminamos columnas con demasiados valores nulos que no aportan al an√°lisis
df_merged.drop(columns=["Cancellation Year", "Cancellation Month"], inplace=True)

print("\n Valores nulos despu√©s del tratamiento:")
print(df_merged.isnull().sum()[df_merged.isnull().sum() > 0])  # Verificamos si a√∫n quedan nulos
print("Tratamiento de valores nulos completado.")

In [None]:
# 1.2.2 - Verificaci√≥n de consistencia de los datos
# Se revisan valores √∫nicos en variables categ√≥ricas y rangos en num√©ricas

print("\n Categor√≠as en 'Education':", df_merged["Education"].unique())
print("\n Categor√≠as en 'Marital Status':", df_merged["Marital Status"].unique())
print("\n Rango de salarios:", df_merged["Salary"].min(), "-", df_merged["Salary"].max())
print("\n Rango de CLV:", df_merged["CLV"].min(), "-", df_merged["CLV"].max())   # CLV (Customer Lifetime Value)

# Buscamos valores at√≠picos en Salary (valores negativos)
outliers_salary = df_merged[df_merged["Salary"] < 0]
print(f"\n Valores at√≠picos en Salary: {len(outliers_salary)} encontrados.")

# Si existen valores negativos en Salary, los convertimos a positivos
if len(outliers_salary) > 0:
    df_merged["Salary"] = df_merged["Salary"].abs()
    print("Valores negativos en Salary corregidos.")

print("Verificaci√≥n de consistencia de los datos completada.")


In [None]:
# 1.2.3 - Ajuste de tipos de datos
# Convertimos 'Enrollment Year' y 'Enrollment Month' en una fecha completa

df_merged["Enrollment Date"] = pd.to_datetime(
    df_merged["Enrollment Year"].astype(str) + "-" + df_merged["Enrollment Month"].astype(str),
    errors="coerce"
)

print("\n Ajuste de tipos de datos completado.")
print(df_merged.dtypes)  # Verificamos cambios

In [None]:
# 1.2.4 - Eliminaci√≥n de columnas innecesarias
# Eliminamos columnas que ya no son √∫tiles despu√©s de la transformaci√≥n

df_merged.drop(columns=["Enrollment Year", "Enrollment Month"], inplace=True)
print("Columnas innecesarias eliminadas.")

In [None]:
# 1.2.5 - Comprobaci√≥n final de los datos limpios
# Revisamos que todo est√© en orden tras la limpieza

print("\n Resumen final de los datos limpios:")
print(df_merged.info())

print("\n Primeras filas de los datos limpios:")
print(df_merged.head())

print("\n Estad√≠sticas finales tras la limpieza:")
print(df_merged.describe())

print("Limpieza de datos completada con √©xito.")


In [None]:
## Fase 2: Visualizaci√≥n

In [None]:
# 2.1 - Distribuci√≥n de la cantidad de vuelos reservados por mes durante cada a√±o

# Crear un DataFrame con la cantidad total de vuelos reservados por mes y a√±o
df_year_month = df_merged.groupby(["Year", "Month"])["Flights Booked"].sum().reset_index()

# Configuraci√≥n del gr√°fico de l√≠neas
plt.figure(figsize=(9, 5))
sns.lineplot(x="Month", 
             y="Flights Booked", 
             hue="Year",  # Diferenciar por a√±o
             palette=["#87CEEB", "#4169E1"], 
             data=df_year_month)

# Personalizaci√≥n del gr√°fico
plt.title("Vuelos reservados por mes en los a√±os 2017 y 2018", fontsize=14)
plt.xticks(ticks=range(1, 13), labels=["Ene", "Feb", "Mar", "Abr", "May", "Jun", "Jul", "Ago", "Sep", "Oct", "Nov", "Dic"], rotation=45)
plt.xlabel("Mes", fontsize=12)
plt.ylabel("Vuelos Reservados", fontsize=12)
plt.grid(True)

plt.show()

# Configuraci√≥n del gr√°fico de barras
plt.figure(figsize=(9, 5))

# Ordenar correctamente los datos para asegurar la alineaci√≥n correcta
df_year_month_sorted = df_year_month.sort_values(by=["Month"])

# Crear gr√°fico de barras asegurando que los meses aparecen en orden correcto
sns.barplot(x="Month", 
            y="Flights Booked", 
            hue="Year",  
            data=df_year_month_sorted, 
            palette=["#87CEEB", "#4169E1"],  
            estimator=sum)

# Personalizaci√≥n del gr√°fico
plt.title("Vuelos reservados por mes en los a√±os 2017 y 2018", fontsize=14)
plt.xticks(ticks=range(12), labels=["Ene", "Feb", "Mar", "Abr", "May", "Jun", "Jul", "Ago", "Sep", "Oct", "Nov", "Dic"], rotation=55)
plt.xlabel("Mes", fontsize=12)
plt.ylabel("Vuelos Reservados", fontsize=12)
plt.grid(axis="y", linestyle="--", alpha=0.7)

plt.show()

üìä  Justificaci√≥n del uso de gr√°ficos:
	‚Ä¢	L√≠nea ‚Üí Se utiliza para visualizar la tendencia de vuelos reservados a lo largo del tiempo, ya que permite identificar aumentos y ca√≠das en la demanda de forma clara.
	‚Ä¢	Barras ‚Üí Se usa para comparar de manera m√°s intuitiva la cantidad de vuelos por mes en cada a√±o, ayudando a ver diferencias absolutas.

üîç 	Tendencia estacional:
	‚Ä¢	Hay un pico en los meses de mayo a julio, lo que indica que estos meses tienen una mayor demanda de vuelos.
	‚Ä¢	Tras este pico, la cantidad de vuelos disminuye en los meses siguientes, especialmente en septiembre y octubre.
	Comparaci√≥n entre a√±os:
	‚Ä¢	2018 muestra un incremento general en la cantidad de vuelos reservados en comparaci√≥n con 2017.
	‚Ä¢	Sin embargo, la tendencia sigue un patr√≥n similar en ambos a√±os, lo que sugiere una estacionalidad en la demanda.

In [None]:
# 2.2 - Relaci√≥n entre la distancia de los vuelos y los puntos acumulados

plt.figure(figsize=(9, 5))

# Crear scatterplot
sns.scatterplot(x="Distance", 
                y="Points Accumulated", 
                data=df_merged, 
                alpha=0.5,  # Transparencia para visualizar mejor la densidad
                color="mediumturquoise")  

# Personalizaci√≥n del gr√°fico
plt.title("Relaci√≥n entre la distancia de los vuelos y los puntos acumulados", fontsize=14)
plt.xlabel("Distancia del vuelo (km)", fontsize=12)
plt.ylabel("Puntos acumulados", fontsize=12)
plt.grid(True, linestyle="--", alpha=0.7)

plt.show()

üìä  Se utiliza un scatterplot porque queremos analizar la relaci√≥n entre dos variables num√©ricas: la distancia recorrida y los puntos acumulados. Este tipo de gr√°fico nos permite visualizar si hay una tendencia clara entre ambas variables y detectar posibles valores at√≠picos.

üîç Se observa que a mayor distancia recorrida, mayor cantidad de puntos acumulados. Esto indica que los puntos se otorgan en funci√≥n de la distancia del vuelo, lo que tiene sentido en un programa de fidelizaci√≥n de aerol√≠neas.


In [None]:
# 2.3 - Distribuci√≥n de clientes por provincia

# Eliminamos duplicados para contar clientes √∫nicos
df_unique_clients = df_merged.drop_duplicates(subset="Loyalty Number")

# Contamos la cantidad de clientes √∫nicos por provincia
clientes_por_provincia = df_unique_clients["Province"].value_counts()

# Visualizaci√≥n de la distribuci√≥n de clientes por provincia
plt.figure(figsize=(11, 5))
sns.barplot(x=clientes_por_provincia.index, 
            y=clientes_por_provincia.values, 
            hue=clientes_por_provincia.index,  # A√±adimos hue para evitar el warning
            palette="viridis")  # Se usa una paleta de colores con suficientes tonos

# Ajustes visuales
plt.title("Cantidad de clientes √∫nicos por provincia", fontsize=14)
plt.xlabel("Provincia", fontsize=12, labelpad=10)  # Ajuste del padding del xlabel
plt.ylabel("N√∫mero de clientes", fontsize=12)

# Rotamos las etiquetas y las alineamos hacia la izquierda
plt.xticks(rotation=45, ha="right")  # Alinear etiquetas a la derecha para que se vean m√°s a la izquierda
plt.grid(axis="y", linestyle="--", alpha=0.7)

plt.show()

üìä 	‚Ä¢	Permite comparar de manera clara y ordenada el n√∫mero de clientes en cada provincia.
	‚Ä¢	Es ideal para variables categ√≥ricas, como provincias, en lugar de gr√°ficos de dispersi√≥n o circulares que no ser√≠an tan efectivos en este caso.

üîç 	‚Ä¢	Algunas provincias tienen una mayor cantidad de clientes en comparaci√≥n con otras.
	‚Ä¢	Se puede ver que la mayor√≠a de clientes son de Ontario, mientras que la provincia con menor cantidad de clientes es Prince Edward Island.
	‚Ä¢	Esto podr√≠a estar influenciado por factores como densidad poblacional, accesibilidad a aeropuertos y nivel econ√≥mico.
	‚Ä¢	Las provincias con menos clientes podr√≠an indicar menor inter√©s o acceso al programa de fidelizaci√≥n.

In [None]:
# 2.4 - Comparaci√≥n del salario promedio por nivel educativo

# Eliminamos duplicados para no contar a la misma persona varias veces
df_unique_clients = df_merged.drop_duplicates(subset="Loyalty Number")

# Calculamos el salario promedio por nivel educativo
salario_por_educacion = df_unique_clients.groupby("Education")["Salary"].mean().sort_values()

# Visualizaci√≥n de la comparaci√≥n de salario promedio por nivel educativo
plt.figure(figsize=(8, 5))
sns.barplot(x=salario_por_educacion.index, 
            y=salario_por_educacion.values, 
            hue=salario_por_educacion.index,  
            palette="Greens")  # Paleta predefinida que se adapta a cualquier cantidad de categor√≠as

# Ajustes visuales
plt.title("Salario promedio por nivel educativo", fontsize=14)
plt.xlabel("Nivel Educativo", fontsize=12)
plt.ylabel("Salario Promedio", fontsize=12)
plt.xticks(rotation=65)  # Rotamos etiquetas para mejor visibilidad
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()

üìä  ‚Ä¢   barplot porque es ideal para comparar valores categ√≥ricos.
	‚Ä¢	Seaborn barplot permite visualizar f√°cilmente c√≥mo var√≠a el salario promedio seg√∫n la educaci√≥n.
	‚Ä¢	Ordenamos los niveles educativos de menor a mayor salario para facilitar la interpretaci√≥n.
	‚Ä¢	Se us√≥ la paleta ‚ÄúGreens‚Äù para mantener la coherencia de colores con los gr√°ficos anteriores.

üîç  ‚Ä¢	Se observa que, a medida que aumenta el nivel educativo, tambi√©n aumenta el salario promedio de los clientes.
	‚Ä¢	Existen diferencias salariales significativas entre distintos niveles de educaci√≥n.
	‚Ä¢	Esto sugiere que la educaci√≥n juega un papel clave en la capacidad adquisitiva de los clientes, lo que puede influir en sus decisiones de viaje.

In [None]:
# 2.5 - Porcentaje de clientes por tipo de tarjeta de fidelidad

# Eliminamos duplicados para contar cada cliente solo una vez
df_unique_clients = df_merged.drop_duplicates(subset="Loyalty Number")

# Calculamos el porcentaje de clientes por tipo de tarjeta
clientes_por_tarjeta = df_unique_clients["Loyalty Card"].value_counts(normalize=True) * 100

# Definimos colores personalizados
colores = ["lightseagreen", "mediumseagreen", "teal", "turquoise"]

# Creaci√≥n del gr√°fico Pie
plt.figure(figsize=(5, 5))
plt.pie(clientes_por_tarjeta, labels=clientes_por_tarjeta.index, autopct="%1.1f%%", colors=colores, startangle=90, wedgeprops={"edgecolor": "black", "linewidth": 1})

# Ajustes visuales
plt.title("Distribuci√≥n de clientes por tipo de tarjeta de fidelidad", fontsize=14)
plt.show()

üìä  ‚Ä¢   Este gr√°fico permite comparar claramente qu√© tipos de tarjeta son m√°s populares entre los clientes.
    ‚Ä¢   Al usar porcentajes en lugar de valores absolutos, podemos evaluar la distribuci√≥n relativa de los clientes.

üîç 	‚Ä¢	La mayor√≠a de los clientes usan la tarjeta Star, lo que sugiere que es la opci√≥n m√°s accesible o con mejores beneficios.
	‚Ä¢	Aurora y Nova tienen una proporci√≥n menor de clientes, lo que podr√≠a indicar que est√°n dirigidas a segmentos m√°s espec√≠ficos o con requisitos diferentes.

In [None]:
# Verificar cu√°ntos tipos de tarjetas existen
print(df_unique_clients["Loyalty Card"].value_counts())

In [None]:
# 2.6 - Distribuci√≥n de clientes seg√∫n estado civil y g√©nero

# Eliminamos duplicados para no contar a la misma persona varias veces
df_unique_clients = df_merged.drop_duplicates(subset="Loyalty Number")

# Visualizaci√≥n de la distribuci√≥n de clientes seg√∫n estado civil y g√©nero
plt.figure(figsize=(8, 5))
sns.countplot(x="Marital Status", hue="Gender", data=df_unique_clients, palette="crest")

# Ajustes visuales
plt.title("Distribuci√≥n de clientes seg√∫n estado civil y g√©nero", fontsize=14)
plt.xlabel("Estado Civil", fontsize=12)
plt.ylabel("N√∫mero de Clientes", fontsize=12)
plt.xticks(rotation=0)  # Mantener etiquetas rectas para este tipo de gr√°fico
plt.legend(title="G√©nero")
plt.grid(axis="y", linestyle="--", alpha=0.6)  # Grid en el eje Y para facilitar la lectura

plt.show()

üìä  ‚Ä¢  Este gr√°fico de barras (countplot) muestra la distribuci√≥n de clientes seg√∫n su estado civil, diferenciando entre hombres y mujeres con hue="Gender".

üîç 	‚Ä¢	Las personas casadas son el grupo m√°s numeroso, seguidas por los solteros.
	‚Ä¢	En la categor√≠a de Divorciado, la distribuci√≥n por g√©nero es casi equitativa.

In [None]:
# Contar la cantidad de clientes por estado civil y g√©nero
estado_civil_genero = df_unique_clients.groupby(["Marital Status", "Gender"])["Loyalty Number"].count()

# Mostrar los datos espec√≠ficamente para "Married"
print(estado_civil_genero.loc["Married"])

In [None]:
print(df_unique_clients["Marital Status"].value_counts())

In [None]:
# Creaci√≥n del DataFrame final limpio
df_final = df_merged.dropna().drop_duplicates(subset="Loyalty Number")

# Verificaci√≥n de que est√° limpio
print("\nResumen del DataFrame final limpio:")
print(df_final.info())

print("\nValores nulos en el DataFrame final:")
print(df_final.isnull().sum().sum())  # Debe ser 0

print("\nCantidad de clientes √∫nicos en el DataFrame final:")
print(len(df_final))

# Confirmaci√≥n de que el DataFrame est√° listo
print("DataFrame final limpio y listo para la fase 3.")

In [None]:
## Fase 3: Evaluaci√≥n de Diferencias en Reservas de Vuelos por Nivel Educativo

In [None]:
# 3.1 - Preparaci√≥n de Datos - 	Objetivo: Filtrar √∫nicamente las columnas necesarias para el an√°lisis (‚ÄòFlights Booked‚Äô y ‚ÄòEducation‚Äô).

# Filtramos el DataFrame con solo las columnas necesarias
df_education_flights = df_final[["Flights Booked", "Education"]].copy()

# Eliminamos posibles valores nulos en estas columnas
df_education_flights.dropna(inplace=True)

# Mostramos las primeras filas para verificar los datos
df_education_flights.head()

Unnamed: 0,Flights Booked,Education
0,3,Bachelor
1,10,College
2,6,College
3,0,Bachelor
4,0,Bachelor


In [None]:
# 3.2 - An√°lisis Descriptivo - Obtener estad√≠sticas b√°sicas (media, desviaci√≥n est√°ndar, etc.) para cada nivel educativo.

# Agrupamos por nivel educativo y calculamos estad√≠sticas descriptivas
stats_education = df_education_flights.groupby("Education")["Flights Booked"].agg(["mean", "std", "count"]).round(2)

#por concluir-------------