#### FASE 0: CONFIGURACI√ìN

In [None]:
# Librer√≠as

import pandas as pd 
import numpy as np 

# Imputaci√≥n de nulos usando m√©todos avanzados estad√≠sticos
# -----------------------------------------------------------------------
from sklearn.impute import KNNImputer


# Librer√≠as de visualizaci√≥n
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt


# Evaluar linealidad de las relaciones entre las variables
# ------------------------------------------------------------------------------
import scipy.stats as stats
from scipy.stats import shapiro, poisson, chisquare, expon, kstest
from scipy.stats import levene, bartlett, shapiro

# Gesti√≥n de los warnings
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore") # Para evitar errores en el uso de palette en seaborn


# ver todas las columnas
pd.set_option('display.max_columns', None)
# ver todas las filas
pd.set_option('display.max_rows', None)

In [None]:
# Funci√≥n EDA

def basic_eda(df):

    print('üå∑Ejemplo de datos del DF:')
    display(df.head(3))
    display(df.tail(3))
    display(df.sample(3))
    print('________________________________________________________________________________________________________')

    print('üåªN√∫mero de Filas:')
    display(df.shape[0])
    print('________________________________________________________________________________________________________')

    print('üå±N√∫mero de Columnas:')
    display(df.shape[1])
    print('________________________________________________________________________________________________________')

    print('üåºInformaci√≥n de la tabla:')
    display(df.info())
    print('________________________________________________________________________________________________________')

    print('üåëNombre de las columnas:')
    display(df.columns)
    print('________________________________________________________________________________________________________')

    print('üçÑDescripci√≥n de los datos num√©ricos:')
    display(df.describe().T)
    print('________________________________________________________________________________________________________')

    print('üåãDescripci√≥n de los datos no-num√©ricos:')
    try:
        display(df.describe(include='object').T)
    except:
        pass
    print('________________________________________________________________________________________________________')

    print('üçÇSaber si hay datos √∫nicos:')
    display(df.nunique())
    print('________________________________________________________________________________________________________')

    print('üêñQue datos son nulos por columnas:')
    display(df.isnull().sum())
    print('________________________________________________________________________________________________________')

    print('üê≤Filas duplicadas:')
    total_duplicados = df.duplicated().sum()
    if total_duplicados > 0:
        print(f'cantidad de duplicados: {total_duplicados}')
        print('Primeros duplicados')
        display(df[df.duplicated()].head(3))
    else:
        print('No hay duplicados')
    print('________________________________________________________________________________________________________')

    print('ü™π Columnas constantes (solo 1 valor √∫nico):')
    constantes = df.columns[df.nunique() <= 1]
    if len(constantes) > 0:
        print(f'{len(constantes)} columnas con 1 valor √∫nico:')
        display(constantes)
    else:
        print('No hay columnas constantes')
    print('________________________________________________________________________________________________________')
    
    print('üöÄ Valores √∫nicos en columnas categ√≥ricas:')
    for col in df.select_dtypes(include='object'):
        print(f'üî∏ {col}')
        print('-----------------------------')
        print(df[col].unique())
        print('________________________________________________________________________________________________________')

    print('üß¨ Tipos de datos por columna:')
    display(df.dtypes.value_counts())
    print('________________________________________________________________________________________________________')

In [None]:
# Funci√≥n uni√≥n de tablas con el m√©todo "right"

def to_union(df1,df2):
    df_new = df1.merge(df2, how='right')
    return df_new

In [None]:
# Funci√≥n para localizar y eliminar los registros duplicados

def duplicates(df):
    if df.duplicated().sum() > 0:
        df= df.drop_duplicates()
        return df
    else:
        return df

In [None]:
# Funci√≥n para cambiar el tipo de dato de una columna seg√∫n necesidad

def change_data(df, column, type):
    try:
        if type == "int":
            df[column] = df[column].astype(int)
        elif type == "object":
            df[column] = df[column].astype(str)
        elif type == "datetime":
            df[column] = pd.to_datetime(df[column], errors='coerce')
        elif type == "float":
            df[column] = df[column].astype(float)
        else:
            print("Solo se acepta: int, object, datetime o float")
    except:
        print("Hay nulos")

In [None]:
# Funci√≥n para concatenar las fechas en una sola columna y eliminar las originales

def date_union (df, year_column, month_column, date_column): 
    localizacion = df.columns.get_loc(year_column)
    df.insert(localizacion, date_column, None)
    df[date_column] = df[year_column].astype(str) + "-" + df[month_column].astype(str).str.zfill(2) + "-01"
    df[date_column] = pd.to_datetime(df[date_column])
    df[date_column] = df[date_column].dt.date
    df.drop([year_column, month_column], axis=1, inplace=True)

In [None]:
# Funci√≥n para realizar una prueba de hip√≥tesis con m√∫ltiples grupos

def multigroup_hypothesis_test(*args):

    """
    Realiza una prueba de hip√≥tesis para comparar grupos.
    1. Primero verifica si los datos son normales usando el test de Shapiro-Wilk o Kolmogorov-Smirnov.
    2. Si los datos son normales, usa Bartlett para probar igualdad de varianzas. Si no son normales, usa Levene.
    3. Si las varianzas son iguales, usa el ANOVA; si no, usa la versi√≥n de Kruskal-Wallis.

    Par√°metros:
    *args: listas o arrays con los datos de cada grupo. Espera VARIOS grupos a comparar

    Retorna:
    dict con resultados del test de normalidad, varianza e hip√≥tesis.
    """


    if len(args) < 2:
        raise ValueError("Se necesitan al menos dos conjuntos de datos para realizar la prueba.")

    # Test de normalidad por grupo
    normality = []
    for group in args:
        if len(group) > 50:
            p_value_norm = stats.kstest(group, 'norm').pvalue
        else:
            p_value_norm = stats.shapiro(group).pvalue
        normality.append(p_value_norm > 0.05)

    normal_data = all(normality)

    # Test de igualdad de varianzas para todos los grupos juntos
    if normal_data:
        p_variance_value = stats.bartlett(*args).pvalue
    else:
        p_variance_value = stats.levene(*args, center="median").pvalue

    equal_variances = p_variance_value > 0.05

    # Test final seg√∫n normalidad y varianzas
    if normal_data and equal_variances:
        t_stat, p_value = stats.f_oneway(*args)
        test_used = "ANOVA"
    else:
        t_stat, p_value = stats.kruskal(*args)
        test_used = "Kruskal-Wallis"

    alfa = 0.05

    result = {
        "Test de Normalidad": normality,
        "Datos Normales": normal_data,
        "p-valor Varianza": p_variance_value,
        "Varianzas Iguales": equal_variances,
        "Test Usado": test_used,
        "Estad√≠stico": t_stat,
        "p-valor": p_value,
        "Conclusi√≥n": "Rechazamos H0. Hay diferencias significativas entre grupos" if p_value < alfa else "No se rechaza H0. No hay diferencias significativas entre grupos"
    }

    print("\nüìä **Resultados de la Prueba de Hip√≥tesis Multigrupos** üìä")
    print(f"‚úÖ Normalidad en todos los grupos: {'S√≠' if normal_data else 'No'}")
    print(f"   - Normalidad por grupo: {normality}")
    print(f"‚úÖ Varianzas: {'Iguales' if equal_variances else 'Desiguales'} (p = {p_variance_value:.4f})")
    print(f"‚úÖ Test aplicado: {test_used}")
    print(f"üìâ Estad√≠stico: {t_stat:.4f}, p-valor: {p_value:.4f}")
    print(f"üîç Conclusi√≥n: {result['Conclusi√≥n']}\n")

In [None]:
# Establecemos paleta de color para los gr√°ficos 

pastel_colors = [
    "#A8DADC",  # Verde azulado pastel (fr√≠o)
    "#FFE5B4",  # Amarillo pastel (c√°lido)
    "#F1C0E8",  # Lila suave (fr√≠o)
    "#FFD6D6",  # Rosa melocot√≥n muy suave (c√°lido)
    "#B5EAEA",  # Turquesa pastel (fr√≠o)
    "#FFCBC1",  # Salm√≥n pastel (c√°lido)
    "#C1E1C1",  # Verde menta claro (fr√≠o)
    "#FFE3E3",  # Rosa claro (c√°lido)
    "#D4A5A5",  # Marr√≥n claro pastel (c√°lido)
    "#C6D8D3",  # Verde gris√°ceo pastel (fr√≠o)
    "#F7E6C4",  # Beige claro (c√°lido)
    "#B9AEDC",  # Lavanda pastel (fr√≠o)
]

In [None]:
# Configuramos valores para el formato de las tablas por defecto:

plt.rcParams.update({
    'font.family': 'Comic Sans MS',
    'axes.titlesize': 18,
    'axes.titleweight': 'bold',
    'axes.labelsize': 14,
    'xtick.labelsize': 10,
    'ytick.labelsize': 10,
    'figure.facecolor' : 'lightgray',
    'axes.facecolor': 'darkgray'
})

#### FASE 1: EXPLORACI√ìN Y LIMPIEZA

In [None]:
# Abrimos el archivo 1

df_fligh = pd.read_csv("Customer Flight Activity.csv")
df_fligh.sample(5)

In [None]:
# Abrimos el archivo 2

df_loyalty=pd.read_csv("Customer Loyalty History.csv")
df_loyalty.sample(5)

In [None]:
# Aplicamos la funci√≥n de EDA al archivo 1 para entender los datos

basic_eda(df_fligh)

In [None]:
# Aplicamos la funci√≥n de EDA al archivo 2 para entender los datos

basic_eda(df_loyalty)

In [None]:
# Tras comprobar que hay filas duplicadas en el archivo 1 usamos la funci√≥n para eliminar duplicados

df_fligh = duplicates(df_fligh)

# Comprobamos tambi√©n que la informaci√≥n del archivo 1 continene los vuelos reservados de los clientes. Si la columna de vuelos totales es 0 no aporta valor. Eliminamos las filas cuya columna es 0:

df_fligh = df_fligh[df_fligh["Total Flights"] != 0]

# Unimos las dos tablas en una sola por el m√©todo right teniendo en cuenta que el archivo 2 tiene solo un registro por cliente y el archivo 1 tiene varios registros por cliente_

df = to_union(df_loyalty, df_fligh)

# Practicamos un nuevo an√°lisis EDA sobre el archivo unificado: 

basic_eda(df)

In [None]:
# Generamos histogramas para valorar las columnas num√©ricas

df.select_dtypes(include=[np.number]).hist(figsize=(16,12), bins=30, color = "black")
plt.tight_layout()
plt.show()

In [None]:
# Comprobamos que la columna Salary tiene valores negativos. Utilizamos .abs() para sacar el valor absoluto:

df["Salary"] = df["Salary"].abs()

# Tambi√©n tiene valores nulos. Elegimos el m√©todo KNN para la imputaci√≥n y facilitamos otras columnas num√©ricas en las que apoyar la imputaci√≥n: 

columns_to_imput = ["Salary", "CLV", "Distance", "Points Accumulated"]
imputer_knn = KNNImputer(n_neighbors=5)
df[columns_to_imput] = imputer_knn.fit_transform(df[columns_to_imput])

# Completamos los nulos de las columnas de mes y a√±o de cancelaci√≥n a fechas absurdas en el futuro: 

df["Cancellation Year"] = df["Cancellation Year"].fillna(2262)
df["Cancellation Month"] = df["Cancellation Month"].fillna(1)

# Una vez gestionado los nulos, cambiamos el tipo de dato de estas columnas de float a int: 

columns_int = ["Points Accumulated", "Salary", "Cancellation Year", "Cancellation Month"]

for column in columns_int: 
    change_data(df, column, "int")
    print(f"Cambiada la columna {column}")

# Concatenamos las fechas en una sola columna juntando el a√±o, el mes y el d√≠a 1. Lo convertimos a datatime y eliminamos las columnas de a√±o y mes iniciales con la funci√≥n date_union: 

date_union(df, "Enrollment Year", "Enrollment Month", "Enrollment Date")
date_union(df, "Cancellation Year", "Cancellation Month", "Cancellation Date")
date_union(df, "Year", "Month", "Date")

In [None]:
df.sample(5)

In [None]:
# Guardamos en un nuevo csv los datos limpios para empezar con los ejercicios. 

df.to_csv("Customer_union.csv")

In [None]:
df=pd.read_csv("Customer_union.csv", index_col = 0)
df.sample(5)

#### FASE 2: VISUALIZACI√ìN  
  
- 1. ¬øC√≥mo se distribuye la cantidad de vuelos reservados por mes durante el a√±o?

In [None]:
# Gr√°fico para ejercicio 1

df_booking = df.groupby("Date")["Flights Booked"].sum()
df_booking.index = pd.to_datetime(df_booking.index)
formatted_dates = df_booking.index.strftime("%B %Y")  # Da formato a la columna para mostrar mes en letra

plt.figure(figsize=(12, 6))
plt.bar(x=formatted_dates, height=df_booking.values, color=pastel_colors, edgecolor='black')

plt.xlabel('Meses')
plt.ylabel('Vuelos Reservados')
plt.title('Vuelos Reservados por Mes', fontsize=22)
plt.xticks(rotation=45)
ticks_y = np.arange(0, 110000, 10000)
plt.yticks(ticks_y)
plt.grid(True, axis='y', color='#eeeeee')
plt.gca().spines[['right', "top"]].set_visible(False) # quitamos la l√≠nea de arriba y de la derecha
plt.axvline(x=12 - 0.5, color='gray', linestyle='--', linewidth=1)
plt.tight_layout()
plt.show()

Respuesta: tras poder comprobar la informaci√≥n por mes de dos a√±os consecutivos vemos que el patr√≥n se repite, siendo el mes con m√°s movimiento el de julio pero seguido de cerca por los meses de junio, agosto y diciembre. Podemos relacionar estos picos con las vacaciones estivales y Navidad. Por contra, los meses con menos movimiento son enero y febrero que coincide con que no hay fiestas rese√±ables en estos meses. 

- 2. ¬øExiste una relaci√≥n entre la distancia de los vuelos y los puntos acumulados por los cliente?

In [None]:
# Gr√°fico para ejercicio 2

fig, axes = plt.subplots(nrows = 1, ncols = 2, figsize = (20, 5))

sns.regplot(x = "Distance", 
            y = "Points Accumulated", 
            data = df, 
            marker = "d", 
            line_kws = {"color": "black", "linewidth": 1}, # cambiamos el color y el grosor de la linea de tendencia
            scatter_kws = {"color": "crimson", "s": 2}, # cambiamos el color y el tama√±o de los puntos del scaterplot
            ax = axes[0])
axes[0].set_xlabel("Distancia")
axes[0].set_ylabel("Puntos Acumulados")
axes[0].set_title("Relaci√≥n distancia recorrida y puntos acumulados")
axes[0].spines[['top', 'right']].set_visible(False)

df_corr = df[["Distance", "Points Accumulated"]].corr( method = "spearman").round(2)
df_corr.index = ['Distancia', 'Puntos']
df_corr.columns = ['Distancia', 'Puntos']
sns.heatmap(df_corr, 
            cmap='coolwarm', 
            annot=True, 
            fmt='.2f', 
            linewidths=0.5, 
            vmin=-1, 
            vmax=1, 
            ax = axes[1])
axes[1].set_title("Matriz de Correlaci√≥n de distancia recorrida y puntos acumulados", fontsize=14)
;

Respuesta: definitivamente s√≠, est√°n estrechamente relacioneados. A m√°s distancia recorrida en vuelo m√°s puntos acumulan los clientes. 

- 3. ¬øCu√°l es la distribuci√≥n de los clientes por provincia o estado?

In [None]:
# Gr√°fico para ejercicio 3

plt.figure(figsize=(8, 4))

sns.countplot(data=df, 
              x="Province", 
              order=df["Province"].value_counts().index, 
              palette=pastel_colors, 
              edgecolor='black', 
              width=0.6)
plt.title('Distribuci√≥n de clientes por provincia')
plt.xticks(rotation=45)
plt.xlabel('Provincias')
plt.ylabel('N√∫mero de clientes')
plt.grid(True, axis='y', color='#eeeeee')
plt.gca().spines[['right', "top"]].set_visible(False) # quitamos la l√≠nea de arriba y de la derecha
plt.show()
;

Respuesta: Esta es la distribuci√≥n, siendo con diferencia Ontario, British Columbia y Quebec las que acumulan la mayor parte de los clientes. 

- 4. ¬øC√≥mo se compara el salario promedio entre los diferentes niveles educativos de los clientes?

In [None]:
# Gr√°fico para ejercicio 4

plt.figure(figsize=(8, 4))

df_salary = df.groupby("Education")["Salary"].mean()
order_education = ['High School or Below', 'College', 'Bachelor', 'Master', 'Doctor']
df_salary = df_salary.reindex(order_education)
df_salary.index = ['Secundaria', 'T√©cnica', 'Grado', 'M√°ster', 'Doctorado']

df_salary.plot(kind='bar', color = pastel_colors, edgecolor='black', width=0.4)
plt.title('Salario promedio por nivel de estudios')
plt.xticks(rotation=45)
plt.xlabel('Nivel de educaci√≥n')
plt.ylabel('Salario promedio')
plt.grid(True, axis='y', color='#eeeeee')
plt.gca().spines[['right', "top"]].set_visible(False) # quitamos la l√≠nea de arriba y de la derecha
plt.show()
;

Respuesta: el salario aumenta en relaci√≥n al nivel de estudios con la √∫nica excepci√≥n de que los t√©cnicos cobran de media ligeramente m√°s que las personas con grado universitario. 

- 5. ¬øCu√°l es la proporci√≥n de clientes con diferentes tipos de tarjetas de fidelidad?

In [None]:
# Gr√°fico para ejercicio 5

plt.figure(figsize=(7, 4))

df_fidelity = df["Loyalty Card"].value_counts()
plt.pie(df_fidelity.values, 
        labels= df_fidelity.index,
        data = df, 
        autopct=  '%1.1f%%', 
        colors = pastel_colors, 
        textprops={'fontsize': 10}, 
        startangle=90, 
        wedgeprops={'edgecolor': 'black'} );
plt.title('Proporci√≥n clientes por tarjeta de fidelidad',fontsize=18, fontname='Comic Sans MS')
plt.axis('equal')  # Para que el c√≠rculo sea perfecto
plt.show()
;

Respuesta: nada que a√±adir a lo reflejado en el gr√°fico:  
  
Star: 45.6%  
Aurora: 20.6%  
Nova: 33.8%

- 6. ¬øC√≥mo se distribuyen los clientes seg√∫n su estado civil y g√©nero?

In [None]:
# Gr√°fico para ejercicio 6

plt.figure(figsize=(7, 5))

new_names = ["Casado", "Soltero", "Divorciado"]
sns.countplot(x = "Marital Status", 
              data = df,
              palette = pastel_colors,
              width=0.4, 
              hue = "Gender", 
              edgecolor='black')
plt.xlabel("Estado civil")
plt.ylabel("N¬∫ clientes")
plt.title('Distribuci√≥n de clientes por g√©nero y estado civil')
plt.xticks(ticks=range(len(new_names)), labels=new_names, rotation=0)
plt.grid(True, axis='y', color='#eeeeee')
plt.legend(title="G√©nero", labels=["Mujeres", "Hombres"])
plt.gca().spines[['right', "top"]].set_visible(False) # quitamos la l√≠nea de arriba y de la derecha
plt.show()
;

Respuesta: no hay diferencias rese√±ables entre g√©nero pero s√≠ entre estado civil. Son lso casados los que m√°s reservan seguidos de los solteros y en √∫ltimo caso los divorciados. 

#### BONUS

- Preparaci√≥n de Datos: Filtra el conjunto de datos para incluir √∫nicamente las columnas relevantes.   

- An√°lisis Descriptivo: Agrupa los datos por nivel educativo y calcula estad√≠sticas descriptivas b√°sicas (como el promedio, la desviaci√≥n est√°ndar) del n√∫mero de vuelos eservados para cada grupo.  
  
- Prueba Estad√≠stica: Realiza una prueba de hip√≥tesis para determinar si existe una diferencia significativa en el n√∫mero de vuelos reservados entre los diferentes niveles educativos.

In [None]:
#  Preparaci√≥n de datos: Generamos un nuevo df con las columnas indicadas: 

df_bon = df[["Flights Booked", "Education"]]

#  An√°lisis descriptivo: Agrupamos para visualizar las variables por nivel de educaci√≥n: 

df_bonus = df_bon.groupby("Education")["Flights Booked"].describe().T
display(df_bonus)

# Generamos una variable por cada nivel de educaci√≥n y mostramos s√≥lo la columna de vuelos reservados: 

bachelor_group = df_bon[df_bon["Education"] == "Bachelor"]["Flights Booked"]
college_group = df_bon[df_bon["Education"] == "College"]["Flights Booked"]
doctor_group = df_bon[df_bon["Education"] == "Doctor"]["Flights Booked"]
secondary_group = df_bon[df_bon["Education"] == "High School or Below"]["Flights Booked"]
master_group = df_bon[df_bon["Education"] == "Master"]["Flights Booked"]

# Prueba estad√≠stica: Activamos la funci√≥n de la prueba de hip√≥tesis adaptada para gestionar con varios grupos:

multigroup_hypothesis_test(bachelor_group, college_group, doctor_group, secondary_group, master_group)

Respuesta : los niveles educativos analizados no muestran diferencias significativas en la cantidad promedio de vuelos reservados, seg√∫n los datos y la prueba no param√©trica aplicada.