# Evaluación Final Módulo 3

In [3]:
# Importo librerías

# Tratamiento de datos
import pandas as pd
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración ara poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None)

# Gestión de los warnings
import warnings
warnings.filterwarnings("ignore")

## Fase 1: Exploración y Limpieza

### 1. Exploración Inicial:

- Realiza una exploración inicial de los datos para identificarposibles problemas, como valores nulos, atípicos o datos faltantes en las columnas relevantes.

- Utiliza funciones de Pandas para obtener información sobre la estructura de los datos, la presencia de valores nulos y estadísticas básicas de las columnas involucradas.

- Une los dos conjuntos de datos de la forma más eficiente.

In [66]:
def dataframe_exploration(file):

    df = pd.read_csv(file)
    
    print("******************************************************************************\n")
    print(f"--- DATAFRAME: {file} ---\n")
    print("******************************************************************************\n")
    
    # Compruebo la estructura del dataframe y como son sus datos
    print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.\n")
    
    print(f"Muestra de filas aleatorias:")
    display(pd.DataFrame(df.sample()))
    
    print(f"\nLas columnas y sus tipos de datos son:")
    display(pd.DataFrame(df.dtypes, columns = ["tipo_dato"]))
    
    print(f"\nLas columnas y sus tipos de datos son:")
    display(pd.DataFrame(df.dtypes, columns = ["tipo_dato"]))
    
    print("______________________________________________________________________________\n")

    # Compruebo cuantos valores duplicados tengo
    print(f"Los duplicados que tenemos en el conjunto de datos son: {df.duplicated().sum()}, un {round(df.duplicated().sum()/df.shape[0]*100,2)}%.\n")
    print("______________________________________________________________________________\n")

    # Genero un dataframe para los valores nulos
    print("Los nulos que tenemos en el conjunto de datos son:")
    df_nulos = pd.DataFrame(df.isnull().sum() / df.shape[0] * 100, columns = ["%_nulos"])
    display(df_nulos[df_nulos["%_nulos"] > 0])
    print("______________________________________________________________________________\n")
    
    # Mostrar estadisticas basicas para columnas numericas
    if df.select_dtypes(include=['number']).any().any():
        print('Estadisticas basicas de columnas numericas:')
        df_num_est = pd.DataFrame(df.select_dtypes(include=['number']).describe().T)
        display(df_num_est)
    else:
        print('Estadisticas basicas de columnas numericas:')
        print('No hay columnas numericas en el DataFrame.')

    # Mostrar estadisticas basicas para columnas categoricas
    if df.select_dtypes(include=['object']).any().any():
        print('\nEstadisticas basicas de columnas categoricas:')
        df_cat_est = pd.DataFrame(df.select_dtypes(include=['object']).describe().T)
        display(df_cat_est)
    else:
        print('\nEstadisticas basicas de columnas categoricas:')
        print('No hay columnas categoricas en el DataFrame.\n')

In [67]:
# Guardo en una lista los archivos que quiero explorar
csv_list = ["Customer Flight Activity.csv", "Customer Loyalty History.csv"]
# Recorro la lista para aplicar la funcion de exploracion a cada archivo
for csv in csv_list:
    dataframe_exploration(csv)

******************************************************************************

--- DATAFRAME: Customer Flight Activity.csv ---

******************************************************************************

El DataFrame tiene 405624 filas y 10 columnas.

Muestra de filas aleatorias:


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
132206,837833,2017,8,14,0,14,3192,319.0,0,0



Las columnas y sus tipos de datos son:


Unnamed: 0,tipo_dato
Loyalty Number,int64
Year,int64
Month,int64
Flights Booked,int64
Flights with Companions,int64
Total Flights,int64
Distance,int64
Points Accumulated,float64
Points Redeemed,int64
Dollar Cost Points Redeemed,int64


______________________________________________________________________________

Los duplicados que tenemos en el conjunto de datos son: 1864, un 0.46%.

______________________________________________________________________________

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos


______________________________________________________________________________

Estadisticas basicas de columnas numericas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
Year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
Month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
Flights Booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
Flights with Companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
Total Flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
Distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
Points Accumulated,405624.0,123.692721,146.599831,0.0,0.0,50.0,239.0,676.5
Points Redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
Dollar Cost Points Redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0



Estadisticas basicas de columnas categoricas:
No hay columnas categoricas en el DataFrame.

******************************************************************************

--- DATAFRAME: Customer Loyalty History.csv ---

******************************************************************************

El DataFrame tiene 16737 filas y 16 columnas.

Muestra de filas aleatorias:


Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
4810,192115,Canada,New Brunswick,Moncton,E1A 2A7,Female,Bachelor,63580.0,Single,Nova,3142.74,Standard,2014,2,,



Las columnas y sus tipos de datos son:


Unnamed: 0,tipo_dato
Loyalty Number,int64
Country,object
Province,object
City,object
Postal Code,object
Gender,object
Education,object
Salary,float64
Marital Status,object
Loyalty Card,object


______________________________________________________________________________

Los duplicados que tenemos en el conjunto de datos son: 0, un 0.0%.

______________________________________________________________________________

Los nulos que tenemos en el conjunto de datos son:


Unnamed: 0,%_nulos
Salary,25.321145
Cancellation Year,87.650117
Cancellation Month,87.650117


______________________________________________________________________________

Estadisticas basicas de columnas numericas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Loyalty Number,16737.0,549735.880445,258912.132453,100018.0,326603.0,550434.0,772019.0,999986.0
Salary,12499.0,79245.609409,35008.297285,-58486.0,59246.5,73455.0,88517.5,407228.0
CLV,16737.0,7988.896536,6860.98228,1898.01,3980.84,5780.18,8940.58,83325.38
Enrollment Year,16737.0,2015.253211,1.979111,2012.0,2014.0,2015.0,2017.0,2018.0
Enrollment Month,16737.0,6.669116,3.398958,1.0,4.0,7.0,10.0,12.0
Cancellation Year,2067.0,2016.503145,1.380743,2013.0,2016.0,2017.0,2018.0,2018.0
Cancellation Month,2067.0,6.962748,3.455297,1.0,4.0,7.0,10.0,12.0



Estadisticas basicas de columnas categoricas:


Unnamed: 0,count,unique,top,freq
Country,16737,1,Canada,16737
Province,16737,11,Ontario,5404
City,16737,29,Toronto,3351
Postal Code,16737,55,V6E 3D9,911
Gender,16737,2,Female,8410
Education,16737,5,Bachelor,10475
Marital Status,16737,3,Married,9735
Loyalty Card,16737,3,Star,7637
Enrollment Type,16737,2,Standard,15766


### 2. Limpieza de Datos:

- Elimina o trata los valores nulos, si los hay, en lascolumnas clave para asegurar que los datos esténcompletos.

- Verifica la consistencia y corrección de los datos paraasegurarte de que los datos se presenten de formacoherente.

- Realiza cualquier ajuste o conversión necesaria en lascolumnas (por ejemplo, cambiar tipos de datos) paragarantizar la adecuación de los datos para el análisisestadístico.

## Fase 2: Visualización

Usando las herramientas de visualización que has aprendido duranteeste módulo, contesta a las siguientes gráficas usando la mejor gráficaque consideres:

**1. ¿Cómo se distribuye la cantidad de vuelos reservados pormes durante el año?**

**2. ¿Existe una relación entre la distancia de los vuelos y lospuntos acumulados por los clientes?**

**3. ¿Cuál es la distribución de los clientes por provincia oestado?**

**4. ¿Cómo se compara el salario promedio entre los diferentesniveles educativos de los clientes?**

**5. ¿Cuál es la proporción de clientes con diferentes tipos detarjetas de fidelidad?**

**6. ¿Cómo se distribuyen los clientes según su estado civil y género?**

## Fase 3: Evaluación de Diferencias en Reservas de Vuelos por NivelEducativo

** Objetivo del Ejercicio:** Utilizando un conjunto de datos que hemoscompartido, se busca evaluar si existen diferencias significativas en elnúmero de vuelos reservados según el nivel educativo de los clientes.Para ello, los pasos que deberas seguir son:

**1. Preparación de Datos:**

- Filtra el conjunto de datos para incluir únicamente lascolumnas relevantes: 'Flights Booked' y 'Education'.

**2. Análisis Descriptivo:**

- Agrupa los datos por nivel educativo y calcula estadísticasdescriptivas básicas (como el promedio, la desviaciónestandar, los percentiles) del número de vuelos reservadospara cada grupo.

**3. Prueba Estadística:**

- Realiza una prueba de hipótesis para determinar si existeuna diferencia significativa en el número de vuelosreservados entre los diferentes niveles educativos.