## **RESOLUCIÓN EVALUACIÓN MÓDULO 2:**
#### **ANÁLISIS DE DATOS**

- Librerías

In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Libreria Regex para buscar patrones
import re

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Librerías de visualización
# -----------------------------------------------------------------------
import seaborn as sns
import matplotlib.pyplot as plt
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

#### **Fase 1: Exploración y Limpieza**

**2. Limpieza de Datos:**

• Elimina o trata los valores nulos, si los hay, en las columnas clave para
asegurar que los datos estén completos.

• Verifica la consistencia y corrección de los datos para asegurarte de que
los datos se presenten de forma coherente.

• Realiza cualquier ajuste o conversión necesaria en las columnas (por
ejemplo, cambiar tipos de datos) para garantizar la adecuación de los
datos para el análisis estadístico.

In [2]:
df_aerolinea = pd.read_csv("aerolinea.csv", index_col = None)

- Creación copias de los Dataframes para trabajar con seguridad

In [3]:
df_aerolinea_copy = df_aerolinea.copy()
df_aerolinea_copy.head()

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100018,2017,2,2,2,4,1320,132.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
2,100018,2018,10,6,4,10,3110,311.0,385,31,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
3,100018,2017,4,4,0,4,924,92.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
4,100018,2017,5,0,0,0,0,0.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,


- **Variables Categóricas**

In [4]:
# Cargar el Dataframe con las variables de tipo categóricas

df_aerolinea_copy[["Country", "Province", "City", "Postal Code", "Gender", "Education", "Marital Status", "Loyalty Card", "Enrollment Type"]].sample(10)

Unnamed: 0,Country,Province,City,Postal Code,Gender,Education,Marital Status,Loyalty Card,Enrollment Type
139581,Canada,Ontario,Toronto,P5S 6R4,Female,Bachelor,Married,Star,Standard
229543,Canada,Manitoba,Winnipeg,R2C 0M5,Female,College,Single,Star,Standard
168665,Canada,Ontario,Ottawa,K1F 2R2,Female,College,Single,Star,Standard
154321,Canada,Ontario,Toronto,P1J 8T7,Male,Bachelor,Divorced,Star,Standard
288905,Canada,British Columbia,Whistler,V6T 1Y8,Male,Bachelor,Divorced,Nova,2018 Promotion
12348,Canada,Ontario,Toronto,M1R 4K3,Male,Bachelor,Married,Star,Standard
192135,Canada,Ontario,Toronto,P2T 6G3,Male,College,Single,Aurora,Standard
269936,Canada,Ontario,Toronto,P1J 8T7,Female,Master,Single,Star,Standard
225694,Canada,Alberta,Edmonton,T3G 6Y6,Female,Master,Single,Nova,Standard
277888,Canada,British Columbia,Vancouver,V1E 4R6,Female,College,Single,Nova,Standard


In [5]:
# Columnas categóricas con valores únicos por cada columna

col_cat_unique = ["Country", "Province", "City", "Postal Code", "Gender", "Education", "Marital Status", "Loyalty Card", "Enrollment Type"]

for columna in col_cat_unique:
    print(f"Los valores únicos de la columna '{columna}':\n")
    valores_unicos = df_aerolinea_copy[columna].unique()
    print(valores_unicos)
    print("______________________\n")

Los valores únicos de la columna 'Country':

['Canada']
______________________

Los valores únicos de la columna 'Province':

['Alberta' 'Ontario' 'British Columbia' 'Saskatchewan' 'Quebec'
 'Newfoundland' 'Manitoba' 'New Brunswick' 'Nova Scotia'
 'Prince Edward Island' 'Yukon']
______________________

Los valores únicos de la columna 'City':

['Edmonton' 'Toronto' 'Dawson Creek' 'Vancouver' 'Regina' 'Montreal'
 'Sudbury' 'Quebec City' 'Peace River' "St. John's" 'Tremblant' 'Ottawa'
 'Trenton' 'Winnipeg' 'Thunder Bay' 'West Vancouver' 'Fredericton'
 'London' 'Halifax' 'Moncton' 'Banff' 'Kingston' 'Whistler'
 'Charlottetown' 'Hull' 'Victoria' 'Calgary' 'Kelowna' 'Whitehorse']
______________________

Los valores únicos de la columna 'Postal Code':

['T9G 1W3' 'M1R 4K3' 'U5I 4F1' 'V5R 1W3' 'P1L 8X8' 'P1J 8T7' 'S6J 3G0'
 'H2T 9K8' 'V6E 3D9' 'M5V 1G5' 'H2Y 4R4' 'M8Y 4K8' 'V6E 3Z3' 'G1B 3L5'
 'T9O 2W2' 'A1C 6H9' 'H5Y 2S9' 'K1F 2R2' 'K8V 4B2' 'R3R 3T4' 'P1W 1K4'
 'K8T 5M5' 'V6V 8Z3' 'M2M 7K8'

- **Variables Numéricas**

In [8]:
# Cargar el Dataframe con las variables de tipo numéricas tipo "int"

df_aerolinea_copy[["Loyalty Number", "Year", "Month", "Flights Booked", "Flights with Companions", "Total Flights", "Distance", "Points Redeemed", "Dollar Cost Points Redeemed", "Enrollment Year", "Enrollment Month"]].sample(10)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Redeemed,Dollar Cost Points Redeemed,Enrollment Year,Enrollment Month
331494,921392,2017,7,0,0,0,0,0,0,2018,7
241266,690029,2018,7,13,2,15,5175,0,0,2014,5
31166,175017,2018,5,3,3,6,2268,0,0,2016,11
49134,217235,2017,7,0,0,0,0,0,0,2013,4
72547,275386,2018,8,13,7,20,1540,0,0,2012,8
2342,105214,2018,2,0,0,0,0,0,0,2013,8
58682,242377,2017,3,0,0,0,0,0,0,2018,4
231631,665890,2017,9,0,0,0,0,0,0,2016,6
340273,944821,2017,2,0,0,0,0,0,0,2017,3
16807,139974,2017,8,0,0,0,0,0,0,2018,11


In [13]:
# Columnas numéricas tipo "int" con valores únicos por cada columna

col_num_int = ["Loyalty Number", "Year", "Month", "Flights Booked", "Flights with Companions", "Total Flights", "Distance", "Points Redeemed", "Dollar Cost Points Redeemed", "Enrollment Year", "Enrollment Month"]

for columna in col_num_int:
    print(f"Los valores únicos de la columna '{columna}':\n")
    valores_unicos = df_aerolinea_copy[columna].unique()
    num_valores_unicos = len(valores_unicos)
    print(f"Cantidad de valores únicos: {num_valores_unicos}\nValores únicos: {valores_unicos}")
    print("______________________\n")

Los valores únicos de la columna 'Loyalty Number':

Cantidad de valores únicos: 16737
Valores únicos: [100018 100102 100140 ... 999731 999788 999891]
______________________

Los valores únicos de la columna 'Year':

Cantidad de valores únicos: 2
Valores únicos: [2017 2018]
______________________

Los valores únicos de la columna 'Month':

Cantidad de valores únicos: 12
Valores únicos: [ 1  2 10  4  5  6  7  9  8 11 12  3]
______________________

Los valores únicos de la columna 'Flights Booked':

Cantidad de valores únicos: 22
Valores únicos: [ 3  2  6  4  0 10  9 13  1 14  7  5 11 17  8 15 12 16 20 18 19 21]
______________________

Los valores únicos de la columna 'Flights with Companions':

Cantidad de valores únicos: 12
Valores únicos: [ 0  2  4  1  5  3  7  6  8  9 10 11]
______________________

Los valores únicos de la columna 'Total Flights':

Cantidad de valores únicos: 33
Valores únicos: [ 3  4 10  0  5 13 15  6 14  1 17  7 16 11 23  9  8 18 19 12 21  2 20 22
 28 26 29 27 25 24

In [14]:
# Cargar el Dataframe con las variables de tipo numéricas tipo "float"

df_aerolinea_copy[["Points Accumulated", "Salary", "CLV", "Cancellation Year", "Cancellation Month"]].sample(10)

Unnamed: 0,Points Accumulated,Salary,CLV,Cancellation Year,Cancellation Month
146079,0.0,98305.0,6627.15,,
363691,0.0,66971.0,2476.48,,
78185,319.0,52671.0,7434.68,,
200512,0.0,60235.0,4834.71,,
259802,215.0,47987.0,3703.93,,
206932,187.0,,2711.9,,
158243,0.0,84147.0,8044.87,,
75845,0.0,56493.0,9388.98,,
91957,0.0,50895.0,7851.9,2016.0,8.0
302767,190.0,,6582.45,,


In [15]:
# Columnas numéricas tipo "float" con valores únicos por cada columna

col_num_float = ["Points Accumulated", "Salary", "CLV", "Cancellation Year", "Cancellation Month"]

for columna in col_num_float:
    print(f"Los valores únicos de la columna '{columna}':\n")
    valores_unicos = df_aerolinea_copy[columna].unique()
    num_valores_unicos = len(valores_unicos)
    print(f"Cantidad de valores únicos: {num_valores_unicos}\nValores únicos: {valores_unicos}")
    print("______________________\n")

Los valores únicos de la columna 'Points Accumulated':

Cantidad de valores únicos: 1549
Valores únicos: [152.   132.   311.   ...  18.75 601.   626.  ]
______________________

Los valores únicos de la columna 'Salary':

Cantidad de valores únicos: 5891
Valores únicos: [92552.    nan 63253. ... 23160. 97206. 56345.]
______________________

Los valores únicos de la columna 'CLV':

Cantidad de valores únicos: 7984
Valores únicos: [7919.2  2887.74 2838.07 ... 6990.69 3151.16 8409.07]
______________________

Los valores únicos de la columna 'Cancellation Year':

Cantidad de valores únicos: 7
Valores únicos: [  nan 2018. 2015. 2016. 2014. 2013. 2017.]
______________________

Los valores únicos de la columna 'Cancellation Month':

Cantidad de valores únicos: 13
Valores únicos: [nan  3.  9.  2.  7.  6.  8.  4.  1.  5. 11. 12. 10.]
______________________

