# Fase 1: Exploración y Limpieza

## 1. Exploración Inicial:

In [61]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [62]:

# Realiza una exploración inicial de los datos para identificar problemas y obtener estadísticas básicas 
# -----------------------------------------------------------------------

def exploracion_inicial(csv1_path, csv2_path):
    
    # Leer los archivos CSV
    df1 = pd.read_csv('Customer Flight Activity.csv')
    df2 = pd.read_csv('Customer Loyalty History.csv')
    
    print("------------- Información del primer DataFrame --------------")
    print(f"Forma: {df1.shape}")
    print(f"Número de dimensiones: {df1.ndim}")
    print(f"Número de elementos: {df1.size}")
    print(f"Tipos de datos:\n{df1.dtypes}\n")
    print("Primeras filas:\n", df1.head(), "\n")
    print(df1.info())
    
    print("------------- Información del segundo DataFrame --------------")
    print(f"Forma: {df2.shape}")
    print(f"Número de dimensiones: {df2.ndim}")
    print(f"Número de elementos: {df2.size}")
    print(f"Tipos de datos:\n{df2.dtypes}\n")
    print("Primeras filas:\n", df2.head(), "\n")
    print(df2.info())
    
    # Identificar valores nulos
    print("------------- Valores nulos en el primer DataFrame --------------")
    print(df1.isnull().sum(), "\n")
    
    print("------------- Valores nulos en el segundo DataFrame --------------")
    print(df2.isnull().sum(), "\n")
    
    # Estadísticas básicas
    print("------------- Estadísticas descriptivas del primer DataFrame --------------")
    print(df1.describe().T, "\n")
    
    print("------------- Estadísticas descriptivas del segundo DataFrame --------------")
    print(df2.describe().T, "\n")
    
    # Identificar columnas categóricas y numéricas en df1
    cat_cols_df1 = df1.select_dtypes(include=['object', 'category']).columns
    num_cols_df1 = df1.select_dtypes(include=['number']).columns
    
    print(f"Columnas categóricas en el primer DataFrame: {cat_cols_df1}")
    print(f"Columnas numéricas en el primer DataFrame: {num_cols_df1}\n")
    
    # Identificar columnas categóricas y numéricas en df2
    cat_cols_df2 = df2.select_dtypes(include=['object', 'category']).columns
    num_cols_df2 = df2.select_dtypes(include=['number']).columns
    
    print(f"Columnas categóricas en el segundo DataFrame: {cat_cols_df2}")
    print(f"Columnas numéricas en el segundo DataFrame: {num_cols_df2}\n")
    
    # Análisis de columnas categóricas en df1
    for col in cat_cols_df1:
        print(f"----------- Análisis de la columna categórica '{col}' en el primer DataFrame -----------")
        print(f"Valores únicos:\n{df1[col].unique()}\n")
        print(f"Total de valores únicos:\n{df1[col].nunique()}\n")
        print(f"Frecuencia de valores únicos:\n{df1[col].value_counts()}\n")
    
    # Análisis de columnas categóricas en df2
    for col in cat_cols_df2:
        print(f"----------- Análisis de la columna categórica '{col}' en el segundo DataFrame -----------")
        print(f"Valores únicos:\n{df2[col].unique()}\n")
        print(f"Total de valores únicos:\n{df2[col].nunique()}\n")
        print(f"Frecuencia de valores únicos:\n{df2[col].value_counts()}\n")
    

In [63]:
exploracion_inicial('Customer Flight Activity.csv', 'Customer Loyalty History.csv')

------------- Información del primer DataFrame --------------
Forma: (405624, 10)
Número de dimensiones: 2
Número de elementos: 4056240
Tipos de datos:
Loyalty Number                   int64
Year                             int64
Month                            int64
Flights Booked                   int64
Flights with Companions          int64
Total Flights                    int64
Distance                         int64
Points Accumulated             float64
Points Redeemed                  int64
Dollar Cost Points Redeemed      int64
dtype: object

Primeras filas:
    Loyalty Number  Year  Month  Flights Booked  Flights with Companions  \
0          100018  2017      1               3                        0   
1          100102  2017      1              10                        4   
2          100140  2017      1               6                        0   
3          100214  2017      1               0                        0   
4          100272  2017      1               0     

## 2. Limpieza de Datos

In [84]:
# Une los dos archivos de datos en un mismo DataFrame basado en 'Loyalty Number'.
# Luego, analiza los valores nulos y limpia los DataFrames df1 y df2.


def limpieza_datos(df1, df2):
    
    # Realizar el merge basado en la columna 'Loyalty Number'
    df_merged = pd.merge(df1, df2, on='Loyalty Number', how='left')
    
    # 1. Eliminar duplicados post-merge
    df_merged = df_merged.drop_duplicates()
    
    # 2. Eliminar la columna 'Country'
    df_merged = df_merged.drop(columns=['Country'])

    # 3. Diccionario para mapear números de meses a nombres de meses
    month_mapping = {
        1: 'January', 2: 'February', 3: 'March', 4: 'April',
        5: 'May', 6: 'June', 7: 'July', 8: 'August',
        9: 'September', 10: 'October', 11: 'November', 12: 'December'
    }
    # Convertir números de meses a nombres de meses
    df_merged['Month'] = df_merged['Month'].map(month_mapping)

    # 4. Análisis de la columna 'Month' como categórica
    print(f"----------- Análisis de la columna 'Month'-----------")
    print(f"Valores únicos:\n{df_merged['Month'].unique()}\n")
    print(f"Total de valores únicos:\n{df_merged['Month'].nunique()}\n")
    print(f"Frecuencia de valores únicos:\n{df_merged['Month'].value_counts()}\n")


    # 4. Verificar el porcentaje de valores nulos en el DataFrame
    porc_nulos = round((df_merged.isnull().sum() / df_merged.shape[0]) * 100, 2)
    print("\nPorcentaje de valores nulos por columna:")
    print(f"\n{porc_nulos}")

    
    return df_merged

# Leer los archivos CSV
df1 = pd.read_csv('Customer Flight Activity.csv')
df2 = pd.read_csv('Customer Loyalty History.csv')

# Aplicar la limpieza
df_merged = limpieza_datos(df1, df2)

print("\n--------------------------------------------")
print("DataFrame limpio:")
# Verificar los cambios
print(df_merged.info())
print(f"\nForma: {df_merged.shape}")
print(f"\nNúmero de elementos: {df_merged.size}")

# Guardar el DataFrame limpio en un archivo CSV
df_merged.to_csv('Customer_Data_Merg.csv', index=False)

----------- Análisis de la columna 'Month'-----------
Valores únicos:
['January' 'September' 'February' 'March' 'November' 'April' 'May' 'July'
 'June' 'August' 'October' 'December']

Total de valores únicos:
12

Frecuencia de valores únicos:
Month
November     33663
October      33662
December     33662
September    33659
August       33655
July         33648
June         33646
April        33640
May          33640
March        33634
February     33626
January      33625
Name: count, dtype: int64


Porcentaje de valores nulos por columna:

Loyalty Number                  0.00
Year                            0.00
Month                           0.00
Flights Booked                  0.00
Flights with Companions         0.00
Total Flights                   0.00
Distance                        0.00
Points Accumulated              0.00
Points Redeemed                 0.00
Dollar Cost Points Redeemed     0.00
Province                        0.00
City                            0.00
Postal Co

In [83]:
# Limpia el archivo CSV 'Customer_Data_Merged.csv' para asegurar la consistencia y legibilidad de los datos.
# -----------------------------------------------------------------------

# Cargar el CSV limpio
df = pd.read_csv("Customer_Data_Merg.csv")

# 1. Eliminar columnas 'Cancellation Year' y 'Cancellation Month' ya que tienen muchos valores nulos
# y no aportan información relevante
df = df.drop(columns=['Cancellation Year', 'Cancellation Month']) 

# 2. Verificar y reemplazar valores nulos en 'Salary' por la mediana
df_merged['Salary'] = df_merged['Salary'].replace(0, df_merged['Salary'].median())

# Guardar el nuevo CSV
df.to_csv("Customer_Data.csv", index=False)

# Verificar los cambios
print(f"\nForma: {df.shape}")
print(f"\nNúmero de elementos: {df.size}")
df.head()  # Visualizar las primeras filas


Forma: (403760, 22)

Número de elementos: 8882720


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month
0,100018,2017,January,3,0,3,1521,152.0,0,0,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8
1,100102,2017,January,10,4,14,2030,203.0,0,0,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3
2,100140,2017,January,6,0,6,1200,120.0,0,0,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7
3,100214,2017,January,0,0,0,0,0.0,0,0,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8
4,100272,2017,January,0,0,0,0,0.0,0,0,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1
