In [None]:
import pandas as pd
import numpy as np
import libreria_marina

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

import warnings
warnings.filterwarnings("ignore")

In [None]:
df1 = pd.read_csv('Customer Flight Activity (1) (2).csv')
df2 = pd.read_csv('Customer Loyalty History (1) (2).csv')

## Archivo Customer Flight Activity

In [24]:
df1.head(10)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0
5,100301,2017,1,0,0,0,0,0.0,0,0
6,100364,2017,1,0,0,0,0,0.0,0,0
7,100380,2017,1,0,0,0,0,0.0,0,0
8,100428,2017,1,6,0,6,606,60.0,0,0
9,100504,2017,1,0,0,0,0,0.0,0,0


### Dimensión y estructura
- Contiene 405,624 filas y 10 columnas.
- Todas las columnas tienen el tipo de dato correcto: la mayoría son enteros (int64), excepto "Points Accumulated" que es float64.
- Hay consistencia en el nombre de las columnas.
- Se observa que muchas filas tienen "Total Flights", "Distance" y "Points Accumulated" con valor 0. Esto sugiere que hay registros generados para ciertos meses donde el cliente no realizó vuelos.
- "Points Redeemed" y "Dollar Cost Points Redeemed" tienen valores muy bajos en general, lo cual puede reflejar que muchos clientes no canjean sus puntos o no acumulan suficiente para hacerlo.
- Las variables "Year" y "Month" confirman que los datos abarcan los 12 meses de 2017 y 2018, lo que refuerza la hipótesis de que hay registros mensuales por cliente, aunque no todos impliquen actividad.

In [None]:
libreria_marina.exploracion_basica(df1)

### Revisión de valores nulos
- No se han encontrado valores nulos en el dataset

In [None]:
libreria_marina.identificar_nulos(df1)

### Conclusiones de valores duplicados
Se identificaron 1,864 filas completamente duplicadas. Al analizarlas, se observa que pertenecen a clientes registrados que no realizaron vuelos en ciertos meses. Estas filas parecen ser generadas automáticamente por el sistema de fidelización para mantener el historial mensual, aunque no haya actividad real. Por lo tanto, no se consideran duplicados inválidos, sino que parece ser parte del modelo de datos del sistema.

In [16]:
libreria_marina.detectar_duplicados(df1)

Filas duplicadas completas en el dataset: 1864
Aquí tienes las filas duplicadas:
        Loyalty Number  Year  Month  Flights Booked  Flights with Companions  \
42              101902  2017      1               0                        0   
227             112142  2017      1               0                        0   
478             126100  2017      1               0                        0   
567             130331  2017      1               0                        0   
660             135421  2017      1               0                        0   
1035            156031  2017      1               0                        0   
1336            106509  2017      1               0                        0   
1348            106509  2017      2               0                        0   
1420            106509  2017      3               0                        0   
1458            106509  2017      4               0                        0   
1491            106509  2017      5    

In [12]:
libreria_marina.frecuencias_categoricas(df1)

=== FRECUENCIAS DE VARIABLES CATEGÓRICAS ===
No hay columnas categóricas.


In [23]:
libreria_marina.resumen_medidas(df1)

=== MEDIA, MEDIANA Y MODA DE VARIABLES NUMÉRICAS ===

Columna: Loyalty Number
  Media: 549875.38
  Mediana: 550598.0
  Moda (varias): [617489, 736504, 890702, 974875]

Columna: Year
  Media: 2017.50
  Mediana: 2018.0
  Moda: 2018

Columna: Month
  Media: 6.50
  Mediana: 7.0
  Moda: 11

Columna: Flights Booked
  Media: 4.13
  Mediana: 1.0
  Moda: 0

Columna: Flights with Companions
  Media: 1.04
  Mediana: 0.0
  Moda: 0

Columna: Total Flights
  Media: 5.17
  Mediana: 1.0
  Moda: 0

Columna: Distance
  Media: 1214.46
  Mediana: 525.0
  Moda: 0

Columna: Points Accumulated
  Media: 124.26
  Mediana: 53.0
  Moda: 0.0

Columna: Points Redeemed
  Media: 30.84
  Mediana: 0.0
  Moda: 0

Columna: Dollar Cost Points Redeemed
  Media: 2.50
  Mediana: 0.0
  Moda: 0


## Archivo Customer Loyalty History

In [6]:
df2.head(10)

Unnamed: 0,Loyalty Number,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,480934,Canada,Ontario,Toronto,M2Z 4K1,Female,Bachelor,83236.0,Married,Star,3839.14,Standard,2016,2,,
1,549612,Canada,Alberta,Edmonton,T3G 6Y6,Male,College,,Divorced,Star,3839.61,Standard,2016,3,,
2,429460,Canada,British Columbia,Vancouver,V6E 3D9,Male,College,,Single,Star,3839.75,Standard,2014,7,2018.0,1.0
3,608370,Canada,Ontario,Toronto,P1W 1K4,Male,College,,Single,Star,3839.75,Standard,2013,2,,
4,530508,Canada,Quebec,Hull,J8Y 3Z5,Male,Bachelor,103495.0,Married,Star,3842.79,Standard,2014,10,,
5,193662,Canada,Yukon,Whitehorse,Y2K 6R0,Male,Bachelor,51124.0,Married,Star,3844.57,Standard,2012,5,,
6,927943,Canada,Ontario,Toronto,P5S 6R4,Female,College,,Single,Star,3857.95,Standard,2014,6,,
7,188893,Canada,Ontario,Trenton,K8V 4B2,Male,Bachelor,100159.0,Married,Star,3861.49,Standard,2016,12,,
8,852392,Canada,Quebec,Montreal,H2Y 2W2,Female,Bachelor,100159.0,Married,Star,3861.49,Standard,2015,5,,
9,866307,Canada,Ontario,Toronto,M8Y 4K8,Male,Bachelor,100159.0,Married,Star,3861.49,Standard,2016,10,,


### Dimensión y estructura
- Contiene 16737 filas y 16 columnas.
- Encontramos datos demográficos, de fidelización y de comportamiento de clientes.
- Los tipos de datos son apropiados: combinan enteros, flotantes y objetos (texto).
- Se detectan valores potencialmente atípicos, como sueldos negativos.

In [7]:
libreria_marina.exploracion_basica(df2)

=== EXPLORACIÓN BÁSICA DEL DATASET ===

Primeras filas:
   Loyalty Number Country          Province       City Postal Code  Gender  \
0          480934  Canada           Ontario    Toronto     M2Z 4K1  Female   
1          549612  Canada           Alberta   Edmonton     T3G 6Y6    Male   
2          429460  Canada  British Columbia  Vancouver     V6E 3D9    Male   
3          608370  Canada           Ontario    Toronto     P1W 1K4    Male   
4          530508  Canada            Quebec       Hull     J8Y 3Z5    Male   

  Education    Salary Marital Status Loyalty Card      CLV Enrollment Type  \
0  Bachelor   83236.0        Married         Star  3839.14        Standard   
1   College       NaN       Divorced         Star  3839.61        Standard   
2   College       NaN         Single         Star  3839.75        Standard   
3   College       NaN         Single         Star  3839.75        Standard   
4  Bachelor  103495.0        Married         Star  3842.79        Standard   

   Enr

### Revisión de valores nulos
- La columna "Salary" tiene valores nulos en aproximadamente 25% de los registros (solo 12,499 de 16,737 tienen datos).
- Las columnas "Cancellation Year" y "Cancellation Month" tienen valores nulos en más del 85 % de las filas, lo que indica que la mayoría de los clientes no ha cancelado la afiliación.

In [8]:
libreria_marina.identificar_nulos(df2)

=== COLUMNAS CON VALORES NULOS ===
Salary                 4238
Cancellation Year     14670
Cancellation Month    14670
dtype: int64


In [9]:
libreria_marina.detectar_duplicados(df2)

Filas duplicadas completas en el dataset: 0


### Frecuencias de variables categóricas

- Todos los clientes pertenecen a Canadá, y las provincias más representadas son Ontario (5.404 registros), British Columbia (4.409) y Quebec (3.300).
- Las ciudades más frecuentes son Toronto, Vancouver y Montreal, lo que indica una mayor concentración de clientes en zonas urbanas.
- La distribución entre mujeres (8.410) y hombres (8.327) es prácticamente equilibrada.
- La mayoría de los clientes tiene estudios de grado universitario (Bachelor) o college, representando más del 87 % del total.
- Hay menos representación de clientes con nivel Doctor o Master.
- La mayoría de los clientes está casada (9.735), seguida de solteros (4.484) y divorciados (2.518), lo que puede influir en la forma en que viajan (solos o en grupo).
- Las tarjetas más comunes son Star (7.637) y Nova (5.671), y en menor proporción Aurora (3.429). Esta información puede ser útil para entender niveles de fidelización o beneficios asociados.
- La gran mayoría de los clientes (más del 94 %) se inscribieron con el tipo "Standard", mientras que 971 clientes lo hicieron bajo la promoción de 2018.

In [10]:
libreria_marina.frecuencias_categoricas(df2)

=== FRECUENCIAS DE VARIABLES CATEGÓRICAS ===

Valores únicos para la columna: COUNTRY
  Country  count
0  Canada  16737

Valores únicos para la columna: PROVINCE
           Province  count
0           Ontario   5404
1  British Columbia   4409
2            Quebec   3300
3           Alberta    969
4          Manitoba    658

Valores únicos para la columna: CITY
        City  count
0    Toronto   3351
1  Vancouver   2582
2   Montreal   2059
3   Winnipeg    658
4   Whistler    582

Valores únicos para la columna: POSTAL CODE
  Postal Code  count
0     V6E 3D9    911
1     V5R 1W3    684
2     V6T 1Y8    582
3     V6E 3Z3    544
4     M2M 7K8    534

Valores únicos para la columna: GENDER
   Gender  count
0  Female   8410
1    Male   8327

Valores únicos para la columna: EDUCATION
              Education  count
0              Bachelor  10475
1               College   4238
2  High School or Below    782
3                Doctor    734
4                Master    508

Valores únicos para la col

In [11]:
libreria_marina.resumen_medidas(df2)

=== MEDIA, MEDIANA Y MODA DE VARIABLES NUMÉRICAS ===

Columna: Loyalty Number
  Media: 549735.88
  Mediana: 550434.0
  Moda (varias): [100018, 100102, 100140, 100214, 100272, 100301, 100364, 100380, 100428, 100504, 100550, 100585, 100590, 100642, 100644, 100646, 100727, 100737, 100753, 100816, 100853, 100883, 100890, 101018, 101148, 101356, 101363, 101487, 101515, 101540, 101544, 101547, 101581, 101594, 101644, 101663, 101664, 101709, 101768, 101876, 101895, 101902, 101945, 102168, 102184, 102207, 102299, 102308, 102311, 102376, 102464, 102615, 102726, 102730, 102740, 102788, 102851, 102877, 102982, 103043, 103151, 103217, 103304, 103340, 103352, 103359, 103362, 103383, 103436, 103490, 103502, 103536, 103699, 103731, 103758, 103823, 103860, 103862, 103916, 103969, 103970, 103975, 103985, 104103, 104267, 104353, 104431, 104541, 104586, 104673, 104732, 104739, 104849, 104960, 105063, 105073, 105074, 105145, 105193, 105214, 105251, 105335, 105352, 105552, 105688, 105700, 105712, 105789, 1

## Unión de archivos

- Antes de unir, pasamos los salarios negativos a positivos, y elimino duplicados en el DataFrame 1.

In [13]:
# corregimos los salarios negativos a positivos
df2['Salary'] = df2['Salary'].abs()

In [None]:
# comprobamos las filas duplicadas
df1.duplicated().sum()

1864

In [None]:
# las eliminamos
df1 = df1.drop_duplicates()

In [19]:
# volvemos a comprobar
df1.duplicated().sum()

0

In [20]:
# unimos los dos dataframes por "Loyalty Number" con un left join para conservar todos los clientes (aunque no hayan volado)
df_merged = pd.merge(df1, df2, on='Loyalty Number', how='left')

In [None]:
# verificamos la unión
df_merged.info()
df_merged.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 403760 entries, 0 to 403759
Data columns (total 25 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   Loyalty Number               403760 non-null  int64  
 1   Year                         403760 non-null  int64  
 2   Month                        403760 non-null  int64  
 3   Flights Booked               403760 non-null  int64  
 4   Flights with Companions      403760 non-null  int64  
 5   Total Flights                403760 non-null  int64  
 6   Distance                     403760 non-null  int64  
 7   Points Accumulated           403760 non-null  float64
 8   Points Redeemed              403760 non-null  int64  
 9   Dollar Cost Points Redeemed  403760 non-null  int64  
 10  Country                      403760 non-null  object 
 11  Province                     403760 non-null  object 
 12  City                         403760 non-null  object 
 13 

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed,Country,Province,City,Postal Code,Gender,Education,Salary,Marital Status,Loyalty Card,CLV,Enrollment Type,Enrollment Year,Enrollment Month,Cancellation Year,Cancellation Month
0,100018,2017,1,3,0,3,1521,152.0,0,0,Canada,Alberta,Edmonton,T9G 1W3,Female,Bachelor,92552.0,Married,Aurora,7919.2,Standard,2016,8,,
1,100102,2017,1,10,4,14,2030,203.0,0,0,Canada,Ontario,Toronto,M1R 4K3,Male,College,,Single,Nova,2887.74,Standard,2013,3,,
2,100140,2017,1,6,0,6,1200,120.0,0,0,Canada,British Columbia,Dawson Creek,U5I 4F1,Female,College,,Divorced,Nova,2838.07,Standard,2016,7,,
3,100214,2017,1,0,0,0,0,0.0,0,0,Canada,British Columbia,Vancouver,V5R 1W3,Male,Bachelor,63253.0,Married,Star,4170.57,Standard,2015,8,,
4,100272,2017,1,0,0,0,0,0.0,0,0,Canada,Ontario,Toronto,P1L 8X8,Female,Bachelor,91163.0,Divorced,Star,6622.05,Standard,2014,1,,


In [22]:
# guardamos el nuevo dataframe como CSV para utilizarlo de ahora en adelante
df_merged.to_csv("Loyalty_Program.csv", index=False)
