In [2]:
import pandas as pd

Actividad de vuelo de los clientes, incluyendo el número de vuelos reservados, la distancia volada, puntos acumulados y redimidos, y costos asociados a los puntos redimidos

 - Loyalty Number: Este atributo representa un identificador único para cada cliente dentro del
 programa de lealtad de la aerolínea. 
 - Year: Indica el año en el cual se registraron las actividades de vuelo para el cliente.
 - Month: Representa el mes del año (de 1 a 12) en el cual ocurrieron las actividades de vuelo.
 - Flights Booked: Número total de vuelos reservados por el cliente en ese mes específico.
 - Flights with Companions: Número de vuelos reservados en los cuales el cliente viajó con
 acompañantes.
 - Total Flights: El número total de vuelos que el cliente ha realizado, que puede incluir vuelos
 reservados en meses anteriores.
 - Distance: La distancia total (presumiblemente en millas o kilómetros) que el cliente ha volado
 durante el mes.
 - Points Accumulated: Puntos acumulados por el cliente en el programa de lealtad durante el mes,
 con base en la distancia volada u otros factores.
 - Points Redeemed: Puntos que el cliente ha redimido en el mes, posiblemente para obtener
 beneficios como vuelos gratis, mejoras, etc.
 - Dollar Cost Points Redeemed: El valor en dólares de los puntos que el cliente ha redimido durante
 el mes

In [3]:
df_flight = pd.read_csv("Customer Flight Activity.csv")
df_flight.head(2)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0


In [4]:
df_flight.sample(5)

Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
238066,950914,2018,3,6,6,12,2148,231.12,0,0
273179,248886,2018,5,0,0,0,0,0.0,0,0
257535,211802,2018,3,15,6,21,4221,455.76,0,0
249985,810257,2018,3,0,0,0,0,0.0,0,0
320306,956477,2018,7,9,0,9,4473,447.0,0,0


In [4]:
print(f"El número de filas que tenemos es {df_flight.shape[0]}, y el número de columnas es {df_flight.shape[1]}")

El número de filas que tenemos es 405624, y el número de columnas es 10


In [5]:
df_flight.columns

Index(['Loyalty Number', 'Year', 'Month', 'Flights Booked',
       'Flights with Companions', 'Total Flights', 'Distance',
       'Points Accumulated', 'Points Redeemed', 'Dollar Cost Points Redeemed'],
      dtype='object')

In [6]:
# Para facilitar el análisis cambio los nombres por miníscula y espacios por _

df_flight.columns = (df_flight.columns.str.strip().str.lower().str.replace(' ', '_'))
df_flight.columns

Index(['loyalty_number', 'year', 'month', 'flights_booked',
       'flights_with_companions', 'total_flights', 'distance',
       'points_accumulated', 'points_redeemed', 'dollar_cost_points_redeemed'],
      dtype='object')

In [7]:
# Podemos observar que todas las columnas son int y una float

# No tenemos datos nulos

df_flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   loyalty_number               405624 non-null  int64  
 1   year                         405624 non-null  int64  
 2   month                        405624 non-null  int64  
 3   flights_booked               405624 non-null  int64  
 4   flights_with_companions      405624 non-null  int64  
 5   total_flights                405624 non-null  int64  
 6   distance                     405624 non-null  int64  
 7   points_accumulated           405624 non-null  float64
 8   points_redeemed              405624 non-null  int64  
 9   dollar_cost_points_redeemed  405624 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 30.9 MB


In [None]:
# En la columna que tenemos float, hay inconsistencia del número de decimales por lo que redondeamos y pasamos a int:

df_flight["points_accumulated"]= df_flight["points_accumulated"].round().astype('Int64')

In [10]:
df_flight.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 10 columns):
 #   Column                       Non-Null Count   Dtype
---  ------                       --------------   -----
 0   loyalty_number               405624 non-null  int64
 1   year                         405624 non-null  int64
 2   month                        405624 non-null  int64
 3   flights_booked               405624 non-null  int64
 4   flights_with_companions      405624 non-null  int64
 5   total_flights                405624 non-null  int64
 6   distance                     405624 non-null  int64
 7   points_accumulated           405624 non-null  Int64
 8   points_redeemed              405624 non-null  int64
 9   dollar_cost_points_redeemed  405624 non-null  int64
dtypes: Int64(1), int64(9)
memory usage: 31.3 MB


In [11]:
#Tenemos datos de dos años en este caso (2017, 2018) en relación a la flight activity.
df_flight["year"].unique()

array([2017, 2018], dtype=int64)

In [12]:
# Distribución de vuelos por mes (vemos que en verano, sobre todo julio, nuestros clientes cogen más vuelos)
vuelos_mes = df_flight.groupby('month')['total_flights'].sum()
vuelos_mes

month
1     119639
2     118849
3     162259
4     139278
5     177803
6     216976
7     245298
8     212463
9     171314
10    162824
11    152292
12    208694
Name: total_flights, dtype: int64

In [13]:
#Entendemos resultados columnas numéricas 
df_flight.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
loyalty_number,405624.0,550037.873084,258935.286969,100018.0,326961.0,550834.0,772194.0,999986.0
year,405624.0,2017.5,0.500001,2017.0,2017.0,2017.5,2018.0,2018.0
month,405624.0,6.5,3.452057,1.0,3.75,6.5,9.25,12.0
flights_booked,405624.0,4.115052,5.225518,0.0,0.0,1.0,8.0,21.0
flights_with_companions,405624.0,1.031805,2.076869,0.0,0.0,0.0,1.0,11.0
total_flights,405624.0,5.146858,6.521227,0.0,0.0,1.0,10.0,32.0
distance,405624.0,1208.880059,1433.15532,0.0,0.0,488.0,2336.0,6293.0
points_accumulated,405624.0,123.692715,146.600053,0.0,0.0,50.0,239.0,676.0
points_redeemed,405624.0,30.696872,125.486049,0.0,0.0,0.0,0.0,876.0
dollar_cost_points_redeemed,405624.0,2.484503,10.150038,0.0,0.0,0.0,0.0,71.0


In [None]:
# Flights Booked: max 21 (21 vuelos reservados en ese mes en concreto)
# Total Flights: max 32 vuelos realizados ese mes, número alto
# Points Redeemed también es alto (876)

-- Estudio duplicados

In [14]:
df_flight.duplicated().sum()

1864

In [15]:
duplicados = df_flight[df_flight.duplicated(keep=False)]
duplicados.sort_values(by=['loyalty_number', 'year', 'month']).head(8)

#keep False te deja el original y el duplicado

Unnamed: 0,loyalty_number,year,month,flights_booked,flights_with_companions,total_flights,distance,points_accumulated,points_redeemed,dollar_cost_points_redeemed
41,101902,2017,1,0,0,0,0,0,0,0
42,101902,2017,1,0,0,0,0,0,0,0
16942,101902,2017,2,0,0,0,0,0,0,0
16943,101902,2017,2,0,0,0,0,0,0,0
33843,101902,2017,3,0,0,0,0,0,0,0
33844,101902,2017,3,0,0,0,0,0,0,0
101447,101902,2017,7,0,0,0,0,0,0,0
101448,101902,2017,7,0,0,0,0,0,0,0


In [16]:
#Aqui podemos comprobar que hay filas que se han duplicado (para mismo cliente en meses en los que no han viajado, datos se han repetido)
# los elimino ya que non aportan información

df_flight1= df_flight.drop_duplicates()

In [17]:
#Compruebo que se han eliminado, comparando la forma:
df_flight.shape

(405624, 10)

In [18]:
df_flight1.shape

(403760, 10)

In [19]:
#Compruebo que no tengo duplicados

df_flight1.duplicated().sum()

0

In [20]:
#Guardo el CSV limpio

df_flight1.to_csv('Customer Flight Activity Clean.csv', index=False)