# Módulo 3: Ejercicio de evaluación final - ELISABET AGUILÓ THIÓ

## Los Datos

Los datos que se proporcionan consisten en dos datasets que, en conjunto, describen el comportamiento de los clientes dentro de un programa de lealtad de una aerolínea.

---

## 1. Customer Flight Analysis.csv

**Información sobre la actividad de vuelo de los clientes.**

| Atributo | Descripción |
|----------|-------------|
| **Loyalty Number** | Identificador único del cliente dentro del programa de lealtad. |
| **Year** | Año en el cual se registraron las actividades de vuelo. |
| **Month** | Mes del año (1 a 12) en el cual ocurrieron las actividades de vuelo. |
| **Flights Booked** | Número total de vuelos reservados en ese mes. |
| **Flights with Companions** | Número de vuelos reservados con acompañantes. |
| **Total Flights** | Total de vuelos realizados por el cliente (incluye meses anteriores). |
| **Distance** | Distancia total volada durante el mes (millas o kilómetros). |
| **Points Accumulated** | Puntos acumulados durante el mes. |
| **Points Redeemed** | Puntos redimidos durante el mes. |
| **Dollar Cost Points Redeemed** | Valor en dólares de los puntos redimidos durante el mes. |

---

## 2. Customer Loyalty History.csv

**Perfil detallado de los clientes.**

| Atributo | Descripción |
|----------|-------------|
| **Loyalty Number** | Identificador único del cliente dentro del programa de lealtad. **Permite correlacionar** con el archivo de actividad de vuelos. |
| **Country** | País de residencia del cliente. |
| **Province** | Provincia o estado de residencia (aplicable a países con divisiones provinciales o estatales). |
| **City** | Ciudad de residencia del cliente. |
| **Postal Code** | Código postal del cliente. |
| **Gender** | Género del cliente (ej. Male o Female). |
| **Education** | Nivel educativo alcanzado (ej. Bachelor, College, etc.). |
| **Salary** | Ingreso anual estimado del cliente. |
| **Marital Status** | Estado civil (ej. Single, Married, Divorced, etc.). |
| **Loyalty Card** | Tipo de tarjeta de lealtad (niveles o categorías dentro del programa). |
| **CLV (Customer Lifetime Value)** | Valor estimado que el cliente aporta durante toda la relación con la empresa. |
| **Enrollment Type** | Tipo de inscripción en el programa (ej. Standard). |
| **Enrollment Year** | Año de inscripción en el programa de lealtad. |
| **Enrollment Month** | Mes de inscripción en el programa de lealtad. |
| **Cancellation Year** | Año de cancelación de la membresía, si aplica. |
| **Cancellation Month** | Mes de cancelación de la membresía, si aplica. |



## Fase 1: Exploración y Limpieza

## 1.1. Librerías 

In [2]:
# ------------------------------
# Manipulación de datos
# ------------------------------
import pandas as pd        # pandas → trabajar con tablas (DataFrames)
import numpy as np         # numpy → operaciones numéricas y manejo de nulos (np.nan)
import os                  # os → interacción con el sistema operativo (verificar existencia de archivos)

# ------------------------------
# Configuración del entorno
# ------------------------------
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas en la salida
pd.set_option('display.max_rows', 100)      # Limitar filas mostradas a 100 (para evitar salidas excesivas)


## 1.2. Metodología 
**Siempre exploramos y limpiamos cada CSV *individualmente* antes de combinarlos.**

Cada archivo CSV puede tener:
- Columnas diferentes
- Datos que no coinciden 
- Espacios vacíos

**Explorar y limpiar por separado evita errores y deja datos correctos para análisis.**


## 1.3 CSV A – “Customer Flight Activity”

In [3]:
# Lectura del archivo “Customer Flight Activity.csv”

if os.path.exists("Customer Flight Activity.csv"):
    # → Leer el archivo CSV y convertirlo en un DataFrame de pandas
    df_flight = pd.read_csv("Customer Flight Activity.csv")
    
    # → Confirmación visual de que el archivo se cargó correctamente
    print("✅ Archivo 'Customer Flight Activity.csv' cargado correctamente")
else:
    # → Aviso si el archivo no se encuentra en la carpeta
    print("⚠️ Archivo 'Customer Flight Activity.csv' no encontrado")
    
    # → Asignamos None para evitar errores posteriores
    df_flight = None

✅ Archivo 'Customer Flight Activity.csv' cargado correctamente


In [None]:
# Exploración inicial “Customer Flight Activity.csv”

# ------------------------------
# 1️⃣ Primeras filas: head()
# ------------------------------
# → Muestra las primeras filas del dataset
# Por qué hacerlo:
#    • Para ver cómo se ven los datos al inicio
#    • Confirmar que cada columna tenga el tipo correcto (número, texto, fecha)
#    • Detectar errores iniciales que puedan afectar el análisis
print("=== Primeras filas ===")
display(df_flight.head())

# ------------------------------
# 2️⃣ Últimas filas: tail()
# ------------------------------
# → Muestra las últimas filas del dataset
# Por qué hacerlo:
#    • Para asegurarnos de que todo el dataset se cargó
#    • Revisar que las filas sean datos reales de clientes
#      Algunas filas al final pueden no ser datos reales:
#        - Sumas de columnas (ej: total de vuelos o puntos acumulados)
#        - Comentarios o notas explicativas (ej: "Archivo generado el 31/12/2018")
#      Estas filas no deben analizarse como si fueran clientes
print("=== Últimas filas ===")
display(df_flight.tail())

# ------------------------------
# 3️⃣ Muestra aleatoria: sample()
# ------------------------------
# → Muestra filas elegidas al azar dentro del dataset
# Por qué hacerlo:
#    • Para revisar registros “en el medio” que no se ven al inicio ni al final
#    • Ayuda a detectar errores o inconsistencias que podrían pasar desapercibidas
# Nota: random_state= 42 asegura que la misma muestra aparezca cada vez que ejecutas la celda 
print("=== Muestra aleatoria ===")
display(df_flight.sample(5, random_state= 42))


=== Primeras filas ===


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
0,100018,2017,1,3,0,3,1521,152.0,0,0
1,100102,2017,1,10,4,14,2030,203.0,0,0
2,100140,2017,1,6,0,6,1200,120.0,0,0
3,100214,2017,1,0,0,0,0,0.0,0,0
4,100272,2017,1,0,0,0,0,0.0,0,0


=== Últimas filas ===


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
405619,999902,2018,12,0,0,0,0,0.0,0,0
405620,999911,2018,12,0,0,0,0,0.0,0,0
405621,999940,2018,12,3,0,3,1233,123.0,0,0
405622,999982,2018,12,0,0,0,0,0.0,0,0
405623,999986,2018,12,0,0,0,0,0.0,0,0


=== Muestra aleatoria ===


Unnamed: 0,Loyalty Number,Year,Month,Flights Booked,Flights with Companions,Total Flights,Distance,Points Accumulated,Points Redeemed,Dollar Cost Points Redeemed
182259,802535,2017,11,0,0,0,0,0.0,0,0
78391,674643,2017,5,0,0,0,0,0.0,0,0
24345,496371,2017,2,4,4,8,1512,151.0,0,0
297818,659419,2018,6,0,0,0,0,0.0,0,0
203891,158560,2018,1,3,0,3,1911,191.0,0,0


In [5]:
### Observaciones Exploración inicial "Customer Flight Activity.csv"

# Primeras filas
# - Cada fila es el registro de actividad mensual y anual de un cliente.
# - Cada columna es información sobre ese cliente:
#     - Loyalty Number → número único que identifica al cliente
#     - Year y Month → fecha de la actividad
#     - Flights Booked → vuelos reservados
#     - Flights with Companions → vuelos con acompañantes
#     - Total Flights → total de vuelos ( suma de Flights Booked y Flights with companions)
#     - Distance → distancia total recorrida
#     - Points Accumulated → puntos ganados por volar
#     - Points Redeemed → puntos que el cliente usó
#     - Dollar Cost Points Redeemed → cuánto dinero valen los puntos que usó
# - La presencia de ceros puede indicar:
#   a) Clientes inactivos durante ese periodo (no vuelan).
#   b) Clientes que vuelan pero no usan los puntos.
#   Es importante diferenciar entre un cero real y un NaN (dato faltante).

# Últimas filas
# - Algunas filas pueden estar vacías, ser totales del dataset o notas sobre el archivo.
# - Estas filas no representan clientes reales y no deben contarse.
# - En nuestro caso, se verifica que el archivo termina con datos de clientes reales
#   y no con totales o notas, 
#   lo que confirma que se cargó correctamente hasta el final.

# Muestra aleatoria
# - Revisar filas al azar ayuda a detectar errores que no se ven al principio o al final.
# - En muestra elegida, no se observan errores evidentes, se cargan correctamente los datos.
