# 📊 Conclusiones y Next Steps

## 🗂️ Resumen de los CSVs
- `customer_flight_activity.csv` en adelante 'CSV de reservas': muestras las reservas hechas en cada mes de los años 2017 y 2018.
- `customer_loyalty_history.csv` en adelante 'CSV de clientes': muestra información variada sobre los clientes.
- `info_aerolinea.csv` es la unión resultante de ambos archivos en la que podemos ver las reservas por mes y año y la información de los clientes que han hecho esas reservas.

## 🔍 Hallazgos Iniciales

### Sobre los datos
- Solo tenemos información de clientes canadienses
- Mismo número de valores nulos en:
  - 'Cancellation Year' 
  - 'Cancellation Month' 
  Estos nulos pueden corresponder a clientes que no han cancelado su membresía
  - Valores nulos en 'Salary'
- Tipos de datos inconsistentes:
  - Columnas de cancelación: `float`
  - Columnas de inscripción: `int`
Estas dos columnas deberían tener el mismo tipo de datos
- Rango temporal:
  - CSV clientes: 2012-2018
  - CSV vuelos: solo 2017-2018
- 'Total Flights' = 'Flights Booked' + 'Flights With Companions' (pero conviene mantener las 3 columnas ya que la información que muestra cada columna se puede usar para conclusiones diferentes)

## 🧼 Limpieza y Unión

### Proceso realizado
1. Unión de ambos CSVs:
   - Conservando toda la información de reservas
2. Eliminación de duplicados:
   - Verificado que eran registros completos duplicados
   - Conservada una copia de cada para no perder la información de esa reserva
3. Estandarización:
   - Nombres de columnas con `.title()`
4. Cambios de tipo de dato:
   - `Distance`: int → float (las distancias pueden ser decimales)
   - `Dollar Cost Points Redeemed`: int → float (para registrar céntimos)

## 📈 Análisis Realizado

### Preguntas de la aerolínea

#### 1. ¿Cómo se distribuye la cantidad de vuelos reservados por mes durante el año?
- **Mes con más reservas**: Julio
- **Temporada alta**: Junio-Agosto
- **Meses con alta demanda**: Diciembre y Marzo
- **Mes con menos ventas**: Febrero

#### 2. ¿Existe una relación entre la distancia de los vuelos y los puntos acumulados por los cliente?
- Relación fuerte y correlación positiva
- Cuando aumenta la distancia, aumentan los puntos

#### 3. ¿Cuál es la distribución de los clientes por provincia o estado?
- La mayoría de clientes están e 3 provincias:
  - Ontario
  - British Columbia 
  - Quebec
- Total: hay clientes en un total de 11 provincias

#### 4. ¿Cómo se compara el salario promedio entre los diferentes niveles educativos de los clientes?
- **Salarios más altos**: Clientes con doctorado
- **Salarios más bajos**: Clientes con título no universitario
- **Recomendación**: Recopilar información de puesto/industria para mejor análisis

#### 5. ¿Cuál es la proporción de clientes con diferentes tipos de tarjetas de fidelidad?
1. **Más popular**: Star
2. **Intermedia**: Nova
3. **Menos popular**: Aurora

#### 6. ¿Cómo se distribuyen los clientes según su estado civil y género?
- **Mayoría**: Clientes casados
- **Distribución por género**: Equitativa en todas las categorías de estado covil
- **Conclusión**: No hay diferencias significativas

  ## 🔮 Next Steps - Profundización

### 🔍 Validaciones Pendientes (Análisis Técnico)

1. **Relación entre columnas de puntos** ('Points Accumulated', 'Points Redeemed' y 'Dollar Cost Points Redeemed'):
   - Verificar coherencia en tipos de datos y valores
   - Calcular ratios:
     - `Points_Redeemed / Points_Accumulated` (¿qué porcentaje de puntos se usan?)
     - Mapear todos los valores de `Dollar_Cost_Points_Redeemed` vs `Points_Redeemed` (¿valor constante del punto?)
   - Buscar patrones por:
     - Tipo de tarjeta de fidelidad
     - Año de membresía
     - Frecuencia de vuelo

2. **Relación distancia-vuelos** ('Total Flights' y 'Distance'):
   - Crear segmentos por distancia (corta/media/larga) 
   - Analizar:
     - Frecuencia de viaje por segmento
     - Puntos acumulados por km volado
     - Posible patrón entre las columnas, si existiera

3. **Validación 'Total Flights'**:
   - Confirmar que `Total_Flights == Flights_Booked + Flights_With_Companions` en todos los registros
   - Identificar posibles excepciones (vuelos cancelados/modificados)

### 🛠 Acciones para los nulos en 'Salary':

- **Propuestas de imputación**:
  1. Asignar salario promedio por:
     - Nivel educativo ('Bachellor')
     - Provincia
     - Tipo de tarjeta de fidelización

#### 📌 Consultas a la aerolínea:
1. **Funcionamiento del sistema de puntos**:
   - ¿Valor fijo o variable por tipo de vuelo?
   - ¿Caducidad de puntos?
   
2. **Datos en 'Salary'**:
   - Los nulos  son:
     - ¿Error de registro?
     - ¿Clientes que rechazaron compartirlo?
     - ¿Estudiantes? (explicaría la variable 'College' que no representa ningún título en concreto)