# Analisis Exploratorio de Datos (EDA) - Satisfaccion de Pasajeros

Este notebook contiene el analisis detallado del dataset de aerolineas para entender que factores influyen en la satisfaccion del cliente.

## 1. Importar librerias y cargar datos

In [None]:
import os
import pandas as pd

# GestiÃ³n de rutas robusta
file_name = 'airline_passenger_satisfaction.csv'
data_path = file_name
if not os.path.exists(data_path):
    # Buscar en carpeta data (estructura local)
    possible_path = os.path.join('..', 'data', file_name)
    if os.path.exists(possible_path):
        data_path = possible_path
    else:
        try:
            from google.colab import files
            print("Sube el archivo:")
            uploaded = files.upload()
            data_path = file_name
        except ImportError:
            print("Error: Archivo no encontrado.")

df = pd.read_csv(data_path)
df.head()


## 2. Inspeccion inicial

In [None]:
print("--- Informacion General ---")
print(df.info())
print("\n--- Valores Faltantes ---")
print(df.isnull().sum()[df.isnull().sum() > 0])

## 3. Analisis de la Variable Objetivo

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='satisfaction', hue='satisfaction', palette='viridis', legend=False)
plt.title('Distribucion de Satisfaccion del Cliente')
plt.show()

## 4. Matriz de Correlacion
Entender que variables estan numericamente ligadas.

In [None]:
plt.figure(figsize=(15, 10))
numeric_df = df.select_dtypes(include=[np.number]).drop(columns=['Unnamed: 0', 'id'], errors='ignore')
sns.heatmap(numeric_df.corr(), annot=True, fmt=".2f", cmap='coolwarm', linewidths=0.5)
plt.title('Matriz de Correlacion de Variables Numericas')
plt.show()

## 5. Segmentacion por Clase y Tipo de Viaje

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(16, 6))

sns.countplot(data=df, x='Class', hue='satisfaction', palette='magma', ax=ax[0])
ax[0].set_title('Satisfaccion por Clase de Viaje')

sns.countplot(data=df, x='Type of Travel', hue='satisfaction', palette='rocket', ax=ax[1])
ax[1].set_title('Satisfaccion por Tipo de Viaje')

plt.show()

## 6. Impacto de los servicios especificos
Analicemos el WiFi y el Entretenimiento, que suelen ser claves.

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(16, 6))

sns.boxplot(data=df, x='satisfaction', y='Inflight wifi service', palette='Set2', ax=ax[0], hue='satisfaction', legend=False)
ax[0].set_title('Servicio WiFi vs Satisfaccion')

sns.boxplot(data=df, x='satisfaction', y='Inflight entertainment', palette='Set3', ax=ax[1], hue='satisfaction', legend=False)
ax[1].set_title('Entretenimiento a bordo vs Satisfaccion')

plt.show()

## 7. Analisis de Retrasos

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Departure Delay in Minutes', y='Arrival Delay in Minutes', hue='satisfaction', alpha=0.5)
plt.title('Relacion entre Retrasos de Salida y Llegada')
plt.show()