# üìä An√°lisis Exploratorio de Datos (EDA)

**Datasets:** Migraci√≥n DTM y Reservas de Transporte NCR

---

## üìö 1. ¬øQu√© es EDA?

### Definici√≥n
El **An√°lisis Exploratorio de Datos (EDA)** es el proceso de investigar y comprender un conjunto de datos.

### ¬øPara qu√© sirve?
- üîç **Comprender** la estructura y contenido
- üßπ **Detectar problemas** (nulos, duplicados, errores)
- üìà **Encontrar patrones** y relaciones
- üí° **Generar hip√≥tesis** para an√°lisis futuros

### Fases de EDA
1. Carga de datos
2. Inspecci√≥n inicial
3. Limpieza b√°sica
4. An√°lisis descriptivo
5. Visualizaci√≥n
6. Conclusiones

## üõ†Ô∏è 2. Importaci√≥n de librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn-v0_8-whitegrid')
%matplotlib inline
pd.set_option('display.max_columns', None)

print("‚úÖ Librer√≠as cargadas")

---
# üåç DATASET 1: Migraci√≥n DTM

## üì• 3. Carga de datos

In [None]:
df_mig = pd.read_excel('DTM_Mixed Migration Flows to Europe_Yearly_2024_1.xlsx')
print(f"Dimensiones: {df_mig.shape}")

## üîç 4. Inspecci√≥n inicial

In [None]:
df_mig.head()

In [None]:
df_mig.info()

## üßπ 5. Calidad de datos

In [None]:
# Valores nulos
nulos = df_mig.isnull().sum()
pct = (nulos / len(df_mig) * 100).round(2)
pd.DataFrame({'Nulos': nulos, '%': pct})[nulos > 0]

In [None]:
# Duplicados
print(f"Duplicados: {df_mig.duplicated().sum()}")

## üìä 6. Estad√≠sticas descriptivas

In [None]:
df_mig.describe()

## üìà 7. Visualizaciones

In [None]:
# Histograma de variable num√©rica
num_cols = df_mig.select_dtypes(include=[np.number]).columns
if len(num_cols) > 0:
    plt.figure(figsize=(10, 4))
    plt.hist(df_mig[num_cols[0]].dropna(), bins=30, edgecolor='black')
    plt.title(f'Distribuci√≥n: {num_cols[0]}')
    plt.xlabel(num_cols[0])
    plt.ylabel('Frecuencia')
    plt.show()

In [None]:
# Top categor√≠as
cat_cols = df_mig.select_dtypes(include='object').columns
if len(cat_cols) > 0:
    top = df_mig[cat_cols[0]].value_counts().head(10)
    plt.figure(figsize=(10, 5))
    top.plot(kind='barh', color='steelblue')
    plt.title(f'Top 10: {cat_cols[0]}')
    plt.xlabel('Frecuencia')
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()

---
# üöó DATASET 2: Transporte NCR

## üì• 8. Carga de datos

In [None]:
df_trans = pd.read_csv('ncr_ride_bookings.csv')
print(f"Dimensiones: {df_trans.shape}")

## üîç 9. Inspecci√≥n inicial

In [None]:
df_trans.head()

In [None]:
df_trans.info()

## üßπ 10. Calidad de datos

In [None]:
# Valores nulos
nulos = df_trans.isnull().sum()
pct = (nulos / len(df_trans) * 100).round(2)
pd.DataFrame({'Nulos': nulos, '%': pct})[nulos > 0].sort_values('%', ascending=False)

In [None]:
# Duplicados
print(f"Duplicados totales: {df_trans.duplicated().sum()}")
print(f"Booking IDs duplicados: {df_trans['Booking ID'].duplicated().sum()}")

## üìä 11. Estad√≠sticas

In [None]:
df_trans.describe().round(2)

In [None]:
# Estado de reservas
print("Estados de reserva:")
print(df_trans['Booking Status'].value_counts())

In [None]:
# Tipos de veh√≠culo
print("\nTipos de veh√≠culo:")
print(df_trans['Vehicle Type'].value_counts())

## üìà 12. Visualizaciones

In [None]:
# Estado de reservas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

status = df_trans['Booking Status'].value_counts()
status.plot(kind='bar', ax=ax1, color=['green', 'red', 'orange'])
ax1.set_title('Estados de Reserva')
ax1.set_ylabel('Cantidad')
ax1.tick_params(axis='x', rotation=45)

ax2.pie(status, labels=status.index, autopct='%1.1f%%', startangle=90)
ax2.set_title('Proporci√≥n de Estados')

plt.tight_layout()
plt.show()

In [None]:
# Distribuciones num√©ricas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

ax1.hist(df_trans['Ride Distance'].dropna(), bins=50, color='skyblue', edgecolor='black')
ax1.set_title('Distribuci√≥n de Distancia')
ax1.set_xlabel('Distancia (km)')
ax1.set_ylabel('Frecuencia')

ax2.hist(df_trans['Booking Value'].dropna(), bins=50, color='lightcoral', edgecolor='black')
ax2.set_title('Distribuci√≥n de Valor')
ax2.set_xlabel('Valor (‚Çπ)')
ax2.set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

In [None]:
# Relaci√≥n distancia-valor
plt.figure(figsize=(10, 6))
plt.scatter(df_trans['Ride Distance'], df_trans['Booking Value'], 
            alpha=0.3, s=10, color='darkblue')
plt.title('Distancia vs Valor de Reserva')
plt.xlabel('Distancia (km)')
plt.ylabel('Valor (‚Çπ)')
plt.grid(alpha=0.3)
plt.show()

corr = df_trans[['Ride Distance', 'Booking Value']].corr().iloc[0,1]
print(f"Correlaci√≥n: {corr:.3f}")

In [None]:
# Ratings
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

ax1.hist(df_trans['Driver Ratings'].dropna(), bins=20, color='gold', edgecolor='black')
ax1.set_title('Valoraciones de Conductores')
ax1.set_xlabel('Rating')
ax1.set_ylabel('Frecuencia')

ax2.hist(df_trans['Customer Rating'].dropna(), bins=20, color='lightgreen', edgecolor='black')
ax2.set_title('Valoraciones de Clientes')
ax2.set_xlabel('Rating')
ax2.set_ylabel('Frecuencia')

plt.tight_layout()
plt.show()

## üéØ 13. Conclusiones

### Dataset Migraci√≥n
- Revisar columnas con valores nulos
- Identificar variables m√°s relevantes
- Analizar distribuciones y patrones temporales

### Dataset Transporte
- Alta proporci√≥n de viajes completados
- Correlaci√≥n positiva entre distancia y valor
- Analizar razones de cancelaci√≥n
- Estudiar patrones por tipo de veh√≠culo

### Pr√≥ximos pasos
1. Limpieza profunda de datos
2. An√°lisis temporal (fechas/horas)
3. An√°lisis geogr√°fico (ubicaciones)
4. Modelado predictivo