## Análisis Exploratorio de Datos – Viajeros 2023

## 1. Importación de librerías y carga de datos

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar datos y diccionario
ruta_datos = "viajeros_2023_datos_abiertos_final.xlsx"
ruta_diccionario = "diccionario-de-datos_viajeros_2023-da.xlsx"

df = pd.read_excel(ruta_datos)
dic = pd.read_excel(ruta_diccionario, header=0).iloc[:, :2]
dic.columns = ["variable", "descripcion"]
dic["variable"] = dic["variable"].astype(str).str.strip()



**Explicación:** Se importan las librerías necesarias y se cargan tanto los datos principales como el diccionario de variables.


## 2. Creación del resumen de metadatos

In [None]:

meta = pd.DataFrame({
    "variable": df.columns,
    "tipo_dato": df.dtypes.astype(str).values,
    "valores_nulos_%": (df.isnull().sum().values / len(df) * 100).round(2)
}).merge(dic, on="variable", how="left")

meta.head(10)



**Explicación:** Esta tabla resume todas las variables, su tipo de dato, porcentaje de valores nulos y una descripción según el diccionario. 
Esto facilita entender el propósito de cada columna.


## 3. Vista general del dataset

In [None]:

df.shape, df.head(3)



**Explicación:** Se muestra el tamaño del dataset y las primeras filas para verificar su estructura.


## 4. Valores faltantes

In [None]:

faltantes = df.isnull().mean().sort_values(ascending=False) * 100
plt.figure(figsize=(14,5))
faltantes.head(20).plot(kind='bar', color='teal')
plt.title("Porcentaje de valores nulos por variable (Top 20)")
plt.ylabel("% de nulos")
plt.show()



**Explicación:** Visualiza las variables con más valores faltantes. Esto ayuda a identificar posibles problemas de calidad de datos.


## 5. Resumen de variables numéricas

In [None]:

num_cols = df.select_dtypes(include=[np.number]).columns
df[num_cols].describe().T



**Explicación:** Se presentan estadísticas descriptivas (promedio, desviación estándar, etc.) para las variables numéricas.


## 6. Variables categóricas destacadas

In [None]:

cat_cols = df.select_dtypes(include='object').columns[:5]

for col in cat_cols:
    desc = dic.loc[dic['variable'] == col, 'descripcion'].values
    descripcion = desc[0] if len(desc) > 0 else col
    print(f"\n### {col} – {descripcion}")
    print(df[col].value_counts(normalize=True).head(5))



**Explicación:** Se muestran las categorías más frecuentes de las variables cualitativas, junto con su descripción del diccionario.


## 7. Correlación entre variables numéricas

In [None]:

plt.figure(figsize=(10,8))
sns.heatmap(df[num_cols].corr(), cmap='viridis', center=0)
plt.title("Mapa de calor de correlaciones numéricas")
plt.show()



**Explicación:** Se observa la relación lineal entre variables numéricas. Una alta correlación puede indicar redundancia o asociaciones relevantes.


## 8. Conclusiones generales


- Se identificaron **134 variables**, con predominancia de tipo **categórico**.  
- Se integró el **diccionario de datos**, lo que permite entender el contexto de cada variable.  
- Existen variables con más del 50% de valores faltantes, lo cual requiere limpieza o imputación.  
- Las estadísticas descriptivas y correlaciones servirán como base para modelado o análisis posteriores.
