1. Carga de dataset
Se eligi√≥ el siguiente dataset que contiene informaci√≥n de vuelos, pasajeros, rutas y aerol√≠neas en el pa√≠s desde el a√±o 2017.
Es provista por la Subsecretar√≠a de Turismo.
https://datos.gob.ar/dataset/turismo-conectividad-aerea/archivo/turismo_aab49234-28c9-48ab-a978-a83485139290

In [27]:
# Se debe bajar el dataset base_microdatos.csv y colocarla en la misma carpeta del proyecto
import pandas as pd

# Cargar el CSV en un dataframe (se crea carpeta datos para mejor organizaci√≥n)
df_vuelos = pd.read_csv("datos/base_microdatos.csv")

# Mostrar las primeras filas para verificar carga correcta
df_vuelos.head()

###pip install sqlalchemy pymysql python-dotenv

Unnamed: 0,indice_tiempo,clasificacion_vuelo,clase_vuelo,aerolinea,origen_oaci,origen_aeropuerto,origen_localidad,origen_provincia,origen_pais,origen_continente,destino_oaci,destino_aeropuerto,destino_localidad,destino_provincia,destino_pais,destino_continente,pasajeros,asientos,vuelos
0,2017-01-01,Cabotaje,No Regular,Andes L√≠neas A√©reas,SAAV,Aeropuerto de Sauce Viejo,Santa Fe,Santa Fe,Argentina,Am√©rica del Sur,SAZS,Aeropuerto Int. Tte. Luis Candelaria,San Carlos de Bariloche,R√≠o Negro,Argentina,Am√©rica del Sur,85,85,1
1,2017-01-01,Cabotaje,No Regular,Andes L√≠neas A√©reas,SASA,Aeropuerto Int. Mart√≠n Miguel de G√ºemes,Salta,Salta,Argentina,Am√©rica del Sur,SASJ,Aeropuerto Int. Gdor. Horacio Guzm√°n,San Salvador de Jujuy,Jujuy,Argentina,Am√©rica del Sur,23,83,1
2,2017-01-01,Cabotaje,No Regular,Andes L√≠neas A√©reas,SAZS,Aeropuerto Int. Tte. Luis Candelaria,San Carlos de Bariloche,R√≠o Negro,Argentina,Am√©rica del Sur,SAAV,Aeropuerto de Sauce Viejo,Santa Fe,Santa Fe,Argentina,Am√©rica del Sur,78,83,1
3,2017-01-01,Cabotaje,Regular,Aerol√≠neas Argentinas,SAAR,Aeropuerto Int. de Rosario Islas Malvinas,Rosario,Santa Fe,Argentina,Am√©rica del Sur,SACO,Aeropuerto Int. Ingeniero Ambrosio Taravella,C√≥rdoba,C√≥rdoba,Argentina,Am√©rica del Sur,48,128,1
4,2017-01-01,Cabotaje,Regular,Aerol√≠neas Argentinas,SAAR,Aeropuerto Int. de Rosario Islas Malvinas,Rosario,Santa Fe,Argentina,Am√©rica del Sur,SAEZ,Aeropuerto Int. Ministro Pistarini,Ezeiza,Buenos Aires,Argentina,Am√©rica del Sur,90,128,1


2. Almacenamiento en base de datos
Se escogi√≥ MySQL Workbench 8.0 Community (cliente) junto a XAMPP 3.0 (servidor)
Para poder acceder a la base de datos, se crear√° un archivo .env el cual almacenar√° variables de entorno (como credenciales)
Esto ser√° m√°s seguro ya que protege al mantenerlas fuera del c√≥digo fuente.

In [28]:
from dotenv import load_dotenv
import os
from sqlalchemy import create_engine, text

# Cargar el archivo .env y almacenarlas en variables
load_dotenv(override=True)

db_user=os.getenv("DB_USER")
db_pass=os.getenv("DB_PASS")
db_host=os.getenv("DB_HOST")
db_port=os.getenv("DB_PORT")
db_name=os.getenv("DB_NAME")
tb_name=os.getenv("TB_NAME")

# Crear conexi√≥n al servidor MySQL (sin base de datos)
connection_url_no_db = f"mysql+pymysql://{db_user}:{db_pass}@{db_host}:{db_port}"
engine = create_engine(connection_url_no_db)

# Crear la base de datos si no existe
with engine.connect() as conn:
    conn.execute(text(f"CREATE DATABASE IF NOT EXISTS {db_name}"))
    print(f"‚úÖ Base de datos '{db_name}' creada o ya existente.")

# Al usar with se evita olvidar cerrar la conexi√≥n con conn.close().

# Crear engine ahora apuntando a la base de datos
connection_url = f"mysql+pymysql://{db_user}:{db_pass}@{db_host}:{db_port}/{db_name}"
engine_db = create_engine(connection_url)

# Verificar conexi√≥n a la base de datos creada
with engine_db.connect() as conn:
    result = conn.execute(text("SELECT DATABASE();"))
    print("üéØ Conectado a la base de datos:", result.scalar())

# Crear tabla si no existe
with engine_db.connect() as conn:
    create_table_query = f"""
    CREATE TABLE IF NOT EXISTS {tb_name} (
    indice_tiempo DATETIME,
    clasificacion_vuelo VARCHAR(50),
    clase_vuelo VARCHAR(50),
    aerolinea VARCHAR(100),
    origen_oaci VARCHAR(10),
    origen_aeropuerto VARCHAR(100),
    origen_localidad VARCHAR(100),
    origen_provincia VARCHAR(100),
    origen_pais VARCHAR(100),
    origen_continente VARCHAR(100),
    destino_oaci VARCHAR(10),
    destino_aeropuerto VARCHAR(100),
    destino_localidad VARCHAR(100),
    destino_provincia VARCHAR(100),
    destino_pais VARCHAR(100),
    destino_continente VARCHAR(100),
    pasajeros INT,
    asientos INT,
    vuelos INT
    )
    """
    conn.execute(text(create_table_query))
    print(f"Tabla '{tb_name}' creada (si no exist√≠a).")

# Pasar datos del dataframe a la tabla de MySQL
    df_vuelos.to_sql(
    name=tb_name,         # nombre de la tabla en la base de datos
    con=engine_db,
    if_exists='replace',  # 'replace' borra la tabla si existe, 'append' agrega filas (s√≥lo cargaremos por unica vez)
    index=False           # para no guardar el √≠ndice del DataFrame como columna
    )

    print(f"Tabla '{tb_name}' cargada con datos.")


‚úÖ Base de datos 'db_aereos' creada o ya existente.
üéØ Conectado a la base de datos: db_aereos
Tabla 'tb_vuelos' creada (si no exist√≠a).


3. Construcci√≥n del dashboard
Se usar√° notebook de jupyter para crear dashboard con la informaci√≥n de la base de datos.
Se eligi√≥ Plotly para la visualizaci√≥n de gr√°ficos.

In [39]:
#pip install plotly
#pip install nbformat
#pip install --upgrade --force-reinstall nbformat

import pandas as pd
import plotly.express as px

# Cargar datos de MySQL a dataframe
df_vuelos_sql = pd.read_sql("SELECT * FROM tb_vuelos", con=engine_db)

### TOP destinos m√°s visitados

# Agrupar por destino y sumar pasajeros
destino_mas_visitado = df_vuelos_sql.groupby(["destino_localidad","destino_pais"])["pasajeros"].sum().sort_values(ascending=False)

# Mostrar el top 1
print("üõ¨ Destino m√°s visitado:")
print(destino_mas_visitado.head(1))

# Top 10 de los m√°s visitados
top_destinos = destino_mas_visitado.head(10).reset_index()
top_destinos["destino_etiqueta"] = top_destinos["destino_localidad"] + " (" + top_destinos["destino_pais"] + ")"

# Convertir cantidad pasajeros en millones
top_destinos["pasajeros_millones"] = (top_destinos["pasajeros"] / 1_000_000).round(3)


fig = px.bar(
    top_destinos,
    x="destino_etiqueta",
    y="pasajeros_millones",
    title="‚úàÔ∏è Top 10 destinos m√°s visitados",
    color="pasajeros_millones",
    text="pasajeros_millones"
)
fig.update_layout(xaxis_title="Destino (Pa√≠s)", yaxis_title="Pasajeros (millones)")
fig.show()

üõ¨ Destino m√°s visitado:
destino_localidad       destino_pais
Ciudad de Buenos Aires  Argentina       50179619
Name: pasajeros, dtype: int64


In [None]:
### Aerol√≠neas con m√°s y menos vuelos

# Agrupar por aerol√≠nea y cantidad de vuelos
vuelos_por_aerolinea = df_vuelos_sql.groupby("aerolinea")["vuelos"].sum().sort_values(ascending=False)

print("üõ´ Aerol√≠nea con m√°s vuelos:")
print(vuelos_por_aerolinea.head(1))

print("\nüõ¨ Aerol√≠nea con menos vuelos:")
print(vuelos_por_aerolinea.tail(1))

fig = px.bar(
    vuelos_por_aerolinea.reset_index(),
    x="aerolinea",
    y="vuelos",
    title="‚úàÔ∏è Total de vuelos por aerol√≠nea",
    color="vuelos",
    text="vuelos"
)
fig.show()

üõ´ Aerol√≠nea con m√°s vuelos:
aerolinea
Aerol√≠neas Argentinas    836387
Name: vuelos, dtype: int64

üõ¨ Aerol√≠nea con menos vuelos:
aerolinea
TAME    1
Name: vuelos, dtype: int64


In [None]:
###

# Asegurar tipo datetime
df_vuelos_sql["indice_tiempo"] = pd.to_datetime(df_vuelos_sql["indice_tiempo"])

# Filtrar por a√±o
df_2025 = df_vuelos[df_vuelos["indice_tiempo"].dt.year == 2025]

# Agrupar por aerol√≠nea
vuelos_por_aerolinea = df_2025.groupby("aerolinea")["vuelos"].sum().reset_index()

# Calcular el total y el porcentaje
total_vuelos = vuelos_por_aerolinea["vuelos"].sum()
vuelos_por_aerolinea["porcentaje"] = vuelos_por_aerolinea["vuelos"] / total_vuelos * 100

# Agrupar aerol√≠neas con < 1% como 'Otras'
vuelos_por_aerolinea["aerolinea_agrupada"] = vuelos_por_aerolinea.apply(
    lambda row: row["aerolinea"] if row["porcentaje"] >= 1 else "Otras",
    axis=1
)

# Reagrupar los datos para el gr√°fico final
df_final = vuelos_por_aerolinea.groupby("aerolinea_agrupada")["vuelos"].sum().reset_index()

# Pie chart
fig = px.pie(
    df_final,
    names="aerolinea_agrupada",
    values="vuelos",
    title="ü•ß Participaci√≥n de aerol√≠neas en el total de vuelos (2025)",
    hole=0.3
)

fig.show()