In [2]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, Column, Integer, String, Float, ForeignKey
from sqlalchemy.orm import declarative_base, relationship, sessionmaker

# Definir modelos con SQLAlchemy
Base = declarative_base()

class DimRuta(Base):
    __tablename__ = 'dim_ruta'
    id_ruta = Column(Integer, primary_key=True, autoincrement=True)
    ruta = Column(String(255), unique=True, nullable=False)

class DimTransporte(Base):
    __tablename__ = 'dim_transporte'
    id_transporte = Column(Integer, primary_key=True, autoincrement=True)
    tipo_transporte = Column(String(255), unique=True, nullable=False)

class DimRegion(Base):
    __tablename__ = 'dim_region'
    id_region = Column(Integer, primary_key=True, autoincrement=True)
    region = Column(String(255), unique=True, nullable=False)

class DimDia(Base):
    __tablename__ = 'dim_dia'
    id_dia = Column(Integer, primary_key=True, autoincrement=True)
    dia_semana = Column(String(255), unique=True, nullable=False)

class HechosTransporte(Base):
    __tablename__ = 'hechos_transporte'
    id_hecho = Column(Integer, primary_key=True, autoincrement=True)
    id_ruta = Column(Integer, ForeignKey('dim_ruta.id_ruta'))
    id_transporte = Column(Integer, ForeignKey('dim_transporte.id_transporte'))
    id_region = Column(Integer, ForeignKey('dim_region.id_region'))
    id_dia = Column(Integer, ForeignKey('dim_dia.id_dia'))
    numero_pasajeros = Column(Float)
    duracion_viaje_minutos = Column(Float)
    retraso_minutos = Column(Integer)
    
    ruta = relationship("DimRuta")
    transporte = relationship("DimTransporte")
    region = relationship("DimRegion")
    dia = relationship("DimDia")

# Crear una conexión a MySQL
engine = create_engine('mysql+pymysql://root:root@localhost:3306/transporte_publico')

# Crear todas las tablas
Base.metadata.drop_all(engine)  # Eliminar tablas si existen
Base.metadata.create_all(engine)  # Crear tablas

# Configurar la sesión
Session = sessionmaker(bind=engine)
session = Session()

# Cargar el archivo CSV
file_path = '../Data/Transporte_Publico_Espana.csv'
data = pd.read_csv(file_path)

# Limpieza de datos
data['Numero_Pasajeros'] = pd.to_numeric(data['Numero_Pasajeros'], errors='coerce').fillna(0)
data['Duracion_Viaje_Minutos'] = pd.to_numeric(data['Duracion_Viaje_Minutos'], errors='coerce').fillna(0)
data['Retraso_Minutos'] = pd.to_numeric(data['Retraso_Minutos'], errors='coerce').fillna(0).astype(int)

# Obtener dimensiones únicas
unique_rutas = data['Ruta'].unique()
unique_transportes = data['Tipo_Transporte'].unique()
unique_regiones = data['Region'].unique()
unique_dias = data['Dia_Semana'].unique()

# Insertar dimensiones únicas en masa
session.bulk_insert_mappings(DimRuta, [{'ruta': ruta} for ruta in unique_rutas])
session.bulk_insert_mappings(DimTransporte, [{'tipo_transporte': transporte} for transporte in unique_transportes])
session.bulk_insert_mappings(DimRegion, [{'region': region} for region in unique_regiones])
session.bulk_insert_mappings(DimDia, [{'dia_semana': dia} for dia in unique_dias])
session.commit()

# Mapear los valores únicos a sus IDs
ruta_ids = {r.ruta: r.id_ruta for r in session.query(DimRuta).all()}
transporte_ids = {t.tipo_transporte: t.id_transporte for t in session.query(DimTransporte).all()}
region_ids = {r.region: r.id_region for r in session.query(DimRegion).all()}
dia_ids = {d.dia_semana: d.id_dia for d in session.query(DimDia).all()}
print("Ha finalizado las dimensiones")
# Preparar los datos para la inserción masiva
hechos_transporte = []
for _, row in data.iterrows():
    hecho = HechosTransporte(
        id_ruta=ruta_ids[row['Ruta']],
        id_transporte=transporte_ids[row['Tipo_Transporte']],
        id_region=region_ids[row['Region']],
        id_dia=dia_ids[row['Dia_Semana']],
        numero_pasajeros=row['Numero_Pasajeros'],
        duracion_viaje_minutos=row['Duracion_Viaje_Minutos'],
        retraso_minutos=row['Retraso_Minutos']
    )
    hechos_transporte.append(hecho)

# Inserción masiva de los datos de hechos
session.bulk_save_objects(hechos_transporte)
session.commit()
session.close()

print("Finalizado insert_data.ipynb.")
print("Todos los notebooks han sido ejecutados.")


Ha finalizado las dimensiones
Finalizado insert_data.ipynb.
Todos los notebooks han sido ejecutados.
