Preparaci√≥n de Datos para Power BI

In [2]:
import pandas as pd
import numpy as np
import re
from datetime import datetime

In [10]:
tpm = pd.read_csv("../data/processed/transporte_publico_madrid_limpio.csv", parse_dates=['fecha'])
accidentes = pd.read_csv("../data/processed/accidentes_madrid_limpio.csv", parse_dates=['fecha', 'fecha_hora'])


In [29]:
def preparar_datos_power_bi(tpm, accidentes):
    """
    Prepara y exporta los datos en formato √≥ptimo para Power BI
    """
    print("Preparando datos para Power BI...")
    
    # 1. Crear datos de calendario (imprescindible para Power BI)
    rango_fechas = pd.date_range(
        start=min(tpm['fecha'].min(), accidentes['fecha'].min()),
        end=max(tpm['fecha'].max(), accidentes['fecha'].max()),
        freq='D'
    )
    
    calendario = pd.DataFrame({'fecha': rango_fechas})
    calendario['a√±o'] = calendario['fecha'].dt.year
    calendario['mes'] = calendario['fecha'].dt.month
    calendario['trimestre'] = calendario['fecha'].dt.quarter
    calendario['semana'] = calendario['fecha'].dt.isocalendar().week
    calendario['dia_semana'] = calendario['fecha'].dt.day_name()
    calendario['dia_mes'] = calendario['fecha'].dt.day
    calendario['es_fin_semana'] = calendario['dia_semana'].isin(['Saturday', 'Sunday'])
    calendario['mes_nombre'] = calendario['fecha'].dt.month_name()
    
    # 2. Preparar datos de transporte para Power BI
    transporte_pbi = tpm.copy()
    transporte_pbi['a√±o'] = transporte_pbi['fecha'].dt.year
    transporte_pbi['mes'] = transporte_pbi['fecha'].dt.month
    transporte_pbi['mes_nombre'] = transporte_pbi['fecha'].dt.month_name()
    
    # 3. Preparar datos de accidentes para Power BI
    accidentes_pbi = accidentes.copy()
    print(accidentes_pbi.columns)
    accidentes_pbi['a√±o'] = accidentes_pbi['fecha'].dt.year
    accidentes_pbi['mes'] = accidentes_pbi['fecha'].dt.month
    accidentes_pbi['mes_nombre'] = accidentes_pbi['fecha'].dt.month_name()
    
    # 4. Crear tablas de dimensiones (mejor pr√°ctica en Power BI)
    dim_transporte = transporte_pbi[['modo_transporte', 'tipo_indicador']].drop_duplicates()
    
    
    dim_distritos = accidentes_pbi[['distrito']].drop_duplicates()

    dim_gravedad = accidentes_pbi[['gravedad', 'lesividad']].drop_duplicates()
    
    # 5. Exportar datos para Power BI
    with pd.ExcelWriter('../data/power_bi/datos_power_bi.xlsx') as writer:
        calendario.to_excel(writer, sheet_name='Calendario', index=False)
        transporte_pbi.to_excel(writer, sheet_name='Transporte', index=False)
        accidentes_pbi.to_excel(writer, sheet_name='Accidentes', index=False)
        dim_transporte.to_excel(writer, sheet_name='Dim_Transporte', index=False)
        dim_distritos.to_excel(writer, sheet_name='Dim_Distritos', index=False)
        dim_gravedad.to_excel(writer, sheet_name='Dim_Gravedad', index=False)
    
    print("Datos exportados exitosamente para Power BI:")
    print("Ubicaci√≥n: ../data/power_bi/datos_power_bi.xlsx")
    print("Hojas: Calendario, Transporte, Accidentes, Dim_Transporte, Dim_Distritos, Dim_Gravedad")

# Ejecutar preparaci√≥n de datos
preparar_datos_power_bi(tpm, accidentes)

Preparando datos para Power BI...
Index(['num_expediente', 'fecha', 'hora', 'fecha_hora', 'ano', 'mes',
       'dia_semana', 'hora_dia', 'franja_horaria', 'distrito', 'localizacion',
       'tipo_accidente', 'estado_meteorologico', 'tipo_vehiculo',
       'tipo_persona', 'rango_edad', 'sexo', 'lesividad', 'gravedad',
       'cod_lesividad', 'positiva_alcohol', 'coordenada_x_utm',
       'coordenada_y_utm'],
      dtype='object')
Datos exportados exitosamente para Power BI:
Ubicaci√≥n: ../data/power_bi/datos_power_bi.xlsx
Hojas: Calendario, Transporte, Accidentes, Dim_Transporte, Dim_Distritos, Dim_Gravedad


In [22]:
def sugerencias_dashboard_principal():
    """
    Sugerencias para el dashboard principal en Power BI
    """
    print("\n" + "="*60)
    print("RECOMENDACIONES PARA DASHBOARD PRINCIPAL")
    print("="*60)
    
    recomendaciones = {
        'KPIs Principales': [
            'Total de accidentes',
            'Tasa de accidentes por 1000 viajeros',
            'Porcentaje de accidentes graves',
            'Evoluci√≥n mensual comparativa'
        ],
        'Visualizaciones Recomendadas': [
            'L√≠nea de tiempo: Accidentes vs Viajeros (mes a mes)',
            'Mapa de calor por distritos',
            'Gr√°fico de donut: Distribuci√≥n por gravedad',
            'Tarjetas con KPIs principales',
            'Filtros por a√±o, mes y distrito'
        ],
        'M√©tricas Clave': [
            'Crecimiento interanual de accidentes',
            'Distritos con mayor tasa de accidentes',
            'Horarios m√°s peligrosos',
            'Correlaci√≥n transporte-accidentes'
        ]
    }
    
    for categoria, items in recomendaciones.items():
        print(f"\nüîπ {categoria}:")
        for item in items:
            print(f"   ‚Ä¢ {item}")

sugerencias_dashboard_principal()


RECOMENDACIONES PARA DASHBOARD PRINCIPAL

üîπ KPIs Principales:
   ‚Ä¢ Total de accidentes
   ‚Ä¢ Tasa de accidentes por 1000 viajeros
   ‚Ä¢ Porcentaje de accidentes graves
   ‚Ä¢ Evoluci√≥n mensual comparativa

üîπ Visualizaciones Recomendadas:
   ‚Ä¢ L√≠nea de tiempo: Accidentes vs Viajeros (mes a mes)
   ‚Ä¢ Mapa de calor por distritos
   ‚Ä¢ Gr√°fico de donut: Distribuci√≥n por gravedad
   ‚Ä¢ Tarjetas con KPIs principales
   ‚Ä¢ Filtros por a√±o, mes y distrito

üîπ M√©tricas Clave:
   ‚Ä¢ Crecimiento interanual de accidentes
   ‚Ä¢ Distritos con mayor tasa de accidentes
   ‚Ä¢ Horarios m√°s peligrosos
   ‚Ä¢ Correlaci√≥n transporte-accidentes


In [23]:
def sugerencias_dashboard_temporal():
    """
    Sugerencias para el dashboard de an√°lisis temporal
    """
    print("\n" + "="*60)
    print("RECOMENDACIONES PARA DASHBOARD TEMPORAL")
    print("="*60)
    
    recomendaciones = {
        'An√°lisis por Tiempo': [
            'Serie temporal mensual de accidentes',
            'Comparativa a√±o vs a√±o',
            'Estacionalidad por meses',
            'Tendencia con l√≠nea de regresi√≥n'
        ],
        'An√°lisis por Horario': [
            'Heatmap: Accidentes por hora y d√≠a de semana',
            'Promedio de accidentes por franja horaria',
            'Comparativa fines de semana vs laborables'
        ],
        'Visualizaciones': [
            'Gr√°fico de l√≠neas con doble eje (accidentes + transporte)',
            'Heatmap calendario (accidentes por d√≠a)',
            'Gr√°fico de √°rea apilada por tipo de accidente',
            'Boxplot: Distribuci√≥n por horas'
        ]
    }
    
    for categoria, items in recomendaciones.items():
        print(f"\nüîπ {categoria}:")
        for item in items:
            print(f"   ‚Ä¢ {item}")

sugerencias_dashboard_temporal()


RECOMENDACIONES PARA DASHBOARD TEMPORAL

üîπ An√°lisis por Tiempo:
   ‚Ä¢ Serie temporal mensual de accidentes
   ‚Ä¢ Comparativa a√±o vs a√±o
   ‚Ä¢ Estacionalidad por meses
   ‚Ä¢ Tendencia con l√≠nea de regresi√≥n

üîπ An√°lisis por Horario:
   ‚Ä¢ Heatmap: Accidentes por hora y d√≠a de semana
   ‚Ä¢ Promedio de accidentes por franja horaria
   ‚Ä¢ Comparativa fines de semana vs laborables

üîπ Visualizaciones:
   ‚Ä¢ Gr√°fico de l√≠neas con doble eje (accidentes + transporte)
   ‚Ä¢ Heatmap calendario (accidentes por d√≠a)
   ‚Ä¢ Gr√°fico de √°rea apilada por tipo de accidente
   ‚Ä¢ Boxplot: Distribuci√≥n por horas


In [24]:
def sugerencias_dashboard_geografico():
    """
    Sugerencias para el dashboard geogr√°fico
    """
    print("\n" + "="*60)
    print("RECOMENDACIONES PARA DASHBOARD GEOGR√ÅFICO")
    print("="*60)
    
    recomendaciones = {
        'An√°lisis Geogr√°fico': [
            'Mapa de calor por distritos',
            'Top 5 distritos con m√°s accidentes',
            'Top 5 distritos con accidentes m√°s graves',
            'Ratio accidentes/poblaci√≥n (si disponible)'
        ],
        'Comparativas por Distrito': [
            'Accidentes por km¬≤ (densidad)',
            'Tipo de accidente predominante por zona',
            'Horarios cr√≠ticos por distrito',
            'Clusterizaci√≥n de distritos similares'
        ],
        'Visualizaciones': [
            'Mapa coropl√©tico de Madrid',
            'Gr√°fico de barras horizontal por distrito',
            'Scatter plot: Accidentes vs Gravedad por distrito',
            'Tooltip con informaci√≥n detallada por distrito'
        ]
    }
    
    for categoria, items in recomendaciones.items():
        print(f"\nüîπ {categoria}:")
        for item in items:
            print(f"   ‚Ä¢ {item}")

sugerencias_dashboard_geografico()


RECOMENDACIONES PARA DASHBOARD GEOGR√ÅFICO

üîπ An√°lisis Geogr√°fico:
   ‚Ä¢ Mapa de calor por distritos
   ‚Ä¢ Top 5 distritos con m√°s accidentes
   ‚Ä¢ Top 5 distritos con accidentes m√°s graves
   ‚Ä¢ Ratio accidentes/poblaci√≥n (si disponible)

üîπ Comparativas por Distrito:
   ‚Ä¢ Accidentes por km¬≤ (densidad)
   ‚Ä¢ Tipo de accidente predominante por zona
   ‚Ä¢ Horarios cr√≠ticos por distrito
   ‚Ä¢ Clusterizaci√≥n de distritos similares

üîπ Visualizaciones:
   ‚Ä¢ Mapa coropl√©tico de Madrid
   ‚Ä¢ Gr√°fico de barras horizontal por distrito
   ‚Ä¢ Scatter plot: Accidentes vs Gravedad por distrito
   ‚Ä¢ Tooltip con informaci√≥n detallada por distrito


In [26]:
def estructura_dashboard_power_bi():
    """
    Recomendaciones de estructura para el dashboard de Power BI
    """
    print("\n" + "="*60)
    print("ESTRUCTURA RECOMENDADA DEL DASHBOARD")
    print("="*60)
    
    estructura = {
        'P√°gina 1 - Vista General': {
            'Secci√≥n Superior': ['KPIs principales', 'Filtros globales'],
            'Secci√≥n Central': ['Timeline accidentes vs transporte', 'Mapa de calor distritos'],
            'Secci√≥n Inferior': ['Distribuci√≥n por gravedad', 'Top 5 distritos']
        },
        'P√°gina 2 - An√°lisis Temporal': {
            'Secci√≥n Superior': ['Filtros temporales', 'Evoluci√≥n mensual'],
            'Secci√≥n Central': ['Heatmap por hora/d√≠a', 'Comparativa anual'],
            'Secci√≥n Inferior': ['An√°lisis estacional', 'Tendencias']
        },
        'P√°gina 3 - An√°lisis Geogr√°fico': {
            'Secci√≥n Superior': ['Mapa interactivo', 'Filtros geogr√°ficos'],
            'Secci√≥n Central': ['Clusteres de distritos', 'An√°lisis por zonas'],
            'Secci√≥n Inferior': ['Caracter√≠sticas por distrito', 'Comparativas']
        },
        'P√°gina 4 - Detalle y Drill-through': {
            'Prop√≥sito': 'P√°gina para detalles al hacer clic en otros visuales',
            'Contenido': ['Detalles del accidente', 'Informaci√≥n contextual', 'Gr√°ficos de desglose']
        }
    }
    
    for pagina, secciones in estructura.items():
        print(f"\nüìÑ {pagina}:")
        for seccion, elementos in secciones.items():
            print(f"   üìç {seccion}:")
            if isinstance(elementos, list):
                for elemento in elementos:
                    print(f"      ‚Ä¢ {elemento}")
            else:
                print(f"      ‚Ä¢ {elementos}")

estructura_dashboard_power_bi()


ESTRUCTURA RECOMENDADA DEL DASHBOARD

üìÑ P√°gina 1 - Vista General:
   üìç Secci√≥n Superior:
      ‚Ä¢ KPIs principales
      ‚Ä¢ Filtros globales
   üìç Secci√≥n Central:
      ‚Ä¢ Timeline accidentes vs transporte
      ‚Ä¢ Mapa de calor distritos
   üìç Secci√≥n Inferior:
      ‚Ä¢ Distribuci√≥n por gravedad
      ‚Ä¢ Top 5 distritos

üìÑ P√°gina 2 - An√°lisis Temporal:
   üìç Secci√≥n Superior:
      ‚Ä¢ Filtros temporales
      ‚Ä¢ Evoluci√≥n mensual
   üìç Secci√≥n Central:
      ‚Ä¢ Heatmap por hora/d√≠a
      ‚Ä¢ Comparativa anual
   üìç Secci√≥n Inferior:
      ‚Ä¢ An√°lisis estacional
      ‚Ä¢ Tendencias

üìÑ P√°gina 3 - An√°lisis Geogr√°fico:
   üìç Secci√≥n Superior:
      ‚Ä¢ Mapa interactivo
      ‚Ä¢ Filtros geogr√°ficos
   üìç Secci√≥n Central:
      ‚Ä¢ Clusteres de distritos
      ‚Ä¢ An√°lisis por zonas
   üìç Secci√≥n Inferior:
      ‚Ä¢ Caracter√≠sticas por distrito
      ‚Ä¢ Comparativas

üìÑ P√°gina 4 - Detalle y Drill-through:
   üìç Prop√≥sito

In [4]:
def preparar_datos_timeline(tpm, accidentes):
    """
    Prepara datos espec√≠ficos para el timeline comparativo
    """
    # Datos mensuales de transporte
    transporte_mensual = (tpm[tpm['tipo_indicador'] == 'Viajeros']
                         .groupby(pd.Grouper(key='fecha', freq='M'))['valor']
                         .sum()
                         .reset_index()
                         .rename(columns={'valor': 'viajeros'}))
    
    # Datos mensuales de accidentes
    accidentes_mensual = (accidentes.groupby(pd.Grouper(key='fecha', freq='M'))
                         .size()
                         .reset_index()
                         .rename(columns={0: 'accidentes'}))
    
    # Unir datos
    timeline_data = pd.merge(transporte_mensual, accidentes_mensual, on='fecha', how='inner')
    
    # Exportar para Power BI
    timeline_data.to_csv('../data/power_bi/timeline_comparativo.csv', index=False)
    print("Datos para timeline exportados: ../data/power_bi/timeline_comparativo.csv")

preparar_datos_timeline(tpm, accidentes)

Datos para timeline exportados: ../data/power_bi/timeline_comparativo.csv


  .groupby(pd.Grouper(key='fecha', freq='M'))['valor']
  accidentes_mensual = (accidentes.groupby(pd.Grouper(key='fecha', freq='M'))


In [8]:
def preparar_datos_mapa_calor(accidentes):
    """
    Prepara datos para el mapa de calor por distritos
    """
    # Datos de accidentes por distrito
    mapa_data = (accidentes.groupby(['distrito'])
                .agg({
                    'num_expediente': 'count',
                    'cod_lesividad': 'mean',
                    'positiva_alcohol': 'mean'
                })
                .rename(columns={
                    'num_expediente': 'total_accidentes',
                    'cod_lesividad': 'gravedad_promedio',
                    'positiva_alcohol': 'tasa_alcohol'
                })
                .reset_index())
    
    # Coordenadas aproximadas de distritos de Madrid (ejemplo)
    coordenadas_distritos = {
        'Centro': {'lat': 40.415, 'long': -3.703},
        'Salamanca': {'lat': 40.428, 'long': -3.680},
        'Chamart√≠n': {'lat': 40.470, 'long': -3.680},
        'Tetu√°n': {'lat': 40.459, 'long': -3.697},
        'Chamber√≠': {'lat': 40.434, 'long': -3.700},
        'Retiro': {'lat': 40.413, 'long': -3.680},
        'Arganzuela': {'lat': 40.395, 'long': -3.697},
        'Usera': {'lat': 40.388, 'long': -3.707},
        'Carabanchel': {'lat': 40.380, 'long': -3.740},
        'Latina': {'lat': 40.388, 'long': -3.743},
        'Villaverde': {'lat': 40.350, 'long': -3.700},
        'Vic√°lvaro': {'lat': 40.405, 'long': -3.600},
        'San Blas': {'lat': 40.428, 'long': -3.617},
        'Barajas': {'lat': 40.472, 'long': -3.583},
        'Moratalaz': {'lat': 40.407, 'long': -3.640},
        'Ciudad Lineal': {'lat': 40.435, 'long': -3.640},
        'Hortaleza': {'lat': 40.474, 'long': -3.640},
        'Fuencarral-El Pardo': {'lat': 40.498, 'long': -3.717},
        'Moncloa-Aravaca': {'lat': 40.435, 'long': -3.723},
        'Puente de Vallecas': {'lat': 40.392, 'long': -3.623},
        'Villa de Vallecas': {'lat': 40.365, 'long': -3.623}
    }
    
    # A√±adir coordenadas
    for distrito, coords in coordenadas_distritos.items():
        mask = mapa_data['distrito'].str.contains(distrito, case=False, na=False)
        if mask.any():
            mapa_data.loc[mask, 'latitud'] = coords['lat']
            mapa_data.loc[mask, 'longitud'] = coords['long']
    
    # Exportar para Power BI
    mapa_data.to_csv('../data/power_bi/mapa_calor_distritos.csv', index=False)
    print("Datos para mapa de calor exportados: ../data/power_bi/mapa_calor_distritos.csv")

preparar_datos_mapa_calor(accidentes)

Datos para mapa de calor exportados: ../data/power_bi/mapa_calor_distritos.csv


In [None]:
def preparar_datos_temporales(accidentes):
    """
    Prepara datos espec√≠ficos para el an√°lisis temporal
    """
    print("Preparando datos para an√°lisis temporal...")
    
    # 1. Datos para heatmap por hora/d√≠a
    heatmap_data = (accidentes.groupby(['dia_semana', 'hora_dia'])
                   .size()
                   .reset_index(name='total_accidentes')
                   .pivot_table(index='dia_semana', 
                               columns='hora_dia', 
                               values='total_accidentes')
                   .fillna(0))
    
    # Ordenar d√≠as de la semana correctamente
    dias_orden = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    heatmap_data = heatmap_data.reindex(dias_orden)
    
    # 2. Datos para comparativa anual
    comparativa_anual = (accidentes.groupby([accidentes['fecha'].dt.year.rename("ano"), 
                                           accidentes['fecha'].dt.month.rename("mes")])
                        .size()
                        .reset_index(name='total_accidentes'))
    
    # 3. Datos para an√°lisis estacional
    estacional_data = (accidentes.groupby([accidentes['fecha'].dt.month, 
                                         accidentes['gravedad']])
                      .size()
                      .reset_index(name='total_accidentes'))
    estacional_data = estacional_data.rename(columns={'fecha': 'mes'})
    
    # 4. Datos para tendencias
    tendencias_data = (accidentes.resample('W', on='fecha')
                      .size()
                      .reset_index(name='total_accidentes'))
    tendencias_data['media_movil_4semanas'] = tendencias_data['total_accidentes'].rolling(4).mean()
    
    # Exportar todos los datos
    heatmap_data.to_csv('../data/power_bi/heatmap_hora_dia.csv')
    comparativa_anual.to_csv('../data/power_bi/comparativa_anual.csv', index=False)
    estacional_data.to_csv('../data/power_bi/analisis_estacional.csv', index=False)
    tendencias_data.to_csv('../data/power_bi/tendencias_temporales.csv', index=False)
    
    print("Datos para an√°lisis temporal exportados:")
    print("Heatmap hora/d√≠a: ../data/power_bi/heatmap_hora_dia.csv")
    print("Comparativa anual: ../data/power_bi/comparativa_anual.csv")
    print("An√°lisis estacional: ../data/power_bi/analisis_estacional.csv")
    print("Tendencias: ../data/power_bi/tendencias_temporales.csv")
    
    return heatmap_data, comparativa_anual, estacional_data, tendencias_data

# Ejecutar preparaci√≥n de datos
heatmap, comparativa, estacional, tendencias = preparar_datos_temporales(accidentes)

Preparando datos para an√°lisis temporal...


TypeError: 'method' object is not subscriptable