# Consultas SQL Anal√≠ticas con cx_Oracle

En este notebook exploraremos consultas SQL anal√≠ticas directas utilizando cx_Oracle como complemento a los enfoques MDX. Aprenderemos cu√°ndo usar SQL directo vs MDX para obtener m√°ximo rendimiento.

## 1. Configuraci√≥n y Conexi√≥n Oracle

Configuramos la conexi√≥n directa a Oracle usando cx_Oracle:

In [1]:
import cx_Oracle
import pandas as pd
import os
import time
from datetime import datetime

# Configuraci√≥n de conexi√≥n Oracle
def conectar_oracle():
    """Establece conexi√≥n directa con Oracle"""
    try:
        dsn = cx_Oracle.makedsn(
            host=os.getenv('ORACLE_HOST', 'localhost'),
            port=1521,
            service_name=os.getenv('ORACLE_SERVICE', 'XEPDB1')
        )
        
        conexion = cx_Oracle.connect(
            user=os.getenv('ORACLE_USER', 'C##DM_ACADEMICO'),
            password=os.getenv('ORACLE_PASSWORD', 'YourPassword123'),
            dsn=dsn
        )
        
        print("‚úÖ Conexi√≥n Oracle establecida exitosamente")
        print(f"üìä Versi√≥n Oracle: {conexion.version}")
        return conexion
        
    except Exception as e:
        print(f"‚ùå Error conectando a Oracle: {e}")
        return None

# Establecer conexi√≥n
conexion = conectar_oracle()

‚úÖ Conexi√≥n Oracle establecida exitosamente
üìä Versi√≥n Oracle: 21.3.0.0.0


## 2. Consultas SQL Anal√≠ticas B√°sicas

Implementamos funciones anal√≠ticas SQL para an√°lisis directo de datos:

In [2]:
# üöÄ RANKING Y FUNCIONES DE VENTANA
def ranking_centros_por_matriculas():
    """Ranking de centros usando WINDOW functions"""
    sql = """
    SELECT 
        c.NOMBRE_CENTRO,
        COUNT(*) as total_matriculas,
        RANK() OVER (ORDER BY COUNT(*) DESC) as ranking,
        DENSE_RANK() OVER (ORDER BY COUNT(*) DESC) as ranking_denso,
        PERCENT_RANK() OVER (ORDER BY COUNT(*)) as percentil,
        ROW_NUMBER() OVER (ORDER BY COUNT(*) DESC) as fila
    FROM F_MATRICULA m
    JOIN D_CENTRO c ON m.ID_CENTRO = c.ID_CENTRO
    GROUP BY c.NOMBRE_CENTRO
    ORDER BY ranking
    """
    
    resultado = pd.read_sql(sql, conexion)
    print("üèÜ Ranking de Centros por Matr√≠culas:")
    return resultado

# Ejecutar consulta
ranking_centros = ranking_centros_por_matriculas()
print(ranking_centros.head(10))

üèÜ Ranking de Centros por Matr√≠culas:
                                       NOMBRE_CENTRO  TOTAL_MATRICULAS  \
0            Facultad de Traducci√≥n e Interpretaci√≥n                20   
1                   Centro de Estudios Superiores 11                16   
2  Escuela T√©cnica Superior de Ingenier√≠a Industrial                16   
3                             Facultad de Medicina 3                15   
4    Facultad de Ciencias Econ√≥micas y Empresariales                14   
5              Escuela Universitaria de Enfermer√≠a 4                14   
6                             Facultad de Enfermer√≠a                13   
7                   Centro Internacional de Posgrado                13   
8        Escuela T√©cnica Superior de Arquitectura 15                12   
9                      Centro de Estudios Superiores                12   

   RANKING  RANKING_DENSO  PERCENTIL  FILA  
0        1              1   1.000000     1  
1        2              2   0.959184     3  
2

  resultado = pd.read_sql(sql, conexion)


In [4]:
# üöÄ AN√ÅLISIS TEMPORAL CON LAG/LEAD
def analisis_temporal_rendimiento():
    """An√°lisis temporal con funciones LAG y LEAD"""
    sql = """
    WITH datos_anuales AS (
        SELECT 
            ca.ID_CURSO_ACADEMICO_NK as a√±o,
            AVG(r.NOTA_NUMERICA) as nota_promedio,
            COUNT(CASE WHEN r.FLG_SUPERADA = 1 THEN 1 END) * 100.0 / COUNT(*) as tasa_exito_promedio
        FROM F_RENDIMIENTO r
        JOIN D_CURSO_ACADEMICO ca ON r.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
        WHERE r.NOTA_NUMERICA IS NOT NULL
        GROUP BY ca.ID_CURSO_ACADEMICO_NK
    )
    SELECT 
        a√±o,
        ROUND(nota_promedio, 2) as nota_actual,
        ROUND(LAG(nota_promedio) OVER (ORDER BY a√±o), 2) as nota_a√±o_anterior,
        ROUND(
            (nota_promedio - LAG(nota_promedio) OVER (ORDER BY a√±o)) * 100.0 /
            LAG(nota_promedio) OVER (ORDER BY a√±o), 2
        ) as variacion_porcentual,
        ROUND(tasa_exito_promedio, 2) as tasa_exito
    FROM datos_anuales
    ORDER BY a√±o
    """
    
    resultado = pd.read_sql(sql, conexion)
    print("üìà An√°lisis Temporal de Rendimiento:")
    return resultado

# Ejecutar an√°lisis temporal
analisis_temporal = analisis_temporal_rendimiento()
print(analisis_temporal)

üìà An√°lisis Temporal de Rendimiento:
     A√ëO  NOTA_ACTUAL  NOTA_A√ëO_ANTERIOR  VARIACION_PORCENTUAL  TASA_EXITO
0   2010         4.84                NaN                   NaN       49.18
1   2011         4.69               4.84                 -3.07       48.44
2   2012         5.28               4.69                 12.72       58.21
3   2013         4.05               5.28                -23.33       33.90
4   2014         4.98               4.05                 23.00       50.88
5   2015         4.67               4.98                 -6.34       39.08
6   2016         5.48               4.67                 17.42       54.79
7   2017         4.72               5.48                -13.85       51.47
8   2018         5.06               4.72                  7.17       45.10
9   2019         5.16               5.06                  1.90       50.00
10  2020         5.29               5.16                  2.53       60.71
11  2021         5.51               5.29                  

  resultado = pd.read_sql(sql, conexion)


## 3. Consultas con PARTITION BY

Utilizamos PARTITION BY para an√°lisis segmentado:

In [18]:
# üöÄ AN√ÅLISIS CON PARTITION BY QUE FUNCIONA
def analisis_partition_by():
    """An√°lisis usando PARTITION BY con datos reales"""
    
    print("\nüéØ AN√ÅLISIS SEGMENTADO CON PARTITION BY:")
    print("=" * 50)
    
    try:
        # An√°lisis por centro y a√±o con PARTITION BY
        resultado = pd.read_sql("""
        WITH datos_centro_a√±o AS (
            SELECT 
                c.NOMBRE_CENTRO,
                c.NOMBRE_TIPO_CENTRO,
                m.ID_CURSO_ACADEMICO_NK as a√±o,
                COUNT(*) as matriculas,
                ROUND(AVG(m.EDAD), 1) as edad_promedio,
                SUM(m.CREDITOS) as creditos_totales
            FROM F_MATRICULA m
            JOIN D_CENTRO c ON m.ID_CENTRO = c.ID_CENTRO
            WHERE m.EDAD IS NOT NULL AND m.CREDITOS IS NOT NULL
            GROUP BY c.NOMBRE_CENTRO, c.NOMBRE_TIPO_CENTRO, m.ID_CURSO_ACADEMICO_NK
        )
        SELECT 
            NOMBRE_CENTRO,
            NOMBRE_TIPO_CENTRO,
            a√±o,
            matriculas,
            edad_promedio,
            creditos_totales,
            RANK() OVER (PARTITION BY NOMBRE_TIPO_CENTRO ORDER BY matriculas DESC) as rank_por_tipo,
            RANK() OVER (PARTITION BY a√±o ORDER BY matriculas DESC) as rank_por_a√±o,
            ROUND(
                matriculas * 100.0 / SUM(matriculas) OVER (PARTITION BY NOMBRE_TIPO_CENTRO), 2
            ) as porcentaje_en_tipo,
            ROUND(
                matriculas * 100.0 / SUM(matriculas) OVER (PARTITION BY a√±o), 2
            ) as porcentaje_en_a√±o,
            ROUND(AVG(matriculas) OVER (PARTITION BY NOMBRE_TIPO_CENTRO), 2) as promedio_tipo
        FROM datos_centro_a√±o
        ORDER BY a√±o DESC, rank_por_a√±o
        FETCH FIRST 20 ROWS ONLY
        """, conexion)
        
        print("‚úÖ AN√ÅLISIS SEGMENTADO:")
        print(resultado.to_string())
        
        return resultado
        
    except Exception as e:
        print(f"‚ùå Error en PARTITION BY: {e}")
        return None

# Ejecutar an√°lisis con PARTITION BY
resultado_partition = analisis_partition_by()


üéØ AN√ÅLISIS SEGMENTADO CON PARTITION BY:
‚úÖ AN√ÅLISIS SEGMENTADO:
                                                   NOMBRE_CENTRO        NOMBRE_TIPO_CENTRO   A√ëO  MATRICULAS  EDAD_PROMEDIO  CREDITOS_TOTALES  RANK_POR_TIPO  RANK_POR_A√ëO  PORCENTAJE_EN_TIPO  PORCENTAJE_EN_A√ëO  PROMEDIO_TIPO
0                        Facultad de Traducci√≥n e Interpretaci√≥n           Centro Adscrito  2024           3           33.7              30.3              1             1                3.90               7.89           1.40
1             Escuela T√©cnica Superior de Ingenier√≠a Inform√°tica   Instituto Universitario  2024           3           24.7              18.8              1             1                4.55               7.89           1.40
2                                         Facultad de Derecho 17           Centro Adscrito  2024           3           32.7              20.3              1             1                3.90               7.89           1.40
3                    

  resultado = pd.read_sql("""


## 4. Comparaci√≥n SQL vs MDX

Comparamos el mismo an√°lisis usando SQL directo vs MDX para entender cu√°ndo usar cada enfoque:

In [22]:
# üöÄ COMPARACI√ìN DIRECTA: SQL vs MDX
def comparacion_rendimiento_por_centro():
    """Misma consulta en SQL - luego comparamos con MDX"""
    
    # Enfoque SQL directo
    inicio_sql = time.time()
    
    print("üîç Verificando estructura de tablas...")
    
    # Verificar estructura de D_CENTRO
    try:
        centro_cols = pd.read_sql("SELECT * FROM D_CENTRO WHERE ROWNUM <= 1", conexion)
        print(f"üìä Columnas D_CENTRO: {centro_cols.columns.tolist()}")
    except Exception as e:
        print(f"Error verificando D_CENTRO: {e}")
    
    # Verificar estructura de D_ESTUDIO  
    try:
        estudio_cols = pd.read_sql("SELECT * FROM D_ESTUDIO WHERE ROWNUM <= 1", conexion)
        print(f"üìö Columnas D_ESTUDIO: {estudio_cols.columns.tolist()}")
    except Exception as e:
        print(f"Error verificando D_ESTUDIO: {e}")
    
    # Consulta corregida usando las columnas que existen
    sql_query = """
    SELECT 
        dc.NOMBRE_CENTRO as nombre_centro,
        dc.NOMBRE_TIPO_CENTRO as tipo_centro,
        COUNT(fr.ID_EXPEDIENTE_ACADEMICO) as total_registros,
        ROUND(AVG(fr.NOTA_NUMERICA), 2) as nota_promedio,
        ROUND(
            COUNT(CASE WHEN fr.FLG_SUPERADA = 1 THEN 1 END) * 100.0 / COUNT(*), 2
        ) as tasa_exito_promedio,
        ROUND(
            AVG(fr.NOTA_NUMERICA) * 
            (COUNT(CASE WHEN fr.FLG_SUPERADA = 1 THEN 1 END) * 100.0 / COUNT(*)) / 100, 2
        ) as indice_rendimiento
    FROM F_RENDIMIENTO fr
    JOIN D_CENTRO dc ON fr.ID_CENTRO = dc.ID_CENTRO
    WHERE fr.NOTA_NUMERICA IS NOT NULL
    GROUP BY dc.NOMBRE_CENTRO, dc.NOMBRE_TIPO_CENTRO
    HAVING AVG(fr.NOTA_NUMERICA) > 5.0
    ORDER BY indice_rendimiento DESC
    FETCH FIRST 20 ROWS ONLY
    """
    
    try:
        resultado_sql = pd.read_sql(sql_query, conexion)
        tiempo_sql = time.time() - inicio_sql
        
        print(f"‚ö° SQL ejecutado en: {tiempo_sql:.3f} segundos")
        print(f"üìä Registros obtenidos: {len(resultado_sql)}")
        
        return resultado_sql, tiempo_sql
        
    except Exception as e:
        print(f"‚ùå Error en consulta principal: {e}")

# Ejecutar comparaci√≥n SQL
resultado_sql, tiempo_sql = comparacion_rendimiento_por_centro()
print("\nüîç Resultados del An√°lisis de Rendimiento:")
print(resultado_sql)

üîç Verificando estructura de tablas...
üìä Columnas D_CENTRO: ['ID_CENTRO', 'ID_CAMPUS', 'NOMBRE_CAMPUS', 'ID_TIPO_CENTRO', 'NOMBRE_TIPO_CENTRO', 'ID_POBLACION', 'NOMBRE_POBLACION', 'ID_CENTRO_NK', 'ID_CENTRO_DESCR', 'NOMBRE_CENTRO', 'ORD_NOMBRE_CENTRO', 'NOMBRE_CENTRO_EXT']
üìö Columnas D_ESTUDIO: ['ID_ESTUDIO', 'ID_ESTUDIO_NK', 'NOMBRE_ESTUDIO', 'ORD_NOMBRE_ESTUDIO']
‚ö° SQL ejecutado en: 0.017 segundos
üìä Registros obtenidos: 19

üîç Resultados del An√°lisis de Rendimiento:
                                        NOMBRE_CENTRO  \
0   Escuela T√©cnica Superior de Ingenier√≠a de Tele...   
1                 Escuela Universitaria de Magisterio   
2            Centro Adscrito de Formaci√≥n Profesional   
3           Escuela Universitaria de Trabajo Social 6   
4        Escuela T√©cnica Superior de Ingenier√≠a Civil   
5                       Centro de Estudios Superiores   
6                       Facultad de Ciencias Sociales   
7            Instituto Universitario de Investigac

  centro_cols = pd.read_sql("SELECT * FROM D_CENTRO WHERE ROWNUM <= 1", conexion)
  estudio_cols = pd.read_sql("SELECT * FROM D_ESTUDIO WHERE ROWNUM <= 1", conexion)
  resultado_sql = pd.read_sql(sql_query, conexion)


In [44]:
# üöÄ COMPARACI√ìN MDX EQUIVALENTE CORREGIDA FINAL
def comparacion_mdx_rendimiento():
    """Misma consulta usando MDX con atoti para comparar rendimiento"""
    
    inicio_mdx = time.time()
    
    print("üîÑ Creando cubo atoti para comparaci√≥n MDX...")
    
    try:
        import atoti as tt
        
        # 1. Preparar datos base con SQL optimizado
        datos_base = pd.read_sql("""
        SELECT 
            dc.NOMBRE_CENTRO as centro,
            dc.NOMBRE_TIPO_CENTRO as tipo_centro,
            fr.NOTA_NUMERICA,
            fr.FLG_SUPERADA,
            fr.ID_EXPEDIENTE_ACADEMICO
        FROM F_RENDIMIENTO fr
        JOIN D_CENTRO dc ON fr.ID_CENTRO = dc.ID_CENTRO
        WHERE fr.NOTA_NUMERICA IS NOT NULL
        FETCH FIRST 1000 ROWS ONLY
        """, conexion)
        
        print(f"üìä Datos cargados: {len(datos_base)} registros")
        
        # 2. Crear sesi√≥n atoti
        session_mdx = tt.Session.start()
        
        # 3. Cargar datos en atoti
        tabla_mdx = session_mdx.read_pandas(
            datos_base, 
            table_name="rendimiento_comparacion",
            keys=["CENTRO", "TIPO_CENTRO"]
        )
        
        # 4. Crear cubo
        cubo_mdx = session_mdx.create_cube(tabla_mdx)
        
        print("‚úÖ Cubo creado exitosamente")
        print(f"üìä Levels disponibles: {list(cubo_mdx.levels.keys())}")
        print(f"üìà Medidas disponibles: {list(cubo_mdx.measures.keys())}")
        
        # 5. Crear medidas calculadas
        m = cubo_mdx.measures
        l = cubo_mdx.levels
        
        # Crear medida de tasa de √©xito como porcentaje
        m["tasa_exito_porcentaje"] = m["FLG_SUPERADA.MEAN"] * 100
        
        # Crear medida de √≠ndice de rendimiento
        m["indice_rendimiento"] = m["NOTA_NUMERICA.MEAN"] * m["tasa_exito_porcentaje"] / 100
        
        # 6. Ejecutar consulta MDX con sintaxis correcta
        print("‚ö° Ejecutando consulta MDX...")
        
        # Primera consulta: obtener todos los datos
        resultado_completo = cubo_mdx.query(
            m["contributors.COUNT"],
            m["NOTA_NUMERICA.MEAN"],
            m["tasa_exito_porcentaje"],
            m["indice_rendimiento"],
            levels=[l["CENTRO"],l["TIPO_CENTRO"]],
            include_totals=True
        )
        
        # 7. Filtrar y procesar en pandas (ya que atoti tiene limitaciones en filtros complejos)
        resultado_filtrado = resultado_completo[
            resultado_completo['NOTA_NUMERICA.MEAN'] > 5.0
        ].copy()
        
        # 8. Ordenar por √≠ndice de rendimiento
        resultado_mdx = resultado_filtrado.sort_values(
            'indice_rendimiento', 
            ascending=False
        ).head(20)
        
        tiempo_mdx = time.time() - inicio_mdx
        
        print(f"‚ö° MDX ejecutado en: {tiempo_mdx:.3f} segundos")
        print(f"üìä Registros obtenidos: {len(resultado_mdx)}")
        
        return resultado_mdx, tiempo_mdx, session_mdx
        
    except Exception as e:
        print(f"‚ùå Error en consulta MDX: {e}")

# Ejecutar comparaci√≥n MDX corregida
resultado_mdx, tiempo_mdx, session_mdx = comparacion_mdx_rendimiento()

if resultado_mdx is not None:
    print("\nüîç Resultados MDX:")
    print(resultado_mdx.head(10))
else:
    print("‚ö†Ô∏è No se pudo ejecutar la consulta MDX")

üîÑ Creando cubo atoti para comparaci√≥n MDX...
üìä Datos cargados: 1000 registros


  datos_base = pd.read_sql("""


‚úÖ Cubo creado exitosamente
üìä Levels disponibles: [('rendimiento_comparacion', 'CENTRO', 'CENTRO'), ('rendimiento_comparacion', 'TIPO_CENTRO', 'TIPO_CENTRO')]
üìà Medidas disponibles: ['ID_EXPEDIENTE_ACADEMICO.SUM', 'contributors.COUNT', 'NOTA_NUMERICA.MEAN', 'FLG_SUPERADA.SUM', 'update.TIMESTAMP', 'ID_EXPEDIENTE_ACADEMICO.MEAN', 'FLG_SUPERADA.MEAN', 'NOTA_NUMERICA.SUM']
‚ö° Ejecutando consulta MDX...
‚ö° MDX ejecutado en: 13.911 segundos
üìä Registros obtenidos: 20

üîç Resultados MDX:
                                                                             contributors.COUNT  \
CENTRO                                             TIPO_CENTRO                                    
Centro de Formaci√≥n Permanente                     Escuela T√©cnica Superior                   1   
Escuela T√©cnica Superior de Ingenier√≠a Agron√≥mica  Escuela T√©cnica Superior                   1   
                                                   <NA>                                       1   


In [45]:
# üìä COMPARACI√ìN DIRECTA SQL vs MDX
def comparacion_completa_sql_vs_mdx():
    """Comparaci√≥n completa de rendimiento y resultados SQL vs MDX"""
    
    print("üèÅ COMPARACI√ìN FINAL: SQL vs MDX")
    print("=" * 60)
    
    # Ejecutar ambas consultas y medir tiempos
    print("\nüîÑ Ejecutando consulta SQL...")
    try:
        resultado_sql, tiempo_sql = comparacion_rendimiento_por_centro()
    except:
        print("‚ùå Error en consulta SQL")
        resultado_sql, tiempo_sql = None, 0
    
    print("\nüîÑ Ejecutando consulta MDX...")
    resultado_mdx, tiempo_mdx, session = comparacion_mdx_rendimiento()
    
    if resultado_sql is not None and resultado_mdx is not None:
        
        print("\nüìä COMPARACI√ìN DE RENDIMIENTO:")
        print(f"‚ö° Tiempo SQL:  {tiempo_sql:.3f} segundos")
        print(f"‚ö° Tiempo MDX:  {tiempo_mdx:.3f} segundos")
        
        if tiempo_sql > 0 and tiempo_mdx > 0:
            ganador = 'SQL' if tiempo_sql < tiempo_mdx else 'MDX'
            diferencia = abs(tiempo_sql - tiempo_mdx)
            print(f"üèÜ Ganador:     {ganador}")
            print(f"üìà Diferencia: {diferencia:.3f} segundos")
        
        print("\nüìà COMPARACI√ìN DE RESULTADOS:")
        print(f"üìä Registros SQL: {len(resultado_sql)}")
        print(f"üìä Registros MDX: {len(resultado_mdx)}")
        
        print("\nüîç PRIMEROS 3 RESULTADOS - SQL:")
        print(resultado_sql.head(3).to_string())
        
        print("\nüîç PRIMEROS 3 RESULTADOS - MDX:")
        print(resultado_mdx.head(3).to_string())
        
        print("\nüéØ AN√ÅLISIS COMPARATIVO:")
        print("‚úÖ SQL - Ventajas observadas:")
        print("  ‚Ä¢ Sintaxis m√°s familiar y directa")
        print("  ‚Ä¢ Optimizaci√≥n autom√°tica en BD")
        print("  ‚Ä¢ Mejor rendimiento para consultas espec√≠ficas")
        
        print("\n‚úÖ MDX - Ventajas observadas:")
        print("  ‚Ä¢ Flexibilidad para an√°lisis exploratorio")
        print("  ‚Ä¢ Medidas calculadas din√°micas") 
        print("  ‚Ä¢ Capacidad de navegaci√≥n dimensional")
        
        # Cerrar sesi√≥n MDX si existe
        if session:
            try:
                session.close()
                print("\nüîß Sesi√≥n MDX cerrada correctamente")
            except:
                pass
        
        return {
            'sql': {'resultado': resultado_sql, 'tiempo': tiempo_sql},
            'mdx': {'resultado': resultado_mdx, 'tiempo': tiempo_mdx}
        }
    
    else:
        print("‚ö†Ô∏è No se pudieron ejecutar ambas consultas para comparaci√≥n completa")
        print("üìä Mostrando resultados disponibles...")
        
        if resultado_sql is not None:
            print("‚úÖ Resultados SQL disponibles")
        if resultado_mdx is not None:
            print("‚úÖ Resultados MDX disponibles")
            
        return None

# Ejecutar comparaci√≥n completa
comparacion_final = comparacion_completa_sql_vs_mdx()

üèÅ COMPARACI√ìN FINAL: SQL vs MDX

üîÑ Ejecutando consulta SQL...
üîç Verificando estructura de tablas...
üìä Columnas D_CENTRO: ['ID_CENTRO', 'ID_CAMPUS', 'NOMBRE_CAMPUS', 'ID_TIPO_CENTRO', 'NOMBRE_TIPO_CENTRO', 'ID_POBLACION', 'NOMBRE_POBLACION', 'ID_CENTRO_NK', 'ID_CENTRO_DESCR', 'NOMBRE_CENTRO', 'ORD_NOMBRE_CENTRO', 'NOMBRE_CENTRO_EXT']
üìö Columnas D_ESTUDIO: ['ID_ESTUDIO', 'ID_ESTUDIO_NK', 'NOMBRE_ESTUDIO', 'ORD_NOMBRE_ESTUDIO']
‚ö° SQL ejecutado en: 0.020 segundos
üìä Registros obtenidos: 19

üîÑ Ejecutando consulta MDX...
üîÑ Creando cubo atoti para comparaci√≥n MDX...
üìä Datos cargados: 1000 registros


  centro_cols = pd.read_sql("SELECT * FROM D_CENTRO WHERE ROWNUM <= 1", conexion)
  estudio_cols = pd.read_sql("SELECT * FROM D_ESTUDIO WHERE ROWNUM <= 1", conexion)
  resultado_sql = pd.read_sql(sql_query, conexion)
  datos_base = pd.read_sql("""


‚úÖ Cubo creado exitosamente
üìä Levels disponibles: [('rendimiento_comparacion', 'CENTRO', 'CENTRO'), ('rendimiento_comparacion', 'TIPO_CENTRO', 'TIPO_CENTRO')]
üìà Medidas disponibles: ['ID_EXPEDIENTE_ACADEMICO.SUM', 'contributors.COUNT', 'NOTA_NUMERICA.MEAN', 'FLG_SUPERADA.SUM', 'ID_EXPEDIENTE_ACADEMICO.MEAN', 'update.TIMESTAMP', 'FLG_SUPERADA.MEAN', 'NOTA_NUMERICA.SUM']
‚ö° Ejecutando consulta MDX...
‚ö° MDX ejecutado en: 14.412 segundos
üìä Registros obtenidos: 20

üìä COMPARACI√ìN DE RENDIMIENTO:
‚ö° Tiempo SQL:  0.020 segundos
‚ö° Tiempo MDX:  14.412 segundos
üèÜ Ganador:     SQL
üìà Diferencia: 14.392 segundos

üìà COMPARACI√ìN DE RESULTADOS:
üìä Registros SQL: 19
üìä Registros MDX: 20

üîç PRIMEROS 3 RESULTADOS - SQL:
                                                NOMBRE_CENTRO              TIPO_CENTRO  TOTAL_REGISTROS  NOTA_PROMEDIO  TASA_EXITO_PROMEDIO  INDICE_RENDIMIENTO
0  Escuela T√©cnica Superior de Ingenier√≠a de Telecomunicaci√≥n          Centro Adscrito    

In [46]:
# üéØ CU√ÅNDO USAR SQL vs MDX
def guia_decision_sql_vs_mdx():
    """Gu√≠a pr√°ctica para elegir entre SQL y MDX"""
    
    print("""
    üéØ USA SQL DIRECTO cuando:
    ‚úÖ Reportes est√°ticos predefinidos
    ‚úÖ Consultas de alto rendimiento (grandes vol√∫menes)
    ‚úÖ Integraci√≥n con sistemas externos
    ‚úÖ ETL y procesamiento batch
    ‚úÖ An√°lisis con WINDOW functions complejas
    
    üéØ USA MDX cuando:
    ‚úÖ An√°lisis exploratorio interactivo
    ‚úÖ Navegaci√≥n dimensional din√°mica (drill-down/roll-up)
    ‚úÖ Dashboards con filtros din√°micos
    ‚úÖ An√°lisis OLAP complejos multidimensionales
    ‚úÖ C√°lculos de medidas derivadas din√°micas
    
    ‚öñÔ∏è CRITERIOS DE DECISI√ìN:
    - Volumen de datos: SQL para grandes vol√∫menes
    - Interactividad: MDX para an√°lisis exploratorio
    - Complejidad dimensional: MDX para m√∫ltiples dimensiones
    - Rendimiento: SQL para consultas optimizadas espec√≠ficas
    """)
    
    # Ejemplo pr√°ctico de decisi√≥n
    ejemplos = {
        "Reporte mensual automatizado": "SQL",
        "Dashboard interactivo de an√°lisis": "MDX",
        "ETL de datos masivos": "SQL", 
        "Exploraci√≥n ad-hoc por usuario": "MDX",
        "C√°lculo de KPIs complejos": "MDX",
        "Extracci√≥n para sistema externo": "SQL"
    }
    
    print("\nüîç EJEMPLOS PR√ÅCTICOS:")
    for caso, enfoque in ejemplos.items():
        print(f"  {caso}: {enfoque}")

guia_decision_sql_vs_mdx()


    üéØ USA SQL DIRECTO cuando:
    ‚úÖ Reportes est√°ticos predefinidos
    ‚úÖ Consultas de alto rendimiento (grandes vol√∫menes)
    ‚úÖ Integraci√≥n con sistemas externos
    ‚úÖ ETL y procesamiento batch
    ‚úÖ An√°lisis con WINDOW functions complejas

    üéØ USA MDX cuando:
    ‚úÖ An√°lisis exploratorio interactivo
    ‚úÖ Navegaci√≥n dimensional din√°mica (drill-down/roll-up)
    ‚úÖ Dashboards con filtros din√°micos
    ‚úÖ An√°lisis OLAP complejos multidimensionales
    ‚úÖ C√°lculos de medidas derivadas din√°micas

    ‚öñÔ∏è CRITERIOS DE DECISI√ìN:
    - Volumen de datos: SQL para grandes vol√∫menes
    - Interactividad: MDX para an√°lisis exploratorio
    - Complejidad dimensional: MDX para m√∫ltiples dimensiones
    - Rendimiento: SQL para consultas optimizadas espec√≠ficas
    

üîç EJEMPLOS PR√ÅCTICOS:
  Reporte mensual automatizado: SQL
  Dashboard interactivo de an√°lisis: MDX
  ETL de datos masivos: SQL
  Exploraci√≥n ad-hoc por usuario: MDX
  C√°lculo de KPIs 

## 5. Integraci√≥n H√≠brida SQL + atoti

Combinamos el poder del SQL directo con las capacidades anal√≠ticas de atoti:

In [49]:
# üöÄ INTEGRACI√ìN: SQL preprocessing + atoti 
import atoti as tt

def pipeline_sql_atoti():
    """Pipeline h√≠brido: SQL optimizado + an√°lisis atoti"""
    
    print("üîÑ Paso 1: Verificando estructura de tablas...")
    
    # Verificar estructura real de las tablas
    try:
        # Verificar F_MATRICULA
        cols_matricula = pd.read_sql("SELECT * FROM F_MATRICULA WHERE ROWNUM <= 1", conexion)
        print(f"üìä Columnas F_MATRICULA: {cols_matricula.columns.tolist()[:10]}...")
        
        # Verificar D_CENTRO
        cols_centro = pd.read_sql("SELECT * FROM D_CENTRO WHERE ROWNUM <= 1", conexion)
        print(f"üè¢ Columnas D_CENTRO: {cols_centro.columns.tolist()[:10]}...")
        
        # Verificar D_CURSO_ACADEMICO
        cols_curso = pd.read_sql("SELECT * FROM D_CURSO_ACADEMICO WHERE ROWNUM <= 1", conexion)
        print(f"üìÖ Columnas D_CURSO_ACADEMICO: {cols_curso.columns.tolist()}")
        
    except Exception as e:
        print(f"Error verificando estructura: {e}")
    
    print("\nüîÑ Paso 2: Preparaci√≥n de datos con SQL...")
    
    # Consulta SQL simple y funcional
    sql_prep = """
    SELECT 
        dc.NOMBRE_CENTRO as centro,
        dc.NOMBRE_TIPO_CENTRO as tipo_centro,
        dc.NOMBRE_POBLACION as ciudad,
        ca.ID_CURSO_ACADEMICO_NK as anio,
        ca.NOMBRE_CURSO_ACADEMICO as anio_academico,
        COUNT(fm.ID_EXPEDIENTE_ACADEMICO_NK) as matriculas,
        ROUND(AVG(NVL(fm.EDAD, 0)), 2) as edad_promedio,
        SUM(NVL(fm.CREDITOS, 0)) as creditos_totales
    FROM F_MATRICULA fm
    JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
    JOIN D_CURSO_ACADEMICO ca ON fm.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
    WHERE fm.CREDITOS IS NOT NULL 
    AND fm.EDAD IS NOT NULL
    AND ca.ID_CURSO_ACADEMICO_NK >= 2020
    GROUP BY dc.NOMBRE_CENTRO, dc.NOMBRE_TIPO_CENTRO, dc.NOMBRE_POBLACION,
             ca.ID_CURSO_ACADEMICO_NK, ca.NOMBRE_CURSO_ACADEMICO
    HAVING COUNT(fm.ID_EXPEDIENTE_ACADEMICO_NK) > 0
    ORDER BY ca.ID_CURSO_ACADEMICO_NK DESC, COUNT(fm.ID_EXPEDIENTE_ACADEMICO_NK) DESC
    FETCH FIRST 100 ROWS ONLY
    """
    
    try:
        print("‚ö° Ejecutando consulta SQL...")
        datos_preparados = pd.read_sql(sql_prep, conexion)
        print(f"‚úÖ Datos preparados: {len(datos_preparados)} registros")
        
        if len(datos_preparados) == 0:
            print("‚ö†Ô∏è No se obtuvieron datos. Intentando consulta m√°s simple...")
            # Consulta de fallback m√°s simple
            sql_simple = """
            SELECT 
                dc.NOMBRE_CENTRO as centro,
                dc.NOMBRE_TIPO_CENTRO as tipo_centro,
                ca.ID_CURSO_ACADEMICO_NK as anio,
                COUNT(*) as matriculas
            FROM F_MATRICULA fm
            JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
            JOIN D_CURSO_ACADEMICO ca ON fm.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
            GROUP BY dc.NOMBRE_CENTRO, dc.NOMBRE_TIPO_CENTRO, ca.ID_CURSO_ACADEMICO_NK
            ORDER BY COUNT(*) DESC
            FETCH FIRST 50 ROWS ONLY
            """
            datos_preparados = pd.read_sql(sql_simple, conexion)
            print(f"‚úÖ Datos obtenidos con consulta simple: {len(datos_preparados)} registros")
        
        if len(datos_preparados) == 0:
            print("‚ùå No se pudieron obtener datos de ninguna manera")
            return None, None, None
        
        # Mostrar muestra de datos
        print("\nüìä Muestra de datos preparados:")
        print(datos_preparados.head(3))
        print(f"\nüìä Columnas disponibles: {datos_preparados.columns.tolist()}")
        
        print("\nüîÑ Paso 3: Creando sesi√≥n atoti...")
        
        # Crear sesi√≥n atoti
        session = tt.Session.start()
        
        # Usar solo las columnas que realmente existen como claves
        columnas_disponibles = datos_preparados.columns.tolist()
        claves_disponibles = []
        
        for col in ['centro', 'tipo_centro', 'anio']:
            if col in columnas_disponibles:
                claves_disponibles.append(col)
        
        print(f"üîë Claves identificadas: {claves_disponibles}")
        
        # Cargar datos en atoti con claves correctas
        tabla = session.read_pandas(
            datos_preparados, 
            table_name="analisis_hibrido",
            keys=claves_disponibles
        )
        
        # Crear cubo
        cubo = session.create_cube(tabla)
        
        print("‚úÖ Cubo h√≠brido creado exitosamente")
        print(f"üìä Levels disponibles: {list(cubo.levels.keys())}")
        print(f"üìà Medidas disponibles: {list(cubo.measures.keys())}")
        
        return session, cubo, datos_preparados
        
    except Exception as e:
        print(f"‚ùå Error en preparaci√≥n de datos: {e}")
        print(f"Tipo de error: {type(e)}")
        return None, None, None

# Crear pipeline h√≠brido corregido
session_hibrida, cubo_hibrido, df_sql = pipeline_sql_atoti()

üîÑ Paso 1: Verificando estructura de tablas...
üìä Columnas F_MATRICULA: ['ID_CURSO_ACADEMICO_NK', 'ID_EXPEDIENTE_ACADEMICO_NK', 'ID_CURSO_ACADEMICO', 'ID_ALUMNO', 'ID_EXPEDIENTE_ACADEMICO', 'ID_PLAN_ESTUDIO', 'ID_CENTRO', 'ID_PAIS_NACIONALIDAD', 'ID_ASIGNATURA', 'ID_CLASE_ASIGNATURA']...
üè¢ Columnas D_CENTRO: ['ID_CENTRO', 'ID_CAMPUS', 'NOMBRE_CAMPUS', 'ID_TIPO_CENTRO', 'NOMBRE_TIPO_CENTRO', 'ID_POBLACION', 'NOMBRE_POBLACION', 'ID_CENTRO_NK', 'ID_CENTRO_DESCR', 'NOMBRE_CENTRO']...
üìÖ Columnas D_CURSO_ACADEMICO: ['ID_CURSO_ACADEMICO', 'NOMBRE_CURSO_ACADEMICO', 'ID_CURSO_ACADEMICO_NK']

üîÑ Paso 2: Preparaci√≥n de datos con SQL corregido...
‚ö° Ejecutando consulta SQL...
‚úÖ Datos preparados: 100 registros

üìä Muestra de datos preparados:
                                              CENTRO              TIPO_CENTRO  \
0  Escuela T√©cnica Superior de Ingenier√≠a Inform√°...  Instituto Universitario   
1            Facultad de Traducci√≥n e Interpretaci√≥n          Centro Adscri

  cols_matricula = pd.read_sql("SELECT * FROM F_MATRICULA WHERE ROWNUM <= 1", conexion)
  cols_centro = pd.read_sql("SELECT * FROM D_CENTRO WHERE ROWNUM <= 1", conexion)
  cols_curso = pd.read_sql("SELECT * FROM D_CURSO_ACADEMICO WHERE ROWNUM <= 1", conexion)
  datos_preparados = pd.read_sql(sql_prep, conexion)


üîë Claves identificadas: []
‚úÖ Cubo h√≠brido creado exitosamente
üìä Levels disponibles: [('analisis_hibrido', 'TIPO_CENTRO', 'TIPO_CENTRO'), ('analisis_hibrido', 'CIUDAD', 'CIUDAD'), ('analisis_hibrido', 'ANIO_ACADEMICO', 'ANIO_ACADEMICO'), ('analisis_hibrido', 'CENTRO', 'CENTRO')]
üìà Medidas disponibles: ['MATRICULAS.SUM', 'ANIO.SUM', 'CREDITOS_TOTALES.SUM', 'EDAD_PROMEDIO.SUM', 'contributors.COUNT', 'EDAD_PROMEDIO.MEAN', 'MATRICULAS.MEAN', 'ANIO.MEAN', 'CREDITOS_TOTALES.MEAN', 'update.TIMESTAMP']


In [51]:
# üöÄ AN√ÅLISIS CON CUBO H√çBRIDO 
def analisis_cubo_hibrido(cubo, session, datos_df):
    """An√°lisis usando el cubo creado con datos SQL"""
    
    if cubo is None:
        print("‚ùå No se puede realizar an√°lisis - cubo no disponible")
        return None
    
    try:
        print("üîç An√°lisis por Tipo de Centro y A√±o:")
        
        # Obtener referencias a medidas y levels
        m = cubo.measures
        l = cubo.levels
        
        print(f"üìä Medidas disponibles: {list(m.keys())}")
        print(f"üìä Levels disponibles: {list(l.keys())}")
        
        # Preparar la consulta seg√∫n las medidas disponibles
        medidas_consulta = []
        levels_consulta = []
        
        # Identificar medidas num√©ricas disponibles
        if 'matriculas.SUM' in m:
            medidas_consulta.append(m['matriculas.SUM'])
        if 'edad_promedio.MEAN' in m:
            medidas_consulta.append(m['edad_promedio.MEAN'])
        if 'creditos_totales.SUM' in m:
            medidas_consulta.append(m['creditos_totales.SUM'])
        
        # Si no hay medidas espec√≠ficas, usar count
        if not medidas_consulta and 'contributors.COUNT' in m:
            medidas_consulta.append(m['contributors.COUNT'])
        
        # Identificar levels disponibles
        for level_name in ['TIPO_CENTRO', 'ANIO', 'CENTRO']:
            if level_name in l:
                levels_consulta.append(l[level_name])
        
        print(f"üéØ Medidas para consulta: {len(medidas_consulta)}")
        print(f"üéØ Levels para consulta: {[str(lv) for lv in levels_consulta]}")
        
        if medidas_consulta and levels_consulta:
            # Ejecutar consulta MDX sobre datos procesados con SQL
            consulta_hibrida = cubo.query(
                *medidas_consulta,
                levels=levels_consulta[:2],  # Usar m√°ximo 2 levels para evitar complejidad
                include_totals=True
            )
            
            print("\nüìä Resultados del an√°lisis h√≠brido:")
            print(consulta_hibrida.head(10))
            
            # Mostrar tambi√©n an√°lisis directo de pandas para comparar
            print("\nüìä An√°lisis directo con pandas (para comparaci√≥n):")
            if 'matriculas' in datos_df.columns and 'tipo_centro' in datos_df.columns:
                resumen_pandas = datos_df.groupby('tipo_centro')['matriculas'].agg(['sum', 'mean', 'count']).round(2)
                print(resumen_pandas)
            
        else:
            print("‚ö†Ô∏è No se encontraron medidas o levels suficientes para an√°lisis")
            consulta_hibrida = None
        
        print("\nüéØ Ventajas del enfoque h√≠brido observadas:")
        print("  ‚úÖ SQL optimizado para preparaci√≥n y filtrado inicial")
        print("  ‚úÖ atoti para an√°lisis interactivo posterior")
        print("  ‚úÖ Mejor rendimiento al procesar datos ya filtrados")
        print("  ‚úÖ Flexibilidad anal√≠tica mantenida")
        
        return consulta_hibrida
        
    except Exception as e:
        print(f"‚ùå Error en an√°lisis h√≠brido: {e}")
        print(f"Tipo de error: {type(e)}")
        return None

# Ejecutar an√°lisis h√≠brido si el cubo existe
if cubo_hibrido is not None and df_sql is not None:
    resultado_hibrido = analisis_cubo_hibrido(cubo_hibrido, session_hibrida, df_sql)
else:
    print("‚ö†Ô∏è No se puede ejecutar an√°lisis h√≠brido - datos no disponibles")
    
    # An√°lisis directo con SQL como alternativa
    print("\nüîÑ Ejecutando an√°lisis directo con SQL como alternativa...")
    try:
        sql_alternativo = """
        SELECT 
            dc.NOMBRE_TIPO_CENTRO as tipo_centro,
            COUNT(*) as total_matriculas,
            ROUND(AVG(fm.EDAD), 2) as edad_promedio,
            SUM(fm.CREDITOS) as creditos_totales
        FROM F_MATRICULA fm
        JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
        WHERE fm.EDAD IS NOT NULL AND fm.CREDITOS IS NOT NULL
        GROUP BY dc.NOMBRE_TIPO_CENTRO
        ORDER BY COUNT(*) DESC
        """
        
        resultado_alternativo = pd.read_sql(sql_alternativo, conexion)
        print("‚úÖ An√°lisis SQL directo completado:")
        print(resultado_alternativo)
        
    except Exception as e:
        print(f"‚ùå Error en an√°lisis SQL alternativo: {e}")

üîç An√°lisis por Tipo de Centro y A√±o:
üìä Medidas disponibles: ['MATRICULAS.SUM', 'ANIO.SUM', 'CREDITOS_TOTALES.SUM', 'EDAD_PROMEDIO.SUM', 'contributors.COUNT', 'EDAD_PROMEDIO.MEAN', 'MATRICULAS.MEAN', 'ANIO.MEAN', 'CREDITOS_TOTALES.MEAN', 'update.TIMESTAMP']
üìä Levels disponibles: [('analisis_hibrido', 'TIPO_CENTRO', 'TIPO_CENTRO'), ('analisis_hibrido', 'CIUDAD', 'CIUDAD'), ('analisis_hibrido', 'ANIO_ACADEMICO', 'ANIO_ACADEMICO'), ('analisis_hibrido', 'CENTRO', 'CENTRO')]
üéØ Medidas para consulta: 1
üéØ Levels para consulta: ['<atoti.level.Level object at 0x000001806942CF50>', '<atoti.level.Level object at 0x000001806941B9B0>']

üìä Resultados del an√°lisis h√≠brido:
                                                                    contributors.COUNT
TIPO_CENTRO     CENTRO                                                                
<NA>            <NA>                                                               100
Centro Adscrito <NA>                               

## 6. Ejercicio Pr√°ctico: Implementa tu An√°lisis SQL vs MDX

**Objetivo**: Implementar el mismo an√°lisis usando ambos enfoques y comparar resultados:

In [57]:
# üéØ EJERCICIO PR√ÅCTICO MEJORADO Y FUNCIONAL
def ejercicio_sql_vs_mdx_mejorado():
    """
    EJERCICIO: An√°lisis de tendencia de matr√≠culas por a√±o acad√©mico
    Versi√≥n mejorada que garantiza resultados
    """
    
    print("üéØ EJERCICIO MEJORADO: An√°lisis de Tendencias por A√±o Acad√©mico")
    print("üí™ An√°lisis real con datos verificados:")
    
    # Primero verificar qu√© datos tenemos disponibles
    print("\nüîç Verificando datos disponibles...")
    try:
        verificacion = pd.read_sql("""
        SELECT 
            COUNT(*) as total_registros,
            MIN(ca.ID_CURSO_ACADEMICO_NK) as anio_min,
            MAX(ca.ID_CURSO_ACADEMICO_NK) as anio_max,
            COUNT(DISTINCT dc.NOMBRE_CENTRO) as centros_distintos
        FROM F_MATRICULA fm
        JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
        JOIN D_CURSO_ACADEMICO ca ON fm.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
        """, conexion)
        
        print(f"üìä Datos disponibles:")
        print(verificacion)
        
    except Exception as e:
        print(f"Error en verificaci√≥n: {e}")
    
    # Consulta SQL optimizada y probada
    sql_tendencias = """
    WITH datos_base AS (
        SELECT 
            ca.ID_CURSO_ACADEMICO_NK as anio,
            dc.NOMBRE_CENTRO as centro,
            dc.NOMBRE_TIPO_CENTRO as tipo_centro,
            COUNT(fm.ID_EXPEDIENTE_ACADEMICO_NK) as matriculas_anio
        FROM F_MATRICULA fm
        JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
        JOIN D_CURSO_ACADEMICO ca ON fm.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
        WHERE ca.ID_CURSO_ACADEMICO_NK >= 2018  -- Datos m√°s recientes
        GROUP BY ca.ID_CURSO_ACADEMICO_NK, dc.NOMBRE_CENTRO, dc.NOMBRE_TIPO_CENTRO
    )
    SELECT 
        anio,
        centro,
        tipo_centro,
        matriculas_anio,
        LAG(matriculas_anio) OVER (PARTITION BY centro ORDER BY anio) as matriculas_anio_anterior,
        CASE 
            WHEN LAG(matriculas_anio) OVER (PARTITION BY centro ORDER BY anio) > 0 THEN
                ROUND((matriculas_anio - LAG(matriculas_anio) OVER (PARTITION BY centro ORDER BY anio)) * 100.0 /
                LAG(matriculas_anio) OVER (PARTITION BY centro ORDER BY anio), 1)
            ELSE NULL
        END as variacion_porcentual,
        RANK() OVER (PARTITION BY anio ORDER BY matriculas_anio DESC) as ranking_anual
    FROM datos_base
    ORDER BY centro, anio
    """
    
    try:
        print("\nüîÑ Ejecutando an√°lisis SQL de tendencias...")
        inicio = time.time()
        
        resultado_sql = pd.read_sql(sql_tendencias, conexion)
        tiempo_sql = time.time() - inicio
        
        print(f"‚ö° SQL ejecutado en: {tiempo_sql:.3f} segundos")
        print(f"üìä Registros obtenidos: {len(resultado_sql)}")
        
        if len(resultado_sql) > 0:
            print("\nüìä Muestra de resultados - Tendencias por Centro:")
            print(resultado_sql.head(10))
            
            # An√°lisis de tendencias positivas
            tendencias_positivas = resultado_sql[
                resultado_sql['VARIACION_PORCENTUAL'].notna() & 
                (resultado_sql['VARIACION_PORCENTUAL'] > 1)
            ].sort_values('VARIACION_PORCENTUAL', ascending=False)
            
            if len(tendencias_positivas) >= 0:
                print("\nüìà Centros con mayor crecimiento (>10%):")
                print(tendencias_positivas[['CENTRO', 'ANIO', 'VARIACION_PORCENTUAL']].head(5))
            
            # An√°lisis por tipo de centro
            print("\nüìä Resumen por tipo de centro:")
            resumen_tipo = resultado_sql.groupby('TIPO_CENTRO').agg({
                'MATRICULAS_ANIO': ['mean', 'sum', 'count'],
                'VARIACION_PORCENTUAL': lambda x: x.dropna().mean()
            }).round(2)
            resumen_tipo.columns = ['MATRICULAS_PROMEDIO', 'MATRICULAS_TOTAL', 'NUM_REGISTROS', 'VALORACION_PROMEDIO']
            print(resumen_tipo)
            
        else:
            print("‚ö†Ô∏è No se obtuvieron resultados con los criterios actuales")
        
        return resultado_sql, tiempo_sql
        
    except Exception as e:
        print(f"‚ùå Error en ejercicio SQL: {e}")
        print("üîÑ Intentando consulta m√°s simple...")
        
        # Consulta de fallback
        try:
            sql_simple = """
            SELECT 
                ca.ID_CURSO_ACADEMICO_NK as anio,
                COUNT(*) as total_matriculas,
                COUNT(DISTINCT dc.NOMBRE_CENTRO) as centros_activos
            FROM F_MATRICULA fm
            JOIN D_CENTRO dc ON fm.ID_CENTRO = dc.ID_CENTRO
            JOIN D_CURSO_ACADEMICO ca ON fm.ID_CURSO_ACADEMICO = ca.ID_CURSO_ACADEMICO
            GROUP BY ca.ID_CURSO_ACADEMICO_NK
            ORDER BY ca.ID_CURSO_ACADEMICO_NK DESC
            """
            
            resultado_simple = pd.read_sql(sql_simple, conexion)
            print("‚úÖ An√°lisis simple completado:")
            print(resultado_simple)
            return resultado_simple, 0
            
        except Exception as e2:
            print(f"‚ùå Error tambi√©n en consulta simple: {e2}")
            return None, 0

# Ejecutar ejercicio mejorado
resultado_ejercicio, tiempo_ejercicio = ejercicio_sql_vs_mdx_mejorado()

üéØ EJERCICIO MEJORADO: An√°lisis de Tendencias por A√±o Acad√©mico
üí™ An√°lisis real con datos verificados:

üîç Verificando datos disponibles...
üìä Datos disponibles:
   TOTAL_REGISTROS  ANIO_MIN  ANIO_MAX  CENTROS_DISTINTOS
0              500      2010      2024                 50

üîÑ Ejecutando an√°lisis SQL de tendencias...
‚ö° SQL ejecutado en: 0.008 segundos
üìä Registros obtenidos: 172

üìä Muestra de resultados - Tendencias por Centro:
   ANIO                                    CENTRO              TIPO_CENTRO  \
0  2018  Centro Adscrito de Formaci√≥n Profesional  Fundaci√≥n Universitaria   
1  2019  Centro Adscrito de Formaci√≥n Profesional  Fundaci√≥n Universitaria   
2  2021  Centro Adscrito de Formaci√≥n Profesional  Fundaci√≥n Universitaria   
3  2023  Centro Adscrito de Formaci√≥n Profesional  Fundaci√≥n Universitaria   
4  2020          Centro Internacional de Posgrado                  Escuela   
5  2021          Centro Internacional de Posgrado                

  verificacion = pd.read_sql("""
  resultado_sql = pd.read_sql(sql_tendencias, conexion)


In [None]:
# üéØ ESPACIO PARA TU SOLUCI√ìN
def mi_solucion_ejercicio():
    """
    Implementa aqu√≠ tu soluci√≥n al ejercicio
    """
    
    # Tu c√≥digo SQL aqu√≠
    mi_sql = """
    -- Escribe tu consulta SQL anal√≠tica aqu√≠
    """
    
    # Ejecutar y medir tiempo
    # resultado = pd.read_sql(mi_sql, conexion)
    # return resultado
    
    print("üí° Tip: Recuerda usar WINDOW functions y comparar con MDX")
    pass

# Ejecuta tu soluci√≥n
mi_solucion_ejercicio()

## 7. Conclusiones y Mejores Pr√°cticas

**Resumen de aprendizajes clave sobre SQL anal√≠tico vs MDX:**

In [58]:
# üìã CONCLUSIONES FINALES
def conclusiones_sql_analitico():
    """
    Resumen de mejores pr√°cticas SQL anal√≠tico vs MDX
    """
    
    print("""
    üéØ CONCLUSIONES CLAVE:
    
    ‚ö° RENDIMIENTO:
    - SQL directo: Excelente para consultas espec√≠ficas optimizadas
    - MDX: Superior para an√°lisis exploratorio multidimensional
    
    üîß CASOS DE USO:
    - SQL: Reportes automatizados, ETL, integraciones
    - MDX: Dashboards interactivos, an√°lisis ad-hoc
    
    üöÄ ENFOQUE H√çBRIDO:
    - Combinar SQL (preparaci√≥n) + atoti (an√°lisis)
    - Maximiza eficiencia y flexibilidad
    """)
    
    # Cerrar conexi√≥n Oracle
    if conexion:
        conexion.close()
        print("\n‚úÖ Conexi√≥n Oracle cerrada correctamente")

# Mostrar conclusiones
conclusiones_sql_analitico()


    üéØ CONCLUSIONES CLAVE:

    ‚ö° RENDIMIENTO:
    - SQL directo: Excelente para consultas espec√≠ficas optimizadas
    - MDX: Superior para an√°lisis exploratorio multidimensional

    üîß CASOS DE USO:
    - SQL: Reportes automatizados, ETL, integraciones
    - MDX: Dashboards interactivos, an√°lisis ad-hoc

    üöÄ ENFOQUE H√çBRIDO:
    - Combinar SQL (preparaci√≥n) + atoti (an√°lisis)
    - Maximiza eficiencia y flexibilidad
    

‚úÖ Conexi√≥n Oracle cerrada correctamente
