---

## Universidad de Costa Rica
### Escuela de Ingeniería Eléctrica
#### IE0405 - Modelos Probabilísticos de Señales y Sistemas

Segundo semestre del 2020

---

* Estudiante: **Nombre completo**
* Carné: **B12345**
* Grupo: **1**


# `P2` - *La demanda energética de electricidad en Costa Rica*

> Esta actividad reúne las herramientas de programación y la definición, propiedades y funciones de la variable aleatoria continua para analizar los registros de la demanda energética del Sistema Eléctrico Nacional (SEN) durante el año 2019, para determinar un modelo probabilístico de mejor ajuste basado en pruebas de bondad.

---
* Elaboración de nota teórica y demostración: **Jeaustin Sirias Chacón**, como parte de IE0499 - Proyecto Eléctrico: *Estudio y simulación de aplicaciones de la teoría de probabilidad en la ingeniería eléctrica*.
* Revisión: **Fabián Abarca Calderón**


---
## 1. - Introducción: la variable aleatoria se aprende para no olvidarse

El concepto de la variable aleatoria es quizás uno de los conceptos más relevantes en la construcción de modelos probabilísticos, de modo que resulta imprescindible tener una noción clara.

La variable aleatoria podría tener un dominio que no es un conjunto numérico sino un espacio abstracto que contiene "sucesos", u ocurrencias de un experimento aleatorio. A este dominio se le llama *espacio muestral*. ¿Qué ocurre entonces con el ámbito? Aunque no es posible asociar un espacio abstracto directamente con valores numéricos, sí se puede relacionar numéricamente todos sus resultados posibles. Pero, ¿qué ocurre cuando este espacio muestral tiene infinitas probabilidades? Es acá cuando surge la **variable aleatoria continua**. Supóngase el siguiente contraejemplo: 

> Es usual observar tres tipos de medios de transporte en la ciudad: automóviles, motocicletas y bicicletas. El día de hoy me propuse contar 150 vehículos de forma aleatoria en la carretera principal de San Pedro de Montes de Oca mientras iba por el pan de la tarde para mi madre. Cuando volví a casa tabulé mis resultados y los representé de la siguiente manera según el tipo de vehículo:

| Dominio $S$           | Variable aleatoria $X$ |
|-----------------------|------------------------|
| <img src="https://cdn.onlinewebfonts.com/svg/img_553938.png" width="30"></img>                  |          $x_1$         |
| <img src="https://cdn.onlinewebfonts.com/svg/img_323762.png" width="20"></img> |          $x_2$         |
| <img src="https://cdn.onlinewebfonts.com/svg/img_22991.png" width="20"></img> |          $x_3$         |

> Luego de contabilizar la frecuencia de automóviles, bicicletas y motocicletas observadas durante el experimento me enteré de que el espacio muestral estaba limitado a solamente tres posibilidades, y aunque si mañana repitiese el ejercicio y la frecuencia de los automóviles vistos posiblemente variará, solo tendré la oportunidad de contar autos, motos y bicis...

El caso anterior representa un variable aleatoria **discreta**, puesto que puede obtenerse un número contable de ocurrencias $x_1$, $x_2$ y $x_3$, sin embargo, ¿qué ocurrirá si ahora desea repertirse el experimento anterior pero para conocer el peso en kilogramos de cada vehículo observado en la carretera?, ¿será posible que al menos dos vehículos compartan exactamente el mismo peso?, ¿estará el espacio muestral $S$ limitado a un número de magnitudes de peso en kg? Efectivamente, no. Si de forma ideal se colocara una váscula en cada uno de los vehículos podría apreciarse que existirán valores parecidos, pero no iguales; por ejemplo, dos autos que pesen 1340,5683 kg y 1340,7324 kg, respectivamente, entonces existe una cantidad no mensurable de probabiblidades en el espacio muestral $S$. En general se dirá que la probabilidad de encontrar un valor *puntual* (de precisión infinita) en una variable aleatoria continua es cero. Por ejemplo:

$$\displaystyle \frac{1500.\overline{0} \text{ kg}}{\text{Infinitos pesos entre 10 kg y 4000 kg}} \approx 0$$

---
## 2. - Pruebas de bondad de ajuste de los modelos

Hasta el momento en el curso hemos encontrado los parámetros de mejor ajuste entre un conjunto de datos (una "muestra") y un modelo probabilístico particular, quizá elegido *arbitrariamente* o por un desarrollado sentido de la intuición, del tipo: "hmm, esa distribución me parece exponencial". Sin embargo, está claro que algunos modelos hacen una mejor descripción de los datos que otros, y no siempre se puede encontrar "a puro ojo".

¿Cómo se evalúa entonces esta "bondad de ajuste" (*goodness of fit*) de cada modelo, de forma tal que se puedan comparar con una sola métrica todas las distribuciones analizadas y tomar una decisión? Existe alrededor de una docena de pruebas, pero aquí usaremos dos de las más comunes:

* [La prueba de Kolmogorov–Smirnov](https://es.wikipedia.org/wiki/Prueba_de_Kolmogorov-Smirnov), o *KS test*.
* [La prueba chi-cuadrado de Pearson](https://en.wikipedia.org/wiki/Chi-squared_test), o $\chi^2$. 

La explicación de cada una de estas pruebas se sale del objetivo de esta etapa del curso, por eso se mencionan aquí nada más.

#### Algunas distribuciones a utilizar

> ¿Qué puede esperarse de la demanda energética nacional si fuese una variable aleatoria?, ¿sería esta última, discreta o continua?, ¿podría aproximarse su distribución anual, mensual, diaria u horaria hacia un modelo de densidad probabilístico?

Al igual que en el ejemplo del peso en los vehículos, el espacio muestral de la demanda de energía es infinito para cualquier intervalo de valores $[a, b]$. Podría ocurrir que a las **00:00** de hoy la demanda registrada sea **909.8934 MW** mientras que mañana a la misma hora será **909.2232 MW** y al siguiente, **909.873666641 MW**; es decir, el experimento de medir la demanda en ese período tiene un sinnúmero de posibilidades, de modo que es una variable aleatoria *continua*.

Las funciones continuas de de probabilidad son muy variadas, las hay de todas formas. Algunas de ellas describen sistemas habituales y serán aquí utilizadas:

* Distribución normal
* Distribución de Rayleigh
* Distribución de Burr tipo XII
* Distribución gamma
* Distribución beta
* Distribución alfa

**Nota**: Algunas librerías de programación para encontrar el mejor ajuste hacen pruebas con *una gran cantidad* de distribuciones disponibles (más de 80), sin hacer ninguna presuposición. Nosotros, sin embargo, usaremos estas nada más, asumiendo que tienen "formas similares".

#### ¿Qué hace a una distribución mejor que otra al ajustar una población?

En términos relativos, depende en gran medida del sistema o proceso que se estudia. Como se expuso anteriormente hay una enorme familia de funciones de probabilidad. Habrá una de ellas que describa un conjunto de datos mejor que las demás. A esto se le denomina **bondad de ajuste** y se basa en evaluar discrepancias, residuos y/o frecuencias de dos o más distribuciones, generalmente con la intención de conocer si las muestras provienen de una misma distribución, si las muestras observadas siguien una distribución en particular o bien para evaluar qué tanto se ajusta un modelo probabilístico construido a partir de datos observados. 

En su mayoría se parte de una hipótesis nula $H_{O}$ que supone la siguiente premisa:

> Los datos observados y los predichos son iguales hasta que no se pruebe lo contrario.

Aparte de $\chi^2$ y *KS test* mencionados antes, se hace uso de índices de error como la [raíz del error cuadrático medio](https://es.wikipedia.org/wiki/Ra%C3%ADz_del_error_cuadr%C3%A1tico_medio) (RMSE) o el [error cuadrático medio](https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio#:~:text=En%20el%20an%C3%A1lisis%20de%20regresi%C3%B3n,n%C3%BAmero%20de%20grados%20de%20libertad.) (SSE) para contrastar las muestras de una población. 

---
## 3. - Contexto: el *Sistema Eléctrico Nacional* (SEN) de Costa Rica

El [Centro Nacional de Control de Energía](https://apps.grupoice.com/CenceWeb/CenceMain.jsf) (CENCE) es el ente estatal encargado de registrar, manipular y analizar el sistema eléctrico nacional de Costa Rica en los ámbitos de generación, distribución y demanda de la energía eléctrica en el país. La matriz energética nacional está administrada por siete empresas distribuidoras, a saber:

* **Instituto Costarricense de Electricidad** (ICE)
* **Compañía Nacional de Fuerza y Luz** (CNFL)
* **Junta Administrativa del Servicio Eléctrico Municipal de Cartago** (JASEC)
* **Coopeguanacaste R.L.**
* **Coopelesca R.L.**
* **Coopesantos R.L.**
* **Empresa de Servicios Públicos de Heredia** (ESPH)


<img align='center' src='https://i.imgur.com/pPc9mIA.png' width ="650"/>

El servicio y el costo de las tarifas eléctricas ofrecidas por cada una de las empresas depende de la ubicación, el sector que lo solicita (residencial, industrial, comercial...) y las disposiciones de la [Autoridad Reguladora de los Servicios Públicos](https://aresep.go.cr/electricidad) (ARESEP). A nivel nacional se hallan establecidos tres períodos por concepto de actividad de consumo energético durante el día:

* **Período de punta**: Entre las **10:01** y las **12:30** horas, y entre las **17:31** y las **20:00** horas para un total de cinco horas diarias.
* **Período de valle**: Se comprende entre las **06:01** y las **10:00** horas, y entre las **12:31** y las **17:30** para total de nueve horas diarias.
* **Período nocturno**: Desde las **20:01** hasta las **06:00** del próximo día, para un total de 10 horas.

La demanda energética a nivel nacional es registrada en intervalos de 15 minutos durante todo el año. Existen temporadas o situaciones cuando la demanda es particularmente mayor por temas sociales y/o económicos. Por ejemplo, las fiestas de fin de año se caracterizan por celebrar la **Navidad** y el **Año Nuevo**: las casas, las vías públicas y los parques se iluminan con luces festivas al menos durante todo el mes de diciembre y poco antes. Asimismo, aumenta el uso de los hornos eléctricos en las familias para elaborar recetas propias de la fecha. 

Otro caso es la actual [emergencia nacional por el COVID-19](https://www.facebook.com/watch/?v=862104867616321), la cual ha repercutido considerablemente en todas las actividades habituales. 

### 3.1. - Aplicación: construyendo un modelo probabilístico  basado en demanda energética

Para la siguiente actividad, existe una base de datos que contiene la demanda energética nacional del año 2019 por hora, como se muestra a continuación:

<img align='center' src='https://i.imgur.com/2PwdGF0.png' width ="700"/>

Dicha "población" es una variable aleatoria continua. Es deseable hallar un modelo probabilístico que se ajuste lo mejor posible a lo observado de acuerdo con las pruebas de bondad de ajuste mencionadas anteriormente. Por ejemplo, se quiere analizar el comportamiendo de la demanda a las **18:00** horas durante todos los días en estudio. El módulo [`stats`](https://docs.scipy.org/doc/scipy/reference/stats.html) de SciPy es útil para ejemplificar la presente aplicación de forma programada. La estrategia a implementar se elaborará bajo los siguientes pasos:


1. Acondicionar la base de datos para obtener las muestras a la hora de interés.
2. Ajustar varios modelos probabilísticos a evaluar sobre la muestra observada.
3. Determinar el mejor modelo probabilístico mediante las pruebas de bondad de ajuste **chi-cuadrado** ($\chi^2$), **Kolmogorov-Smirnov** (*KS test*) y el índice de error **RMSE**.
4. Determinar los cuatro primeros momentos centrales para el mejor modelo.
5. Visualizar los resultados obtenidos.

Para lograr los puntos anteriores se emplean entonces las siguientes librerías:

```python
import numpy as np              # para manipular datos
import matplotlib.pyplot as plt # para visualizar resultados
import pandas as pd             # para acondicionar la base de datos
from scipy import stats         # la música de la fiesta
from datetime import datetime   # funciones de conversión de fechas y horas
```

### 3.2. - Lectura y acondicionamiento de los datos

Es una buena práctica de programación desarrollar código empleando funciones, puesto que permite la generalización del proceso. Por ejemplo, para este caso es útil elaborar una función que no solamente acondicione la demanda a las **18:00**, sino a cualquier hora. Dicho de este modo entonces la hora debe ser un parámetro de ajuste variable en los argumentos.

#### 3.2.1. - Sobre el formato JSON

[JSON](https://es.wikipedia.org/wiki/JSON) (extensión `.json`) es un formato de texto de alto nivel, muy utilizado en el intercambio de información por su alta legibilidad y fácil manejo de la sintaxis. La librería de manipulación de datos, [Pandas](https://pandas.pydata.org/pandas-docs/stable/index.html), ofrece un método especialmente adecuado para leer y manipular dicho formato. Para esta ocasión la base de datos importada se encuentra escrita en JSON para familiarizar su uso.

Los datos a analizar lucen de la siguiente manera:

```json
{
   "data":[
	    {
	      "fechaHora": "2019-01-01 00:00:00",
	      "MW": 958.05,
	      "MW_P": 1
	    },
	    {
	      "fechaHora": "2019-01-01 01:00:00",
	      "MW": 917.04,
	      "MW_P": 2
	    },
	    {
	      "fechaHora": "2019-01-01 02:00:00",
	      "MW": 856.19,
	      "MW_P": 3
	    },
	    {
	      "fechaHora": "2019-01-01 03:00:00",
	      "MW": 803.04,
	      "MW_P": 4
	    },
        (...miles de datos más...)
   ]
}
```

Y pueden interpretarse como una tabla donde `"fechaHora"`, `"MW"` y `"MW_P"` son los encabezados de cada columna, es decir:

| `"fechaHora"`         | `"MW"` | `"MW_P"` |
|-----------------------|--------|----------|
| "2019-01-01 00:00:00" | 958.05 | 1        |
| "2019-01-01 01:00:00" | 917.04 | 2        |
| "2019-01-01 02:00:00" | 856.19 | 3        |
| "2019-01-01 03:00:00" | 803.04 | 4        |
| ...                   | ...    | ...      |

##### Formato ISO de la fecha y hora

El formato `'YYYY-MM-DD hh:mm:ss'` es conocido como **formato ISO**, según el estándar ISO 8601.

### 3.3. - Funciones desarrolladas

Para la resolución de este proyecto se presentan dos funciones y una función auxiliar:

* `extraer_datos(archivo_json, hora)`: Importa la base de datos completa y devuelve los datos de potencia a la hora indicada en un *array* de valores.
* `evaluar_modelos(datos, distribuciones, divisiones, hora)`: Evalúa la bondad de ajuste de los datos con los modelos utilizados y grafica cada modelo.
* `horas_asignadas(digitos)`: Elige una hora A en periodo punta y una hora B de los otros periodos, con los dígitos del carné como *seed*.

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

def extraer_datos(archivo_json, hora):
    '''Importa la base de datos completa y devuelve los
    datos de potencia a la hora indicada en un
    array de valores.
    '''
    
    # Cargar el "DataFrame"
    df = pd.read_json(archivo_json) 
    
    # Convertir en un array de NumPy
    datos = np.array(df)                

    # Crear vector con los valores demanda en una hora
    demanda = []

    # Extraer la demanda en la hora seleccionada
    for i in range(len(datos)):
        instante = datetime.fromisoformat(datos[i][0]['fechaHora'])
        if instante.hour == hora:
            demanda.append(datos[i][0]['MW'])

    return demanda

Observar que, en la función anterior, la variable `datos` tiene la siguiente forma:

```python
[[{'fechaHora': '2019-01-01 00:00:00', 'MW': 958.05, 'MW_P': 1}]
 [{'fechaHora': '2019-01-01 01:00:00', 'MW': 917.04, 'MW_P': 2}]
 [{'fechaHora': '2019-01-01 02:00:00', 'MW': 856.19, 'MW_P': 3}]
 ...
 [{'fechaHora': '2019-09-12 22:00:00', 'MW': 1184.73, 'MW_P': 1174.2}]
 [{'fechaHora': '2019-09-12 23:00:00', 'MW': 1044.81, 'MW_P': 1064.9}]
 [{'fechaHora': '2019-09-13 00:00:00', 'MW':  975.18, 'MW_P': 995}]]
```

que muestra un conjunto de diccionarios. Por tanto, la instrucción 

```python
datos[i][0]['fechaHora']
``` 

accesa el `i`-ésimo elemento, `[0]` representa el diccionario mismo (el único elemento que hay) y `['fechaHora']` devuelve el *valor* asociado con la *llave* `'fechaHora'`. Por ejemplo:

```python
>>> datos[1][0]['fechaHora']
'2019-01-01 01:00:00'
>>> datos[2][0]['MW']
856.19
```

### 3.4. - Parámetros de mejor ajuste

La siguiente función determina cuáles son los parámetros de mejor ajuste para ciertas distribuciones elegidas, utilizando `scipy.stats`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
from datetime import datetime

def evaluar_modelos(datos, distribuciones, divisiones, hora):
    '''Evalúa la bondad de ajuste de los datos con los 
    modelos utilizados y grafica cada modelo.
    '''
    
    # Distribución de frecuencia relativa
    ocurrencias_exp, limites = np.histogram(datos, bins=divisiones)
    
    # Eliminar los ceros de la frecuencia relativa
    for i in range(divisiones):
        if ocurrencias_exp[i] == 0:
            ocurrencias_exp[i] = 1
    
    # Encontrar el valor central de las divisiones
    bins_centrados = (limites + np.roll(limites, -1))[:-1] / 2.0 
    escala = len(datos) * (max(datos) - min(datos)) / len(bins_centrados)
    
    # Crear subfiguras para visualización (1 x 2)
    fig, ax = plt.subplots(1, 2, figsize=(15, 5))

    # Información de la figura 1
    ax[0].set_title('Ajuste de las distribuciones')
    ax[0].set_ylabel('Frecuencia')
    ax[0].set_xlabel('Potencia [MW]')
    # Información de la figura 3
    ax[1].set_title('Distribución con mejor criterio de bondad de ajuste')
    ax[1].set_ylabel('Frecuencia')
    ax[1].set_xlabel('Potencia [MW]')
    
    # Visualizar datos
    ax[0].hist(datos, bins=divisiones, histtype='bar', color='palevioletred', rwidth=0.8)
    ax[1].hist(datos, bins=divisiones, histtype='bar', color='b')
    
    # Condiciones iniciales de las pruebas de ajuste
    rmse_min = np.inf  # el mayor índice de error
    p_max = 0          # el mejor p en chisqr test (0 es el "peor")
    kspmax = 0         # el mejor p en KStest (0 es el "peor")
    np.seterr(all='ignore') # ignorar errores con números de punto flotante

    # Evaluar las distribuciones, extraer parámetros y visualizar
    for distribucion in distribuciones:
        # Extraer de scipy.stats la distribución ("get attribute")
        dist = getattr(stats, distribucion) 
        
        # Parámetros de mejor ajuste para la distribución
        param = dist.fit(datos)
        
        # Evaluar la PDF en el valor central de las divisiones
        pdf = dist.pdf(bins_centrados, *param)
        
        # Convertir frecuencia relativa en ocurrencias (número absoluto)
        ocurrencias_teo = [int(round(i)) for i in escala*pdf]
        
        # Soporte para la gráfica
        d = np.arange(min(datos)*0.96, max(datos)*1.04, 1)
        
        # Graficar en ax[1]
        pdf_plot = dist.pdf(d, *param)
        ax[0].plot(d, escala*pdf_plot, lw=3.5, label='{}'.format(distribucion))

        # Prueba de bondad de ajuste por chi-cuadrado
        coef_chi, p = stats.chisquare(f_obs=ocurrencias_teo, f_exp=ocurrencias_exp)
        if p > p_max:  # si el p actual es mayor
            p_max = p  # designarlo como el máximo
            dist_chi = distribucion # elegir la distribución como la de mejor ajuste
            mod_chi = dist, param, pdf

        # Bondad de ajuste por RMSE (Root-Mean-Square Error)
        diferencia = (ocurrencias_teo - ocurrencias_exp)**2
        rmse = np.sqrt(np.mean(diferencia))
        if rmse < rmse_min:
            rmse_min = rmse
            dist_rmse = distribucion
            mod_rmse = dist, param, pdf

        # Bondad de ajuste por Kolgomorov - Smirnov
        D, ksp = stats.kstest(datos, distribucion, args=param)
        if ksp > kspmax:
            kspmax = ksp
            dist_ks = distribucion

    # Decidir el mejor modelo
    if dist_chi == dist_rmse or dist_chi == dist_ks:
        params = mod_chi[1]
        mejor_ajuste = dist_chi
        ax[1].hist(datos, bins=divisiones, color='cornflowerblue', label='Distribución observada')
        ax[1].bar(bins_centrados, mod_chi[2] * escala, width=6, color='r', label='Mejor ajuste: {}'.format(dist_chi))
        m, v, s, k = mod_chi[0].stats(*params, moments='mvsk') 

    elif dist_rmse == dist_ks:
        params = mod_rmse[1]
        mejor_ajuste = dist_rmse
        ax[1].hist(datos, bins = divisiones, color='cornflowerblue', label='Distribución observada')
        ax[1].bar(bins_centrados, mod_rmse[2] * escala, width=6, color='r', label='Mejor ajuste: {}'.format(dist_rmse))
        m, v, s, k = mod_rmse[0].stats(*params, moments='mvsk')

    # Imprimir resumen y resultados
    print('-------\nResumen\n-------')
    print('Cantidad de muestras:', len(datos), 'días a las', hora, 'horas')
    print('Máximo:', max(datos), 'MW')
    print('Mínimo:', min(datos), 'MW')
    print('Tipo: Demanda energética horaria')
    print('------\nAjuste\n------')
    print('Menor error RMS es:', dist_rmse)
    print('Mejor bondad de ajuste en la prueba de chi-cuadrado es:', dist_chi)
    print('Mejor bondad de ajuste en la prueba de Kolmogorov–Smirnov es:', dist_ks)
    print('Distribución elegida:', mejor_ajuste)
    print('--------\nMomentos\n--------')
    print('Media:', m, '\nVarianza:', v, '\nDesviación estándar:', np.sqrt(v), '\nCoeficiente simetría:', s, '\nKurtosis:', k)
    print('--------\nGráficas\n--------')
    
    ax[0].legend()
    ax[1].legend()
    plt.show()

### 3.5. - Evaluando los datos

Llegado a este punto, ahora solo se requiere llamar las dos funciones desarrolladas y elegir **la base de datos**, **las distribuciones** (de la galería de distribuciones continuas disponibles en el módulo [`stats`](https://docs.scipy.org/doc/scipy/reference/stats.html#continuous-distributions)) y **la hora** a la que desea evaluarse.

In [None]:
# Hora, en el intervalo [0, 23] (tipo int)
hora = 18

# Distribuciones a evaluar
distribuciones = ['norm', 'rayleigh', 'burr12', 'alpha', 'gamma', 'beta']

# Llamar a las funciones
demandas = extraer_datos('demanda_2019.json', hora)
evaluar_modelos(demandas, distribuciones, 25, hora)

---
## 4. - Asignaciones del proyecto

### 4.1. - Comparación de consumo de potencia para distintas horas del día

La curva de consumo de potencia diaria del SEN muestra cambios importantes durante el día, así que es esperable encontrar comportamientos distintos en la distribución de probabilidad para cada hora.

* (40%) Encuentre **la distribución de mejor ajuste y sus parámetros** para las dos horas asignadas.

Puede encontrar las horas asignadas con la función `horas_asignadas(digitos)`, donde `digitos` son los dígitos numéricos de su carné (por ejemplo: para B12345 `digitos = 12345`)

In [None]:
import random

def horas_asignadas(digitos):
    '''Elige una hora A en periodo punta
    y una hora B de los otros periodos,
    con los dígitos del carné como "seed"
    '''
    random.seed(digitos)
    punta = [11, 12, 18, 19, 20]
    valle = [7, 8, 9, 10, 13, 14, 15, 16, 17]
    nocturno = [21, 22, 23, 0, 1, 2, 3, 4, 5, 6]
    otro = valle + nocturno
    HA = punta[random.randrange(0, len(punta))]
    HB = otro[random.randrange(0, len(otro))]
    horas = 'Hora A = {}, hora B = {}'.format(HA, HB)
    return horas

In [None]:
horas_asignadas(12345)

In [None]:
# 4.1. - Comparación de consumo de potencia

### 4.2. - Obtención de los momentos de los modelos de distribución por hora

Resuma estos hallazgos en una tabla con los cuatro momentos más importantes (y la desviación estándar) para cada modelo de cada hora analizada.

* (30%) Complete la tabla de resultados de los momentos, haciendo los cálculos respectivos con Python o con sus modelos (mostrando las ecuaciones respectivas).

In [None]:
# 4.2. - Obtención de los momentos de los modelos

#### Expresiones analíticas parametrizadas de los momentos

<!-- Ejemplo para la distribución beta -->

| Momento     | Expresión analítica parametrizada de la distribución |
|-------------|------------------------------------------------------|
| Media       | $\displaystyle E[X] = \frac{\alpha}{\alpha+\beta}\!$ |
| Varianza    | $\displaystyle \operatorname{var}[X] = \frac{\alpha\beta}{(\alpha+\beta)^2 (\alpha+\beta+1)}\!$ |
| Inclinación | $\displaystyle S_X = \frac{2\,(\beta-\alpha)\sqrt{\alpha+\beta+1}}{(\alpha+\beta+2)\sqrt{\alpha\beta}}$ |
| Kurtosis    | $\displaystyle \kappa_X = \frac{6[(\alpha - \beta)^2 (\alpha +\beta + 1) - \alpha \beta (\alpha + \beta + 2)]}{\alpha \beta (\alpha + \beta + 2) (\alpha + \beta + 3)}$ |

#### Valores obtenidos para el modelo y los datos de la muestra

Análisis para las horas A = XX:XX y B = YY:YY.

| Momento         | Fuente   | A = 7:00 am | B = 7:00 pm | 
|-----------------|----------|-------------|-------------|
| **Media**       | *Modelo* | mmm         | mmm         |
| **Media**       | *Datos*  | mmm         | mmm         |
| **Varianza**    | *Modelo* | vvv         | vvv         |
| **Varianza**    | *Datos*  | vvv         | vvv         |
| **Desviación**  | *Modelo* | sdsd        | sdsd        |
| **Desviación**  | *Datos*  | sdsd        | sdsd        |
| **Inclinación** | *Modelo* | sss         | sss         |
| **Inclinación** | *Datos*  | sss         | sss         |
| **Kurtosis**    | *Modelo* | kkk         | kkk         |
| **Kurtosis**    | *Datos*  | kkk         | kkk         |

**Nota**: utilizar cuatro decimales.

### 4.3. - Análisis de los datos obtenidos

De la comparación de las horas estudiadas, 

* (30%) Explique las posibles razones de las diferencias observadas, desde una interpretación estadística.

<!-- Inicie aquí la explicación. Puede incluir imágenes, tablas, fragmentos de código o lo que considere necesario. -->

### Análisis

<!-- Utilice las mejores prácticas de edición de formato de Markdown: https://www.markdownguide.org/basic-syntax/ -->

Aquí va el análisis y las ecuaciones y las tablas y las figuras...

$$
x_{1,2} = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}
$$

Y luego también.

#### Análisis de la media

#### Análisis de la varianza y desviación estándar

#### Análisis de la inclinación

#### Análisis de la kurtosis

---

### Universidad de Costa Rica
#### Facultad de Ingeniería
##### Escuela de Ingeniería Eléctrica

---