---
### Universidad de Costa Rica
#### IE0405 - Modelos Probabilísticos de Señales y Sistemas

Primer ciclo del 2023

---

# `P4` - *Procesos aleatorios*

> Este es un ejercicio de análisis y modelado probabilístico de procesos aleatorios con las herramientas de programación y cálculo numérico de Python, utilizando un paradigma de programación funcional y creando un paquete de Python, por medio del trabajo colaborativo con Git.

---

## Problema

La contaminación ambiental es una problemática en la actualidad con graves implicaciones individuales y colectivas, especialmente para la salud humana y para el equilibrio del ecosistema natural.

Medir los niveles de contaminación es, por tanto, fundamental para tomar acciones preventivas y crear política pública para paliar el problema.

Para este proyecto disponemos de una fuente de datos de mediciones de contaminantes ambientales de la ciudad de Seúl en Corea del Sur. 

- Archivo: `seoul.csv`
- Intervalo de recolección de datos: **20 años** (2002 - 2021)
- Ubicaciones de medición distintas: **25**
- Métricas de calidad del aire: **6**
- Cantidad de datos: **4 275 131** puntos
- Ejemplo:

| dt         | loc | lat        | long        | so2   | no2   | co    | o3    | pm10   | pm2.5  |
|------------|-----|------------|-------------|-------|-------|-------|-------|--------|--------|
| ...        | ... | ...        | ...         | ...   | ...   | ...   | ...   | ...    | ...    |
| 2019062505 | 112 | 37.6478908 | 127.0096919 | 0.002 | 0.012 | 0.300 | 0.025 | 24.000 | 16.000 |
| 2019062505 | 113 | 37.6541403 | 127.0268011 | 0.003 | 0.015 | 0.400 | 0.026 | 23.000 | 15.000 |
| 2019062505 | 114 | 37.6587785 | 127.0663167 | 0.004 | 0.033 | 0.400 | 0.011 | 25.000 | 20.000 |
| ...        | ... | ...        | ...         | ...   | ...   | ...   | ...   | ...    | ...    |

Los datos y las métricas de calidad del aire son:

- `dt`: fecha y hora (en el ejemplo: 2019 junio 25, 05:00)
- `loc`: identificador del sensor de la medición
- `lat`: latitud de la ubicación del sensor de la medición
- `long`: longitud de la ubicación del sensor de la medición
- `so2`: dióxido de sulfuro $SO_2$
- `no2`: dióxido de nitrógeno $NO_2$
- `co`: monóxido de carbono $CO$
- `o3`: ozono $O_3$
- `pm10`: materia particulada de 10 micrómetros $PM_{10}$
- `pm2.5`: materia particulada de 2.5 micrómetros $PM_{2.5}$

Estos datos provienen del [gobierno coreano](https://data.seoul.go.kr/) vía Kaggle.

En relación con $PM_{10}$:

> Las PM10 se pueden definir como aquellas partículas sólidas o líquidas de polvo, cenizas, hollín, partículas metálicas, cemento o polen, dispersas en la atmósfera, y cuyo diámetro varía entre 2,5 y 10 µm. La exposición prolongada o repetitiva a las PM10 puede provocar efectos nocivos en el sistema respiratorio de la persona, no obstante, son menos perjudiciales que las PM2,5 ya que al tener un mayor tamaño, no logran atravesar los alveolos pulmonares, quedando retenidas en la mucosa que recubre las vías respiratorias superiores ([Fuente](https://prtr-es.es/Particulas-PM10,15673,11,2007.html): Registro Estatal de Emisiones y Fuentes Contaminantes del Ministerio para la Transición Ecológica y el Reto Demográfico de España).

Y en relación con $PM_{2.5}$:

> La materia particulada o PM (por sus siglas en inglés) 2.5, son partículas muy pequeñas en el aire que tiene un diámetro de 2.5 micrómetros o menos de diámetro. La materia particulada es una mezcla que puede incluir sustancias químicas orgánicas, polvo, hollín y metales. Estas partículas pueden provenir de los automóviles, camiones, fábricas, quema de madera, incendios forestales y otras actividades. Mientras más pequeñas las partículas más profundamente pueden desplazarse dentro de los pulmones cuando respiramos. Se ha demostrado que la contaminación por partículas finas causa muchos efectos serios en la salud incluyendo enfermedades cardíacas y pulmonares ([Fuente](https://oehha.ca.gov/calenviroscreen/indicator/pm25): Office of Environmental Health Hazard Assessment (OEHHA) de California).

Un "índice de calidad del aire" (AQI, *Air Quality Index*) es una forma de sintetizar la concentración de estos indicadores de contaminantes en una región para un momento particular del día.

Estos índices cambian por país. En Canadá, por ejemplo, estos son los rangos y recomendaciones:

| AQI     | Descripción | Recomendaciones de salud                                                                                                                        |
|---------|-------------|-------------------------------------------------------------------------------------------------------------------------------------------------|
| 0–33    | Muy Bueno   | Disfrute de las actividades                                                                                                                     |
| 34–66   | Bueno       | Disfrute de las actividades                                                                                                                     |
| 67–99   | Aceptable   | Personas especialmente sensibles a la contaminación del aire: Planifique actividades al aire libre intensas cuando la calidad del aire sea mejor |
| 100–149 | Malo        | Grupos sensibles: Reduzca o reprograme actividades al aire libre intensas                                                                        |
| 150–200 | Muy Malo    | Grupos sensibles: Evite actividades al aire libre intensas. Todos: Reduzcan o reprogramen actividades al aire libre intensas                       |
| 200+    | Peligroso   | Grupos sensibles: Eviten cualquier actividad física al aire libre. Todos: Reduzcan significativamente las actividades físicas al aire libre        |

El cálculo es realizado con ozono, dióxido de nitrógeno y materia particulada 2.5.

Por ejemplo, el Air Quality Health Index, de Ontario, Canadá, alcanzó niveles récord en la segunda semana de junio 2023 por los incendios forestales y alcanzó el noreste de Estados Unidos, como Nueva York.

### Objetivos

> Sea $M(t)$ una **secuencia aleatoria** dada por el valor de las mediciones de contaminantes del aire, medido cada hora por cada día dentro de un periodo determinado de días.

Nota: $M(t)$ no es igual al total del conjunto de datos disponible. Un "proceso aleatorio" aquí puede ser un conjunto de datos para una sola variable (la medición de un contaminante ambiental) para un periodo particular.

Este proyecto tiene el objetivo de analizar la secuencia aleatoria $M(t)$ en tres secciones distintas:

- Obtención de las funciones muestra y el proceso
- Estacionaridad y momentos
- Ergodicidad

### Asignaciones

- Módulo `proceso`
1. (10 %) Implementar una función `muestra()` capaz de devolver una función muestra $m(t)$ del proceso aleatorio $M(t)$ con los parámetros indicados (ver notas sobre las funciones).
2. (10 %) Implementar una función `proceso()` capaz de devolver el conjunto de funciones muestra que conforman el proceso aleatorio $M(t)$ con los parámetros indicados (ver notas sobre las funciones).
3. (10 %) Implementar una función `grafica()` capaz de graficar una o más funciones muestra del proceso $M(t)$. 
- Módulo `momentos`
4. (10 %) Implementar una función `autocorrelacion()` capaz de encontrar la correlación $R_{MM}(t_1, t_2)$ para la secuencia aleatoria $M(t)$.
5. (10 %) Implementar una función `autocovarianza()` capaz de encontrar la covarianza $C_{MM}(t_1, t_2)$ para la secuencia aleatoria $M(t)$.
- Módulo `estacionaridad`
6. (10 %) Implementar una función `wss()` capaz de determinar si la secuencia aleatoria $M(t)$ es estacionaria en sentido amplio. 
7. (10 %) Implementar una función `prom_temporal()` capaz de encontrar la media temporal $A[m(t)]$ para una función muestra $m(t)$ de la secuencia aleatoria $M(t)$.
8. (10 %) Implementar una función `ergodicidad()` capaz de determinar si la secuencia aleatoria $M(t)$ es ergódica.
- Comprobación de funcionalidad
9. (10 %) Implementar un *script* `revision.py` capaz de probar la funcionalidad de todas las funciones anteriores.

### Notas sobre las funciones

1. Con `muestra()` es necesario utilizar los siguientes parámetros:
- `variable`: cuál de los contaminantes ambientales es incluido
- `loc`: identificador del sensor de la medición 
- `inicio`: año, mes, día y hora de inicio de las mediciones de muestra
- `fin`: año, mes, día y hora de final de las mediciones de muestra

Una llamada de la función puede ser:

```python
proceso.muestra(variable=o3, loc=113, inicio=2020031400, fin=2020031723)
```

2. Con `proceso()` es necesario utilizar los siguientes parámetros:
- `intervalo`: intervalo de tiempo de análisis para la construcción del proceso, puede ser `semanal` o `diario`
- `variable`: cuál de los contaminantes ambientales es incluido
- `loc`: identificador del sensor de la medición 
- `inicio`: mes y día de inicio de las mediciones
- `fin`: mes y día de final de las mediciones

Una llamada de la función puede ser:

```python
proceso.proceso(intervalo=semanal, variable=o3, loc=113, inicio=2020031400, fin=2020031723)
```

En este caso, el proceso aleatorio construido será un conjunto de funciones muestra con un periodo de una semana

- Cuando el proceso describe un intervalo **diario**, los datos estarán indexados por `00`, 

3. En una misma gráfica estarán tantas funciones temporales como sea necesario. Estos datos pueden ser agregados como una "lista de listas". El eje temporal es `dt`. La gráfica debe estar debidamente rotulada en sus ejes, incluyendo unidades (cuando aplica).

4. La autocorrelación 

5. Esto es igual a $E[(P_1 - \overline{P_1})(P_2 - \overline{P_2})]$, donde $P_1$ y $P_2$ son las variables aleatorias del proceso $P(t)$ en los instantes $t_1$ y $t_2$ y $\overline{P_1}$ y $\overline{P_2}$ son sus valores medios.

6. La estacionaridad en sentido amplio debe determinarse dentro de un rango de aceptación, pues las condiciones $E[P] = \text{constante}$ y $R_{PP}(\tau)$ son rigurosas. Este umbral será el siguiente: la media no puede cambiar más del 5% para ser considerada "constante" y la autocorrelación será "igual" si no cambia más de un 5%.

7. El promedio temporal se obtiene para una función muestra. En el proceso aleatorio analizado, una función muestra es un solo día de mediciones de potencia consumida. La función debe ser capaz de encontrar el promedio temporal de cualquier día elegido en los parámetros.

8. La ergodicidad también requiere un margen de aceptación o tolerancia, que será del 5%.

9. La función de densidad espectral de potencia será obtenida para una sola función muestra.

10. El *script* debe mostrar los resultados de forma clara y concisa por medio de una ejecución en la terminal, del tipo `python revision.py`. La persona revisora debe ser capaz de cambiar cualquier parámetro y recibir una respuesta apropiada (incluso si esa respuesta es que el valor ingresado no es permitido).

## Programación del proyecto

Este es un proyecto de programación funcional (basado en funciones), de la misma forma que el Proyecto 3, sin embargo ahora el propósito es también crear un paquete de Python (también llamados librerías o bibliotecas), que será llamado `proceso`, y será desarrollado de forma colaborativa con Git y GitHub. Este paquete tiene varios módulos, cuyas funciones están descritas en las asignaciones: `proceso`, `momentos` y `estacionaridad`.

Cada grupo tiene un repositorio con la siguiente estructura de directorios y archivos:

```
P4GX/
├─ setup.py
├─ proceso/
│  ├─ __init__.py
│  ├─ estacionaridad.py
│  ├─ momentos.py
│  ├─ proceso.py
├─ README.md
├─ HOWTO.md
├─ revision.py
├─ P4.ipynb
├─ .gitignore
```

Al seguir las instrucciones de `HOWTO.md` será posible hacer pruebas como la siguiente:

```python
from proceso import momentos

M = momentos.autocorrelacion(*args, **kwargs)
```

con las funciones aquí implementadas.

> La revisión del proyecto se hará con el código de `revision.py`, que utiliza todas las funciones solicitadas.

---
### Forma de entrega

- Este proyecto se entrega como un repositorio en la cuenta del curso en GitHub con los directorios y archivos necesarios.
    - El repositorio tiene el link `https://github.com/mpss-eie/2023-I-P4GX/` donde `X` es el número del grupo.
- El repositorio será asignado con el nombre de usuario de GitHub de las personas integrantes del grupo y ahí podrán actualizarlo con Git.
- Al momento de la entrega enviarán a Mediación Virtual el *hash* de la confirmación (*commit*) que será revisado, es decir, la última versión antes del cierre del plazo de envío.
- Nota: no modificar la estructura de archivos provista.
- La documentación de lo realizado será en dos lugares:
    - En el archivo `README.md` con formato [Markdown](https://www.markdownguide.org/basic-syntax/).
    - Dentro del mismo código, en la forma de [docstrings](https://peps.python.org/pep-0257/).
- La revisión de código PEP-8 será hecha con [pycodestyle](https://pycodestyle.pycqa.org/en/latest/) y la revisión de *docstrings* con [pydocstyle](http://www.pydocstyle.org/en/stable/). Es recomendable hacer la revisión antes y corregir cualquier indicación ahí dada, para evitar perder puntos en estos rubros.

> "Code is more often read than written." (*Guido van Rossum*)

#### Notas sobre la presentación

Es necesario: 

- Documentación rigurosa de la teoría utilizada para la resolución de los problemas. Por ejemplo: deben estar especificadas las fórmulas, reglas, desarrollos aritméticos u otra teoría utilizada en la programación. Esto se hace en la parte escrita del reporte del proyecto.
- En el caso de un reporte escrito (LaTeX u otro), también incluir los fragmentos de código que resuelven cada parte de las asignaciones.
- Comentarios exhaustivos dentro del código fuente del programa desarrollado. Generalmente, cada línea con una funcionalidad o acción distinta dentro del código debe ser explicada. Por ejemplo: la declaración de nuevas variables.
- Todas las gráficas deben tener ejes señalizados con el nombre de la variable y sus unidades.
- Estricto apego a [PEP 8](https://www.python.org/dev/peps/pep-0008/) - *Style Guide for Python Code*, que define convenciones de escritura de la sintaxis de Python.
- Ortografía perfecta o, al menos, depurada. La ortografía será revisada tanto en la parte escrita como dentro del código en los comentarios. Nota: para el código fuente, Python utiliza por defecto la codificación UTF-8, que admite todos los signos de puntuación (y hasta emojis), de forma que no hay ninguna excusa para no escribir correctamente los comentarios con mayúsculas y tildes, etc.
- Cuando se utilice Markdown o LaTeX, debe utilizarse la estructura para dar formato al texto. Por ejemplo: títulos, listas, fragmentos de código, citas textuales y todos los demás elementos.
- Cuando se utilice *docstrings*, debe utilizarse PEP-257 y alguna de las otras guías de estilo disponibles (NumPy o Google).

#### Referencias

- [Documenting Python Code: A Complete Guide](https://realpython.com/documenting-python-code/)
- [Google Python Style Guide: 3.8 Comments and Docstrings](https://google.github.io/styleguide/pyguide.html#38-comments-and-docstrings)
- [Programiz Python Docstrings](https://www.programiz.com/python-programming/docstrings)


---
**Universidad de Costa Rica** | Facultad de Ingeniería | Escuela de Ingeniería Eléctrica

&copy; 2023

---