![imagenes](logo.png)

# Características fundamentales

## El ruído blanco

Se trata de un tipo especial de serie de tiempo donde los datos no siguen ningún patrón, por lo cual no podemos predecir el futuro.

Se caracteriza por las siguientes condiciones:
* Media constante
* Varianza constante
* Autocorrelación cero

Técnicamente, recordemos que para cada tiempo $t$ tomamos la medida de la característica $X$. Esto es $X_t$. Por lo tanto $X_t$ es una variable aleatoria. Las condiciones anteriores se traducen matemáticamente en:
* $E[X_t]=\mu$ para toda $t$ ($\mu$ no depende de $t$)
* $Var(X_t)=\sigma^2$ para toda $t$ ($\sigma$ no depende de $t$)
* $\rho(X_t,X_s)=0$ para cualesquiera tiempos $s$ y $t$.

Visualmente, esto significa que el gráfico se verá *acostado* y tendrá un *ancho* casi constante. Por otra parte, la condición de autocorrelación 0 significa que **no hay una dependencia lineal entre dos instantes cualesquiera de tiempo** (y por lo tanto, si además la característica $X$ es una gaussiana, entonces las variables $X_t$ y $X_s$ son independientes).

![imagenes](im021.png)

## Caminata aleatoria

Una caminata aleatoria es una seria de tiempo $W$ que cumple que $$W_t=W_{t-1}+\varepsilon_t$$ donde $\varepsilon$ es un ruido blanco con media constante 0.

Básicamente lo que nos está diciendo es que la característica $W$ en el presente depende muy fuertemente del pasado inmediato salvo por una perturbación que no podemos predecir (un caos).

![imagenes](im022.png)

## Estacionariedad

Ya hemos hablado anteriormente de la estacionariedad. La idea es que una serie es estacionario si permanece estable a lo largo del tiempo. Es decir, sus valores oscilan al rededor de un cierto valor, y por lo tanto los gráficos se ven de manera horizontal.

Formalmente, una serie es estacionaria cuando la media $E[X_t]$ y la varianza $Var(X_t)$ son constantes. Es decir, no dependen del instante $t$. Estas condiciones se conocen como **condiciones de primer y segundo orden**.

Como notarás, se trata precisamente de las primeras dos características del ruido blanco.

De esta manera, la no estacionariedad significa que la media cambia, o que la varianza cambia. El cambio en la media se observará como una tendencia (la serie tiende a subir, bajar e incluso *bailar*, como la caminata aleatoria), en tanto que un cambio en la varianza se observará con bandas más anchas y más cortas.



### Tipos de estacionariedad

Existen dos tipos de estacionariedad: débil y fuerte. Ambos cumplen las condiciones de primer y segundo orden. Pero tienen una diferencia sutil pero importante:

**Estacionariedad débil:** las covarianzas sólo dependen del tamaño de paso. 

Es decir, sin importar el momento $t$, para cualquier $h$ tenemos que $$Cov(X_t,X_{t+h})=\gamma(h)$$

Esto significa que la influencia de la característica en el momento $t$ sobre la misma característica en el momento $t+h$ únicamente depende del tiempo ocurrido entre ambas medidas, que es $h$, y no del momento $t$.

**Estacionariedad fuerte:** exige que todas las propiedades estadísticas (no solo las de primer y segundo orden) de la serie sean invariantes bajo traslaciones en el tiempo. Es decir, la distribución conjunta de cualquier subconjunto de valores debe ser idéntica si se desplazan en el tiempo. Matemáticamente, significa que si $h$ es fija entonces el vector aleatorio 

$$(X_t,X_{t+1},...,X_{t+h})$$ 

siempre sigue la misma ley de probabilidades sin importar el valor de $t$. Esta condición es mucho más difícil de cumplir que la estacionariedad débil, y de hecho muy difícilmente se presenta con datos tomados de la realidad, de modo que las técnicas más importantes en el análisis de series de tiempo se aplican usualmente con la estacionariedad débil.

### Prueba de estacionariedad: Dickey-Fuller (DF)

Dicho lo anterior, es de vital importancia saber si nuestra serie de tiempo es estacionaria (en sentido débil). Para ello, se tiene bien diseñada una *prueba de hipótesis* que nos permite someter a juicio la naturaleza estacionaria (o no estacionaria) de las series de tiempo: **Prueba de Dickey-Fuller (DF)**.

La prueba tiene la siguiente estructura:

$$\left\{\begin{array}{l}H_0\,:\,\mbox{ la serie NO es estacionaria}\\H_1\,:\,\mbox{ la serie es estacionaria}\end{array}\right.$$

Recordemos el funcionamiento de las pruebas de hipótesis: en principio no tenemos acceso a todo el fenómeno; es decir, el conocimiento del fenómeno *cualquier instante de tiempo*. Únicamente tenemos el conocimiento del mismo a través de los periodos en los que tomamos las mediciones. Esta sería nuestra muestra.

Precisamente, la **inferencia** es la generalización de ciertas características de la muestra hacia toda la población. Nuestro trabajo en pruebas de hipótesis es el análogo a lo que hace un fiscal durante un jucio: **debemos presentar evidencia para rechazar la hipótesis nula**. Esto no significa probar que la hipótesis nula es falsa, sino evaluar si los datos observados son consistentes o no con $H_0$.

Con esto en mente, se define la autocorrelación de un retraso en el tiempo $t$ como 

$$\varphi_1=\rho(X_t,X_{t-1})$$

Es decir, es la correlación del presente con el pasado inmediato.

En estos términos, la prueba de hipótesis se traduce en 

$$\left\{\begin{array}{l}H_0\,:\,\varphi_1=1\\H_1\,:\,\varphi_1<1\end{array}\right.$$

A continuación se calcula el estadístico de prueba $\lambda_0$, el cuál nos lo dirá **R** o **Python**, y dependiendo de su valor se tomará la decisión con cierta confianza: rechazar (o no) $H_0$. Es decir, la serie es (o no) estacionaria con un cierto nivel de confianza.

| Lenguaje | Paquetería                           | Función         | Ejemplo                              |
|:--------:|:-----------------------------------:|:---------------:|:------------------------------------:|
|  **Python**  | `import statsmodels.tsa.stattools as sts` | `sts.adfuller()` | `sts.adfuller(tabla["columna"])` |
|**R**|`library(tseries)`|`adf.test()` |`adf.test(tabla$columna)`|

Las conclusiones siguen estas reglas. Para significación $\alpha$ se tiene

| *p*-valor   | Decisión          | Significado                  |
|-------------|:-----------------:|-----------------------------|
| $< 1-\alpha$    | Rechazar $H_0$    | La serie es estacionaria    |
| $\ge 1-\alpha$  | No rechazar $H_0$ | La serie no es estacionaria |

Las $\alpha$'s más usuales son 0.90, 0.95 y 0.99 por lo cual se busca un *p*-valor menor que 0.1, 0.05, 0.01.

Así, por ejemplo, si el *p*-valor es 0.003 diríamos que con una confianza del 99% la serie es estacionaria.


## Estacionalidad

La **estacionalidad** sugiere que ciertas tendencias van a aparecer de forma cíclica. Por ejemplo, las temperaturas suben y bajan según la hora del día y los meses del año. 

Hay varias maneras de comprobar si existe la estacionalidad. Una forma es descomponer la serie en tres efectos: la tendencia, la estacionalidad y el ruido. 

La tendencia expresará el patrón a la alta o a la baja; la estacionalidad mostrará los ciclos y el ruido mostrará será la diferencia entre los datos reales y lo que se puede explicar únicamente con la tendencia y la estacionalidad.

Existen dos tipos de descomposición: aditiva y multiplicativa. 

En el enfoque aditivo se está suponiendo que para cualquier momento $t$, el valor observado es la suma de la tendencia en ese momento, mas la estacionalidad en ese momento mas el ruido cometido:

$$X_t=\mu_t+S_t+\varepsilon_t$$

En el enfoque multiplicativo se está suponiendo que para cualquier momento $t$, en lugar de suma de los tres efectos tenemos el producto de ellos:

$$X_t=\mu_t\cdot S_t\cdot\varepsilon_t$$

## Autocorrelación ACF

Vamos a profundizar en el concepto de autocorrelación. Ya hemos comentado que en series de tiempo no podemos tomar una tabla y extraer una muestra de ahí, ya que perderíamos la información cronológica. Además, a menudo queremos descubrir los vínculos entre el pasado y el presente.

Recordemos la definición de correlación: si $X$ y $Y$ son dos variables aleatorias, se define su correlación como 

$$Cor(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)}\cdot\sqrt{Var(Y)}}$$

y nos sirve para medir qué tan relacionadas están, linealmente, las dos variables: si la correlación es 0, no hay relación lineal (aunque puede haber de otro tipo; por ejemplo $Y=X^2$); si la correlación tiene valor absoluto 1, entonces hay una relación lineal: $Y=aX+b$ para algunos números $a$ y $b$ constantes.

En series de tiempo, nos interesa conocer cómo se correlaciona una característica en el tiempo $t$ con la misma característica en un tiempo pasado: $Cor(X_t,X_{t-k})$. Ten bien presente esto: **cómo se relaciona linealmente el presente con el pasado en la misma característica**. Por ejemplo, cómo se correlaciona la estatura de un individuo o el tamaño de una población en el presente con la estatura del mismo individuo o el tamaño de la población en, por ejemplo, el pasado de hace 2 años (es decir, $k=2$).

A esta correlación del presente con el pasado se le llama **autocorrelación**. La $k$, que representa cuántos periodos hacia el pasado queremos investigar, se llama **retraso**.

![imagenes](im023.png)

### Ejemplo

#### Interpretación de la Autocorrelación 

Observemos la autocorrelación para los datos la tabla ``delitos_mensuales.csv`` del repositorio de data.

![imagenes](im024.png)

La gráfica de la ACF refleja los patrones temporales en una serie mensual de delitos, considerando 36 lags (retrasos). A continuación, se detalla un análisis más profundo.

---

#### 1. Dependencia temporal en el corto plazo (lags pequeños)
- Los primeros **lags** (1 a 5) muestran autocorrelaciones significativas y positivas, aunque decrecen gradualmente.
  - Esto indica que los delitos en un mes están moderadamente correlacionados con los meses inmediatamente anteriores.
  - Es decir:
    - Si un mes tiene una alta incidencia de delitos, es probable que los meses siguientes mantengan una tendencia similar.
  - Esto puede reflejar **persistencia temporal** influenciada por:
    - Dinámicas sociales o económicas.
    - Respuestas de las fuerzas de orden público.
    - Cambios graduales en las condiciones del entorno.

---

#### 2. Estacionalidad fuerte (lags múltiples de 12)
- Los picos significativos en los lags **12, 24 y 36** sugieren un **patrón anual repetitivo**:
  - **Lag 12**: Alta correlación entre un mes y el mismo mes del año anterior.
  - **Lag 24 y 36**: Este patrón se repite en los años siguientes.
- Esto indica una **estacionalidad anual clara**, posiblemente causada por:
  - **Factores estacionales**: Mayor criminalidad en ciertos meses por eventos como:
    - Festividades o vacaciones escolares.
    - Cambios climáticos (invierno o verano).
  - **Ciclos socioeconómicos**: Por ejemplo, períodos de mayor estrés económico podrían coincidir con más delitos en ciertos meses.

---

#### 3. Disminución gradual del efecto temporal (tendencia hacia cero)
- A medida que aumenta el lag, las autocorrelaciones (excepto los picos estacionales) tienden hacia cero.
  - Esto es típico en series temporales **estacionarias**, donde las correlaciones de largo plazo disminuyen.
- Este comportamiento sugiere que:
  - Los delitos en meses pasados influyen menos en los niveles actuales a medida que el tiempo transcurre.
  - Los delitos son más influenciados por factores recientes que por eventos lejanos en el tiempo.

---

#### 4. Presencia de ruido o fluctuaciones (lags no significativos)
- Los lags intermedios (por ejemplo, entre **6-11, 13-23**) no son estadísticamente significativos.
  - Esto refleja **variabilidad aleatoria** en los delitos, posiblemente relacionada con:
    - Eventos puntuales no regulares (tormentas, eventos políticos o sociales, etc.).
    - Factores impredecibles en la criminalidad.

---

#### Conclusión
Este análisis confirma que:
1. Los delitos tienen un **patrón estacional fuerte**, probablemente relacionado con factores culturales, sociales o climáticos.
2. Existe una dependencia temporal de corto plazo, pero esta disminuye rápidamente.
3. Más allá de los patrones regulares, hay un nivel significativo de **ruido** o variabilidad, reflejando eventos puntuales o impredecibles.

Para complementar este análisis, sería útil examinar la **Función de Autocorrelación Parcial (PACF)** para determinar el orden exacto de los términos autorregresivos (AR) y de promedio móvil (MA) en un modelo SARIMA. Esto permitirá capturar de manera más precisa las dinámicas de la serie.

## Autocorrelación parcial PACF

La autocorrelación parcial es una medida que se utiliza en el análisis de series de tiempo para entender la relación entre un valor de la serie y los valores en puntos de tiempo anteriores (lags), controlando la influencia de las correlaciones intermedias. Es decir, muestra la correlación entre dos puntos de la serie de tiempo, eliminando el efecto de los puntos intermedios.

Así, la autocorrelación mide la correlación entre los valores de la serie y sus propios valores en diferentes lags. No elimina la influencia de otros lags intermedios, por lo que puede ser una combinación de efectos. En tanto la autocorrelación parcial mide la correlación entre un valor de la serie y un valor en un lag específico, después de eliminar el efecto de todas las correlaciones con los lags intermedios. Es una forma de "aislar" la influencia directa de un lag específico sobre la serie.





### Ejemplo

Observemos la autocorrelación parcial para los datos la tabla ``delitos_mensuales.csv`` del repositorio de data.

![imagenes](im025.png)

La **PACF** nos muestra las correlaciones parciales entre los valores actuales de la serie y sus lags (retrasos), eliminando la influencia de los lags intermedios. Esto es clave para identificar el orden autorregresivo (AR) en modelos de series temporales como ARIMA o SARIMA. Aquí está el análisis detallado:

---

#### **1. Análisis de los primeros lags (corto plazo)**
- Los **lags 1, 2 y 3** muestran correlaciones parciales significativas (barras que sobresalen del intervalo de confianza sombreado).
  - Esto indica que los valores de la serie tienen dependencia directa de los últimos tres meses, una vez eliminada la influencia de otros retrasos intermedios.
  - En términos de modelado, esto sugiere la necesidad de un componente autorregresivo (AR) con orden al menos **3**.
- **Posible interpretación**:
  - Factores a corto plazo, como dinámicas sociales, económicas o respuesta institucional, pueden influir directamente en la criminalidad reciente.

---

#### **2. Lag significativo alrededor del 12 (estacionalidad anual)**
- Hay un **pico significativo en el lag 12**, lo que refuerza un patrón **estacional anual**. Esto significa que:
  - Los valores en un mes están correlacionados directamente con los valores del mismo mes en el año anterior.
  - Este comportamiento se observa también en los datos de la ACF y confirma la periodicidad anual en los delitos.
- **Implicación en el modelado**:
  - En un modelo SARIMA, este patrón se captura mediante un **componente autorregresivo estacional (SAR)** de orden **1** con una periodicidad de 12 meses.

---

#### **3. Lag negativo significativo (lag 13)**
- El **lag 13** tiene una correlación parcial negativa significativa. Esto sugiere que:
  - Existe una relación inversa entre los valores actuales de la serie y los valores de hace 13 meses.
  - Este comportamiento podría deberse a un efecto estacional adicional (menor o desplazado), algún patrón cíclico específico o fluctuaciones en las dinámicas sociales o económicas.
- **Posible interpretación**:
  - La relación inversa en el lag 13 podría estar asociada a un fenómeno puntual en la serie, como una dinámica de compensación o rebote entre ciertos meses o años.

---

#### **4. Disminución de la significancia después del lag 15**
- Después del lag 15, las correlaciones parciales oscilan alrededor de cero y no son significativas.
  - Esto indica que no existe una relación directa a largo plazo más allá de los primeros lags y de la estacionalidad anual.
- **Conclusión sobre la dependencia temporal**:
  - La serie no parece tener dependencias prolongadas o patrones de largo plazo (más allá de los ciclos estacionales y las dependencias de corto plazo).
  - Cualquier patrón adicional probablemente se debe al ruido o variabilidad aleatoria.

---


#### **5. Contexto y explicación práctica**
##### **Relación a corto plazo**
- La dependencia de los lags 1-3 puede reflejar dinámicas sociales o económicas inmediatas:
  - Ejemplo: El aumento en delitos en un mes puede extenderse a los siguientes meses debido a condiciones similares o continuidad en ciertos factores.

##### **Estacionalidad**
- La correlación significativa en el lag 12 (y posiblemente múltiplos de 12) puede deberse a factores recurrentes como:
  - **Estaciones del año**: Invierno o verano afectan la movilidad de las personas y la frecuencia de ciertos tipos de delitos.
  - **Eventos culturales o festivos**: Festividades o vacaciones escolares pueden alterar los patrones de criminalidad.

##### **Efectos específicos (lag 13 negativo)**
- La correlación negativa en el lag 13 puede estar asociada a un patrón cíclico desplazado o a efectos de compensación entre meses específicos.

---

#### Conclusión
La PACF confirma:
1. Una **fuerte estacionalidad anual**, reflejada en el lag 12.
2. Dependencias de **corto plazo significativas** (lags 1-3), que deben modelarse con términos autorregresivos.
3. Ausencia de relaciones significativas a largo plazo o más allá de los patrones estacionales.
