<a href="https://colab.research.google.com/github/equisdel/weather-datasets/blob/main/weather_datasets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TRABAJO PRÁCTICO ESPECIAL**

## **Integrantes**

*   Adriel Ram Ferrero.
*   Delfina Milagros Ferreri.
*   Emiliana Girardi.



##**Enunciado general**
Se dispone de tres señales (S1, S2 y S3) correspondientes a los valores diarios de temperatura promedio de tres ciudades diferentes (Buenos Aires, Bogotá y Vancouver) durante cierto periodo de tiempo. \
NOTA: los valores de temperatura están expresados en grados celsius, son números enteros para simplificar su uso en este trabajo y se los puede considerar como representativos del comportamiento de las temperaturas diarias en cada ciudad. \
**El TPE consiste en la resolución de los siguientes ítems, mediante su implementación computacional y análisis de los resultados obtenidos, de acuerdo a las pautas de desarrollo y de entrega que se indican a continuación.**



### **Fetching de los datasets**
Antes de comenzar a resolver las consignas particulares, utilizamos la librería `requests` para recuperar los tres datasets a utilizar en este trabajo. Estos datos fueron previamente almacenados en un [repositorio de Github](https://github.com/equisdel/weather-datasets.git).

Con un procesamiento adicional, obtenemos para cada ciudad una lista de longitud $n$ cuyos elementos son números enteros que representan la temperatura promedio de cada día $i$, siendo $0\leq i<n$.

In [None]:
import numpy as np
import requests

S1_buenosAires = list(map(int,requests.get('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S1_buenosAires.csv').text.splitlines()))
S2_bogota = list(map(int,requests.get('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S2_bogota.csv').text.splitlines()))
S3_vancouver = list(map(int,requests.get('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S3_vancouver.csv').text.splitlines()))

print('Average temperature per day in \033[1mBuenos Aires, ARG:\n',S1_buenosAires,'\n',len(S1_buenosAires),'datos.\n')
print('Average temperature per day in \033[1mBogotá, COL:\n',S2_bogota,'\n',len(S2_bogota),'datos.\n')
print('Average temperature per day in \033[1mVancouver, CAN:\n',S3_vancouver,'\n',len(S3_vancouver),'datos.\n')

Average temperature per day in [1mBuenos Aires, ARG:
 [28, 23, 23, 25, 26, 21, 21, 24, 19, 16, 19, 22, 23, 25, 27, 22, 18, 21, 24, 23, 23, 25, 26, 22, 21, 24, 24, 19, 19, 20, 25, 19, 19, 22, 19, 18, 20, 23, 24, 25, 22, 23, 23, 25, 24, 22, 23, 20, 15, 21, 26, 24, 18, 18, 20, 20, 21, 23, 20, 20, 21, 23, 19, 17, 19, 20, 18, 19, 21, 21, 21, 21, 20, 21, 20, 17, 26, 21, 23, 25, 23, 23, 21, 22, 19, 23, 23, 17, 15, 15, 16, 16, 19, 22, 24, 21, 20, 21, 17, 13, 13, 12, 13, 15, 18, 16, 18, 19, 16, 10, 11, 11, 14, 16, 16, 16, 17, 16, 15, 17, 15, 12, 17, 20, 14, 12, 11, 18, 17, 14, 12, 14, 17, 17, 17, 16, 13, 9, 8, 9, 13, 11, 8, 8, 8, 7, 9, 10, 10, 11, 12, 13, 10, 12, 13, 19, 15, 8, 7, 12, 14, 8, 13, 7, 3, 8, 7, 5, 7, 9, 8, 10, 13, 16, 10, 3, 7, 8, 6, 1, 7, 7, 9, 8, 9, 14, 9, 11, 12, 13, 9, 15, 9, 9, 8, 6, 5, 5, 4, 4, 4, 7, 10, 13, 16, 11, 9, 12, 10, 11, 4, 4, 9, 8, 6, 3, 7, 10, 10, 8, 7, 5, 9, 11, 12, 12, 8, 6, 5, 7, 7, 8, 8, 12, 16, 17, 14, 15, 14, 12, 15, 10, 13, 14, 7, 8, 14, 22, 25, 23, 14, 12

## **Consigna [ 1 ]**
Se requiere hacer diferentes análisis estadísticos a partir de estos valores, por lo que se solicita obtener:

1. Media y desvío de cada una de las señales. Analizar y comparar.
2. Factor de correlación cruzada para cada par de señales. Analizar y comparar.


---
### **Medidas de tendencia central y dispersión**

**Media Aritmética**

---
Analíticamente, la media aritmética para una variable estocástica $X$,
que toma los valores $x1..xn$ con las respectivas probabilidades $p1..pn$,
se calcula como **$<X> \, = ∑_{i=1}^{n} x ⋅ p(x)$**. \
Dado que inicialmente no conocemos las probabilidades, nuestro método calcula la media aritmética de una manera más *rústica*, recorriendo la fuente elemento a elemento para calcular la sumatoria de todas las temperaturas y luego dividir dicho valor por la cantidad total de datos. \
Esto da como resultado la temperatura promedio en determinada ciudad a lo largo del tiempo.



**Desvío Estándar**

---
El desvío estándar para $X$, haciendo provecho de la implementación del método que retorna la media, se calcula como:
**$σ(X) = \sqrt{<x^2> \cdot <X>^2}$**

#### **Código**

In [None]:
# Cálculo de la media aritmética
def getMedia(data, pow=1):
  suma = 0
  for i in data:
    suma += i**pow           # pow = 2 utilizado en cálculo de desvío
  return suma / len(data)

# Cálculo del desvío estándar
def getDesvio(data):
  media_del_cuadrado = getMedia(data,2)
  media_al_cuadrado = getMedia(data)**2
  return (media_del_cuadrado - media_al_cuadrado)**(1/2)

# Obtener las métricas de la fuente
def getStats(data):
  stats = {'media': '', 'desvío': ''}
  precision = 2 # digitos después de la coma
  stats['media'] = round(getMedia(data),precision)
  stats['desvío'] = round(getDesvio(data),precision)
  return stats

# Cálculo de las métricas para las tres ciudades
print('S1 (Buenos Aires): ', getStats(S1_buenosAires))
print('S2 (Bogotá):       ', getStats(S2_bogota))
print('S3 (Vancouver):    ', getStats(S3_vancouver))

S1 (Buenos Aires):  {'media': 16.52, 'desvío': 5.98}
S2 (Bogotá):        {'media': 12.9, 'desvío': 1.06}
S3 (Vancouver):     {'media': 10.07, 'desvío': 5.62}


#### **Análisis y comparación**

A partir de los resultados podemos enunciar lo siguiente:
* La ciudad donde más calor hace en promedio es Buenos Aires, Argentina, con un valor de 16.5°C. Buenos Aires es también la ciudad con mayor desvío, es decir, donde la temperatura suele variar más que en las demás.
* La ciudad donde más frío hace en promedio es Vancouver, Canadá, con un valor de 10°C. Similarmente a lo que ocurre en Buenos Aires, podría decirse que la temperatura varía mucho también, aunque un poco menos.
* La diferencia de las temperaturas promedio entre Buenos Aires y Vancouver es de unos 6 grados y medio.
* La ciudad de Bogotá presenta un promedio de temperatura diaria de 12.9°C. Cabe notar que el desvío obtenido es bastante bajo en relación al de las otras dos ciudades, lo que significa que las temperaturas son más estables en Bogotá.
* Sospechamos que la razón por la cuál los desvíos resultaron tan altos en Buenos Aires y en Vancouver mientras que el de Bogotá fue bajo se relaciona con la ubicación de las ciudades con respecto a la línea del Ecuador. En las primeras dos las estaciones impactan con más fuerza sobre las temperaturas, mientras que en Bogotá no sucede tan así dado que las variaciones en la cantidad de luz solar que recibe durante el año son mínimas.
* En las tres ciudades, sobre el registro de las temperaturas medias de todos los días durante aproximadamente 19 años, se obtuvieron valores promedio pertenecientes a la categoría M (temperatura moderada: de 10°C a 20°C).


---
### **Factor de correlación cruzada**

## **Consigna [ 2 ]**
A partir de cada una de las señales $S_i$ se desea crear una nueva señal $T_i$  que indique si la temperatura $t$ registrada cada día es Baja, Alta o Moderada, considerando los siguientes rangos: \
**(B)**aja: $t < 10$ \
**(M)**oderada: $10 \leq t < 20$ \
**(A)**lta: $t \geq 20$

Modelar cada nueva señal Ti  como una fuente markoviana, obteniendo su matriz de pasaje, y: \

1.   Calcular la entropía de cada fuente, con y sin memoria. Interpretar y comparar.
2.   Generar un conjunto de códigos mediante Huffman para los símbolos de cada señal Ti original y para la extensión de cada señal a orden 2 (Ti2). Calcular la longitud promedio de cada codificación y analizar según el 1° teorema de Shannon.
3. Calcular la longitud total en bits de cada señal codificada con Huffman y obtener la tasa de compresión obtenida respecto del tamaño del archivo original.

**Nota**: no se requiere almacenar el archivo comprimido “a nivel bit”, pero sí tomar en cuenta el tamaño correspondiente en bits para los cálculos

---
### **Categorización de las temperaturas**

El método de categorización recorre la fuente dada elemento a elemento, categorizando cada valor de temperatura según el criterio dado (Alta, Media, Baja). Retorna una lista equivalente cuyos valores se reducen a un alfabeto de tres símbolos: 'A', 'B', 'M'. \
Esta simplificación resulta inevitablemente en pérdida de información.

In [None]:
# Categoriza cada valor de temperatura de la fuente dada en (A)lta, (M)edia o (Baja).
def categorized(data):
  result = []
  for t in data:
    if t < 10:
      result.append('B')
    elif t < 20:
      result.append('M')
    else:
      result.append('A')
  return result

cat_S1 = categorized(S1_buenosAires)
cat_S2 = categorized(S2_bogota)
cat_S3 = categorized(S3_vancouver)

---
### **Matriz de transición**

La matriz de transición de estados [explicar brevemente] \
\
Para calcularla nuestro método realiza lo siguiente:
1. Inicializa una matriz $M$ de 3x3, asociando los símbolos de a pares. Para eso proponemos un mapeo de los símbolos a los índices 0, 1, 2. ``` index = { 'A': 0, 'M': 1 , 'B': 2 } ``` \
Inicialmente todos los elementos de la matriz se setean en 0. \

2. Recorre la fuente previamente categorizada actualizando en cada momento el conteo de las ocurrencias de los símbolos tomándolos de a pares $S_1\rightarrow S_j$. \
Ejemplo: si en un momento dado aparece 'A' -$ \,S_i\,$ - y luego 'M' -$\,S_j\,$-, incrementaremos en uno el valor almacenado en $M[0][1]$. \

3. Al final divide cada conteo por la sumatoria de su columna, que representa la cantidad de ocurrencias del símbolo $S_i$ por sí solo. \

Siguiendo estos pasos obtenemos como resultado la matriz de transición de estados para la fuente dada.

In [None]:
# Mapa: símbolo <-> índice de la matriz
index = { 'A': 0,
          'M': 1,
          'B': 2  }


# Dada una fuente devuelve su matriz de transición
def getMatrizDeTransicion(temperaturas):

  # Inicialización de la matriz
  n = len(index)
  matriz = np.zeros((n,n))

  # Recorrido de la lista y conteo de a pares
  for i in range(len(temperaturas)-1):
    matriz[index[temperaturas[i]], index[temperaturas[i+1]]] +=1

  # Cálculo de probabilidad: casos favorables / casos totales
  suma_col = matriz.sum(axis=0)   # Arreglo con la suma de cada columna
  suma_col = np.where(suma_col == 0, 1, suma_col)  # Evitar división por 0 reemplazando por 1
  matriz = matriz / suma_col      # Cada elemento se divide por la suma de su columna

  return matriz


matriz_S1 = getMatrizDeTransicion(cat_S1);
matriz_S2 = getMatrizDeTransicion(cat_S2);
matriz_S3 = getMatrizDeTransicion(cat_S3);
print(matriz_S1)
print(matriz_S2)
print(matriz_S3)

[[0.81871102 0.1230943  0.        ]
 [0.18128898 0.79023151 0.30947581]
 [0.         0.0866742  0.69052419]]
[[0.         0.         0.        ]
 [0.         0.99696268 0.84      ]
 [0.         0.00303732 0.16      ]]
[[0.59585492 0.02338831 0.        ]
 [0.40414508 0.90764618 0.06744868]
 [0.         0.06896552 0.93255132]]


a.	Calcular la entropía de cada fuente, con y sin memoria. Interpretar y comparar.


---
### **Vector Estacionario**

El vector estacionario de una fuente es [explicar brevemente]. \

Si bien el enunciado no pide explícitamente que lo calculemos, precisamos la distribución de probabilidades marginales para cuantificar la entropía de las fuentes. Decidimos calcularlo por dos métodos separados:
1. Recorriendo nuevamente la fuente, llevando conteos de las ocurrencia de cada símbolo y devolviendo como resultado un arreglo de tres elementos que contenga, para cada símbolo, los casos favorables sobre casos totales (probabilidades marginales reales).
2. Utilizando el motor de Montecarlo (probabilidades marginales aproximadas).

Como grupo nos pareció interesante hacerlo de esta manera por dos razones. \
La primera es que emplear dos técnicas distintas nos permite verificar el resultado. Como MonteCarlo recibe la matriz de transición como parámetro para generar el vector estacionario, un resultado lo suficientemente cercano al obtenido por el método tradicional nos asegura que la matriz generada anteriormente es correcta. \
La otra razón es que conociendo la distribución real podríamos - si quisieramos - comparar el rendimiento del algoritmo basado en MonteCarlo para distintos valores de iteraciones mínimas y error.

#### **Método tradicional**

In [None]:
def getDistribucion(temperaturas):

  probabilidades = {key: 0 for key in index}

  for t in temperaturas:
    if t in probabilidades.keys():
      probabilidades[t] = probabilidades[t] + 1
    else:
      probabilidades[t] = 1

  for i in probabilidades:
    probabilidades[i] = probabilidades[i]/len(temperaturas)

  return probabilidades

dist_S1 = getDistribucion(cat_S1)
dist_S2 = getDistribucion(cat_S2)
dist_S3 = getDistribucion(cat_S3)

print(dist_S1)
print(dist_S2)
print(dist_S3)

{'A': 0.346685878962536, 'M': 0.5103746397694524, 'B': 0.14293948126801154}
{'A': 0.0, 'M': 0.9963976945244957, 'B': 0.0036023054755043226}
{'A': 0.027813806023922756, 'M': 0.480616803574002, 'B': 0.4915693904020752}


#### **Simulación MonteCarlo**

In [None]:
def getVectorEstacionario_MC(matrizDeTransicion):

  MIN_I = 100     # Mínimo de iteraciones
  epsilon = 1e-6  # Error

  # Matriz de probabilidades acumuladas
  m_acum = matrizDeTransicion.cumsum(axis=0)

  s_actual = 0                # simbolo actual
  v_anterior = np.zeros(3)    # distribución de probabilidades en iteracion anterior
  v_actual = np.zeros(3)      # distribución de probabilidades en iteracion actual
  counter = np.zeros(3)       # contador de ocurrencias

  def converge(anterior,actual):
      for i in range(3):
          if (abs(anterior[i]-actual[i]) > epsilon):
              return False
      return True

  def sigSimbolo(actual):
      r = np.random.default_rng()
      p_float = r.random()
      for i in range(3):
          if (p_float < m_acum[i,actual]):
              return i

  i = 1
  while (not converge(v_anterior,v_actual) or i < MIN_I):
      s_actual = sigSimbolo(s_actual)
      counter[s_actual] += 1
      for j in range(3):
          v_anterior[j] = v_actual[j]
          v_actual[j] = counter[j]/i;
      i += 1

  print('MonteCarlo Sim: ',i,'iteraciones.')

  return v_actual



def getDistribucion_MC(matrizDeTransicion):
  global index
  dist = {}
  dist_v = getVectorEstacionario_MC(matrizDeTransicion)
  for i in index:
    dist[i] = dist_v[int(index[i])]
  return dist



dist_S1_MC = getDistribucion_MC(matriz_S1)
print(dist_S1_MC)

MonteCarlo Sim:  487237 iteraciones.
{'A': 0.34602328235187874, 'M': 0.5127658875780936, 'B': 0.14121083007002766}


---
### **Entropía**

La entropía
𝐻
H de una fuente sin memoria se calcula utilizando la fórmula de Shannon:

𝐻(𝑋)=−∑𝑖𝑃(𝑥𝑖)log⁡2𝑃(𝑥𝑖)H(X)=−∑ i​ P(x i​ )log 2​ P(x i)

LO DE ABAJO NO VA !!
La entropía de símbolo en determinada fuente es [explicar brevemente]. \
Se calcula como [fórmula de entropía] dada una distribución de probabilidad. \
Se entiende como la menor longitud .... \
distribución ingresada en formato de diccionario, donde la llave es el símbolo y la clave es su respectiva probabilidad.

In [None]:
# H = - sum( pi * log2(pi) )

def getEntropia_SM(distribucion):

  suma = 0

  for i in distribucion:
    if distribucion[i] != 0:
      pi = distribucion[i]
      suma += pi * np.log2(pi)

  return suma*(-1)

#### **Sin memoria**

In [None]:
print('Entropía para la fuente S1 -Buenos Aires- sin memoria: ',getEntropia_SM(dist_S1))
print('Entropía para la fuente S2 -Bogotá- sin memoria:       ',getEntropia_SM(dist_S2))
print('Entropía para la fuente S3 -Vancouver- sin memoria:    ',getEntropia_SM(dist_S3))

Entropía para la fuente S1 -Buenos Aires- sin memoria:  1.4262557016176838
Entropía para la fuente S2 -Bogotá- sin memoria:        0.034427079101625305
Entropía para la fuente S3 -Vancouver- sin memoria:     1.1554040169195305


#### **Con memoria**

In [None]:
def getDistribucionCondicional(i, matrizDeTransicion):
  dist_cond = {}
  for j in index:
    if matrizDeTransicion[index[i]][index[j]] != 0:
      dist_cond[f'{j}/{i}'] = matrizDeTransicion[index[j]][index[i]]
  return dist_cond

def getEntropia_CM(distribucion, matrizDeTransicion):
  suma = 0
  for i in distribucion:
    suma += distribucion[i] * getEntropia_SM(getDistribucionCondicional(i, matrizDeTransicion))
  return suma

print('Entropía para la fuente S1 -Buenos Aires- con memoria: ',getEntropia_CM(dist_S1,matriz_S1))
print('Entropía para la fuente S2 -Bogotá- con memoria:       ',getEntropia_CM(dist_S2,matriz_S2))
print('Entropía para la fuente S3 -Vancouver- con memoria:    ',getEntropia_CM(dist_S3,matriz_S3))

Entropía para la fuente S1 -Buenos Aires- con memoria:  0.8472597497939416
Entropía para la fuente S2 -Bogotá- con memoria:        0.031954004463400305
Entropía para la fuente S3 -Vancouver- con memoria:     0.451996801221518


#### **Análisis y comparación**

In [None]:
#Calculo de las probabilidades conjuntas para orden 2 (en diccionario)
def probConjuntasSinMemoria(marginales):
  claves = list(marginales.keys())
  diccionario = {}
  for clave1 in claves:
    for clave2 in claves:
        combinacion = clave1 + clave2
        diccionario[combinacion] = marginales[clave1] * marginales[clave2]
  return diccionario

def probConjuntasMark(vectorEstacionario, matrizTrans):
    global index
    claves = list(vectorEstacionario.keys())
    diccionario = {}
    for clave1 in claves:
        for clave2 in claves:
            combinacion = clave1 + clave2
            diccionario[combinacion] = vectorEstacionario[clave1] * matrizTrans[index[clave1], index[clave2]]
    return diccionario

x = probConjuntasSinMemoria(dist_S1)
suma_1 = [x[i] for i in x]
print(sum(suma_1))

x = probConjuntasMark(dist_S1,matriz_S1)
suma_1 = [x[i] for i in x]
print(sum(suma_1))  # ¿Por qué la suma no da 1?


# ¿Por qué dan tan alto las entropías?
print(getEntropia_SM(probConjuntasSinMemoria(dist_S1)))
print(getEntropia_SM(probConjuntasMark(dist_S1, matriz_S1)))

1.0
1.0913909610378165
2.852511403235368
2.384728303094185


In [None]:
# Obtener la matriz de transición en formato diccionario
def getDistribucionCondicional(matrizDeTransicion):
  dist_cond = {}
  for i in index:
    for j in index:
      dist_cond[f'{j}/{i}'] = matrizDeTransicion[index[j]][index[i]]
  return dist_cond

getDistribucionCondicional(matriz_S1)

{'A/A': 0.8187110187110187,
 'M/A': 0.1812889812889813,
 'B/A': 0.0,
 'A/M': 0.12309429700734048,
 'M/M': 0.790231507622812,
 'B/M': 0.08667419536984754,
 'A/B': 0.0,
 'M/B': 0.3094758064516129,
 'B/B': 0.6905241935483871}

---
### **Codificación de Huffman**