<a href="https://colab.research.google.com/github/equisdel/weather-datasets/blob/main/weather_datasets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TRABAJO PRÁCTICO ESPECIAL**

### **Integrantes**

*   Adriel Ram Ferrero.
*   Delfina Milagros Ferreri.
*   Emiliana Girardi.



### **Enunciado general**
Se dispone de tres señales (S1, S2 y S3) correspondientes a los valores diarios de temperatura promedio de tres ciudades diferentes (Buenos Aires, Bogotá y Vancouver) durante cierto periodo de tiempo. \
NOTA: los valores de temperatura están expresados en grados celsius, son números enteros para simplificar su uso en este trabajo y se los puede considerar como representativos del comportamiento de las temperaturas diarias en cada ciudad. \
**El TPE consiste en la resolución de los siguientes ítems, mediante su implementación computacional y análisis de los resultados obtenidos, de acuerdo a las pautas de desarrollo y de entrega que se indican a continuación.**



### **Fetching de los datasets**
Antes de comenzar a resolver las consignas particulares, utilizamos la librería `panda` para recuperar los tres datasets en formato CSV a utilizar en este trabajo. Estos se encuentran almacenados en un [repositorio de Github](https://github.com/equisdel/weather-datasets.git).

In [None]:
import pandas as pd

S1_buenosAires = pd.read_csv('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S1_buenosAires.csv')
S2_bogota = pd.read_csv('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S2_bogota.csv')
S3_vancouver = pd.read_csv('https://raw.githubusercontent.com/equisdel/weather-datasets/main/datasets/S3_vancouver.csv')

print('Average temperature per day \nin \033[1mBuenos Aires, ARG: \n\n',S1_buenosAires,'\n\n')
print('Average temperature per day \nin \033[1mBogotá, COL: \n\n',S2_bogota,'\n\n')
print('Average temperature per day \nin \033[1mVancouver, CAN: \n\n',S3_vancouver,'\n\n')



Average temperature per day 
in [1mBuenos Aires, ARG: 

       AvgTemp [°C]
0               28
1               23
2               23
3               25
4               26
...            ...
6935            26
6936            28
6937            29
6938            29
6939            25

[6940 rows x 1 columns] 


Average temperature per day 
in [1mBogotá, COL: 

       AvgTemp [°C]
0               12
1               14
2               10
3               11
4               11
...            ...
6935            12
6936            14
6937            13
6938            13
6939            12

[6940 rows x 1 columns] 


Average temperature per day 
in [1mVancouver, CAN: 

       AvgTemp [°C]
0                0
1               -1
2               -1
3               -1
4               -1
...            ...
6934             5
6935             5
6936             5
6937             4
6938             5

[6939 rows x 1 columns] 




### **Consigna [ 1 ]**
Se requiere hacer diferentes análisis estadísticos a partir de estos valores, por lo que se solicita obtener:

1. Media y desvío de cada una de las señales. Analizar y comparar.
2. Factor de correlación cruzada para cada par de señales. Analizar y comparar.


Implementamos funciones para calcular de manera aislada la media aritmética, el desvío estándar y el factor de correlación cruzada. \

La media aritmética para una variable estocástica X, que toma valores x1..xn con probabilidades x1..xn, se calcula como: \
**$<X> \, = ∑_{i=1}^{n} x ⋅ p(x)$**

El desvío estándar para X, haciendo provecho de la función de la media, se calcula como: \
**$σ(X) = \sqrt{<x^2> \cdot <X>^2}$**

In [None]:
def getMedia(dataframe, pow=1):
  suma = 0
  for row in dataframe.values:
    suma += row[0]**pow           # pow = 2 utilizado en cálculo de desvío
  return suma/dataframe.size


def getDesvio(dataframe):
  media_del_cuadrado = getMedia(dataframe,2)
  media_al_cuadrado = getMedia(dataframe)**2
  return (media_del_cuadrado - media_al_cuadrado)**(1/2)

In [None]:
def getStats(dataframe):

  # definición sobre las métricas a calcular
  stats = {'media': '', 'desvío': ''}
  precision = 3 # digitos después de la coma

  stats['media'] = round(getMedia(dataframe),precision)
  stats['desvío'] = round(getDesvio(dataframe),precision)

  return stats

In [None]:
print('S1 (Buenos Aires): ', getStats(S1_buenosAires))
print('S2 (Bogotá):       ', getStats(S2_bogota))
print('S3 (Vancouver):    ', getStats(S3_vancouver))

S1 (Buenos Aires):  {'media': 16.523, 'desvío': 5.983}
S2 (Bogotá):        {'media': 12.896, 'desvío': 1.063}
S3 (Vancouver):     {'media': 10.069, 'desvío': 5.625}


A partir de los resultados podemos enunciar lo siguiente:
* La ciudad donde más calor hace en promedio es Buenos Aires, Argentina, con un valor de 16.5°C. Buenos Aires es también la ciudad con mayor desvío, es decir, donde la temperatura suele variar más que en las demás.
* La ciudad donde más frío hace en promedio es Vancouver, Canadá, con un valor de 10°C. Similarmente a lo que ocurre en Buenos Aires, podría decirse que la temperatura varía mucho también, aunque un poco menos.
* La diferencia de las temperaturas promedio entre Buenos Aires y Vancouver es de unos 6 grados y medio.
* La ciudad de Bogotá presenta un promedio de temperatura diaria de 12.9°C. Cabe notar que el desvío obtenido es bastante bajo en relación al de las otras dos ciudades, lo que significa que las temperaturas son más estables en Bogotá.
* Sospechamos que la razón por la cuál los desvíos resultaron tan altos en Buenos Aires y en Vancouver mientras que el de Bogotá fue bajo se relaciona con la ubicación de las ciudades con respecto a la línea del Ecuador. En las primeras dos las estaciones impactan con más fuerza sobre las temperaturas, mientras que en Bogotá no sucede tan así dado que las variaciones en la cantidad de luz solar que recibe durante el año son mínimas.
* En las tres ciudades, sobre el registro de las temperaturas medias de todos los días durante aproximadamente 19 años, se obtuvieron valores promedio pertenecientes a la categoría M (temperatura moderada: de 10°C a 20°C).

### **Consigna [ 2 ]**
A partir de cada una de las señales $S_i$ se desea crear una nueva señal $T_i$  que indique si la temperatura $t$ registrada cada día es Baja, Alta o Moderada, considerando los siguientes rangos: \
**(B)**aja: $t < 10$ \
**(M)**oderada: $10 \leq t < 20$ \
**(A)**lta: $t \geq 20$

Modelar cada nueva señal $T_i$ como una fuente markoviana, obteniendo su matriz de pasaje.

In [None]:
# Categoriza cada valor de temperatura del dataframe dado en (A)lta, (M)edia o (Baja).
def categorize(dataframe):
  result = []
  for i in dataframe.values:
    t = int(i[0])
    if t < 10:
      result.append('B')
    elif t < 20:
      result.append('M')
    else:
      result.append('A')
  return result

print(categorize(S1_buenosAires))
print(categorize(S2_bogota))
print(categorize(S3_vancouver))

['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'M', 'M', 'A', 'A', 'A', 'A', 'A', 'M', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'M', 'A', 'A', 'M', 'M', 'A', 'M', 'M', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'A', 'A', 'A', 'M', 'M', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'M', 'M', 'A', 'M', 'M', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'M', 'A', 'A', 'M', 'M', 'M', 'M', 'M', 'M', 'A', 'A', 'A', 'A', 'A', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'A', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'B', 'B', 'B', 'M', 'M', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'B', 'B', 'M', 'M', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'M', 'M', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'M', 'B', 'M', 'M', 'M', 'B', 'M', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B',