# Bibliotecas e Configura√ß√µes

1. Requer:
    * `./data/GlobalLandTemperaturesByCity.csv`;
    * `./data/co2_data.csv` ou `./out/co2_data.csv`.

<br />

2. √â necess√°rio possuir o **Java SE Development Kit** (JDK) instalado;
    * Possivel baixar atrav√©s desse *[link](https://www.oracle.com/br/java/technologies/downloads/)*

<br />

3. Al√©m disso, √© necess√°rio definir a vari√°vel de ambiente `JAVA_HOME` cujo valor √© o diret√≥rio de instala√ß√£o do JDK;
    * Exemplo: `C:\Progra~1\Java\jdk-19`;
    * Em que `Progra~1` √©, na verdade, a pasta `Program Files`.

<br />

4. Definir tamb√©m as vari√°veis de ambiente:
    * `PYSPARK_DRIVER_PYTHON` = `jupyter`;
    * `PYSPARK_PYTHON` = `python`.

<br />

5. Provavelmente ser√° necess√°rio reiniciar o computador ap√≥s definir essas vari√°veis de ambiente.
    * H√° abaixo uma verifica√ß√£o para atestar se foi poss√≠vel l√™-las.

In [1]:
import os

from pyspark.sql import SparkSession
from pyspark.sql.functions import expr

In [2]:
environ_vars = ['JAVA_HOME', 'PYSPARK_DRIVER_PYTHON', 'PYSPARK_PYTHON']

for var in environ_vars:
    if not os.environ.get(var):
        print(f'AVISO: Vari√°vel {var} n√£o encontrada.')

# Leitura

In [3]:
spark = SparkSession.builder.getOrCreate()

tpr_data = spark.read.options(header='True').csv('./data/GlobalLandTemperaturesByCity.csv')

try: 
    co2_data = spark.read.options(header='True').csv('./out/co2_data.csv')
except FileNotFoundError:
    co2_data = spark.read.options(header='True').csv('./data/co2_data.csv')

AnalysisException: Path does not exist: file:/d:/Files/Poli/PTC/climate/src/integrate/out/co2_data.csv

In [None]:
tpr_data.show(5)

+----------+------------------+-----------------------------+-----+-------+--------+---------+
|        dt|AverageTemperature|AverageTemperatureUncertainty| City|Country|Latitude|Longitude|
+----------+------------------+-----------------------------+-----+-------+--------+---------+
|1743-11-01|             6.068|           1.7369999999999999|√Örhus|Denmark|  57.05N|   10.33E|
|1743-12-01|              null|                         null|√Örhus|Denmark|  57.05N|   10.33E|
|1744-01-01|              null|                         null|√Örhus|Denmark|  57.05N|   10.33E|
|1744-02-01|              null|                         null|√Örhus|Denmark|  57.05N|   10.33E|
|1744-03-01|              null|                         null|√Örhus|Denmark|  57.05N|   10.33E|
+----------+------------------+-----------------------------+-----+-------+--------+---------+
only showing top 5 rows



*Dataset* de temperaturas:

* `dt` (string): data da amostra;
* `AverageTemperature` (float): temperatura m√©dia medida;
* `AverageTemperatureUncertainty` (float): incerteza associada a temperatura medida;
* `City` (string): cidade de origem da amostra;
* `Country` (string): pa√≠s de origem da amostra;
* `Latitude` (string): graus de latitude norte da amostra;
* `Longitude` (string):  graus de longitude leste da amostra;

In [None]:
co2_data.show(5)

+----------+------+------+-----------------+
|     Times|LatDim|LonDim|            value|
+----------+------+------+-----------------+
|1850-01-01|     0|     0|288.1340637207031|
|1850-01-01|     0|     1|288.1340637207031|
|1850-01-01|     0|     2|288.1340637207031|
|1850-01-01|     0|     3|288.1340637207031|
|1850-01-01|     0|     4|288.1340637207031|
+----------+------+------+-----------------+
only showing top 5 rows



*Dataset* de temperaturas:

* `Times` (string): data da amostra;
* `LatDim` (int): graus de latitude norte da amostra;
* `LonDim` (int): graus de longitude leste da amostra;
* `value` (float): concentra√ß√£o de $CO_2$ em ppm;

# Tratamento

* Define uma mesma data de in√≠cio para ambos os datasets
* Realiza corre√ß√£o de tipos de dados e padroniza colunas

In [None]:
# Padroniza datasets iniciando em 1850-01-01
tpr_data = tpr_data[tpr_data['dt'] >= '1850-01-01']

In [None]:
# Padroniza nomes de colunas entre datasets

trp_columns_rename = [
    ('dt', 't_date'),
    ('AverageTemperature', 't_temperature'),
    ('AverageTemperatureUncertainty', 't_temperature_unc'),
    ('City', 't_city'),
    ('Country', 't_country'),
    ('Latitude', 't_latitude'),
    ('Longitude', 't_longitude'),
]

co2_columns_rename = [
    ('Times', 'c_date'),
    ('LatDim', 'c_latitude'),
    ('LonDim', 'c_longitude'),
    ('value', 'c_co2'),
]

for old, new in trp_columns_rename:
    tpr_data = tpr_data.withColumnRenamed(old, new)

for old, new in co2_columns_rename:
    co2_data = co2_data.withColumnRenamed(old, new)

In [None]:
# Retira 'N' e 'E' do final dos valores de 
# latitude/longitude e converte para float

to_strip = ['t_latitude', 't_longitude']

for col in to_strip:
    tpr_data = tpr_data.withColumn(
        col,
        expr(f"float(substring({col}, 1, length({col})-1))")
    )

In [None]:
tpr_data.show(5)

+----------+--------------------+-----------------+------+---------+----------+-----------+
|    t_date|       t_temperature|t_temperature_unc|t_city|t_country|t_latitude|t_longitude|
+----------+--------------------+-----------------+------+---------+----------+-----------+
|1850-01-01|              -5.265|             1.82| √Örhus|  Denmark|     57.05|      10.33|
|1850-02-01|               1.859|            1.641| √Örhus|  Denmark|     57.05|      10.33|
|1850-03-01|0.031999999999999806|            3.167| √Örhus|  Denmark|     57.05|      10.33|
|1850-04-01|  5.7639999999999985|            1.903| √Örhus|  Denmark|     57.05|      10.33|
|1850-05-01|              11.037|            0.586| √Örhus|  Denmark|     57.05|      10.33|
+----------+--------------------+-----------------+------+---------+----------+-----------+
only showing top 5 rows



In [None]:
co2_data.show(5)

+----------+----------+-----------+-----------------+
|    c_date|c_latitude|c_longitude|            c_co2|
+----------+----------+-----------+-----------------+
|1850-01-01|         0|          0|288.1340637207031|
|1850-01-01|         0|          1|288.1340637207031|
|1850-01-01|         0|          2|288.1340637207031|
|1850-01-01|         0|          3|288.1340637207031|
|1850-01-01|         0|          4|288.1340637207031|
+----------+----------+-----------+-----------------+
only showing top 5 rows



# Integraliza√ß√£o

* Une datasets pelo crit√©rio de dist√¢ncia m√≠nima

    1. Para cada ponto de tempetura, obt√©m a sua data e encontra todos os pontos de $CO_2$ nessa mesma data;
    2. Calcula a dist√¢ncia entre o ponto de temperatura e todos os outros pontos de $CO_2$ anteriormente selecionados;
    3. Escolhe aquele de m√≠nima dist√¢ncia como o ponto equivalente entre os *datasets*.

<br />

* C√°lculo da dist√¢ncia
    * ‚úîÔ∏è **Abordagem 1:** plana ‚Äî $d(P_1, P_2) = \sqrt{(x_1-x_2)^2 + (y_1-y_2)^2}$
    * ‚ùì **Abordagem 2:** esf√©rica ‚Äî Faz sentido? √â necess√°ria? Como fazer?

<br />

* Sobre a implementa√ß√£o
    * N√£o encontrei uma forma direta e elegante para fazer a integra√ß√£o apenas atrav√©s da API do PySpark, ent√£o optei por apelar ao SQL üôè

In [None]:
# Recorte √≠nfimo dos datasets apenas para valida√ß√£o

tpr_data.limit(int(1e3)).createOrReplaceTempView("tpr_data")
co2_data.limit(int(1e5)).createOrReplaceTempView("co2_data")

In [None]:
# Raw query de integraliza√ß√£o

cross_data = spark.sql(
    """
    SELECT *
    FROM (
        -- Ordena√ß√£o crescente das dist√¢ncias,
        -- orientado a data, latitude e longitude
        SELECT
            *,
            ROW_NUMBER() OVER (
                PARTITION BY
                    t_date,
                    t_latitude,
                    t_longitude
                ORDER BY distance ASC
            ) AS row_num
        FROM (
            -- CROSS JOIN para c√°lculo de dist√¢ncias entre
            -- todos os pontos dos datasets em uma mesma data
            SELECT
                *,
                SQRT(POW(t_latitude - c_latitude, 2) + POW(t_longitude - c_longitude, 2)) AS distance
            FROM tpr_data AS T
            CROSS JOIN co2_data AS C
            ON t_date = c_date
        )
    )
    WHERE row_num = 1; -- Escolha dos registros com menor dist√¢ncia
    """
)

In [None]:
cross_data.show(10)

+----------+-------------+-----------------+------+---------+----------+-----------+----------+----------+-----------+-----------------+-------------------+-------+
|    t_date|t_temperature|t_temperature_unc|t_city|t_country|t_latitude|t_longitude|    c_date|c_latitude|c_longitude|            c_co2|           distance|row_num|
+----------+-------------+-----------------+------+---------+----------+-----------+----------+----------+-----------+-----------------+-------------------+-------+
|1850-01-01|       -5.265|             1.82| √Örhus|  Denmark|     57.05|      10.33|1850-01-01|        57|         10|285.5076904296875|0.33376619564095866|      1|
|1850-02-01|        1.859|            1.641| √Örhus|  Denmark|     57.05|      10.33|1850-02-01|        57|         10|286.4536437988281|0.33376619564095866|      1|
+----------+-------------+-----------------+------+---------+----------+-----------+----------+----------+-----------+-----------------+-------------------+-------+

