# Esse código por usar a biblioteca oficial do Google Cloud Plataform (bq_helper), deve ser utilizado no datalab da Google ou no Kaggle.

## A biblioteca bq_helper, é uma ferramenta desenvolvida pelo usuário SohierDane para facilitar a interação com o Google BigQuery no ambiente Python. Ela oferece uma série de utilitários e funções para tornar mais simples o processo de consulta e manipulação de dados no BigQuery.

### Algumas características e funcionalidades principais do bq_helper:

- Conexão com o BigQuery: A biblioteca permite a conexão com o serviço do Google BigQuery diretamente do Python. Isso significa que você pode executar consultas e recuperar dados do BigQuery sem sair do ambiente Python.

- Sintaxe Simplificada para Consultas: O bq_helper fornece uma sintaxe simplificada para escrever e executar consultas no BigQuery. Isso pode economizar muito tempo

# IMPORTANDO AS BIBLIOTECAS

In [1]:
import re

import pandas as pd
import numpy as np
import bq_helper
from bq_helper import BigQueryHelper

In [11]:
def convert_fahrenheit_to_celsius(fahrenheit):
    
    """
    
        REALIZA A CONVERSÃO DE UM VALOR
        DA ESCALA FAHRENHEIT PARA CELSIUS.
        
        # Arguments
            fahrenheit      - Required: Valor na escala fahrenheit (Integer | Float)
        
        # Returns
            celsius      - Required: Valor na escala celsius (Integer | Float)
    
    """
    
    celsius = (fahrenheit - 32) * 5/9
    return celsius


# INSTANCIANDO O DATASET DESEJADO

## O dataset está no bigquery do GCP

In [2]:
ghcn_daily = bq_helper.BigQueryHelper(active_project="bigquery-public-data", 
                                      dataset_name="noaa_gsod")

## OBTENDO A LISTA DE ANOS DISPONÍVEIS

In [3]:
bq_assistant = BigQueryHelper("bigquery-public-data", 
                              "noaa_gsod")
list_tables = bq_assistant.list_tables()

## FILTRANDO TABELAS DE ANOS

In [4]:
list_tables_year = [table for table in list_tables if re.search(r'\d{4}', table)]

In [5]:
list_tables_year

['gsod1929',
 'gsod1930',
 'gsod1931',
 'gsod1932',
 'gsod1933',
 'gsod1934',
 'gsod1935',
 'gsod1936',
 'gsod1937',
 'gsod1938',
 'gsod1939',
 'gsod1940',
 'gsod1941',
 'gsod1942',
 'gsod1943',
 'gsod1944',
 'gsod1945',
 'gsod1946',
 'gsod1947',
 'gsod1948',
 'gsod1949',
 'gsod1950',
 'gsod1951',
 'gsod1952',
 'gsod1953',
 'gsod1954',
 'gsod1955',
 'gsod1956',
 'gsod1957',
 'gsod1958',
 'gsod1959',
 'gsod1960',
 'gsod1961',
 'gsod1962',
 'gsod1963',
 'gsod1964',
 'gsod1965',
 'gsod1966',
 'gsod1967',
 'gsod1968',
 'gsod1969',
 'gsod1970',
 'gsod1971',
 'gsod1972',
 'gsod1973',
 'gsod1974',
 'gsod1975',
 'gsod1976',
 'gsod1977',
 'gsod1978',
 'gsod1979',
 'gsod1980',
 'gsod1981',
 'gsod1982',
 'gsod1983',
 'gsod1984',
 'gsod1985',
 'gsod1986',
 'gsod1987',
 'gsod1988',
 'gsod1989',
 'gsod1990',
 'gsod1991',
 'gsod1992',
 'gsod1993',
 'gsod1994',
 'gsod1995',
 'gsod1996',
 'gsod1997',
 'gsod1998',
 'gsod1999',
 'gsod2000',
 'gsod2001',
 'gsod2002',
 'gsod2003',
 'gsod2004',
 'gsod2005',

# OBTENDO OS DADOS

In [6]:
# INICIANDO O DATAFRAME
df = pd.DataFrame()

for year in list_tables_year:
    
    try:
        print("ANO ATUAL: {}".format(year))

        QUERY = """
        SELECT
          ghcn.stn,
          ghcn.year,
          ghcn.mo AS month,
          ghcn.da AS day,
          stations.name,
          stations.country,
          stations.state,
          stations.lat,
          stations.lon,
          stations.begin,
          stations.end,
          ghcn.temp,
          ghcn.prcp,
          CAST(ghcn.wdsp AS float64) as wdsp,
          ghcn.sndp
        FROM
          `bigquery-public-data.noaa_gsod.{year}` ghcn
        INNER JOIN
          `bigquery-public-data.noaa_gsod.stations` stations
        ON
          ghcn.stn = stations.usaf
        WHERE
          stations.country LIKE 'BR'
        """.format(year=year)

        df_weather = bq_assistant.query_to_pandas(QUERY)

        df = pd.concat([df, df_weather])
    except Exception as ex:
        print(ex)

ANO ATUAL: gsod1929
ANO ATUAL: gsod1930
ANO ATUAL: gsod1931
ANO ATUAL: gsod1932
ANO ATUAL: gsod1933
ANO ATUAL: gsod1934
ANO ATUAL: gsod1935
ANO ATUAL: gsod1936
ANO ATUAL: gsod1937
ANO ATUAL: gsod1938
ANO ATUAL: gsod1939
ANO ATUAL: gsod1940
ANO ATUAL: gsod1941
ANO ATUAL: gsod1942
ANO ATUAL: gsod1943
ANO ATUAL: gsod1944
ANO ATUAL: gsod1945
ANO ATUAL: gsod1946
ANO ATUAL: gsod1947
ANO ATUAL: gsod1948
ANO ATUAL: gsod1949
ANO ATUAL: gsod1950
ANO ATUAL: gsod1951
ANO ATUAL: gsod1952
ANO ATUAL: gsod1953
ANO ATUAL: gsod1954
ANO ATUAL: gsod1955
ANO ATUAL: gsod1956
ANO ATUAL: gsod1957
ANO ATUAL: gsod1958
ANO ATUAL: gsod1959
ANO ATUAL: gsod1960
ANO ATUAL: gsod1961
ANO ATUAL: gsod1962
ANO ATUAL: gsod1963
ANO ATUAL: gsod1964
ANO ATUAL: gsod1965
ANO ATUAL: gsod1966
ANO ATUAL: gsod1967
ANO ATUAL: gsod1968
ANO ATUAL: gsod1969
ANO ATUAL: gsod1970
ANO ATUAL: gsod1971
ANO ATUAL: gsod1972
ANO ATUAL: gsod1973
ANO ATUAL: gsod1974
ANO ATUAL: gsod1975
ANO ATUAL: gsod1976
ANO ATUAL: gsod1977
ANO ATUAL: gsod1978


In [7]:
df.head()

Unnamed: 0,stn,year,month,day,name,country,state,lat,lon,begin,end,temp,prcp,wdsp,sndp
0,821930,1942,10,17,VAL DE CANS INTL,BR,,-1.379,-48.476,19421001,20210920,80.2,99.99,4.3,999.9
1,821930,1942,10,16,VAL DE CANS INTL,BR,,-1.379,-48.476,19421001,20210920,77.8,99.99,4.1,999.9
2,821930,1942,10,30,VAL DE CANS INTL,BR,,-1.379,-48.476,19421001,20210920,81.5,0.0,10.0,999.9
3,821930,1942,10,31,VAL DE CANS INTL,BR,,-1.379,-48.476,19421001,20210920,81.3,0.0,9.6,999.9
4,821930,1942,11,1,VAL DE CANS INTL,BR,,-1.379,-48.476,19421001,20210920,81.4,0.0,8.8,999.9


In [8]:
df.describe()

Unnamed: 0,lat,lon,temp,prcp,wdsp,sndp
count,2360195.0,2360195.0,2360195.0,2360195.0,2360195.0,2360195.0
mean,-15.73033,-48.02224,75.53623,11.17609,22.35557,999.8222
std,8.813359,7.564713,7.826132,31.44427,130.8617,8.810038
min,-33.75,-72.787,17.9,0.0,0.0,0.4
25%,-22.875,-52.389,71.2,0.0,2.7,999.9
50%,-16.632,-47.95,77.0,0.0,4.4,999.9
75%,-8.126,-42.95,80.9,0.0,6.6,999.9
max,3.867,-29.317,106.5,99.99,999.9,999.9


# PÓS-PROCESSAMENTO

## SUBSITUIÇÃO DOS VALORES FALTANTES PARA NAN

In [10]:
df = df.replace(999.9, np.nan)

## CONVERSÃO DA TEMPERATURA DE 'FAHRENHEIT' PARA 'CELSIUS'

In [13]:
df["temp_celsius"] = df["temp"].apply(lambda x: convert_fahrenheit_to_celsius(x))

# EXPORTANDO O RESULTADO

In [15]:
df.to_csv('data_brazil_daily.csv', index=False)