### Esse código por usar a biblioteca oficial do Google Cloud Plataform (bq_helper), deve ser utilizado no datalab da Google ou no Kaggle.

#### A biblioteca bq_helper, é uma ferramenta desenvolvida pelo usuário SohierDane para facilitar a interação com o Google BigQuery no ambiente Python. Ela oferece uma série de utilitários e funções para tornar mais simples o processo de consulta e manipulação de dados no BigQuery.

#### Algumas características e funcionalidades principais do bq_helper:

- Conexão com o BigQuery: A biblioteca permite a conexão com o serviço do Google BigQuery diretamente do Python. Isso significa que você pode executar consultas e recuperar dados do BigQuery sem sair do ambiente Python.

- Sintaxe Simplificada para Consultas: O bq_helper fornece uma sintaxe simplificada para escrever e executar consultas no BigQuery. Isso pode economizar muito tempo

# IMPORTANDO AS BIBLIOTECAS

In [None]:
import pandas as pd
import numpy as np
import bq_helper
from bq_helper import BigQueryHelper

# INSTANCIANDO O DATASET DESEJADO

## O dataset está no bigquery

In [None]:
noaa = bq_helper.BigQueryHelper(active_project="bigquery-public-data",
                                dataset_name="ghcn_d")

In [None]:
noaa = bq_helper.BigQueryHelper(active_project="fh-bigquery",
                                dataset_name="weather_gsod")

## OBTENDO A LISTA DE ANOS DISPONÍVEIS

In [None]:
bq_assistant = BigQueryHelper("bigquery-public-data", "noaa_gsod")
bq_assistant.list_tables()

['gsod1929',
 'gsod1930',
 'gsod1931',
 'gsod1932',
 'gsod1933',
 'gsod1934',
 'gsod1935',
 'gsod1936',
 'gsod1937',
 'gsod1938',
 'gsod1939',
 'gsod1940',
 'gsod1941',
 'gsod1942',
 'gsod1943',
 'gsod1944',
 'gsod1945',
 'gsod1946',
 'gsod1947',
 'gsod1948',
 'gsod1949',
 'gsod1950',
 'gsod1951',
 'gsod1952',
 'gsod1953',
 'gsod1954',
 'gsod1955',
 'gsod1956',
 'gsod1957',
 'gsod1958',
 'gsod1959',
 'gsod1960',
 'gsod1961',
 'gsod1962',
 'gsod1963',
 'gsod1964',
 'gsod1965',
 'gsod1966',
 'gsod1967',
 'gsod1968',
 'gsod1969',
 'gsod1970',
 'gsod1971',
 'gsod1972',
 'gsod1973',
 'gsod1974',
 'gsod1975',
 'gsod1976',
 'gsod1977',
 'gsod1978',
 'gsod1979',
 'gsod1980',
 'gsod1981',
 'gsod1982',
 'gsod1983',
 'gsod1984',
 'gsod1985',
 'gsod1986',
 'gsod1987',
 'gsod1988',
 'gsod1989',
 'gsod1990',
 'gsod1991',
 'gsod1992',
 'gsod1993',
 'gsod1994',
 'gsod1995',
 'gsod1996',
 'gsod1997',
 'gsod1998',
 'gsod1999',
 'gsod2000',
 'gsod2001',
 'gsod2002',
 'gsod2003',
 'gsod2004',
 'gsod2005',

# VISUALIZANDO O FORMATO DE UM DATASET

## VISUALIZAREMOS O ANO DE 2023

In [None]:
QUERY = """select state, name, min(stn), min(year), mo, avg(temp), avg(min), avg(max), avg(prcp), avg(sndp) from`bigquery-public-data.noaa_gsod.stations` b JOIN `bigquery-public-data.noaa_gsod.{year}`a
        ON a.wban=b.wban AND a.stn=b.usaf where b.country = 'BR' group by state, name, mo""".format(year='gsod2023')

df_weather = bq_assistant.query_to_pandas(QUERY)

df_weather

Unnamed: 0,state,name,f0_,f1_,mo,f2_,f3_,f4_,f5_,f6_
0,,CASTANHAL,816820,2023,03,78.965385,74.684615,85.330769,0.000000,999.9
1,,PREGUICAS,817170,2023,08,82.129167,77.358333,90.241667,0.003333,999.9
2,,PREGUICAS,817170,2023,04,80.198077,74.075000,87.803846,0.122115,999.9
3,,PREGUICAS,817170,2023,03,79.232759,73.336207,86.137931,0.131552,999.9
4,,PREGUICAS,817170,2023,07,82.394118,77.431373,89.270588,0.015098,999.9
5,,PREGUICAS,817170,2023,05,81.478182,77.512727,88.096364,0.089636,999.9
6,,COARI,817700,2023,07,84.463636,78.045455,92.945455,0.000000,999.9
7,,CAICO,818750,2023,02,89.924000,79.500000,96.532000,0.000000,999.9
8,,URUCUI,819050,2023,03,76.474194,69.990323,86.612903,0.000000,999.9
9,,ALTO PARNAIBA,819850,2023,01,88.454545,82.009091,92.372727,0.000000,999.9


# OBTENDO O CONJUNTO DE DADOS

In [None]:
# INICIANDO O DATAFRAME
df = pd.DataFrame()

for year in bq_assistant.list_tables():

    try:
        print("ANO ATUAL: {}".format(year))

        QUERY = """select state, name, min(stn), min(year), mo, avg(temp), avg(min), avg(max), avg(prcp), avg(sndp) from`bigquery-public-data.noaa_gsod.stations` b JOIN `bigquery-public-data.noaa_gsod.{year}`a
        ON a.wban=b.wban AND a.stn=b.usaf where b.country = 'BR' group by state, name, mo""".format(year=year)

        df_weather = bq_assistant.query_to_pandas(QUERY)

        df = pd.concat([df, df_weather])
    except Exception as ex:
        print(ex)

ANO ATUAL: gsod1929
ANO ATUAL: gsod1930
ANO ATUAL: gsod1931
ANO ATUAL: gsod1932
ANO ATUAL: gsod1933
ANO ATUAL: gsod1934
ANO ATUAL: gsod1935
ANO ATUAL: gsod1936
ANO ATUAL: gsod1937
ANO ATUAL: gsod1938
ANO ATUAL: gsod1939
ANO ATUAL: gsod1940
ANO ATUAL: gsod1941
ANO ATUAL: gsod1942
ANO ATUAL: gsod1943
ANO ATUAL: gsod1944
ANO ATUAL: gsod1945
ANO ATUAL: gsod1946
ANO ATUAL: gsod1947
ANO ATUAL: gsod1948
ANO ATUAL: gsod1949
ANO ATUAL: gsod1950
ANO ATUAL: gsod1951
ANO ATUAL: gsod1952
ANO ATUAL: gsod1953
ANO ATUAL: gsod1954
ANO ATUAL: gsod1955
ANO ATUAL: gsod1956
ANO ATUAL: gsod1957
ANO ATUAL: gsod1958
ANO ATUAL: gsod1959
ANO ATUAL: gsod1960
ANO ATUAL: gsod1961
ANO ATUAL: gsod1962
ANO ATUAL: gsod1963
ANO ATUAL: gsod1964
ANO ATUAL: gsod1965
ANO ATUAL: gsod1966
ANO ATUAL: gsod1967
ANO ATUAL: gsod1968
ANO ATUAL: gsod1969
ANO ATUAL: gsod1970
ANO ATUAL: gsod1971
ANO ATUAL: gsod1972
ANO ATUAL: gsod1973
ANO ATUAL: gsod1974
ANO ATUAL: gsod1975
ANO ATUAL: gsod1976
ANO ATUAL: gsod1977
ANO ATUAL: gsod1978


In [None]:
df.columns = ['state', 'name', 'station', 'year', 'month', 'avg_temp', 'avg_min_temp', 'avg_max_temp', 'avg_prcp', 'avg_snow_depth']

In [None]:
df.head()

Unnamed: 0,state,name,station,year,month,avg_temp,avg_min_temp,avg_max_temp,avg_prcp,avg_snow_depth
0,,VAL DE CANS INTL,821930,1942,10,79.445161,72.151613,88.512903,45.156774,999.9
1,,VAL DE CANS INTL,821930,1942,11,80.116667,72.373333,89.94,23.331,999.9
2,,VAL DE CANS INTL,821930,1942,12,78.722581,72.529032,88.332258,67.735161,999.9
0,,PARNAIBA PREFEITO DR JOAO SIL,822880,1943,7,83.751613,76.283871,89.893548,6.450968,999.9
1,,PARNAIBA PREFEITO DR JOAO SIL,822880,1943,5,83.505,76.02,88.87,34.9965,999.9


# PÓS-PROCESSAMENTO

In [None]:
df = df.replace(999.9, np.nan)

# EXPORTANDO O RESULTADO

In [None]:
df.to_csv('weather.csv', index=False)