# Consumo e Tratamento das bases de Temperatura do Kaggle

Este notebook tem o intuito de tratar duas bases de Temperatura Média, distribuídas da seguinte forma:

    1. Temperatura Global: base onde contém as médias por mês a nível global. O objetivo é obter as médias globais por ano;
    2. Temperatura por País: base onde contém as médias por mês e país. O objetivo é obter as médias dos países por ano.
        Será realizada uma junção com a base principal de países (kyoto) para selecionar apenas os países que estão contidos em ambas as bases.
        
Além disso, a base 1 será utilizada para criar uma tabela dimensão de Ano.

In [1]:
# Instalar os programas e bibliotecas que serão utilizados
!sudo apt install
!pip install kaggle
!sudo apt-get install unzip
!sudo pip install pandas

Reading package lists... Done
Building dependency tree       
Reading state information... Done
0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
unzip is already the newest version (6.0-23+deb10u2).
0 upgraded, 0 newly installed, 0 to remove and 2 not upgraded.


In [2]:
# Importar a biblioteca do Kaggle para acessar a API
import kaggle

In [3]:
# Alterar as permissões de acesso ao arquivo e executá-lo
api_token = {"username":"mayaragomesl","key":"44c49a9ebbe99a1a94eb26d16313f588"}

import json
    
with open('/root/.kaggle/kaggle.json', 'w') as file:
    json.dump(api_token, file)

!chmod 600 ~/.kaggle/kaggle.json

In [4]:
# Fazer o download do dataset do Kaggle - o download é feito em formato compactado
!kaggle datasets download -d berkeleyearth/climate-change-earth-surface-temperature-data --force

/bin/sh: 1: kaggle: not found


In [5]:
# Excluir todos os arquivos dentro da pasta temperatura para não duplicá-los
!sudo rm -rf /home/jupyter/temperatura*

# Descompactar a pasta do dataset e salvar os arquivos na pasta temperatura
!unzip climate-change-earth-surface-temperature-data.zip -d /home/jupyter/temperatura

Archive:  climate-change-earth-surface-temperature-data.zip
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByCity.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByCountry.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByMajorCity.csv  
  inflating: /home/jupyter/temperatura/GlobalLandTemperaturesByState.csv  
  inflating: /home/jupyter/temperatura/GlobalTemperatures.csv  


2. Tratamento da base de Temperatura Global

In [2]:
# Importar biblioteca pandas para tratamento dos dados
import pandas as pd

In [23]:
# Ler a base com o historico de tempetura global
TempGlobal = pd.read_csv('/home/jupyter/temperatura/GlobalTemperatures.csv')

# Criar novo dataframe com os dados anteriores ao tratamento
TempGlobal_in = TempGlobal

# Listar todas as colunas para visualizar quais serão utilizadas
TempGlobal.columns

Index(['dt', 'LandAverageTemperature', 'LandAverageTemperatureUncertainty',
       'LandMaxTemperature', 'LandMaxTemperatureUncertainty',
       'LandMinTemperature', 'LandMinTemperatureUncertainty',
       'LandAndOceanAverageTemperature',
       'LandAndOceanAverageTemperatureUncertainty'],
      dtype='object')

In [24]:
# Selecionar as colunas que serão utilizadas
TempGlobal = TempGlobal.filter(items=['dt', 'LandAverageTemperature',
                                      'LandAndOceanAverageTemperature'
                                     ]
                              )

In [25]:
# Transformar a coluna dt em formato de data
TempGlobal['dt'] = pd.to_datetime(TempGlobal['dt'], format='%Y-%m-%d')

# Extrair a informação de ano na coluna dt
TempGlobal['dt'] = TempGlobal['dt'].dt.strftime('%Y')

# Converter coluna dt para número inteiro
TempGlobal = TempGlobal.astype({'dt': int})

# Alterar nomes das colunas
TempGlobal = TempGlobal.rename(columns={'dt': 'year',
                                        'LandAverageTemperature': 'AverageTemperature',
                                        'LandAndOceanAverageTemperature': 'OceanAverageTemperature'
                                       }
                              )

In [26]:
# Calcular as médias das temperaturas e agrupar por ano
MediaTempGlobal = TempGlobal.groupby(['year']).mean()

# Converter índices do DataFrame em colunas
MediaTempGlobal = MediaTempGlobal.reset_index()

# Visualizar o novo dataframe
MediaTempGlobal.head()

Unnamed: 0,year,AverageTemperature,OceanAverageTemperature
0,1750,8.719364,
1,1751,7.976143,
2,1752,5.779833,
3,1753,8.388083,
4,1754,8.469333,


3. Criação da dimensão País - Consumo do Github

In [27]:
# Ler a base dimensão País do Github
Pais = pd.read_csv('https://raw.githubusercontent.com/owid/co2-data/master/owid-co2-data.csv', error_bad_lines=False)

# Listar todas as colunas para visualizar quais serão utilizadas
Pais.columns

Index(['iso_code', 'country', 'year', 'co2', 'co2_growth_prct',
       'co2_growth_abs', 'consumption_co2', 'trade_co2', 'trade_co2_share',
       'co2_per_capita', 'consumption_co2_per_capita', 'share_global_co2',
       'cumulative_co2', 'share_global_cumulative_co2', 'co2_per_gdp',
       'consumption_co2_per_gdp', 'co2_per_unit_energy', 'cement_co2',
       'coal_co2', 'flaring_co2', 'gas_co2', 'oil_co2', 'other_industry_co2',
       'cement_co2_per_capita', 'coal_co2_per_capita',
       'flaring_co2_per_capita', 'gas_co2_per_capita', 'oil_co2_per_capita',
       'other_co2_per_capita', 'share_global_coal_co2', 'share_global_oil_co2',
       'share_global_gas_co2', 'share_global_flaring_co2',
       'share_global_cement_co2', 'cumulative_coal_co2', 'cumulative_oil_co2',
       'cumulative_gas_co2', 'cumulative_flaring_co2', 'cumulative_cement_co2',
       'share_global_cumulative_coal_co2', 'share_global_cumulative_oil_co2',
       'share_global_cumulative_gas_co2',
       'share_g

In [28]:
# Selecionar as colunas que serão utilizadas
Pais = Pais.filter(items=['iso_code', 'country'])

# Preencher sempre que Iso_code valer Nan
Pais['iso_code'].fillna('Preencher',inplace=True)

# Dropar todos os valores nulos
Pais.dropna(inplace=True)

# Substituir de espaço por nada
Pais.country = Pais.country.str.replace(' $', '')

  # This is added back by InteractiveShellApp.init_path()


In [29]:
# Agrupar 'iso_code' selecionando os dados coluna 'country' - índice reiniciado para 'iso_code' e transformado em coluna
Pais = Pais.groupby('country')['iso_code'].apply(lambda Pais: Pais.reset_index(drop=True)).unstack(0)

# Dropar todos os valores nulos
Pais.dropna(inplace=True)

# Transpor DataFrame
Pais = Pais.transpose()

# Reiniciar índice
Pais.reset_index(inplace=True)

# Alterar nome da coluna para 'country'
Pais.columns = ['country', 'iso_code']

# Exibir do dataframe
Pais.head()

Unnamed: 0,country,iso_code
0,Afghanistan,AFG
1,Africa,Preencher
2,Albania,ALB
3,Algeria,DZA
4,Andorra,AND


4. Tratamento da base de Temperatura por País

In [30]:
# Ler a base com o historico de tempetura por país
TempPais = pd.read_csv('/home/jupyter/temperatura/GlobalLandTemperaturesByCountry.csv')

#criação de novo dataframe com os dados anteriores ao tratamento
TempPais_in = TempPais

# Listar colunas do DataFrame para veririficar quais serão utilizadas
TempPais.columns

Index(['dt', 'AverageTemperature', 'AverageTemperatureUncertainty', 'Country'], dtype='object')

In [31]:
# Selecionar as colunas que serão utilizadas
TempPais = TempPais.filter(items=['dt', 'Country', 'AverageTemperature'])

# Substituir espaço por nada
TempPais.Country = TempPais.Country.str.replace(' $', '')

# Drop na coluna Country 
TempPais.dropna(subset=['Country'], inplace=True)

  """


In [32]:
# Substituir nomes dos países errados para relacionar com a dimensão País
TempPais.replace(to_replace={'Country': 'Timor Leste'}, value='Timor', inplace=True)
TempPais.replace(to_replace={'Country': 'Czech Republic'}, value='Czechia', inplace=True)
TempPais.replace(to_replace={'Country': "Côte D'Ivoire"}, value="Cote d'Ivoire", inplace=True)
TempPais.replace(to_replace={'Country': 'Bosnia And Herzegovina'}, value='Bosnia and Herzegovina', inplace=True)
TempPais.replace(to_replace={'Country': 'Bonaire, Saint Eustatius And Saba'}, value='Bonaire Sint Eustatius and Saba', inplace=True)
TempPais.replace(to_replace={'Country': 'Congo (Democratic Republic Of The)'}, value='Democratic Republic of Congo', inplace=True)
TempPais.replace(to_replace={'Country': 'Faroe Islands'}, value='Faeroe Islands', inplace=True)
TempPais.replace(to_replace={'Country': 'Guinea Bissau'}, value='Guinea-Bissau', inplace=True)
TempPais.replace(to_replace={'Country': 'Sao Tome And Principe'}, value='Sao Tome and Principe', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Vincent And The Grenadines'}, value='Saint Vincent and the Grenadines', inplace=True)
TempPais.replace(to_replace={'Country': 'Federated States Of Micronesia'}, value='Micronesia', inplace=True)
TempPais.replace(to_replace={'Country': 'Palestina'}, value='Palestine', inplace=True)
TempPais.replace(to_replace={'Country': 'Sint Maarten'}, value='Sint Maarten (Dutch part)', inplace=True)
TempPais.replace(to_replace={'Country': 'Turks And Caicas Islands'}, value='Turks and Caicos Islands', inplace=True)
TempPais.replace(to_replace={'Country': 'Trinidad And Tobago'}, value='Trinidad and Tobago', inplace=True)
TempPais.replace(to_replace={'Country': 'Macedonia'}, value='North Macedonia', inplace=True)
TempPais.replace(to_replace={'Country': 'Macau'}, value='Macao', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Pierre And Miquelon'}, value='Saint Pierre and Miquelon', inplace=True)
TempPais.replace(to_replace={'Country': 'Antigua And Barbuda'}, value='Antigua and Barbuda', inplace=True)
TempPais.replace(to_replace={'Country': 'Saint Kitts And Nevis'}, value='St. Kitts-Nevis-Anguilla', inplace=True)

In [33]:
# Unir DataFrames de Temperatura por País e País para manter apenas os coincidentes
TempPais = pd.merge(TempPais, Pais, right_on="country", left_on="Country", how="inner")

# Selecionar colunas que serão utilizadas
TempPais = TempPais.filter(items=['dt', 'iso_code', 'country', 'AverageTemperature'])

# Visualizar DataFrame
TempPais.head()

Unnamed: 0,dt,iso_code,country,AverageTemperature
0,1838-04-01,AFG,Afghanistan,13.008
1,1838-05-01,AFG,Afghanistan,
2,1838-06-01,AFG,Afghanistan,23.95
3,1838-07-01,AFG,Afghanistan,26.877
4,1838-08-01,AFG,Afghanistan,24.938


In [34]:
# Transformar a coluna dt em formato de data
TempPais['dt'] = pd.to_datetime(TempPais['dt'], format='%Y-%m-%d')

# Extrair a informação de ano na coluna dt
TempPais['dt'] = TempPais['dt'].dt.strftime('%Y')

# Converter coluna dt para número inteiro
TempPais = TempPais.astype({'dt': int})

# Alterar nomes das colunas
TempPais = TempPais.rename(columns={'dt': 'year'})

In [35]:
# Calcular as médias das temperaturas e agrupar por ano e país
MediaTempPais = TempPais.groupby(['year', 'iso_code', 'country']).mean()

# Converter índices do DataFrame em colunas
MediaTempPais = MediaTempPais.reset_index()

# Visualizar o novo dataframe
MediaTempPais.head()

Unnamed: 0,year,iso_code,country,AverageTemperature
0,1743,ALB,Albania,8.62
1,1743,AND,Andorra,7.556
2,1743,AUT,Austria,2.482
3,1743,BEL,Belgium,7.106
4,1743,BGR,Bulgaria,5.928


5. Criar tabela dimensão de Ano

In [36]:
# Selecionar os valores distintos da coluna Ano
AnoArray = TempGlobal['year'].unique()

# Converter a matriz em dataframe
Ano = pd.DataFrame(AnoArray, columns=['year'])

# Visualizar o dataframe
Ano.head()

Unnamed: 0,year
0,1750
1,1751
2,1752
3,1753
4,1754


6. Conexão com o BigQuery e armazenamento dos DataFrames

In [37]:
# Importar pacote de autenticação do Google e biblioteca para conexão entre Pandas e BigQuery
from google.oauth2 import service_account
import pandas_gbq as pd_gbq

In [38]:
# Autenticar acesso ao BigQuery
acesso = service_account.Credentials.from_service_account_info(
{
  "type": "service_account",
  "project_id": "blueshift-academy",
  "private_key_id": "41e1caa0b572364b9a1a2e0c0062da37bbcbe7ed",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvgIBADANBgkqhkiG9w0BAQEFAASCBKgwggSkAgEAAoIBAQCuSbntsF3S72YR\noodN6Fk9DiSbOv6K9wmcUjRCd5prKrfkXehu2D1DpjlIQkYCeOFMeNU4FdHrsKEJ\nQy9CL5m8BLlzhZ822NKFpTBaEC6e4zQzBXlzhT5EaDbgHntculSnLpph8v/gHfWf\ndWckGgI2PUH1pOLsCUCbFQA22D8WQMPlVjBx+yCRVkU65x17l7XrlEBYw/ko/duH\n3v/GJQYU3qaX774T6BGBocj2CoqR5tgE93CWHFw5iZXuUm6d49aMkU3VZ8gH+B/M\n5BucMm6La6zp1gOGe6ureHY48OLugfOuAnmZhOcD6eXuIpDf2s4TqCf6r5xT3lls\nDRJ6R0YxAgMBAAECggEAHWrcytl8sKSPRBU8hMIdw+At/hSCT8bcNKosX3asFgAX\nG2DdYU424wL8wq1K/1JTZtKzXHzUWpWMzNEt+hwqNPHQModAhSOqPvwPkfgOwmtD\njYQUSJMaHDZB4ujKNi/OJ4zGapd3KGcuJOzOTKnmKy0CQ9nBooj6QmLUTy2HUnQz\nLEA7KCbEhOVv0V75JeXIK6RUJD/Kcxt4oONDxQcGZ7qKAfZCvBRDFrryByin2JeN\nbfl2YbOCbCzJfZCc8b4PwoWY+6cuHWoHW1QqEq4vei1PfuL690xtUB1Tb4M3ieuO\nZOLIPYs6lsTCV1yXe08fb7ts/HrU0VYPI4KEzfexxQKBgQDcw/bHFD//iE0W2Oz4\nS+yXtHg+Xwkrd1NyRGuohAYOMRbRj3S/lIk60jU03xFI+6Uyma3HNy2zMbZaGVhJ\n7l0w42zftxQwbORtu8IZnJTvpSLx3VcQ5i+tGKpyN8/h7BGdXUDeLtEyMq98EOTs\nmqFJL015yb6MZo2sD9Da2gzB1QKBgQDKGsj2WV1Q0kfvCh1PcTLsnERDjII+X3hT\nHnt9QIRtjy7vBzxwunc4sfsKJn+MTDsPwP/opqv1tz4nzKqc4ZVvcOKrc+M0WwsR\nkDEykrR3kn6jScRcvDuScA13Xoka21wnt/+BYppK3SCJjjWqtNcNZb+2C2iBx60c\nM4GKQ26E7QKBgCUnviLnX5YMRJ0xyUBI1vr5Xrtwl0R/gsXaihwEjFhbHrIKaOXN\nhAMoWdgaKviTkcwgXUUIHmLoXP5xAZD/0yNlQ2+rinRT/2YQkaxp1A85RdZbIEox\n05hYbGdoyU4Gwzgu97ntOzwtl6dT2JORus9sbKewsqdCo1lwGACdbkQ5AoGBALRB\nd4Pg6I2xP19AEixMtjK6nVfx9ihTViosQc/Qv0xILIAcYBfa94Klm1XOSGyFgRfn\n91c1cKHTMailrnYF7RZcBI8O6VJE8XZUuMx2dGdBTZmtrWlYqXlOX3Rb6MT/aQ4z\n2bs4iozC9MY7BDqg2D2mxnpDao513TwN5DfBNM1xAoGBAMpHVOeEcYaPbAMfCJrL\nYRdIKzyBXWWzZoA2iCz4QI2HQ9uiLQQogGxQbTaQaKxQKnbY+1kAfEkfhgJ+K4WB\nxvUpyLhGZ4n05tr1ySKt5r1dMhjKdWI+PzUO+VnC+MvqV6hStu98uH3nLABC7q1n\n/WtWzmm5JzEcij1X/9/mw+cK\n-----END PRIVATE KEY-----\n",
  "client_email": "725609614257-compute@developer.gserviceaccount.com",
  "client_id": "116558903634579342107",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/725609614257-compute%40developer.gserviceaccount.com"
})

In [39]:
# Atualizar o cache de credenciais na memória
pd_gbq.context.credentials = acesso
pd_gbq.context.project = "blueshift-academy"

In [41]:
# Nome do projeto onde o Conjunto de Dados está hospedado
Projeto = 'blueshift-academy'

# Inserir o DataFrame no BigQuery - (NomeDataFrame, ConjuntoDados.NomeTabela, ...)
pd_gbq.to_gbq(MediaTempGlobal, 'Temperature.Temperature_Year', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(MediaTempPais, 'Temperature.Temperature_Country_Year', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(TempGlobal_in, 'Temperature.Temperature_Year_in', project_id=Projeto, if_exists='replace')
pd_gbq.to_gbq(TempPais_in, 'Temperature.Temperature_Country_Year_in', project_id=Projeto, if_exists='replace')

1it [00:02,  2.51s/it]
1it [00:05,  5.28s/it]
1it [00:03,  3.68s/it]
1it [00:15, 15.36s/it]


# Autor: Mayara Gomes