In [14]:
import pandas as pd
import numpy as np
import time

## Gráficos que mostram a evolução da temperatura média entre as cidades

In [15]:
# Armazenando o tempo de início
start_time = time.time()

In [16]:
dados = pd.read_csv("GlobalLandTemperaturesByState.csv", sep=",")
print(dados.head())

           dt  AverageTemperature  AverageTemperatureUncertainty State Country
0  1855-05-01              25.544                          1.171  Acre  Brazil
1  1855-06-01              24.228                          1.103  Acre  Brazil
2  1855-07-01              24.371                          1.044  Acre  Brazil
3  1855-08-01              25.427                          1.073  Acre  Brazil
4  1855-09-01              25.675                          1.014  Acre  Brazil


In [17]:
## Limpeza dos dados utilizando o método .dropna() para remover linhas com valores ausentes 
dados.dropna(inplace=True)

print(dados.head())



           dt  AverageTemperature  AverageTemperatureUncertainty State Country
0  1855-05-01              25.544                          1.171  Acre  Brazil
1  1855-06-01              24.228                          1.103  Acre  Brazil
2  1855-07-01              24.371                          1.044  Acre  Brazil
3  1855-08-01              25.427                          1.073  Acre  Brazil
4  1855-09-01              25.675                          1.014  Acre  Brazil


In [18]:
# Convertendo a coluna "dt" para dados de data
dados['dt'] = pd.to_datetime(dados['dt'])

# Extraindo o ano da coluna "dt" para realizarmos uma análise por ano
dados["year"] = dados["dt"].dt.year

## Aqui começa a análise exploratória de dados para descobrir padrões e tendências, primeiro
## agrupando as temperaturas por ano e cidade
dados_agrupados = dados.groupby(["year","State"]).mean()

dados_agrupados.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,AverageTemperature,AverageTemperatureUncertainty
year,State,Unnamed: 2_level_1,Unnamed: 3_level_1
1743,Adygey,4.537,2.943
1743,Alabama,10.722,2.898
1743,Arkhangel'Sk,-8.008,4.031
1743,Belgorod,-0.91,3.465
1743,Bryansk,-0.707,2.956


In [19]:
## Vamos verificar quais ciadades podemos checar dentro desse conjunto de dados
cidades = dados['State'].unique()

## Análise de variação de temperatura entre as cidades

In [20]:
## Queremos calcular a diferença de temperatura entre o ano mais recente e o ano mais antigo para cada 
## cidade. Para fazer isso, vamos utilizar o método .agg() do pandas para calcular a diferença entre o 
## valor mínimo e máximo da temperatura para cada cidade.

dados_agrupados = dados.groupby(["State"]).agg({"year": ["min","max"], "AverageTemperature": ["min","max"]})



In [21]:
## Vamos calcular a diferença entre a temperatura mínima e máxima para cada cidade.
dados_agrupados["dif"] = dados_agrupados["AverageTemperature"]["max"] - dados_agrupados["AverageTemperature"]["min"]


In [22]:
## Vamos ordenar o dataframe pelo valor da diferença em ordem crescente
dados_agrupados.sort_values(by="dif",ascending=False,inplace=True)

In [23]:
## Selecionamos as cidades com maiores diferenças de temperaturas
top_states = dados_agrupados.head(10)
top_states

Unnamed: 0_level_0,year,year,AverageTemperature,AverageTemperature,dif
Unnamed: 0_level_1,min,max,min,max,Unnamed: 5_level_1
State,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Sakha,1829,2013,-45.389,17.653,63.042
Evenk,1820,2013,-44.736,17.225,61.961
Amur,1820,2013,-36.521,20.575,57.096
Taymyr,1820,2013,-42.983,13.386,56.369
Maga Buryatdan,1829,2013,-40.012,16.317,56.329
Tuva,1820,2013,-39.897,16.301,56.198
Irkutsk,1820,2013,-37.639,18.407,56.046
Chita,1820,2013,-37.582,18.378,55.96
Khabarovsk,1829,2013,-36.809,18.638,55.447
Tomsk,1817,2013,-32.947,21.866,54.813


In [24]:
# Armazenando o tempo de término
end_time = time.time()

# Calculando o tempo total de execução
execution_time = end_time - start_time

# Exibindo o tempo total de execução
print("Tempo de execução: {:.2f} segundos".format(execution_time))

Tempo de execução: 1.13 segundos
