In [29]:
import pandas as pd
import numpy as np
import time

## Gráficos que mostram a evolução da temperatura média entre as cidades

In [30]:
# Armazenando o tempo de início
start_time = time.time()

In [31]:
dados = pd.read_csv("GlobalLandTemperaturesByCity.csv", sep=",")
print(dados.head())

           dt  AverageTemperature  AverageTemperatureUncertainty   City  \
0  1743-11-01               6.068                          1.737  Århus   
1  1743-12-01                 NaN                            NaN  Århus   
2  1744-01-01                 NaN                            NaN  Århus   
3  1744-02-01                 NaN                            NaN  Århus   
4  1744-03-01                 NaN                            NaN  Århus   

   Country Latitude Longitude  
0  Denmark   57.05N    10.33E  
1  Denmark   57.05N    10.33E  
2  Denmark   57.05N    10.33E  
3  Denmark   57.05N    10.33E  
4  Denmark   57.05N    10.33E  


In [32]:
## Limpeza dos dados utilizando o método .dropna() para remover linhas com valores ausentes 
dados.dropna(inplace=True)

print(dados.head())



           dt  AverageTemperature  AverageTemperatureUncertainty   City  \
0  1743-11-01               6.068                          1.737  Århus   
5  1744-04-01               5.788                          3.624  Århus   
6  1744-05-01              10.644                          1.283  Århus   
7  1744-06-01              14.051                          1.347  Århus   
8  1744-07-01              16.082                          1.396  Århus   

   Country Latitude Longitude  
0  Denmark   57.05N    10.33E  
5  Denmark   57.05N    10.33E  
6  Denmark   57.05N    10.33E  
7  Denmark   57.05N    10.33E  
8  Denmark   57.05N    10.33E  


In [33]:
# Convertendo a coluna "dt" para dados de data
dados['dt'] = pd.to_datetime(dados['dt'])

# Extraindo o ano da coluna "dt" para realizarmos uma análise por ano
dados["year"] = dados["dt"].dt.year

## Aqui começa a análise exploratória de dados para descobrir padrões e tendências, primeiro
## agrupando as temperaturas por ano e cidade
dados_agrupados = dados.groupby(["year","City"]).mean()

dados_agrupados.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,AverageTemperature,AverageTemperatureUncertainty
year,City,Unnamed: 2_level_1,Unnamed: 3_level_1
1743,A Coruña,10.779,1.942
1743,Aachen,6.425,1.628
1743,Aalborg,6.068,1.737
1743,Aberdeen,8.758,1.886
1743,Aix En Provence,7.478,1.866


In [34]:
## Vamos verificar quais ciadades podemos checar dentro desse conjunto de dados
cidades = dados['City'].unique()

## Análise de variação de temperatura entre as cidades

In [35]:
## Queremos calcular a diferença de temperatura entre o ano mais recente e o ano mais antigo para cada 
## cidade. Para fazer isso, vamos utilizar o método .agg() do pandas para calcular a diferença entre o 
## valor mínimo e máximo da temperatura para cada cidade.

dados_agrupados = dados.groupby(["City"]).agg({"year": ["min","max"], "AverageTemperature": ["min","max"]})



In [36]:
## Vamos calcular a diferença entre a temperatura mínima e máxima para cada cidade.
dados_agrupados["dif"] = dados_agrupados["AverageTemperature"]["max"] - dados_agrupados["AverageTemperature"]["min"]


In [37]:
## Vamos ordenar o dataframe pelo valor da diferença em ordem crescente
dados_agrupados.sort_values(by="dif",ascending=False,inplace=True)

In [38]:
## Selecionamos as cidades com maiores diferenças de temperaturas
top_cities = dados_agrupados.head(10)
top_cities

Unnamed: 0_level_0,year,year,AverageTemperature,AverageTemperature,dif
Unnamed: 0_level_1,min,max,min,max,Unnamed: 5_level_1
City,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Bratsk,1820,2013,-34.932,20.802,55.734
Blagoveshchensk,1820,2013,-31.874,23.435,55.309
Beian,1820,2013,-30.347,24.823,55.17
Barnaul,1820,2013,-31.312,23.002,54.314
Acheng,1820,2013,-29.341,24.833,54.174
Chita,1820,2013,-34.273,19.074,53.347
Anda,1820,2013,-26.772,26.509,53.281
Abakan,1820,2013,-31.138,21.503,52.641
Astana,1812,2013,-28.395,23.581,51.976
Baoshan,1829,2013,-27.885,23.959,51.844


In [39]:
# Armazenando o tempo de término
end_time = time.time()

# Calculando o tempo total de execução
execution_time = end_time - start_time

# Exibindo o tempo total de execução
print("Tempo de execução: {:.2f} segundos".format(execution_time))

Tempo de execução: 4.98 segundos
