## Análise exploratória de dados climáticos da região sudeste do Brasil

Trabalho apresentado na disciplina Lidando com Big Data no curso de Big Data, Data Science e Data Analytics na Unisinos
Autor: Rodrigo Martini Riboldi

Os dados foram obtidos da página [Hourly Weather Surface - Brazil (Southeast region) - Kaggle ](https://www.kaggle.com/PROPPG-PPG/hourly-weather-surface-brazil-southeast-region). Nesta página se encontram as informações e descrições do dataset.

**Usando Amazon S3**

O arquivo CSV foi disponibilizado em um bucket no S3 da Amazon AWS e acessado pelo DataBricks.

In [0]:
ACCESS_KEY = "inserir aqui a chave de acesso"
SECRET_KEY = "inserir aqui a chave secreta"
ENCODED_SECRET_KEY = SECRET_KEY.replace("/", "%2F")
AWS_BUCKET_NAME = "nome do bucket"
MOUNT_NAME = "dataset"

In [0]:
mount_dir = '/mnt/{}'.format(MOUNT_NAME)

try: # Testa se o diretório /mnt/datasets já existe
  dbutils.fs.ls(mount_dir) 

except: # Se o diretório não existir no mount, monta apontando para S3 
  dbutils.fs.mount("s3a://%s:%s@%s" % (ACCESS_KEY, ENCODED_SECRET_KEY, AWS_BUCKET_NAME), mount_dir)

**Conferindo o conteúdo**

In [0]:
%fs
ls /mnt/dataset/

path,name,size
dbfs:/mnt/dataset/sudeste.csv,sudeste.csv,1849067829


In [0]:
data_dir = mount_dir
print('Tamanho total dos arquivos:', sum([x.size for x in dbutils.fs.ls(data_dir)]) / 1000000000.0, 'GB\n')
print('Quantidade de arquivos:', len(dbutils.fs.ls(data_dir)))

**Criando um DataFrame a partir dos arquivos em formato CSV**

In [0]:
weather = spark.read.load("/mnt/dataset/sudeste.csv",
                         format="csv", sep=",", inferSchema="true", header="true")

display(weather)


wsid,wsnm,elvt,lat,lon,inme,city,prov,mdct,date,yr,mo,da,hr,prcp,stp,smax,smin,gbrd,temp,dewp,tmax,dmax,tmin,dmin,hmdy,hmax,hmin,wdsp,wdct,gust
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 00:00:00,2007-11-06,2007,11,6,0,,982.5,982.5,981.3,,29.3,12.1,29.7,16.8,25.5,10.8,35.0,58.0,32.0,3.2,101.0,6.5
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 01:00:00,2007-11-06,2007,11,6,1,,983.2,983.2,982.5,,29.0,13.5,29.9,13.6,29.0,12.2,39.0,39.0,35.0,3.6,94.0,6.4
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 02:00:00,2007-11-06,2007,11,6,2,,983.5,983.5,983.2,,27.4,14.0,29.0,14.0,27.4,13.6,44.0,44.0,39.0,2.5,93.0,6.9
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 03:00:00,2007-11-06,2007,11,6,3,,983.7,983.7,983.4,,25.8,16.9,27.4,16.9,25.8,14.1,58.0,58.0,44.0,1.7,96.0,5.8
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 04:00:00,2007-11-06,2007,11,6,4,,983.7,983.8,983.6,,25.4,16.4,26.3,17.0,25.3,16.4,57.0,58.0,56.0,3.1,110.0,7.5
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 05:00:00,2007-11-06,2007,11,6,5,,983.7,983.8,983.6,,23.8,16.2,25.4,16.4,23.8,16.0,62.0,62.0,57.0,2.0,99.0,6.8
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 06:00:00,2007-11-06,2007,11,6,6,,983.7,983.7,983.6,,22.0,16.7,23.8,16.7,22.0,16.2,72.0,72.0,62.0,1.3,93.0,4.9
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 07:00:00,2007-11-06,2007,11,6,7,,984.6,984.6,983.7,,19.7,17.4,22.0,17.8,19.5,16.6,86.0,89.0,72.0,0.5,157.0,2.8
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 08:00:00,2007-11-06,2007,11,6,8,,985.7,985.7,984.6,,18.3,17.3,19.7,17.3,18.3,16.9,93.0,94.0,85.0,,141.0,1.5
178,SÃO GONÇALO,237.0,-6.835777,-38.311583,A333,São Gonçalo,RJ,2007-11-06 09:00:00,2007-11-06,2007,11,6,9,,986.7,986.7,985.7,214.149,22.9,18.3,22.9,18.3,18.2,17.1,75.0,94.0,75.0,,248.0,


**Período de dados**

Vamos iniciar uma análise exploratória identificando o período de dados e a quantidade de registros que temos no DataFrame.

In [0]:
display(weather.select(weather.yr).summary('count','min','max'))

summary,yr
count,9779168
min,2000
max,2016


Todos anos possuem a mesma quantidade de dados? Todos os meses possuem a mesma quantidade de dados?  
Todos os estados possuem a mesma quantidade de dados? Quantas estações temos por estado?  

###Análise da origem e distribuição dos dados

Verificando a quantidade de dados a cada ano

In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('yr') \
          .agg(F.count('yr').alias('Dados por ano')) \
          .orderBy('yr') \
       )

yr,Dados por ano
2000,5328
2001,11736
2002,31104
2003,113064
2004,114504
2005,125232
2006,254088
2007,657384
2008,891384
2009,927560


2015 é o ano com mais dados, sendo o único que passa de 1 milhão de amostras, muito provavelmente o ano de 2016 não está completo.  
Vamos fazer essa verificação para termos certeza.

In [0]:
display(weather.where(weather['yr'] == 2016).groupBy('mo').count().orderBy('mo'))

mo,count
1,87792
2,82128
3,87792
4,84960
5,87792
6,86880
7,90768
8,90768
9,87840


Comprovamos a suspeita anterior, o ano de 2016 possui os dados somente até Agosto.  

Vamos avaliar como estão distribuidos os dados mensalmente neste ano e após, em todos os meses do dataset.

In [0]:
display(weather.where(weather['yr'] == 2015).groupBy('mo').count().orderBy('mo'))

mo,count
1,84816
2,76608
3,84816
4,82080
5,84816
6,82080
7,84816
8,85536
9,84936
10,87792


In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('mo') \
          .agg(F.count('mo').alias('Dados por mês')) \
          .orderBy('mo') \
       )

mo,Dados por mês
1,819888
2,749424
3,822384
4,797856
5,827304
6,811536
7,850440
8,860856
9,848952
10,795171


Conseguimos ver uma diferença na quantidade de dados em meses com 30 e 31 dias, além de uma grande diferença no mês de Fevereiro, que possui apenas 28 ou 29 dias.  

**Vamos agora verificar como os dados estão distribuidos pelos estados e cidades**

In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('prov') \
          .agg(F.count('yr').alias('Dados por estado')) \
          .orderBy('prov') \
       )

prov,Dados por estado
ES,704472
MG,4710632
RJ,1617624
SP,2746440


O estado de Minas Gerais possui a maior quantidade de dados (em todo o dataset), provavelmente este estado possui mais estações meteorológicas para cobrir uma extensão teritorial maior. Vamos verificar essa informação.

In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('prov') \
          .agg(F.countDistinct('inme').alias('Estações por estado')) \
          .orderBy('prov') \
       )

prov,Estações por estado
ES,9
MG,59
RJ,21
SP,32


Comprovamos a suspeita anterior, o estado de MG possui 59 estações.

Vamos agora ver como os dados estão distribuidos por cidades, e se existem cidades com mais de uma estação

In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('city') \
          .agg(F.count('city').alias('Dados por cidade')) \
          .orderBy('city') \
       )

city,Dados por cidade
Afonso Cláudio,44016
Aimorés,80280
Alegre,87096
Alfredo Chaves,86880
Almenara,120936
Araxá,120840
Ariranha,77880
Arraial do Cabo,87840
Avaré,87888
Barbacena,121176


Podemos ver que algumas cidades possuem muito mais dados do que outras, podendo ter mais de uma estação ou apenas mais tempo de operação. Algumas possuem pouquissimos dados, sendo estações com menor tempo de funcionamento.  
Vamos ver quais cidades possuem mais estações meteorológicas.

In [0]:
import pyspark.sql.functions as F

display( \
        weather \
          .groupBy('city') \
          .agg(F.countDistinct('inme').alias('Estações por cidade')) \
          .orderBy('city') \
       )

city,Estações por cidade
Afonso Cláudio,1
Aimorés,1
Alegre,1
Alfredo Chaves,1
Almenara,1
Araxá,1
Ariranha,1
Arraial do Cabo,1
Avaré,1
Barbacena,1


Com exceção de Belo Horizonte com 2 estações e do Rio de Janeiro com 4, todas as cidades possuem apenas 1 estação.  
Isso indica que as cidades com menores números de dados são devido ao tempo de operação das estações. Como também conseguimos ver no gráfico do Cmd 14, onde vimos a quantidade de dados em relação a cada um dos anos.

#### Análise das informações climáticas.  
  
Já temos mais informações sobre a origem de nossos dados, agora podemos seguir para as análises das informações climáticas, como a temperatura e precipitação

Iniciando pela temperatura, vamos ver como ela está distribuida na região

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('temp') \
    .agg(F.count('temp').alias('Temperatura')) \
  .orderBy('temp')
)

temp,temperatura
,0
-3.8,1
-3.6,2
-3.5,2
-3.4,2
-3.3,1
-3.2,3
-3.1,2
-3.0,3
-2.9,4


Possuimos um pico com mais de 600 mil observações no valor 0.0, como este valor de temperatura é incomum na região sudeste do país, pode significar que estamos lidando com dados faltantes ou erros de medição. 
  
Para não precisarmos nos preocupar com estes dados neste trabalho, vamos fazer análises que não necessitamos de médias, como uma análise dos extremos de temperatura ao longo dos anos e meses.

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('yr') \
    .agg(F.max('tmax').alias('Temperatura Máxima por Ano')) \
  .orderBy('yr')
)

yr,Temperatura Máxima
2000,38.2
2001,37.9
2002,40.9
2003,39.5
2004,39.6
2005,40.2
2006,40.5
2007,40.2
2008,41.3
2009,44.3


In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('mo') \
    .agg(F.max('tmax').alias('Temperatura Máxima por Mês')) \
  .orderBy('mo')
)

mo,Temperatura Máxima por Mês
1,44.2
2,44.6
3,45.0
4,44.8
5,44.8
6,38.5
7,36.6
8,44.3
9,44.3
10,42.4


In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('yr') \
    .agg(F.min('tmin').alias('Temperatura Mínima por Ano')) \
  .orderBy('yr')
)

yr,Temperatura Mínima por Ano
2000,0.0
2001,0.0
2002,-1.6
2003,-6.9
2004,-0.3
2005,0.0
2006,-0.9
2007,-2.3
2008,-2.2
2009,-1.8


In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('mo') \
    .agg(F.min('tmin').alias('Temperatura Máxima por Mês')) \
  .orderBy('mo')
)

mo,Temperatura Máxima por Mês
1,-0.3
2,0.0
3,0.0
4,-5.7
5,-8.5
6,-3.7
7,-3.4
8,-3.6
9,-2.5
10,0.0


Com este último gráfico conseguimos ver uma presença alta de valores mínimos com 0.0, isso pode indicar o mesmo problema que encontramos anteriormente de valores faltantes tendo sido colocados como 0.0 no dataset.  
Vamos verificar com a distribuição da temperatura mínima se existe um pico de valores em 0.0

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('tmin') \
    .agg(F.count('tmin').alias('Temperatura mínima')) \
  .orderBy('tmin')
)

tmin,Temperatura mínima
,0
-8.5,1
-7.3,1
-6.9,1
-6.8,2
-6.7,1
-5.7,1
-5.4,1
-5.2,1
-3.7,1


Confirmando a suspeita, temos um pico muito alto de valores em 0.0 que podem atrapalhar a análise dos dados de temperatura mínima, uma vez que muitos meses não atingem uma temperaturas inferiores a 0°C.  
Devido a esse problema, vamos seguir as análises com as temperaturas máximas.

Vamos verificar as maiores temperaturas por cidade, e quais cidades passaram de 40°C

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('city') \
    .agg(F.max('tmax').alias('Temperatura Máxima por Cidade')) \
  .orderBy('city')
)

city,Temperatura Máxima por Cidade
Afonso Cláudio,45.0
Aimorés,40.7
Alegre,41.7
Alfredo Chaves,40.3
Almenara,42.1
Araxá,36.2
Ariranha,41.9
Arraial do Cabo,34.9
Avaré,36.8
Barbacena,34.2


In [0]:
display(weather.where(weather['tmax'] > 40).groupBy('city').max('tmax').orderBy('city'))

city,max(tmax)
Afonso Cláudio,45.0
Aimorés,40.7
Alegre,41.7
Alfredo Chaves,40.3
Almenara,42.1
Ariranha,41.9
Barra Bonita,40.1
Barretos,41.8
Cambuci,41.2
Campina Verde,41.6


Agora vamos ver como a umidade relativa do ar está distribuida na região

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('hmdy') \
    .agg(F.count('hmdy').alias('Umidade relativa do ar')) \
  .orderBy('hmdy')
)

hmdy,Umidade relativa
0.0,679673
10.0,444
11.0,935
12.0,1877
13.0,3277
14.0,4881
15.0,5360
16.0,4984
17.0,6549
18.0,8086


Novamente possuimos um pico com mais de 600 mil observações no valor 0.0, mas como a região possui clima tropical umido, conseguimos ver uma tendência a valores de umidades maiores, superiores a 70%.

Por ultimo, vamos analisar a precipitação na região.  
Lembrando que a precipitação é medida em relação à ultima hora, então para vermos a precipitação total em um dia ou mês precisamos somar os valores.

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('prcp') \
    .agg(F.count('prcp').alias('Precipitação')) \
  .orderBy('prcp')
)

prcp,Precipitação
,0
0.0,746679
0.2,221740
0.4,80079
0.6,51360
0.8,38319
1.0,29273
1.2,24006
1.4,19579
1.6,16863


Agora um pico muito alto em 0.0 pode indicar algum erro na estação ou simplesmente que não houve nenhuma chuva na última hora.  
  
Vamos analisar a precipitação anual e mensal da região e qual mês costuma ser o mais chuvoso.

In [0]:
import pyspark.sql.functions as F
display( \
  weather \
  .groupBy('yr') \
    .agg(F.sum('prcp').alias('Precipitação Anual')) \
  .orderBy('yr')
)

yr,Precipitação
2000,496.19999999999953
2001,1636.2
2002,4417.000000000019
2003,11027.6
2004,11856.399999999903
2005,17028.199999999706
2006,41526.79999999946
2007,78268.79999999884
2008,138767.0000000011
2009,148827.20000000158


De acordo com este gráfico, o ano mais chuvoso foi 2013, mas devemos lembrar que não temos muitos dados referentes aos primeiros anos, e mais estações passaram a operar com o tempo.  

Vamos analisar apenas os dados mensais dos três anos que mais tinhamos dados: 2015, 2014 e 2013.

In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2015) \
  .groupBy('mo') \
    .agg(F.sum('prcp').alias('Precipitação Mensal em 2015')) \
  .orderBy('mo')
)

mo,Precipitação Mensal em 2015
1,9322.000000000007
2,18372.60000000006
3,18126.600000000068
4,7681.599999999998
5,7762.799999999998
6,3481.800000000003
7,3328.800000000001
8,1680.7999999999995
9,9680.800000000012
10,7542.799999999997


In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2014) \
  .groupBy('mo') \
    .agg(F.sum('prcp').alias('Precipitação Mensal em 2014')) \
  .orderBy('mo')
)

mo,Precipitação Mensal em 2014
1,8676.000000000005
2,7386.000000000005
3,12666.20000000003
4,9481.400000000009
5,3133.799999999996
6,2387.599999999997
7,5165.7999999999965
8,2308.999999999997
9,4522.200000000001
10,7401.800000000005


In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2013) \
  .groupBy('mo') \
    .agg(F.sum('prcp').alias('Precipitação Mensal em 2013')) \
  .orderBy('mo')
)

mo,Precipitação Mensal em 2013
1,27052.20000000007
2,12317.400000000029
3,19779.600000000064
4,9407.200000000012
5,7020.399999999997
6,4947.199999999997
7,4165.7999999999965
8,1607.9999999999986
9,6064.199999999993
10,11119.20000000002


Por fim vamos analisar quais foram as cidades mais chuvosas nestes anos.  
Não podemos esquecer que algumas cidades possuem mais de uma estação, então ficarão com um valor mais elevado de precipitação, como é o caso do Rio de Janeiro e Belo Horizonte

In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2015) \
  .groupBy('city') \
    .agg(F.sum('prcp').alias('Precipitação em 2015 por cidade')) \
  .orderBy('city')
)

city,Precipitação Mensal em 2013
Afonso Cláudio,527.1999999999989
Aimorés,489.5999999999991
Alegre,911.2000000000016
Alfredo Chaves,1244.200000000004
Almenara,467.7999999999986
Araxá,1494.0000000000084
Ariranha,852.0000000000035
Arraial do Cabo,587.7999999999986
Avaré,1948.600000000014
Barbacena,1232.8000000000036


In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2014) \
  .groupBy('city') \
    .agg(F.sum('prcp').alias('Precipitação em 2014 por cidade')) \
  .orderBy('city')
)

city,Precipitação em 2014 por cidade
Afonso Cláudio,654.6000000000003
Aimorés,618.4000000000002
Alegre,921.200000000002
Alfredo Chaves,999.400000000002
Almenara,490.5999999999981
Araxá,1370.000000000004
Ariranha,1024.6000000000015
Arraial do Cabo,527.7999999999992
Avaré,1012.8000000000022
Barbacena,990.8000000000025


In [0]:
import pyspark.sql.functions as F
display( \
  weather.where(weather['yr'] == 2013) \
  .groupBy('city') \
    .agg(F.sum('prcp').alias('Precipitação em 2013 por cidade')) \
  .orderBy('city')
)

city,Precipitação em 2013 por cidade
Afonso Cláudio,1352.0000000000043
Aimorés,1608.2000000000028
Alegre,1834.4000000000112
Alfredo Chaves,2034.6000000000129
Almenara,1024.4000000000033
Araxá,1281.6000000000029
Ariranha,1247.000000000005
Arraial do Cabo,784.2
Avaré,1428.8000000000038
Barbacena,1461.400000000014


Com este gráfico conseguimos ver quais cidades tiveram maior precipitação, onde o maior destaque foi Teresópolis. O município do Rio de Janeiro possui 4 estações e Belo Horizonte 2 estações, então seu valor está maior do que o real. Podemos perceber também que a estação do Guaruja apresentou valor 0 no ano de 2015, indicando algum problema ou ela não estava em funcionamento neste ano.

**Finalização**

Como estamos trabalhando com um mapeamento de um caminho local para o Sistema de Armazenamento AWS S3 precisamos "desmontar" este mapeamento para liberar os recursos em uso.

In [0]:
dbutils.fs.unmount(mount_dir)