# Desafio: Consumo de Dados para Previsão do Tempo das Cidades do Vale do Paraíba.

## Objetivo

Avaliar conhecimentos nas linguagens Python e SQL e na engine de processamento Apache Spark.

## Descrição

Neste desafio, você desenvolverá um notebook que será responsável por extrair dados de previsão do tempo das cidades do Vale do Paraíba, região onde se localiza a Dataside. Para consultar todas as cidades dessa região, utilizaremos a API do IBGE. No caso, basta realizar uma requisição HTTP com o método GET, utilizando a URL abaixo:

```
https://servicodados.ibge.gov.br/api/v1/localidades/mesorregioes/3513/municipios
```

Com esses dados, gerar um data frame e a partir dele uma temp view. Ex: "cities"

Utilizando os nomes das cidades, deverão ser consultados os dados de previsão de tempo para cada cidade. Para realizar essa consulta, poderá ser utilizada qualquer uma das APIs informadas no link abaixo.

[Public APIs - Wather](https://github.com/public-apis/public-apis#weather)

Obs.: Para algumas, pode ser necessário cadastrar-se para acessar sua API Key. Mas nenhuma delas deve precisar cadastrar cartão de crédito ou adicionar qualquer valor monetário para utilizar. Caso alguma solicite, basta optar por outra.

Com os dados consultados, gerar um data frame e partir dele outra temp view. Ex: "forecasts"

Com as temp views geradas, utilizar Spark SQL para criar queries e gerar data frames das seguintes tabelas:

- Tabela 1: dados de previsão do tempo para os próximos cinco dias, para cada data e cidade consultadas. As colunas dessa tabela serão:
    - Cidade
    - CodigoDaCidade
    - Data
    - Regiao
    - Pais
    - Latitude
    - Longigute
    - TemperaturaMaxima
    - TemperaturaMinima
    - TemperaturaMedia
    - VaiChover
    - ChanceDeChuva
    - CondicaoDoTempo
    - NascerDoSol
    - PorDoSol
    - VelocidadeMaximaDoVento
    
    Obs.: Os valores da coluna "VaiChover" deverá ser "Sim" ou "Não". E a coluna "CodigoDaCidade" é o ID retornado junto com os nomes da cidades na API do IBGE.
    Obs.: Dependendo da API utilizada, algumas colunas podem não existir e ficarão em branco. Você deve optar por uma API que traga o maior número de informações possível.

- Tabela 2: quantidade de dias com chuva e sem chuva para os dias consultados, para cada data consultada. Colunas:
    - Cidade
    - QtdDiasVaiChover
    - QtdDiasNaoVaiChover
    - TotalDiasMapeados

Essas tabelas deverão ser exportadas em formado CSV e entregue no final do desafio.

## To Do

[ ] - Consultar municípios do Vale do Paraíba, gerar um data frame e criar uma temp view com esses dados.
[ ] - Consultar dados do tempo para cada município, gerar um data frame e criar uma outra temp view.
[ ] - Utilizar Spark SQL para gerar os data frames das Tabelas 1 e 2.
[ ] - Exportar os data frames para CSV.

## Atenção

- Existe um limite de requisições de 10000 requests por conta cadastrada na m3o.
- Essa API pode retornar cidades de outras regiões que possuem nome semelhante a alguma cidade do Vale do Paraiba. Pode mantê-las ou filtrar para gerar as tabelas apenas com dados de Regiao = Sao Paulo. Fica a seu critério.

## Entregando o desafio

Concluindo todos os passos informados em To Do, basta salvar o arquivo .ipynb do notebook e enviar para a Dataside juntamente com os CSVs das duas tabelas.


In [1]:
import findspark
findspark.init()

import requests 
import json
import unidecode
from pyspark.sql import SparkSession

spark = SparkSession.builder \
      .master("local[1]") \
      .appName("SparkByExamples.com") \
      .getOrCreate()

In [2]:
# Buscar cidades do Vale do Paraíba
# TODO

# Criar data frame com as cidades
# TODO

# Criar view com as cidades
# TODO

In [3]:
# Buscar previsão do tempo para as cidades
# TODO

# Criar data frame com as previsões
# TODO

# Criar view com as previsões
# TODO

In [4]:
# Criar DF da Tabela 1
# TODO

In [5]:
# Criar DF da Tabela 2
# TODO

In [6]:
# Exportar CSVs
# TODO

In [9]:
#BUSCAR CIDADES DO VALE DO PARAÍBA PAULISTA
#1.VISUALIZAR
def mostrar_dados():
    request = requests.get("https://servicodados.ibge.gov.br/api/v1/localidades/mesorregioes/3513/municipios")
    print(request.content)
mostrar_dados()

b'[{"id":"3502507","nome":"Aparecida","microrregiao":{"id":35051,"nome":"Guaratinguet\xc3\xa1","mesorregiao":{"id":3513,"nome":"Vale do Para\xc3\xadba Paulista","UF":{"id":35,"sigla":"SP","nome":"S\xc3\xa3o Paulo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}}}},"regiao-imediata":{"id":350052,"nome":"Guaratinguet\xc3\xa1","regiao-intermediaria":{"id":3511,"nome":"S\xc3\xa3o Jos\xc3\xa9 dos Campos","UF":{"id":35,"sigla":"SP","nome":"S\xc3\xa3o Paulo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}}}}},{"id":"3503158","nome":"Arape\xc3\xad","microrregiao":{"id":35052,"nome":"Bananal","mesorregiao":{"id":3513,"nome":"Vale do Para\xc3\xadba Paulista","UF":{"id":35,"sigla":"SP","nome":"S\xc3\xa3o Paulo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}}}},"regiao-imediata":{"id":350053,"nome":"Cruzeiro","regiao-intermediaria":{"id":3511,"nome":"S\xc3\xa3o Jos\xc3\xa9 dos Campos","UF":{"id":35,"sigla":"SP","nome":"S\xc3\xa3o Paulo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}}}}},{"id":"3

In [12]:
#2.Passar dados para um json 
request = requests.get("https://servicodados.ibge.gov.br/api/v1/localidades/mesorregioes/3513/municipios")
dados = json.loads(request.content)

In [53]:
import findspark
findspark.init()
print(dados)

[{'id': '3502507', 'nome': 'Aparecida', 'microrregiao': {'id': 35051, 'nome': 'Guaratinguetá', 'mesorregiao': {'id': 3513, 'nome': 'Vale do Paraíba Paulista', 'UF': {'id': 35, 'sigla': 'SP', 'nome': 'São Paulo', 'regiao': {'id': 3, 'sigla': 'SE', 'nome': 'Sudeste'}}}}, 'regiao-imediata': {'id': 350052, 'nome': 'Guaratinguetá', 'regiao-intermediaria': {'id': 3511, 'nome': 'São José dos Campos', 'UF': {'id': 35, 'sigla': 'SP', 'nome': 'São Paulo', 'regiao': {'id': 3, 'sigla': 'SE', 'nome': 'Sudeste'}}}}}, {'id': '3503158', 'nome': 'Arapeí', 'microrregiao': {'id': 35052, 'nome': 'Bananal', 'mesorregiao': {'id': 3513, 'nome': 'Vale do Paraíba Paulista', 'UF': {'id': 35, 'sigla': 'SP', 'nome': 'São Paulo', 'regiao': {'id': 3, 'sigla': 'SE', 'nome': 'Sudeste'}}}}, 'regiao-imediata': {'id': 350053, 'nome': 'Cruzeiro', 'regiao-intermediaria': {'id': 3511, 'nome': 'São José dos Campos', 'UF': {'id': 35, 'sigla': 'SP', 'nome': 'São Paulo', 'regiao': {'id': 3, 'sigla': 'SE', 'nome': 'Sudeste'}}}}

In [14]:
import pandas as pd

In [15]:
from pandas import json_normalize
dataframe_API = pd.json_normalize(dados)

In [16]:
#ver dados 
dataframe_API.head(3)

Unnamed: 0,id,nome,microrregiao.id,microrregiao.nome,microrregiao.mesorregiao.id,microrregiao.mesorregiao.nome,microrregiao.mesorregiao.UF.id,microrregiao.mesorregiao.UF.sigla,microrregiao.mesorregiao.UF.nome,microrregiao.mesorregiao.UF.regiao.id,...,regiao-imediata.id,regiao-imediata.nome,regiao-imediata.regiao-intermediaria.id,regiao-imediata.regiao-intermediaria.nome,regiao-imediata.regiao-intermediaria.UF.id,regiao-imediata.regiao-intermediaria.UF.sigla,regiao-imediata.regiao-intermediaria.UF.nome,regiao-imediata.regiao-intermediaria.UF.regiao.id,regiao-imediata.regiao-intermediaria.UF.regiao.sigla,regiao-imediata.regiao-intermediaria.UF.regiao.nome
0,3502507,Aparecida,35051,Guaratinguetá,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350052,Guaratinguetá,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
1,3503158,Arapeí,35052,Bananal,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
2,3503505,Areias,35052,Bananal,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste


In [17]:
#3. Criar dataframe com spark
df1 = spark.createDataFrame(dataframe_API) 

In [18]:
#ver cidades

cidades = dataframe_API["nome"]

In [19]:
cidadesLista = list(cidades)

In [20]:
cidadesLista

['Aparecida',
 'Arapeí',
 'Areias',
 'Bananal',
 'Caçapava',
 'Cachoeira Paulista',
 'Campos do Jordão',
 'Canas',
 'Caraguatatuba',
 'Cruzeiro',
 'Cunha',
 'Guaratinguetá',
 'Igaratá',
 'Ilhabela',
 'Jacareí',
 'Jambeiro',
 'Lagoinha',
 'Lavrinhas',
 'Lorena',
 'Monteiro Lobato',
 'Natividade da Serra',
 'Paraibuna',
 'Pindamonhangaba',
 'Piquete',
 'Potim',
 'Queluz',
 'Redenção da Serra',
 'Roseira',
 'Santa Branca',
 'Santo Antônio do Pinhal',
 'São Bento do Sapucaí',
 'São José do Barreiro',
 'São José dos Campos',
 'São Luiz do Paraitinga',
 'São Sebastião',
 'Silveiras',
 'Taubaté',
 'Tremembé',
 'Ubatuba']

In [1]:
#A API Hg Brasil só permite utilizar requisição para até 10 cidades por dia. Farei para 7, mas o procedimento seguiria válido
#para n cidades

dfReduzido = dataframe_API.head(7)

NameError: name 'dataframe_API' is not defined

In [25]:
cidades7 = dfReduzido["nome"]

In [26]:
cidades7Lista = list(cidades7)

In [27]:
cidades7Lista

['Aparecida',
 'Arapeí',
 'Areias',
 'Bananal',
 'Caçapava',
 'Cachoeira Paulista',
 'Campos do Jordão']

In [28]:
#é recomendado passar para URL COde para fazer as requisições (recomendação da documentação da própria API)

import urllib.parse


In [29]:
#passando para URL
cidadesURLCode = []
for cidade in cidades7Lista:
    cidadesURLCode.append(urllib.parse.quote(cidade))

cidadesURLCode

['Aparecida',
 'Arape%C3%AD',
 'Areias',
 'Bananal',
 'Ca%C3%A7apava',
 'Cachoeira%20Paulista',
 'Campos%20do%20Jord%C3%A3o']

In [42]:
###funcao que cria todas as requisicoes de cidades 

def criaVetorRequisicoes (lista):
    listaRequisicao = []
    for cidade in lista:
        stringBase = "https://api.hgbrasil.com/weather?key=ee131789&city_name="
        stringRequisicao = stringBase + cidade
        requisicao = requests.get(stringRequisicao)
        listaRequisicao.append(json.loads(requisicao.content))
    return listaRequisicao


        
        

In [43]:
###Dados dataframe requisicoes de previsao do tempo
requisicoes_cidades = criaVetorRequisicoes(cidadesURLCode)


In [44]:
df_forecast = pd.json_normalize(requisicoes_cidades)

In [45]:
df_forecast.head(7)

Unnamed: 0,by,valid_key,execution_time,from_cache,results.temp,results.date,results.time,results.condition_code,results.description,results.currently,results.cid,results.city,results.img_id,results.humidity,results.wind_speedy,results.sunrise,results.sunset,results.condition_slug,results.city_name,results.forecast
0,city_name,True,0.0,True,34,05/05/2022,15:49,28,Tempo nublado,dia,,"Aparecida, PB",28,34,5.44 km/h,05:33 am,05:24 pm,cloudly_day,Aparecida,"[{'date': '05/05', 'weekday': 'Qui', 'max': 34..."
1,city_name,True,0.52,False,23,05/05/2022,15:49,27,Tempo limpo,dia,,"Arapeí, SP",27,63,1.24 km/h,06:18 am,05:29 pm,clear_day,Arapeí,"[{'date': '05/05', 'weekday': 'Qui', 'max': 25..."
2,city_name,True,0.0,True,23,05/05/2022,15:34,27,Tempo limpo,dia,,"Areias, SP",27,51,2.91 km/h,06:18 am,05:30 pm,clear_day,Areias,"[{'date': '05/05', 'weekday': 'Qui', 'max': 26..."
3,default,True,0.35,False,23,05/05/2022,15:49,27,Tempo limpo,dia,,"Bananal, SP",27,63,1.24 km/h,06:18 am,05:29 pm,clear_day,Bananal,"[{'date': '05/05', 'weekday': 'Qui', 'max': 25..."
4,woeid,True,0.35,False,23,05/05/2022,15:49,29,Parcialmente nublado,dia,,"Caçapava, SP",29,66,3.11 km/h,06:24 am,05:34 pm,cloudly_day,Caçapava,"[{'date': '05/05', 'weekday': 'Qui', 'max': 22..."
5,woeid,True,0.76,False,25,05/05/2022,15:49,27,Tempo limpo,dia,,"Cachoeira Paulista, SP",27,56,2.31 km/h,06:20 am,05:32 pm,clear_day,Cachoeira Paulista,"[{'date': '05/05', 'weekday': 'Qui', 'max': 25..."
6,city_name,True,0.0,True,16,05/05/2022,15:27,27,Tempo limpo,dia,,"Campos do Jordão, SP",27,54,0.76 km/h,06:23 am,05:34 pm,clear_day,Campos do Jordão,"[{'date': '05/05', 'weekday': 'Qui', 'max': 17..."


In [46]:
#CRIAÇÃO DF TABELA 1

df_forecast["results.forecast"]

0    [{'date': '05/05', 'weekday': 'Qui', 'max': 34...
1    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
2    [{'date': '05/05', 'weekday': 'Qui', 'max': 26...
3    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
4    [{'date': '05/05', 'weekday': 'Qui', 'max': 22...
5    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
6    [{'date': '05/05', 'weekday': 'Qui', 'max': 17...
Name: results.forecast, dtype: object

In [47]:
# O FOrecasts contem a previsão para os próximos dias

df_proximosDias = df_forecast["results.forecast"]

In [49]:
df_proximosDias.head(7)

0    [{'date': '05/05', 'weekday': 'Qui', 'max': 34...
1    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
2    [{'date': '05/05', 'weekday': 'Qui', 'max': 26...
3    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
4    [{'date': '05/05', 'weekday': 'Qui', 'max': 22...
5    [{'date': '05/05', 'weekday': 'Qui', 'max': 25...
6    [{'date': '05/05', 'weekday': 'Qui', 'max': 17...
Name: results.forecast, dtype: object

In [50]:
type(df_proximosDias)

pandas.core.series.Series

In [51]:
listaProximosDias = list(df_proximosDias)

In [155]:
listaProximosDias

[[{'date': '05/05',
   'weekday': 'Qui',
   'max': 34,
   'min': 20,
   'description': 'Tempo nublado',
   'condition': 'cloudly_day'},
  {'date': '06/05',
   'weekday': 'Sex',
   'max': 34,
   'min': 21,
   'description': 'Tempo nublado',
   'condition': 'cloudly_day'},
  {'date': '07/05',
   'weekday': 'Sáb',
   'max': 32,
   'min': 21,
   'description': 'Chuvas esparsas',
   'condition': 'rain'},
  {'date': '08/05',
   'weekday': 'Dom',
   'max': 33,
   'min': 22,
   'description': 'Chuvas esparsas',
   'condition': 'rain'},
  {'date': '09/05',
   'weekday': 'Seg',
   'max': 33,
   'min': 21,
   'description': 'Chuvas esparsas',
   'condition': 'rain'},
  {'date': '10/05',
   'weekday': 'Ter',
   'max': 34,
   'min': 21,
   'description': 'Chuvas esparsas',
   'condition': 'rain'},
  {'date': '11/05',
   'weekday': 'Qua',
   'max': 34,
   'min': 23,
   'description': 'Chuvas esparsas',
   'condition': 'rain'},
  {'date': '12/05',
   'weekday': 'Qui',
   'max': 33,
   'min': 23,
   '

In [156]:
listaProximosDias[0][0:5]

[{'date': '05/05',
  'weekday': 'Qui',
  'max': 34,
  'min': 20,
  'description': 'Tempo nublado',
  'condition': 'cloudly_day'},
 {'date': '06/05',
  'weekday': 'Sex',
  'max': 34,
  'min': 21,
  'description': 'Tempo nublado',
  'condition': 'cloudly_day'},
 {'date': '07/05',
  'weekday': 'Sáb',
  'max': 32,
  'min': 21,
  'description': 'Chuvas esparsas',
  'condition': 'rain'},
 {'date': '08/05',
  'weekday': 'Dom',
  'max': 33,
  'min': 22,
  'description': 'Chuvas esparsas',
  'condition': 'rain'},
 {'date': '09/05',
  'weekday': 'Seg',
  'max': 33,
  'min': 21,
  'description': 'Chuvas esparsas',
  'condition': 'rain'}]

In [157]:
#transformar em lista de dicts para trabalhar com dataframes
listaDicts1 = listaProximosDias[0][0:5]

In [158]:
listaDicts1

[{'date': '05/05',
  'weekday': 'Qui',
  'max': 34,
  'min': 20,
  'description': 'Tempo nublado',
  'condition': 'cloudly_day'},
 {'date': '06/05',
  'weekday': 'Sex',
  'max': 34,
  'min': 21,
  'description': 'Tempo nublado',
  'condition': 'cloudly_day'},
 {'date': '07/05',
  'weekday': 'Sáb',
  'max': 32,
  'min': 21,
  'description': 'Chuvas esparsas',
  'condition': 'rain'},
 {'date': '08/05',
  'weekday': 'Dom',
  'max': 33,
  'min': 22,
  'description': 'Chuvas esparsas',
  'condition': 'rain'},
 {'date': '09/05',
  'weekday': 'Seg',
  'max': 33,
  'min': 21,
  'description': 'Chuvas esparsas',
  'condition': 'rain'}]

In [159]:
listaDicts2 = listaProximosDias[1][0:5] ##optei por nao automatizar essa parte por ser prático

In [160]:
listaDicts3 = listaProximosDias[2][0:5]
listaDicts4 = listaProximosDias[3][0:5]
listaDicts5 = listaProximosDias[4][0:5]
listaDicts6 = listaProximosDias[5][0:5]
listaDicts7 = listaProximosDias[6][0:5] 

In [173]:
dfA = pd.DataFrame(listaDicts1)
dfB = pd.DataFrame(listaDicts2)
dfC = pd.DataFrame(listaDicts3)
dfD = pd.DataFrame(listaDicts4)
dfE = pd.DataFrame(listaDicts5)
dfF = pd.DataFrame(listaDicts6)
dfG = pd.DataFrame(listaDicts7)


In [174]:
dfA.head()

Unnamed: 0,date,weekday,max,min,description,condition
0,05/05,Qui,34,20,Tempo nublado,cloudly_day
1,06/05,Sex,34,21,Tempo nublado,cloudly_day
2,07/05,Sáb,32,21,Chuvas esparsas,rain
3,08/05,Dom,33,22,Chuvas esparsas,rain
4,09/05,Seg,33,21,Chuvas esparsas,rain


In [175]:
#primeira cidade é Aparecida
dfReduzido.head(7)

Unnamed: 0,id,nome,microrregiao.id,microrregiao.nome,microrregiao.mesorregiao.id,microrregiao.mesorregiao.nome,microrregiao.mesorregiao.UF.id,microrregiao.mesorregiao.UF.sigla,microrregiao.mesorregiao.UF.nome,microrregiao.mesorregiao.UF.regiao.id,...,regiao-imediata.id,regiao-imediata.nome,regiao-imediata.regiao-intermediaria.id,regiao-imediata.regiao-intermediaria.nome,regiao-imediata.regiao-intermediaria.UF.id,regiao-imediata.regiao-intermediaria.UF.sigla,regiao-imediata.regiao-intermediaria.UF.nome,regiao-imediata.regiao-intermediaria.UF.regiao.id,regiao-imediata.regiao-intermediaria.UF.regiao.sigla,regiao-imediata.regiao-intermediaria.UF.regiao.nome
0,3502507,Aparecida,35051,Guaratinguetá,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350052,Guaratinguetá,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
1,3503158,Arapeí,35052,Bananal,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
2,3503505,Areias,35052,Bananal,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
3,3504909,Bananal,35052,Bananal,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
4,3508504,Caçapava,35050,São José dos Campos,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350049,São José dos Campos,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
5,3508603,Cachoeira Paulista,35051,Guaratinguetá,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350053,Cruzeiro,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste
6,3509700,Campos do Jordão,35049,Campos do Jordão,3513,Vale do Paraíba Paulista,35,SP,São Paulo,3,...,350050,Taubaté - Pindamonhangaba,3511,São José dos Campos,35,SP,São Paulo,3,SE,Sudeste


In [176]:
dfReduzido.iloc[0]

id                                                                       3502507
nome                                                                   Aparecida
microrregiao.id                                                            35051
microrregiao.nome                                                  Guaratinguetá
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [129]:
#Especificação: Código é o nome da cidade + id: ex = 35051Aparecida

In [132]:
#Não vou automatizar o processo mais uma vez, por tratar apenas 7 dados
# mas o caminho é combinar laços e as estruturas do python

In [177]:
nome1 = ['Aparecida','Aparecida','Aparecida','Aparecida','Aparecida']
codigo1 = ['35051Aparecida','35051Aparecida','35051Aparecida','35051Aparecida','35051Aparecida']
regiao1 = ['Guaratinguetá','Guaratinguetá','Guaratinguetá','Guaratinguetá','Guaratinguetá']
pais = ['Brasil','Brasil','Brasil','Brasil','Brasil']


In [134]:
#nascer do sol e por do SOl, outras condições, só consegui para o dia atual na API. O resto das utilidades exigia pagamento

In [135]:
#portanto, dividi em duas tabelas


In [136]:
df_forecast.to_csv("tabela1A.csv") 

In [178]:
#Agora utilizarei a previsao para os próximos 5 dias de cada uma das 7 cidades com o máximo que obtive
dfA

Unnamed: 0,date,weekday,max,min,description,condition
0,05/05,Qui,34,20,Tempo nublado,cloudly_day
1,06/05,Sex,34,21,Tempo nublado,cloudly_day
2,07/05,Sáb,32,21,Chuvas esparsas,rain
3,08/05,Dom,33,22,Chuvas esparsas,rain
4,09/05,Seg,33,21,Chuvas esparsas,rain


In [179]:
dfA['city'] = nome1
dfA['code'] = codigo1
dfA['microregion'] = regiao1
dfA['country'] = pais

In [180]:
dfA

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,34,20,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
1,06/05,Sex,34,21,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
2,07/05,Sáb,32,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
3,08/05,Dom,33,22,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
4,09/05,Seg,33,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil


In [181]:
#fazer o mesmo para os outros 7, antes de juntar os dataframes
dfReduzido.iloc[1]

id                                                                       3503158
nome                                                                      Arapeí
microrregiao.id                                                            35052
microrregiao.nome                                                        Bananal
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [182]:
nome2=['Arapeí','Arapeí','Arapeí','Arapeí','Arapeí']
codigo2=['3503158Arapeí','3503158Arapeí','3503158Arapeí','3503158Arapeí','3503158Arapeí']
regiao2=['Bananal','Bananal','Bananal','Bananal','Bananal']


In [183]:
dfB['city'] = nome2
dfB['code'] = codigo2
dfB['microregion'] = regiao2
dfB['country'] = pais
dfB

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil
1,06/05,Sex,23,13,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
2,07/05,Sáb,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
3,08/05,Dom,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
4,09/05,Seg,23,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil


In [184]:
dfReduzido.iloc[2]

id                                                                       3503505
nome                                                                      Areias
microrregiao.id                                                            35052
microrregiao.nome                                                        Bananal
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [188]:
nome3 = ['Areias','Areias','Areias','Areias','Areias']
codigo3 = ['3503505Areias', '3503505Areias', '3503505Areias', '3503505Areias', '3503505Areias']
regiao3 = ['Bananal','Bananal','Bananal','Bananal','Bananal']


In [189]:
dfC

Unnamed: 0,date,weekday,max,min,description,condition
0,05/05,Qui,26,14,Tempo limpo,clear_day
1,06/05,Sex,24,13,Chuvas esparsas,rain
2,07/05,Sáb,23,17,Chuvas esparsas,rain
3,08/05,Dom,22,17,Chuvas esparsas,rain
4,09/05,Seg,24,16,Tempo limpo,clear_day


In [190]:
dfC['city'] = nome3
dfC['code'] = codigo3
dfC['microregion'] = regiao3
dfC['country'] = pais
dfC

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,26,14,Tempo limpo,clear_day,Areias,3503505Areias,Bananal,Brasil
1,06/05,Sex,24,13,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
2,07/05,Sáb,23,17,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
3,08/05,Dom,22,17,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
4,09/05,Seg,24,16,Tempo limpo,clear_day,Areias,3503505Areias,Bananal,Brasil


In [191]:
dfReduzido.iloc[3]

id                                                                       3504909
nome                                                                     Bananal
microrregiao.id                                                            35052
microrregiao.nome                                                        Bananal
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [196]:
nome4 = ['Bananal','Bananal','Bananal','Bananal','Bananal']
codigo4= ['3504909Bananal', '3504909Bananal', '3504909Bananal','3504909Bananal','3504909Bananal']
regiao4= ['Bananal','Bananal','Bananal','Bananal','Bananal']


In [197]:
dfD['city'] = nome4
dfD['code'] = codigo4
dfD['microregion'] = regiao4
dfD['country'] = pais
dfD

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,15,Tempo limpo,clear_day,Bananal,3504909Bananal,Bananal,Brasil
1,06/05,Sex,23,13,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
2,07/05,Sáb,21,15,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
3,08/05,Dom,21,15,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
4,09/05,Seg,23,15,Tempo limpo,clear_day,Bananal,3504909Bananal,Bananal,Brasil


In [198]:
dfReduzido.iloc[4]

id                                                                       3508504
nome                                                                    Caçapava
microrregiao.id                                                            35050
microrregiao.nome                                            São José dos Campos
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [200]:
nome5 = ['Caçapava','Caçapava','Caçapava','Caçapava','Caçapava']
codigo5 = ['3508504Caçapava', '3508504Caçapava', '3508504Caçapava','3508504Caçapava','3508504Caçapava']
regiao5 = ['São José dos Campos','São José dos Campos','São José dos Campos','São José dos Campos','São José dos Campos']


In [201]:
dfE['city'] = nome5
dfE['code'] = codigo5
dfE['microregion'] = regiao5
dfE['country'] = pais
dfE

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,22,10,Tempo limpo,clear_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
1,06/05,Sex,24,14,Parcialmente nublado,cloud,Caçapava,3508504Caçapava,São José dos Campos,Brasil
2,07/05,Sáb,23,14,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
3,08/05,Dom,23,15,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
4,09/05,Seg,24,14,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil


In [202]:
dfReduzido.iloc[5]

id                                                                       3508603
nome                                                          Cachoeira Paulista
microrregiao.id                                                            35051
microrregiao.nome                                                  Guaratinguetá
microrregiao.mesorregiao.id                                                 3513
microrregiao.mesorregiao.nome                           Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                35
microrregiao.mesorregiao.UF.sigla                                             SP
microrregiao.mesorregiao.UF.nome                                       São Paulo
microrregiao.mesorregiao.UF.regiao.id                                          3
microrregiao.mesorregiao.UF.regiao.sigla                                      SE
microrregiao.mesorregiao.UF.regiao.nome                                  Sudeste
regiao-imediata.id          

In [205]:
nome6 = ['Cachoeira Paulista','Cachoeira Paulista','Cachoeira Paulista','Cachoeira Paulista','Cachoeira Paulista']
codigo6 = ['3508603Cachoeira Paulista', '3508603Cachoeira Paulista', '3508603Cachoeira Paulista','3508603Cachoeira Paulista','3508603Cachoeira Paulista']
regiao6 = ['Guaratinguetá','Guaratinguetá','Guaratinguetá','Guaratinguetá','Guaratinguetá']

In [206]:
dfF['city'] = nome6
dfF['code'] = codigo6
dfF['microregion'] = regiao6
dfF['country'] = pais
dfF

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,12,Tempo limpo,clear_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
1,06/05,Sex,25,13,Parcialmente nublado,cloudly_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
2,07/05,Sáb,24,14,Tempo nublado,cloudly_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
3,08/05,Dom,24,15,Parcialmente nublado,cloud,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
4,09/05,Seg,24,15,Parcialmente nublado,cloud,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil


In [207]:
dfReduzido.iloc[6]

id                                                                        3509700
nome                                                             Campos do Jordão
microrregiao.id                                                             35049
microrregiao.nome                                                Campos do Jordão
microrregiao.mesorregiao.id                                                  3513
microrregiao.mesorregiao.nome                            Vale do Paraíba Paulista
microrregiao.mesorregiao.UF.id                                                 35
microrregiao.mesorregiao.UF.sigla                                              SP
microrregiao.mesorregiao.UF.nome                                        São Paulo
microrregiao.mesorregiao.UF.regiao.id                                           3
microrregiao.mesorregiao.UF.regiao.sigla                                       SE
microrregiao.mesorregiao.UF.regiao.nome                                   Sudeste
regiao-imediata.

In [208]:
nome7 = ['Campos do Jordão','Campos do Jordão','Campos do Jordão','Campos do Jordão','Campos do Jordão']
codigo7 = ['3509700 Campos do Jordão', '3509700 Campos do Jordão', '3509700 Campos do Jordão','3509700 Campos do Jordão','3509700 Campos do Jordão']
regiao7 = ['Campos do Jordão','Campos do Jordão','Campos do Jordão','Campos do Jordão','Campos do Jordão']

In [210]:
dfG['city'] = nome7
dfG['code'] = codigo7
dfG['microregion'] = regiao7
dfG['country'] = pais
dfG

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,17,5,Tempo limpo,clear_day,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
1,06/05,Sex,18,7,Tempo limpo,clear_day,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
2,07/05,Sáb,17,9,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
3,08/05,Dom,17,10,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
4,09/05,Seg,18,10,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil


In [212]:
dfA


Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,34,20,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
1,06/05,Sex,34,21,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
2,07/05,Sáb,32,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
3,08/05,Dom,33,22,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
4,09/05,Seg,33,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil


In [213]:
dfB

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil
1,06/05,Sex,23,13,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
2,07/05,Sáb,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
3,08/05,Dom,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
4,09/05,Seg,23,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil


In [214]:
dfC


Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,26,14,Tempo limpo,clear_day,Areias,3503505Areias,Bananal,Brasil
1,06/05,Sex,24,13,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
2,07/05,Sáb,23,17,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
3,08/05,Dom,22,17,Chuvas esparsas,rain,Areias,3503505Areias,Bananal,Brasil
4,09/05,Seg,24,16,Tempo limpo,clear_day,Areias,3503505Areias,Bananal,Brasil


In [215]:
dfD

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,15,Tempo limpo,clear_day,Bananal,3504909Bananal,Bananal,Brasil
1,06/05,Sex,23,13,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
2,07/05,Sáb,21,15,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
3,08/05,Dom,21,15,Chuvas esparsas,rain,Bananal,3504909Bananal,Bananal,Brasil
4,09/05,Seg,23,15,Tempo limpo,clear_day,Bananal,3504909Bananal,Bananal,Brasil


In [216]:
dfE

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,22,10,Tempo limpo,clear_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
1,06/05,Sex,24,14,Parcialmente nublado,cloud,Caçapava,3508504Caçapava,São José dos Campos,Brasil
2,07/05,Sáb,23,14,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
3,08/05,Dom,23,15,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil
4,09/05,Seg,24,14,Tempo nublado,cloudly_day,Caçapava,3508504Caçapava,São José dos Campos,Brasil


In [217]:
dfF

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,25,12,Tempo limpo,clear_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
1,06/05,Sex,25,13,Parcialmente nublado,cloudly_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
2,07/05,Sáb,24,14,Tempo nublado,cloudly_day,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
3,08/05,Dom,24,15,Parcialmente nublado,cloud,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil
4,09/05,Seg,24,15,Parcialmente nublado,cloud,Cachoeira Paulista,3508603Cachoeira Paulista,Guaratinguetá,Brasil


In [218]:
dfG

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,17,5,Tempo limpo,clear_day,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
1,06/05,Sex,18,7,Tempo limpo,clear_day,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
2,07/05,Sáb,17,9,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
3,08/05,Dom,17,10,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil
4,09/05,Seg,18,10,Chuvas esparsas,rain,Campos do Jordão,3509700 Campos do Jordão,Campos do Jordão,Brasil


In [223]:
Tabela1 = pd.concat([dfA,dfB,dfC,dfD,dfE,dfF,dfG])

In [224]:
Tabela1.to_csv("Tabela1.csv")

In [239]:
#CRIAÇÃO DAS TEMP VIEWS

#TRABALHAR COM DATAFRAMES DO SPARK

Tabela1

Unnamed: 0,date,weekday,max,min,description,condition,city,code,microregion,country
0,05/05,Qui,34,20,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
1,06/05,Sex,34,21,Tempo nublado,cloudly_day,Aparecida,35051Aparecida,Guaratinguetá,Brasil
2,07/05,Sáb,32,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
3,08/05,Dom,33,22,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
4,09/05,Seg,33,21,Chuvas esparsas,rain,Aparecida,35051Aparecida,Guaratinguetá,Brasil
0,05/05,Qui,25,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil
1,06/05,Sex,23,13,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
2,07/05,Sáb,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
3,08/05,Dom,21,15,Chuvas esparsas,rain,Arapeí,3503158Arapeí,Bananal,Brasil
4,09/05,Seg,23,15,Tempo limpo,clear_day,Arapeí,3503158Arapeí,Bananal,Brasil


In [226]:
sparkdf1 = spark.createDataFrame(dfReduzido)

In [227]:
sparkdf1.show()

+-------+------------------+---------------+-------------------+---------------------------+-----------------------------+------------------------------+---------------------------------+--------------------------------+-------------------------------------+----------------------------------------+---------------------------------------+------------------+--------------------+---------------------------------------+-----------------------------------------+------------------------------------------+---------------------------------------------+--------------------------------------------+-------------------------------------------------+----------------------------------------------------+---------------------------------------------------+
|     id|              nome|microrregiao.id|  microrregiao.nome|microrregiao.mesorregiao.id|microrregiao.mesorregiao.nome|microrregiao.mesorregiao.UF.id|microrregiao.mesorregiao.UF.sigla|microrregiao.mesorregiao.UF.nome|microrregiao.mesorregiao.UF.r

In [228]:
sparkdf2 = spark.createDataFrame(Tabela1)

In [229]:
sparkdf2.head(3)

[Row(date='05/05', weekday='Qui', max=34, min=20, description='Tempo nublado', condition='cloudly_day', city='Aparecida', code='35051Aparecida', microregion='Guaratinguetá', country='Brasil'),
 Row(date='06/05', weekday='Sex', max=34, min=21, description='Tempo nublado', condition='cloudly_day', city='Aparecida', code='35051Aparecida', microregion='Guaratinguetá', country='Brasil'),
 Row(date='07/05', weekday='Sáb', max=32, min=21, description='Chuvas esparsas', condition='rain', city='Aparecida', code='35051Aparecida', microregion='Guaratinguetá', country='Brasil')]

In [231]:
sparkdf2.columns

['date',
 'weekday',
 'max',
 'min',
 'description',
 'condition',
 'city',
 'code',
 'microregion',
 'country']

In [232]:
sparkdf1.createOrReplaceTempView("Cities")

In [235]:
sparkdf2.createOrReplaceTempView("Forecast")

In [250]:
sqlDF1 = spark.sql("Select weekday,date from Forecast where condition = 'rain'" )
# dias com chuva

In [251]:
sqlDF1.show()

+-------+-----+
|weekday| date|
+-------+-----+
|    Sáb|07/05|
|    Dom|08/05|
|    Seg|09/05|
|    Sex|06/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Sex|06/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Sex|06/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Seg|09/05|
+-------+-----+



In [253]:
#dias sem chuva 
sqlDF2 = spark.sql("Select weekday,date from Forecast where condition != 'rain'" )
# dias com chuva

In [254]:
sqlDF2.show()

+-------+-----+
|weekday| date|
+-------+-----+
|    Qui|05/05|
|    Sex|06/05|
|    Qui|05/05|
|    Seg|09/05|
|    Qui|05/05|
|    Seg|09/05|
|    Qui|05/05|
|    Seg|09/05|
|    Qui|05/05|
|    Sex|06/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Seg|09/05|
|    Qui|05/05|
|    Sex|06/05|
|    Sáb|07/05|
|    Dom|08/05|
|    Seg|09/05|
|    Qui|05/05|
|    Sex|06/05|
+-------+-----+



In [264]:
sqlDF3 = spark.sql("Select city,count(*) from Forecast where condition = 'rain' group by city  " )

In [265]:
sqlDF3.show()

+----------------+--------+
|            city|count(1)|
+----------------+--------+
|       Aparecida|       3|
|          Arapeí|       3|
|Campos do Jordão|       3|
|         Bananal|       3|
|          Areias|       3|
+----------------+--------+



In [266]:
sqlDF4 = spark.sql("Select count(weekday) from Forecast where condition = 'rain'") ##numero de dias chuvosos

In [267]:
sqlDF4.show()

+--------------+
|count(weekday)|
+--------------+
|            15|
+--------------+



In [277]:
sqlDF5 = spark.sql("Select count(weekday)  from Forecast where condition != 'rain'") ##numero de dias nao chuvosos

In [278]:
sqlDF5.show()

+--------------+
|count(weekday)|
+--------------+
|            20|
+--------------+



In [292]:
##ESSAS QUERIES FORAM APENAS TESTES PESSOAIS, AGORA CRIEMOS A TABELA 2
## EM UM BANCO SQL SERVER, EU ARMAZENARIA DUAS CONSULTAS EM TABELAS TEMPORÁRIAS DISTINTAS, E DEPOIS APLICARIA O LEFT JOIN
##AQUI O PROCEDIMENTO É SIMILAR, MAS OS DATAFRAMES CRIADOS PELO SQL SERÃO AS TABELAS TEMPORARIAS
##PEDE-SE: FILTRAR PELA DATA E CONSTRUIR UM FRAME PARA CADA UMA
##subquery = locais sem chuva

sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='05/05')  from ForeCast where condition != 'rain' and date='05/05' group by city, date")

In [293]:
sqlTEMP1.show()

+-----+------------------+----------------+
| date|              city|scalarsubquery()|
+-----+------------------+----------------+
|05/05|  Campos do Jordão|               7|
|05/05|          Caçapava|               7|
|05/05|            Arapeí|               7|
|05/05|Cachoeira Paulista|               7|
|05/05|           Bananal|               7|
|05/05|         Aparecida|               7|
|05/05|            Areias|               7|
+-----+------------------+----------------+



In [308]:
##nao choveu em nenhum lugar, logo a query para = rain será vazia
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition = 'rain' and date ='05/05')  from ForeCast where condition = 'rain' and date='05/05' group by city, date")

In [309]:
sqlTEMP2.show()

+----+----+----------------+
|date|city|scalarsubquery()|
+----+----+----------------+
+----+----+----------------+



In [304]:
sqlTEMP1 = sqlTEMP1.withColumnRenamed('scalarsubquery()', 'Total of places without rain')

In [305]:
sqlTEMP1.show()

+-----+------------------+----------------------------+
| date|              city|Total of places without rain|
+-----+------------------+----------------------------+
|05/05|  Campos do Jordão|                           7|
|05/05|          Caçapava|                           7|
|05/05|            Arapeí|                           7|
|05/05|Cachoeira Paulista|                           7|
|05/05|           Bananal|                           7|
|05/05|         Aparecida|                           7|
|05/05|            Areias|                           7|
+-----+------------------+----------------------------+



In [310]:
sqlTEMP2 = sqlTEMP2.withColumnRenamed('scalarsubquery()', 'Total of places with rain')

In [311]:
sqlTEMP2.show()

+----+----+-------------------------+
|date|city|Total of places with rain|
+----+----+-------------------------+
+----+----+-------------------------+



In [314]:
sqlTEMP1.createOrReplaceTempView("TEMP1")
sqlTEMP2.createOrReplaceTempView("TEMP2")

In [None]:
# nao há como fazer join se temp2 nao tem nada, entao, acrescentarei 0 a uma tabela como total de locais com cbuva

In [321]:
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='05/05'), (select 0)  from ForeCast where condition != 'rain' and date='05/05' group by city, date")

In [322]:
sqlTEMP1.show()

+-----+------------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|
|05/05|          Caçapava|               7|               0|
|05/05|            Arapeí|               7|               0|
|05/05|Cachoeira Paulista|               7|               0|
|05/05|           Bananal|               7|               0|
|05/05|         Aparecida|               7|               0|
|05/05|            Areias|               7|               0|
+-----+------------------+----------------+----------------+



In [327]:
sqlTEMP1 = sqlTEMP1.toDF(*("Data", "Cidade", "Locais sem chuva", "Locais com chuva"))

In [328]:
sqlTEMP1.show()

+-----+------------------+----------------+----------------+
| Data|            Cidade|Locais sem chuva|Locais com chuva|
+-----+------------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|
|05/05|          Caçapava|               7|               0|
|05/05|            Arapeí|               7|               0|
|05/05|Cachoeira Paulista|               7|               0|
|05/05|           Bananal|               7|               0|
|05/05|         Aparecida|               7|               0|
|05/05|            Areias|               7|               0|
+-----+------------------+----------------+----------------+



In [329]:
dfFinal1 = sqlTEMP1

In [334]:
#Agora façamos o mesmo para a data 06/05
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='06/05')  from ForeCast where condition != 'rain' and date='06/05' group by city, date")

In [335]:
sqlTEMP1.show()

+-----+------------------+----------------+
| date|              city|scalarsubquery()|
+-----+------------------+----------------+
|06/05|Cachoeira Paulista|               4|
|06/05|         Aparecida|               4|
|06/05|          Caçapava|               4|
|06/05|  Campos do Jordão|               4|
+-----+------------------+----------------+



In [336]:
sqlTEMP1 = sqlTEMP1.toDF(*("A", "B", "C")) #só para facilitar o trabalho

In [337]:
#chuva no dia 6
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition = 'rain' and date ='06/05')  from ForeCast where condition = 'rain' and date='06/05' group by city, date")

In [338]:
sqlTEMP2.show()

+-----+-------+----------------+
| date|   city|scalarsubquery()|
+-----+-------+----------------+
|06/05| Arapeí|               3|
|06/05|Bananal|               3|
|06/05| Areias|               3|
+-----+-------+----------------+



In [340]:
sqlTEMP2 = sqlTEMP2.toDF(*("A", "B", "C"))


In [341]:
# em vez de inner, left e outros joins, é mais interessante aproveitar a estrutura de dataframe e trabalahr com elas
# evitando criar excessivamente temp views

In [400]:
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='06/05'), (select count(*) from ForeCast where condition = 'rain' and date ='06/05'), (select 'NAO CHOVEU')  from ForeCast where condition != 'rain' and date='06/05' group by city, date")

In [401]:
sqlTEMP1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|      NAO CHOVEU|
|06/05|  Campos do Jordão|               4|               3|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [402]:
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='06/05'), (select count(*) from ForeCast where condition = 'rain' and date ='06/05'), (select 'CHOVEU')  from ForeCast where condition = 'rain' and date='06/05' group by city, date")

In [403]:
sqlTEMP2.show()

+-----+-------+----------------+----------------+----------------+
| date|   city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+-------+----------------+----------------+----------------+
|06/05| Arapeí|               4|               3|          CHOVEU|
|06/05|Bananal|               4|               3|          CHOVEU|
|06/05| Areias|               4|               3|          CHOVEU|
+-----+-------+----------------+----------------+----------------+



In [404]:
dfFinal2 = sqlTEMP1.union(sqlTEMP2)


In [405]:
dfFinal2.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|      NAO CHOVEU|
|06/05|  Campos do Jordão|               4|               3|      NAO CHOVEU|
|06/05|            Arapeí|               4|               3|          CHOVEU|
|06/05|           Bananal|               4|               3|          CHOVEU|
|06/05|            Areias|               4|               3|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [366]:
dfFinal1.show()

+-----+------------------+----------------+----------------+
| Data|            Cidade|Locais sem chuva|Locais com chuva|
+-----+------------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|
|05/05|          Caçapava|               7|               0|
|05/05|            Arapeí|               7|               0|
|05/05|Cachoeira Paulista|               7|               0|
|05/05|           Bananal|               7|               0|
|05/05|         Aparecida|               7|               0|
|05/05|            Areias|               7|               0|
+-----+------------------+----------------+----------------+



In [371]:
#vamos fazer o mesmo com dfFinal1
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='05/05'), (select count(*) from ForeCast where condition = 'rain' and date ='05/05'), (select 'NAO CHOVEU')  from ForeCast where condition != 'rain' and date='05/05' group by city, date")

In [372]:
dfFinal1 = sqlTEMP1
dfFinal1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|      NAO CHOVEU|
|05/05|          Caçapava|               7|               0|      NAO CHOVEU|
|05/05|            Arapeí|               7|               0|      NAO CHOVEU|
|05/05|Cachoeira Paulista|               7|               0|      NAO CHOVEU|
|05/05|           Bananal|               7|               0|      NAO CHOVEU|
|05/05|         Aparecida|               7|               0|      NAO CHOVEU|
|05/05|            Areias|               7|               0|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [375]:
# para o dia 07/05
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='07/05'), (select count(*) from ForeCast where condition = 'rain' and date ='07/05'), (select 'NAO CHOVEU')  from ForeCast where condition != 'rain' and date='07/05' group by city, date")

In [376]:
sqlTEMP1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|07/05|          Caçapava|               2|               5|      NAO CHOVEU|
|07/05|Cachoeira Paulista|               2|               5|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [377]:
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='07/05'), (select count(*) from ForeCast where condition = 'rain' and date ='07/05'), (select 'CHOVEU')  from ForeCast where condition = 'rain' and date='07/05' group by city, date")
sqlTEMP2.show()

+-----+----------------+----------------+----------------+----------------+
| date|            city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+----------------+----------------+----------------+----------------+
|07/05|          Arapeí|               2|               5|          CHOVEU|
|07/05|         Bananal|               2|               5|          CHOVEU|
|07/05|Campos do Jordão|               2|               5|          CHOVEU|
|07/05|          Areias|               2|               5|          CHOVEU|
|07/05|       Aparecida|               2|               5|          CHOVEU|
+-----+----------------+----------------+----------------+----------------+



In [379]:
dfFinal3 = sqlTEMP1.union(sqlTEMP2)

In [380]:
dfFinal3.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|07/05|          Caçapava|               2|               5|      NAO CHOVEU|
|07/05|Cachoeira Paulista|               2|               5|      NAO CHOVEU|
|07/05|            Arapeí|               2|               5|          CHOVEU|
|07/05|           Bananal|               2|               5|          CHOVEU|
|07/05|  Campos do Jordão|               2|               5|          CHOVEU|
|07/05|            Areias|               2|               5|          CHOVEU|
|07/05|         Aparecida|               2|               5|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [381]:
#Para o dia 08/05
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='08/05'), (select count(*) from ForeCast where condition = 'rain' and date ='08/05'), (select 'NAO CHOVEU')  from ForeCast where condition != 'rain' and date='08/05' group by city, date")

In [382]:
sqlTEMP1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|08/05|          Caçapava|               2|               5|      NAO CHOVEU|
|08/05|Cachoeira Paulista|               2|               5|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [383]:
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='08/05'), (select count(*) from ForeCast where condition = 'rain' and date ='08/05'), (select 'CHOVEU')  from ForeCast where condition = 'rain' and date='08/05' group by city, date")
sqlTEMP2.show()

+-----+----------------+----------------+----------------+----------------+
| date|            city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+----------------+----------------+----------------+----------------+
|08/05|         Bananal|               2|               5|          CHOVEU|
|08/05|          Arapeí|               2|               5|          CHOVEU|
|08/05|       Aparecida|               2|               5|          CHOVEU|
|08/05|          Areias|               2|               5|          CHOVEU|
|08/05|Campos do Jordão|               2|               5|          CHOVEU|
+-----+----------------+----------------+----------------+----------------+



In [384]:
dfFinal4 = sqlTEMP1.union(sqlTEMP2)
dfFinal4.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|08/05|          Caçapava|               2|               5|      NAO CHOVEU|
|08/05|Cachoeira Paulista|               2|               5|      NAO CHOVEU|
|08/05|           Bananal|               2|               5|          CHOVEU|
|08/05|            Arapeí|               2|               5|          CHOVEU|
|08/05|         Aparecida|               2|               5|          CHOVEU|
|08/05|            Areias|               2|               5|          CHOVEU|
|08/05|  Campos do Jordão|               2|               5|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [385]:
#09/05
sqlTEMP1 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='09/05'), (select count(*) from ForeCast where condition = 'rain' and date ='09/05'), (select 'NAO CHOVEU')  from ForeCast where condition != 'rain' and date='09/05' group by city, date")
sqlTEMP1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|09/05|Cachoeira Paulista|               5|               2|      NAO CHOVEU|
|09/05|            Areias|               5|               2|      NAO CHOVEU|
|09/05|          Caçapava|               5|               2|      NAO CHOVEU|
|09/05|           Bananal|               5|               2|      NAO CHOVEU|
|09/05|            Arapeí|               5|               2|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [386]:
#09/05
sqlTEMP2 = spark.sql("Select date, city, (select count(*) from ForeCast where condition != 'rain' and date ='09/05'), (select count(*) from ForeCast where condition = 'rain' and date ='09/05'), (select 'CHOVEU')  from ForeCast where condition = 'rain' and date='09/05' group by city, date")
sqlTEMP2.show()

+-----+----------------+----------------+----------------+----------------+
| date|            city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+----------------+----------------+----------------+----------------+
|09/05|       Aparecida|               5|               2|          CHOVEU|
|09/05|Campos do Jordão|               5|               2|          CHOVEU|
+-----+----------------+----------------+----------------+----------------+



In [387]:
dfFinal5 = sqlTEMP1.union(sqlTEMP2)
dfFinal5.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|09/05|Cachoeira Paulista|               5|               2|      NAO CHOVEU|
|09/05|            Areias|               5|               2|      NAO CHOVEU|
|09/05|          Caçapava|               5|               2|      NAO CHOVEU|
|09/05|           Bananal|               5|               2|      NAO CHOVEU|
|09/05|            Arapeí|               5|               2|      NAO CHOVEU|
|09/05|         Aparecida|               5|               2|          CHOVEU|
|09/05|  Campos do Jordão|               5|               2|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [394]:
dfFinal1.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|      NAO CHOVEU|
|05/05|          Caçapava|               7|               0|      NAO CHOVEU|
|05/05|            Arapeí|               7|               0|      NAO CHOVEU|
|05/05|Cachoeira Paulista|               7|               0|      NAO CHOVEU|
|05/05|           Bananal|               7|               0|      NAO CHOVEU|
|05/05|         Aparecida|               7|               0|      NAO CHOVEU|
|05/05|            Areias|               7|               0|      NAO CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [406]:
dfFinal2.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|      NAO CHOVEU|
|06/05|  Campos do Jordão|               4|               3|      NAO CHOVEU|
|06/05|            Arapeí|               4|               3|          CHOVEU|
|06/05|           Bananal|               4|               3|          CHOVEU|
|06/05|            Areias|               4|               3|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [407]:
Tabela2 = dfFinal1.union(dfFinal2)

In [408]:
Tabela2.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|      NAO CHOVEU|
|05/05|          Caçapava|               7|               0|      NAO CHOVEU|
|05/05|            Arapeí|               7|               0|      NAO CHOVEU|
|05/05|Cachoeira Paulista|               7|               0|      NAO CHOVEU|
|05/05|           Bananal|               7|               0|      NAO CHOVEU|
|05/05|         Aparecida|               7|               0|      NAO CHOVEU|
|05/05|            Areias|               7|               0|      NAO CHOVEU|
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|    

In [410]:
Tabela2 = Tabela2.union(dfFinal3)

In [411]:
Tabela2.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|      NAO CHOVEU|
|05/05|          Caçapava|               7|               0|      NAO CHOVEU|
|05/05|            Arapeí|               7|               0|      NAO CHOVEU|
|05/05|Cachoeira Paulista|               7|               0|      NAO CHOVEU|
|05/05|           Bananal|               7|               0|      NAO CHOVEU|
|05/05|         Aparecida|               7|               0|      NAO CHOVEU|
|05/05|            Areias|               7|               0|      NAO CHOVEU|
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|    

In [412]:
dfFinal4.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|08/05|          Caçapava|               2|               5|      NAO CHOVEU|
|08/05|Cachoeira Paulista|               2|               5|      NAO CHOVEU|
|08/05|           Bananal|               2|               5|          CHOVEU|
|08/05|            Arapeí|               2|               5|          CHOVEU|
|08/05|         Aparecida|               2|               5|          CHOVEU|
|08/05|            Areias|               2|               5|          CHOVEU|
|08/05|  Campos do Jordão|               2|               5|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [413]:
dfFinal5.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|09/05|Cachoeira Paulista|               5|               2|      NAO CHOVEU|
|09/05|            Areias|               5|               2|      NAO CHOVEU|
|09/05|          Caçapava|               5|               2|      NAO CHOVEU|
|09/05|           Bananal|               5|               2|      NAO CHOVEU|
|09/05|            Arapeí|               5|               2|      NAO CHOVEU|
|09/05|         Aparecida|               5|               2|          CHOVEU|
|09/05|  Campos do Jordão|               5|               2|          CHOVEU|
+-----+------------------+----------------+----------------+----------------+



In [414]:
Tabela2 = Tabela2.union(dfFinal4)

In [415]:
Tabela2 = Tabela2.union(dfFinal5)

In [416]:
Tabela2

DataFrame[date: string, city: string, scalarsubquery(): bigint, scalarsubquery(): bigint, scalarsubquery(): string]

In [417]:
Tabela2 = Tabela2.toDF(*("Data", "Cidade", "QtdeLocaisSemChuva", "QtdeLocaisComChuva", "ChoveuNoLocal")) 

In [418]:
Tabela2.show()

+-----+------------------+------------------+------------------+-------------+
| Data|            Cidade|QtdeLocaisSemChuva|QtdeLocaisComChuva|ChoveuNoLocal|
+-----+------------------+------------------+------------------+-------------+
|05/05|  Campos do Jordão|                 7|                 0|   NAO CHOVEU|
|05/05|          Caçapava|                 7|                 0|   NAO CHOVEU|
|05/05|            Arapeí|                 7|                 0|   NAO CHOVEU|
|05/05|Cachoeira Paulista|                 7|                 0|   NAO CHOVEU|
|05/05|           Bananal|                 7|                 0|   NAO CHOVEU|
|05/05|         Aparecida|                 7|                 0|   NAO CHOVEU|
|05/05|            Areias|                 7|                 0|   NAO CHOVEU|
|06/05|Cachoeira Paulista|                 4|                 3|   NAO CHOVEU|
|06/05|         Aparecida|                 4|                 3|   NAO CHOVEU|
|06/05|          Caçapava|                 4|       

In [433]:
Tabela2 = Tabela2.select("*").toPandas()

AttributeError: 'DataFrame' object has no attribute 'select'

In [435]:
Tabela2.to_csv("Tabela2A.csv")

In [436]:
#Transformar tabela2 em spark de novo

In [437]:
Tabela2 = dfFinal1.union(dfFinal2)
Tabela2.show()

+-----+------------------+----------------+----------------+----------------+
| date|              city|scalarsubquery()|scalarsubquery()|scalarsubquery()|
+-----+------------------+----------------+----------------+----------------+
|05/05|  Campos do Jordão|               7|               0|      NAO CHOVEU|
|05/05|          Caçapava|               7|               0|      NAO CHOVEU|
|05/05|            Arapeí|               7|               0|      NAO CHOVEU|
|05/05|Cachoeira Paulista|               7|               0|      NAO CHOVEU|
|05/05|           Bananal|               7|               0|      NAO CHOVEU|
|05/05|         Aparecida|               7|               0|      NAO CHOVEU|
|05/05|            Areias|               7|               0|      NAO CHOVEU|
|06/05|Cachoeira Paulista|               4|               3|      NAO CHOVEU|
|06/05|         Aparecida|               4|               3|      NAO CHOVEU|
|06/05|          Caçapava|               4|               3|    

In [438]:
Tabela2 = Tabela2.union(dfFinal3)

In [439]:
Tabela2 = Tabela2.union(dfFinal4)

In [440]:
Tabela2 = Tabela2.union(dfFinal5)

In [441]:
Tabela2 = Tabela2.toDF(*("Data", "Cidade", "QtdeLocaisSemChuva", "QtdeLocaisComChuva", "ChoveuNoLocal")) 


In [442]:
Tabela2.createOrReplaceTempView("ConsultaFinal")

In [453]:
sqlTEMP1 = spark.sql("select Cidade, count(ChoveuNoLocal) from ConsultaFinal where ChoveuNoLocal != 'CHOVEU' group by Cidade ")

In [454]:
sqlTEMP1.show() #mostra dias sem chuva 

+------------------+--------------------+
|            Cidade|count(ChoveuNoLocal)|
+------------------+--------------------+
|         Aparecida|                   2|
|            Arapeí|                   2|
|Cachoeira Paulista|                   5|
|  Campos do Jordão|                   2|
|           Bananal|                   2|
|            Areias|                   2|
|          Caçapava|                   5|
+------------------+--------------------+



In [455]:
sqlTEMP2 = spark.sql("select Cidade, count(ChoveuNoLocal) from ConsultaFinal where ChoveuNoLocal = 'CHOVEU' group by Cidade ")
sqlTEMP2.show() #registros de chuva

+----------------+--------------------+
|          Cidade|count(ChoveuNoLocal)|
+----------------+--------------------+
|          Arapeí|                   3|
|         Bananal|                   3|
|          Areias|                   3|
|       Aparecida|                   3|
|Campos do Jordão|                   3|
+----------------+--------------------+



In [456]:
#### relatório final
##final = spark.sql("select TEMP1.Cidade, TEMP1.count(ChoveunoLocal), TEMP2.count(ChoveuNoLocal) from TEMP1 left join TEMP2 on TEMP1.Cidade = TEMP2.Cidade")

##fazendo o equivalente ao left join

final = sqlTEMP1.join(sqlTEMP2, on=['Cidade'], how='left')

In [457]:
final.show()

+------------------+--------------------+--------------------+
|            Cidade|count(ChoveuNoLocal)|count(ChoveuNoLocal)|
+------------------+--------------------+--------------------+
|         Aparecida|                   2|                   3|
|            Arapeí|                   2|                   3|
|Cachoeira Paulista|                   5|                null|
|  Campos do Jordão|                   2|                   3|
|           Bananal|                   2|                   3|
|            Areias|                   2|                   3|
|          Caçapava|                   5|                null|
+------------------+--------------------+--------------------+



In [458]:
final = final.toDF(*("Cidade", "Dias sem chuva", "Dias com chuva")) 
final.show()

+------------------+--------------+--------------+
|            Cidade|Dias sem chuva|Dias com chuva|
+------------------+--------------+--------------+
|         Aparecida|             2|             3|
|            Arapeí|             2|             3|
|Cachoeira Paulista|             5|          null|
|  Campos do Jordão|             2|             3|
|           Bananal|             2|             3|
|            Areias|             2|             3|
|          Caçapava|             5|          null|
+------------------+--------------+--------------+



In [459]:
final = final.select("*").toPandas()
final.to_csv("Tabela2B.csv")