
## Overview

This notebook will show you how to create and query a table or DataFrame that you uploaded to DBFS. [DBFS](https://docs.databricks.com/user-guide/dbfs-databricks-file-system.html) is a Databricks File System that allows you to store data for querying inside of Databricks. This notebook assumes that you have a file already inside of DBFS that you would like to read from.

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

Primeiramente vamos importar os dados de uma base CSV. Eu escolhi um banco de dados do site Kaggle (LINK: https://www.kaggle.com/datasets/gnomows/dados-metereologicos-2018-2024-inmet ) Lá possuiam dados de 2018 a 2024, ams como a base era mutio extensa, optei por escolher somente o ano de 2024.

Assim subindo o banco de dados meteorológicois de 2024 no DBFS, doi dado um comando para fazer a visualização e ver se a tabela foi importada corretamente.

In [0]:
# Aqui está a localização e tipo de arquivo.
file_location = "/FileStore/tables/dadosmeteorologicos.csv"
file_type = "csv"

# Opções sw arquivo CSV
infer_schema = "false"
first_row_is_header = "true"
delimiter = ","

# As opções aplicadas são para arquivos CSV. Para outros tipos de arquivo, elas serão ignoradas
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df.limit(10))

Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",REGIAO,UF,ESTACAO,CODIGO (WMO),LATITUDE,LONGITUDE,ALTITUDE,DATA DE FUNDACAO
2024/01/01,0000 UTC,0.0,9993.0,9993.0,9988.0,,295.0,238.0,298.0,295.0,238.0,234.0,72.0,69.0,72.0,74.0,53.0,27.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0100 UTC,0.0,9998.0,9998.0,9993.0,,288.0,24.0,295.0,288.0,24.0,238.0,75.0,72.0,75.0,63.0,57.0,23.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0200 UTC,0.0,10001.0,10002.0,9998.0,,282.0,231.0,288.0,282.0,242.0,231.0,77.0,74.0,74.0,41.0,45.0,21.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0300 UTC,,,,,,,,,,,,,,,,,,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0400 UTC,0.0,9995.0,1000.0,9995.0,,273.0,223.0,275.0,273.0,229.0,223.0,76.0,73.0,74.0,42.0,39.0,22.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0500 UTC,0.0,9991.0,9995.0,9991.0,,267.0,219.0,273.0,267.0,223.0,219.0,75.0,74.0,75.0,43.0,41.0,24.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0600 UTC,0.0,9989.0,9991.0,9989.0,,263.0,219.0,267.0,263.0,22.0,218.0,77.0,75.0,77.0,45.0,43.0,18.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0700 UTC,0.0,9985.0,9989.0,9985.0,,259.0,218.0,263.0,259.0,22.0,218.0,78.0,77.0,78.0,39.0,34.0,21.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0800 UTC,,,,,,,,,,,,,,,,,,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0900 UTC,0.0,9987.0,9987.0,9981.0,,255.0,218.0,256.0,253.0,219.0,217.0,81.0,79.0,80.0,37.0,49.0,3.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12


Aqui estou definindo uma variável chamada temp_table_name com o valor "dadosmeteorologicos_csv".

Esse é o nome que quero dar à tabela temporária que será criada no próximo passo.



In [0]:
# Create a view or table

temp_table_name = "dadosmeteorologicos24_csv"

df.createOrReplaceTempView(temp_table_name)

In [0]:
%sql

/* Query the created temp table in a SQL cell */

SELECT * FROM `dadosmeteorologicos24_csv` LIMIT 10

Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",REGIAO,UF,ESTACAO,CODIGO (WMO),LATITUDE,LONGITUDE,ALTITUDE,DATA DE FUNDACAO
2024/01/01,0000 UTC,0.0,9993.0,9993.0,9988.0,,295.0,238.0,298.0,295.0,238.0,234.0,72.0,69.0,72.0,74.0,53.0,27.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0100 UTC,0.0,9998.0,9998.0,9993.0,,288.0,24.0,295.0,288.0,24.0,238.0,75.0,72.0,75.0,63.0,57.0,23.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0200 UTC,0.0,10001.0,10002.0,9998.0,,282.0,231.0,288.0,282.0,242.0,231.0,77.0,74.0,74.0,41.0,45.0,21.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0300 UTC,,,,,,,,,,,,,,,,,,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0400 UTC,0.0,9995.0,1000.0,9995.0,,273.0,223.0,275.0,273.0,229.0,223.0,76.0,73.0,74.0,42.0,39.0,22.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0500 UTC,0.0,9991.0,9995.0,9991.0,,267.0,219.0,273.0,267.0,223.0,219.0,75.0,74.0,75.0,43.0,41.0,24.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0600 UTC,0.0,9989.0,9991.0,9989.0,,263.0,219.0,267.0,263.0,22.0,218.0,77.0,75.0,77.0,45.0,43.0,18.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0700 UTC,0.0,9985.0,9989.0,9985.0,,259.0,218.0,263.0,259.0,22.0,218.0,78.0,77.0,78.0,39.0,34.0,21.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0800 UTC,,,,,,,,,,,,,,,,,,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12
2024/01/01,0900 UTC,0.0,9987.0,9987.0,9981.0,,255.0,218.0,256.0,253.0,219.0,217.0,81.0,79.0,80.0,37.0,49.0,3.0,N,PA,MONTE ALEGRE,A239,-2,-54,100,06/07/12


Agora vou definir uma variável em Python chamada permanent_table_name e atribuindo a ela o valor "dadosmeteorologicos24_csv".

In [0]:
# Com isso temos uma visualização temporária, que estará disponível apenas para este notebook em particular. Se você quiser que outros usuários possam consultar esta tabela, você também pode criar uma tabela a partir do DataFrame
# Uma vez salva, esta tabela persistirá em reinicializações de cluster, bem como permitirá que vários usuários em diferentes notebooks consultem esses dados
# Para fazer isso, deve-se escolher o nome da sua tabela

permanent_table_name = "dadosmeteorologicos24_csv"

# df.write.format("parquet").saveAsTable(permanent_table_name)

Aqui eu provo, com o comando de descrever tabela, quais os nomes das colunas e que tipo de dados são:

In [0]:
%sql
DESCRIBE TABLE dadosmeteorologicos24_csv;

col_name,data_type,comment
Data,string,
Hora UTC,string,
"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)",string,
"PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",string,
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),string,
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),string,
RADIACAO GLOBAL (Kj/m²),string,
"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",string,
TEMPERATURA DO PONTO DE ORVALHO (°C),string,
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),string,


Preciso comprovar se todos os dados estão dentro do período do projeto:

In [0]:
%sql
-- Verificar se as datas são realmente de 2024 como define o projeto
SELECT 
  MIN(data) AS data_inicio,
  MAX(data) AS data_fim 
FROM dadosmeteorologicos24_csv;





data_inicio,data_fim
2024/01/01,2024/06/30


Foi possivel verificar que as datas estão dentro do ano de 2024 porém não corresponde ao ano todo, somente ao primeiro semestre.

Continuando... eu quis verificar se haviam dados nulos dentro das colunas:

In [0]:
%sql
SELECT 
  COUNT(*) - COUNT(`PRECIPITAÇÃO TOTAL, HORÁRIO (mm)`) AS nulos_precipitacaototal,
  COUNT(*) - COUNT(`TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)`) AS nulos_temperatura,
  COUNT(*) - COUNT(`RADIACAO GLOBAL (Kj/m²)`) AS nulos_radiacaoglobal,
  COUNT(*) - COUNT(`UMIDADE RELATIVA DO AR, HORARIA (%)`) AS nulos_umidaderelativamax,
  COUNT(*) - COUNT(`VENTO, RAJADA MAXIMA (m/s)`) AS nulos_ventorajadamax,
  COUNT(*) - COUNT(`uf`) AS nulos_uf
FROM dadosmeteorologicos24_csv;

nulos_precipitacaototal,nulos_temperatura,nulos_radiacaoglobal,nulos_umidaderelativamax,nulos_ventorajadamax,nulos_uf
617143,408187,1194435,548138,520696,0


Conclusão: Foi encontrado uma quantidade grande de valores nulos o que compromete a qualidade de análise de dados do projeto uma vez que, o período de coleta de dados é metade do esperado.

Para eu fazer uma modelagem de dados relacionados as datas, como a data estava em formato (YYYY/MM/DD), eu tive que extrair os meses e os dias.

In [0]:
%sql
SELECT 
  data,
  EXTRACT(MONTH FROM TO_DATE(data, 'yyyy/MM/dd')) AS mes,
  EXTRACT(DAY FROM TO_DATE(data, 'yyyy/MM/dd')) AS dia
FROM dadosmeteorologicos24_csv;

data,mes,dia
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1
2024/01/01,1,1


In [0]:
Agora com a data melhor trabalhada eu pude começar com a primeira pergunta:
    
QUAIS OS 10 DIAS COM MAIOR INCIDÊNCIA DE RADIAÇÃO SOLAR?

Para isso usei SQL para extrair os dados e pedi para gerar a tabela com os 10 primeiros valores em ordem decrescente.


[0;36m  File [0;32m<command-4329799860322094>:1[0;36m[0m
[0;31m    Agora com a data melhor trabalhada eu pude começar com a primeira pergunta:[0m
[0m          ^[0m
[0;31mSyntaxError[0m[0;31m:[0m invalid syntax


In [0]:
%sql
-- Descobrir quais 10 os dias com maior radiação solar
SELECT 
  data,
  uf,
 `RADIACAO GLOBAL (Kj/m²)`
FROM dadosmeteorologicos24_csv
ORDER BY  CAST(`RADIACAO GLOBAL (Kj/m²)` AS DOUBLE) DESC
LIMIT 10;



In [0]:
%sql
Segunda Pergunta:
    
QUAL A MÉDIA MENSAL DE TEMPERATURA E PRECIPITAÇÃO POR ESTADO?

Para isso converti a coluna data (que é uma string no formato yyyy/MM/dd) para um tipo DATE (data válida), extraí o nome completo do mês (em português) da data convertida, calculei a média da coluna temperaturadoar e arredondei o resultado para 2 casas decimais, somei todos os valores da coluna precipitacaototal para cada grupo (UF + mês), fiz os agrupamentos por data e finalmente ordenei por temperatura média em ordem crescente.



In [0]:
%sql
-- Cálculo da média mensal de temperatura e precipitação por Estado
SELECT 
  uf,
  DATE_FORMAT(TO_DATE(data, 'yyyy/MM/dd'), 'MMMM') AS nome_mes,
  ROUND(AVG(`TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)`), 2) AS temperatura_media,
  SUM(`PRECIPITAÇÃO TOTAL, HORÁRIO (mm)`) AS precipitacao_total
FROM dadosmeteorologicos24_csv
GROUP BY `uf`, DATE_FORMAT(TO_DATE(data, 'yyyy/MM/dd'), 'MMMM')
ORDER BY temperatura_media



Aqui podemos verificar que a Maior temperatura média foi em Roraima e a menor foi no Rio Grade do Sul. Também foi possível relacionar as altas temperaturas com baixas precipitaçõe, ou seja períodos de grande seca, geram altas temperaturas.

In [0]:
A terceira pergunta, não é uma pergunta, mas uma correlação entre umidade e precipitação, pois é de conhecimento comum que essas medidas são diretamente proporcionais, salvos fatores geográficos ou sazonais:
- Regiões específicas: Em desertos, a precipitação é rara, mas a umidade pode ser relativamente alta à noite (sem chuva).
- No inverno: Alta umidade (nevoeiro) sem precipitação.
- No verão: Baixa umidade em dias quentes, mas pancadas de chuva rápidas.



In [0]:
%sql
-- Correlação entre umidade e precipitação
SELECT 
    CORR(`UMIDADE RELATIVA DO AR, HORARIA (%)`, `TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)`) AS correlacao_umidade_precipitacao
FROM dadosmeteorologicos24_csv;




A correlação de umidade e precipitação deu negativa, o que é não é normal, pois já é de conhecimento comum que as duas métricas são diretamente proporcionais. Com isso, podemos tirar alguns insights: possivelmente erro na coleta/processamento dos dados, a amostra que escolhemos pode ser pequena ou também foram escolidos valores extremos(como um dia com umidade baixa e chuva intensa devido a uma tempestade isolada) que podem distorcer a correlação.

Outra medida que se faz importante analisar é a média de radiação:

Então calculei a média da radiação global (em kWh/m² ou outra unidade) para todos os registros da tabela dadosmeteorologicosnovos

In [0]:
%sql
-- Média de radiação
SELECT 
    AVG(`RADIACAO GLOBAL (Kj/m²)`) AS media_radiacao
FROM dadosmeteorologicos24_csv




Também fiz a média por Estado. Assim, tive a média brasileira que foi de 619kWh/m² e as média por estados, para poder comparar.

In [0]:
%sql
-- Cálculo da média de radiação por estado (UF)
SELECT 
  uf,
  ROUND(AVG(`RADIACAO GLOBAL (Kj/m²)`), 2) AS media_radiacao  -- Arredonda para 2 casas decimais
FROM dadosmeteorologicos24_csv
WHERE `RADIACAO GLOBAL (Kj/m²)` IS NOT NULL  -- Opcional: ignora valores nulos
GROUP BY uf
ORDER BY media_radiacao DESC;  -- Ordenado do maior para o menor



Após o calculo da média da radiação por estado e o calculo da média da radiação nos dia com umidade superior à 80%, pode-se concluir que: 
1 ) Pode-se dizer que as causas de maior radiação são em relação a climas que apresentam menos nebulosidade e baixo indice de precipitações, latitudes próximas ao Equador e baixa umidade relativa do ar. Assim como visto as regiões do Nordeste e centro-oeste ficam como as de maior incidencia de radiação.
Como insisht podemos tirar:
- São áreas ideais para instalação de usinas fotovoltaicas e projetos de energia distribuída
- Em relação a agricultura, as culturas devem passar por um processo de adaptação como fruticultura irrigada, que acaba com o estresse hídrico e queimadas.
- Também existe o risco elevado de exposição a raios UV, exigindo políticas de conscientização sobre câncer de pele.
2) Já os lugares com menor insidencia de radiação apresentam : maior nebulosidade por serem regiões mais frias Sul/Sudeste ou pela cobertura de florestas Amazônica, também possuem precipitação constante e latitudes mais altas.
Como insisht podemos tirar:
- Na agricultura, as culturas devem demandar menos radiação direta (soja, milho)

Conclusão:

De um modo geral deve-se procurar uma igualdade enegética no Brasil. Trabalhar no combate à desertificação com tecnologias de reuso de água no Nordeste e infraestrutura para lidar com chuvas intensas e variações sazonais no Sul são pontos de adaptação climática.

Conclusão:
Desigualdade energética: Estados com alta radiação podem tornar-se exportadores de energia limpa, reduzindo a dependência de hidrelétricas no Sudeste. Manter a floresta Amazônica é crucial para regular a radiação e o clima regional.
A radiação solar é um recurso estratégico, e seu mapeamento ajuda a direcionar políticas públicas, investimentos e adaptações setoriais no Brasil.



Sobre dados meteoroóligos, tambpem é importante análisar se houve eventos extremos como: TEMPORAIS e VENTOS FORTES.

In [0]:
%sql
-- Eventos extremos: precipitação >50mm e ventos >25m/s, ordenados por estado
SELECT 
    data,
    uf,
    `PRECIPITAÇÃO TOTAL, HORÁRIO (mm)` AS precipitacao_mm,
    `VENTO, RAJADA MAXIMA (m/s)` AS velocidade_vento_ms
FROM dadosmeteorologicos24_csv
WHERE 
    `PRECIPITAÇÃO TOTAL, HORÁRIO (mm)` > 50
    OR `VENTO, RAJADA MAXIMA (m/s)` > 25
ORDER BY 
    uf;  -- Ordem alfabética dos estados (A a Z)



De acordo com o INMET em 2025, para ser caracterizado um evento climático extremo, deve-se ter as seguintes caracteristicas:
- Ventos > m/s
- Chuvas > 50mm/h

No período analisado, pode verificar que não houve nenhum evento extremo, mas houve sim precipitações e ventos pontuais com essas características.


## Arquitetura do Projeto

### Motivação para a Simplificação
As principais perguntas pensadas em cima dos dados foram:
•	Quais estados têm as maiores temperaturas médias?
•	Onde ocorreram os eventos de precipitação extrema?
•	Como a radiação solar varia geograficamente?

Qualidade dos Dados:
 Os dados da tabela base foram retirados do Kaggle.
 A primeira análise foi:
- Nomes de colunas, tipos de dados e formatos todos padronizados, como temperatura, radiação, ventos, data e precipitação.
- As unidades de medidas todas estavam dentro das normas.
- Todas as latitudes e longitudes eram válidas.
- Dados limpos apesar verificar valores nulos, mas não criticos, e também pela ausência de valores extremos (outliers)

Devido a boa qualidade dos dados, não se fez necessária a aplicação das etapas tradicionais de ingestão (bronze) e limpeza/enriquecimento (silver), permitindo um foco maior na análise exploratória e geração de insights. Assim, a economia de tempo e a redução da complexidade de pipelines e custos de processamento pela eliminação de etapas de ETL, foi visível e os recursos foram todos direcionados para a modelagem estatística, visualizações e tomada de decisão. 
Mesmo sem camadas intermediárias, foram adotadas práticas para garantir qualidade
- Validação pontual: Checagem de integridade via queries (ex: DISTINCT, IS NOT NULL).
- Versionamento: não foi necessário pois somente eu trabalhei no projeto e não se fez necessário o histórico de inserções, atualizações e exclusões.
- Metadados: Documentação das colunas e fontes no próprio Databricks (comentários em tabelas)."





