# 📊 Análise Exploratória de Dados de da Rede Sonda 🌦️

## 📌 Introdução
Este notebook realiza uma análise exploratória dos dados meteorológicos coletados de diversas estações. O objetivo é entender a estrutura dos dados, avaliar sua qualidade e identificar padrões relevantes.

## 📂 Fonte dos Dados
- Arquivos CSV formatados armazenados no ftp
- Contêm medições de variáveis meteorológicas, solarimétricas e cameras.

## 🔍 Objetivos da Análise
1. **Carregar e explorar os dados**: verificar onde os dados estão armazenados, seu formato e estrutura.
2. **Dimensionamento e variáveis disponíveis**: entender o tamanho dos arquivos, número de registros e colunas.
3. **Análise temporal dos dados disponíveis**: identificar o período coberto e eventuais lacunas temporais.
4. **Visualização da distribuição espacial das estações**: verificar a abrangência geográfica das medições.
5. **Exploração inicial de distribuições**: histogramas e estatísticas básicas das variáveis.
6. **Análise de qualidade dos dados** *(última etapa)*: identificar valores ausentes, inconsistências e flags de qualidade.

### 1. Carregar e Explorar os Dados
Vamos começar listando o tamanho da base de dados que estão no diretório do ftp.

In [None]:
# Diretório onde os arquivos estão localizados
DIRETORIO = '../sonda/dados_formatados/'

In [None]:
# Exibe o tamanho de cada arquivo no diretório ordenado por tamanho de forma decrescente
!du -h --max-depth=1 {DIRETORIO} | sort -rh

Análise dos dados por tipo
- Dados Meteorológicos
- Dados Solarimétricos
- Dados de Câmeras

In [None]:
import glob

In [None]:
# listar todos os dados Meteorológicos usando o glob só para o tipo de arquivo .csv
dados_metereologicos = glob.glob(DIRETORIO + "*/Meteorologicos/**/*.csv", recursive=True)
# Remove arquivos que contenham 'YYYY_MM_MD_DQC'
dados_metereologicos = [arquivo for arquivo in dados_metereologicos if 'YYYY_MM' not in arquivo]

In [None]:
!conda install -c conda-forge pyarrow -y

In [None]:
import dask.dataframe as dd

In [None]:
df = dd.read_csv(dados_metereologicos, skiprows=2)

In [None]:
import duckdb

# Conectar ao DuckDB (em memória ou em um arquivo)
con = duckdb.connect()

# Usar a função `read_csv_auto` para ler todos os arquivos de uma vez, ignorando as duas primeiras linhas
query = f"""
SELECT *
FROM read_csv_auto({', '.join([f"'{arquivo}'" for arquivo in dados_metereologicos[0:2]])}, union_by_name=True)
"""

# Executar a consulta para carregar os dados
resultados = con.execute(query).fetchdf()

In [None]:
resultados