# üìä An√°lise Explorat√≥ria de Dados de da Rede Sonda üå¶Ô∏è

## üìå Introdu√ß√£o
Este notebook realiza uma an√°lise explorat√≥ria dos dados meteorol√≥gicos coletados de diversas esta√ß√µes. O objetivo √© entender a estrutura dos dados, avaliar sua qualidade e identificar padr√µes relevantes.

## üìÇ Fonte dos Dados
- Arquivos CSV formatados armazenados no ftp
- Cont√™m medi√ß√µes de vari√°veis meteorol√≥gicas, solarim√©tricas e cameras.

## üîç Objetivos da An√°lise
1. **Carregar e explorar os dados**: verificar onde os dados est√£o armazenados, seu formato e estrutura.
2. **Dimensionamento e vari√°veis dispon√≠veis**: entender o tamanho dos arquivos, n√∫mero de registros e colunas.
3. **An√°lise temporal dos dados dispon√≠veis**: identificar o per√≠odo coberto e eventuais lacunas temporais.
4. **Visualiza√ß√£o da distribui√ß√£o espacial das esta√ß√µes**: verificar a abrang√™ncia geogr√°fica das medi√ß√µes.
5. **Explora√ß√£o inicial de distribui√ß√µes**: histogramas e estat√≠sticas b√°sicas das vari√°veis.
6. **An√°lise de qualidade dos dados** *(√∫ltima etapa)*: identificar valores ausentes, inconsist√™ncias e flags de qualidade.

### 1. Carregar e Explorar os Dados
Vamos come√ßar listando o tamanho da base de dados que est√£o no diret√≥rio do ftp.

In [None]:
# Diret√≥rio onde os arquivos est√£o localizados
DIRETORIO = '../sonda/dados_formatados/'

In [None]:
# Exibe o tamanho de cada arquivo no diret√≥rio ordenado por tamanho de forma decrescente
!du -h --max-depth=1 {DIRETORIO} | sort -rh

An√°lise dos dados por tipo
- Dados Meteorol√≥gicos
- Dados Solarim√©tricos
- Dados de C√¢meras

In [None]:
import glob

In [None]:
# listar todos os dados Meteorol√≥gicos usando o glob s√≥ para o tipo de arquivo .csv
dados_metereologicos = glob.glob(DIRETORIO + "*/Meteorologicos/**/*.csv", recursive=True)
# Remove arquivos que contenham 'YYYY_MM_MD_DQC'
dados_metereologicos = [arquivo for arquivo in dados_metereologicos if 'YYYY_MM' not in arquivo]

In [None]:
!conda install -c conda-forge pyarrow -y

In [None]:
import dask.dataframe as dd

In [None]:
df = dd.read_csv(dados_metereologicos, skiprows=2)

In [None]:
import duckdb

# Conectar ao DuckDB (em mem√≥ria ou em um arquivo)
con = duckdb.connect()

# Usar a fun√ß√£o `read_csv_auto` para ler todos os arquivos de uma vez, ignorando as duas primeiras linhas
query = f"""
SELECT *
FROM read_csv_auto({', '.join([f"'{arquivo}'" for arquivo in dados_metereologicos[0:2]])}, union_by_name=True)
"""

# Executar a consulta para carregar os dados
resultados = con.execute(query).fetchdf()

In [None]:
resultados