### Minicurso LABREN explorando dados com IA üöÄ
Neste minicurso, voc√™ aprender√° a explorar conjuntos de dados utilizando a ajuda de um assistente de IA. Usaremos um contjunto de dados metorol√≥gicos para analisar suas vari√°veis e gerar visualiza√ß√µes que facilitam a interpreta√ß√£o dos resultados.

- Dados Meteorol√≥gicos: dados_meteorologicos.parquet


#### Objetivos do Minicurso:

- ü§ñ Formular prompts para que a IA auxilie na cria√ß√£o de c√≥digos.
- üóÑÔ∏è Integrar SQL com o DuckDB para carregar e manipular dados em formato Parquet.
- üìä Explorar os dados por meio de consultas SQL para obter insights relevantes.
- üìà Gerar visualiza√ß√µes (inclusive espaciais) que facilitam a interpreta√ß√£o dos resultados, aproveitando as coordenadas presentes nos dados.

#### Cronograma:

1. Introdu√ß√£o e Objetivos:

- Apresenta√ß√£o do minicurso e dos conjuntos de dados.
- Explica√ß√£o do papel da IA na cria√ß√£o de c√≥digo e an√°lise de dados.

2. Configura√ß√£o do Ambiente:

- Importar bibliotecas para abrir dados em formato Parquet, manipula√ß√£o e visualiza√ß√£o, incluindo visualiza√ß√µes espaciais.

3. Carregamento dos Dados:

- Criar comandos para carregar os dados Parquet.
- Visualizar os 5 primeiros registros do conjunto de dados.

4. Explora√ß√£o dos Dados:

- Realizar consultas SQL para explorar as vari√°veis do conjunto de dados.
- Gerar visualiza√ß√µes para facilitar a interpreta√ß√£o dos resultados.

5. Conclus√£o:

### 1. Configura√ß√£o do Ambiente ‚öôÔ∏è

Para come√ßar, vamos importar as bibliotecas necess√°rias para abrir os dados em formato Parquet, manipula√ß√£o e visualiza√ß√£o, incluindo visualiza√ß√µes espaciais.

In [None]:
# Instale, importe e inicialize bibliotecas para abrir dados no formato Parquet usando DuckDB
# e tamb√©m bibliotecas para visualiza√ß√£o dos dados.
!pip install duckdb pandas matplotlib seaborn

import duckdb
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Inicialize o DuckDB
con = duckdb.connect(database=':memory:', read_only=False)

#### 2. Download e Carregamento dos Dados üìä

Baixe os dados meteorol√≥gicos para o ambiente de execu√ß√£o do minicurso. Em seguida, carregue os dados para visualizar os 5 primeiros registros do conjunto de dados.

In [None]:
# Baixe o os arquivos dados_meteorologicos.parquet que est√£o no google drive
#  ulr vou listar para voc√™:

url_meteoro = 'https://drive.google.com/uc?id=1MES_nefJ_V2ZamOFTXzzHCdtH7Fh0qq2'

# Instale a biblioteca gdown para baixar os arquivos
!pip install gdown

# Baixe os arquivos
import gdown

gdown.download(url_meteoro, 'dados_meteorologicos.parquet', quiet=False)

In [None]:
# Crie um c√≥digo para carregar os dados dos arquivos dados_meteorologicos.parquet utilizando o DuckDB.
# Mostre os 5 primeiros registros de cada conjunto como um DataFrame do Pandas.
ARQV_METEOROLOGICO = 'dados_meteorologicos.parquet'

# Crie uma query para gerar uma tabela no DuckDB com os dados meteorol√≥gicos caso ela n√£o exista
query = f'CREATE TABLE IF NOT EXISTS dados_meteorologicos AS SELECT * FROM parquet_scan(\'{ARQV_METEOROLOGICO}\')'

# Execute a query
con.execute(query)

In [None]:
# Mostre os 5 primeiros registros da tabela
query = 'SELECT * FROM dados_meteorologicos LIMIT 5'

# Execute a query
df = con.execute(query).fetchdf()
df

In [None]:
# Crie um c√≥digo para mostrar a quantidade de registros de cada conjunto de dados.
# Mostre a quantidade de registros de cada esta√ß√£o meteorol√≥gica (coluna "acronym").
query = 'SELECT acronym,' \
        '       COUNT(*) AS quantidade_registros' \
        '  FROM dados_meteorologicos' \
        ' GROUP BY acronym' \
        ' ORDER BY quantidade_registros DESC'

# Execute a query
df = con.execute(query).fetchdf()
df

### 4. Visualiza√ß√µes dos Dados üìä

Vamos criar gr√°ficos de linha e barras para visualizar as informa√ß√µes extra√≠das. 

In [None]:
# Plote um gr√°fico de barras para mostrar a quantidade de registros de cada esta√ß√£o meteorol√≥gica.
plt.figure(figsize=(10, 5))
sns.barplot(data=df, x='quantidade_registros', y='acronym')
plt.xlabel('Quantidade de Registros')
plt.ylabel('Esta√ß√£o Meteorol√≥gica')
plt.title('Quantidade de Registros por Esta√ß√£o Meteorol√≥gica')
plt.show()

In [None]:
# Plote um gr√°fico de barras para mostrar a quantidade de registros de cada esta√ß√£o por ano.
# Lembre-se de que a coluna "timestamp" cont√©m a data no formato "YYYY-MM-DD HH:MM:SS".
# Lembre-se tamb√©m que timestamp √© uma palavra reservada do DuckDB, ent√£o √© necess√°rio usar aspas duplas para referenciar a coluna.
query = 'SELECT acronym,' \
        '       strftime(\'%Y\', "timestamp") AS ano,' \
        '       COUNT(*) AS quantidade_registros' \
        '  FROM dados_meteorologicos' \
        ' GROUP BY acronym, ano' \
        ' ORDER BY quantidade_registros DESC'
# Execute a query
df = con.execute(query).fetchdf()

# Plote o gr√°fico de barras
plt.figure(figsize=(10, 10))
sns.barplot(data=df, x='quantidade_registros', y='acronym', hue='ano')
plt.xlabel('Quantidade de Registros')
plt.ylabel('Esta√ß√£o Meteorol√≥gica')
plt.title('Quantidade de Registros por Esta√ß√£o Meteorol√≥gica e Ano')
plt.legend(title='Ano', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

In [None]:
# Plot um gr√°fico de linhas que mostre os valores m√©dios de temperatura (coluna "tp_sfc") por m√™s para cada esta√ß√£o meteorol√≥gica.
# Lembre-se de que a coluna "timestamp" cont√©m a data no formato "YYYY-MM-DD HH:MM:SS".
# Lembre-se tamb√©m que timestamp √© uma palavra reservada do DuckDB, ent√£o √© necess√°rio usar aspas duplas para referenciar a coluna.

# Query para calcular a m√©dia de temperatura por m√™s e esta√ß√£o meteorol√≥gica
query = 'SELECT acronym,' \
        '       strftime(\'%m\', "timestamp") AS mes,' \
        '       AVG(tp_sfc) AS media_temperatura' \
        '  FROM dados_meteorologicos' \
        ' GROUP BY acronym, mes' \
        ' ORDER BY mes'

# Execute a query
df = con.execute(query).fetchdf()

# Plote o gr√°fico de linhas
plt.figure(figsize=(10, 10))
sns.lineplot(data=df, x='mes', y='media_temperatura', hue='acronym', marker='o')
plt.xlabel('M√™s')
plt.ylabel('Temperatura M√©dia (¬∞C)')
plt.title('Temperatura M√©dia por M√™s e Esta√ß√£o Meteorol√≥gica')
plt.legend(title='Esta√ß√£o Meteorol√≥gica', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()



#### 4.1. Gr√°fico de Boxplot

Vamos criar um gr√°fico de boxplot para visualizar a distribui√ß√£o das temperaturas m√°ximas e m√≠nimas.<br>
Voc√™ ir√° montar uma consulta SQL para extrair as informa√ß√µes necess√°rias e gerar o gr√°fico.<br>
Caso a consulta esteja incorreta, a IA ir√° auxili√°-lo a corrigir o c√≥digo. Para isso selecione o trecho de c√≥digo e pressione Ctrl + I para chamar a IA.

In [None]:
# Plot um gr√°fico para encontrar os outliers da coluna "tp_sfc" (temperatura do ar na superf√≠cie) para cada esta√ß√£o meteorol√≥gica.
# Utilize um boxplot para cada esta√ß√£o meteorol√≥gica apenas com os outliers.
# Lembre-se de que a coluna "timestamp" cont√©m a data no formato "YYYY-MM-DD HH:MM:SS".
# Lembre-se tamb√©m que timestamp √© uma palavra reservada do DuckDB, ent√£o √© necess√°rio usar aspas duplas para referenciar a coluna.

# Query para encontrar os outliers da temperatura do ar na superf√≠cie por esta√ß√£o meteorol√≥gica
query = 'SELECT acronym,' \
        '       tp_sfc' \
        '  FROM dados_meteorologicos' \
        ' WHERE tp_sfc < (SELECT Q1 - 1.5 * IQR FROM (SELECT acronym,' \
        '                                                  QUANTILE(tp_sfc, 0.25) AS Q1,' \
        '                                                  QUANTILE(tp_sfc, 0.75) AS Q3,' \
        '                                                  Q3 - Q1 AS IQR' \
        '                                             FROM dados_meteorologicos' \
        '                                            GROUP BY acronyms))' \
        '    OR tp_sfc > (SELECT Q3 + 1.5 * IQR FROM (SELECT acronyms,' \
        '                                                  QUANTILE(tp_sfc, 0.25) AS Q1,' \
        '                                                  QUANTILE(tp_sfc, 0.75) AS Q3,' \
        '                                                  Q3 - Q1 AS IQR' \
        '                                             FROM dados_meteorologicos' \
        '                                            GROUP BY acronyms))'

# Execute a query
df = con.execute(query).fetchdf()


# Plote o boxplot
plt.figure(figsize=(10, 10))
sns.boxplot(data=df, x='acronym', y='tp_sfc')
plt.xlabel('Esta√ß√£o Meteorol√≥gica')
plt.ylabel('Temperatura do Ar na Superf√≠cie (¬∞C)')
plt.title('Outliers da Temperatura do Ar na Superf√≠cie por Esta√ß√£o Meteorol√≥gica')
plt.show()

#### 5. Conclus√£o üöÄ

Parab√©ns! Voc√™ concluiu o minicurso LABREN explorando dados com IA. Agora voc√™ est√° pronto para aplicar esses conhecimentos em seus pr√≥prios projetos. At√© a pr√≥xima!