# Projeto Guiado: Análise de Dados Básica

**Objetivo:**
Este projeto visa guiar as alunas no processo completo de análise de dados, desde a extração e tratamento até a análise e visualização, culminando na persistência dos resultados em um banco de dados SQLite. As alunas aprenderão a usar ferramentas e técnicas básicas de SQL, manipulação de dados com Pandas, e visualização com Matplotlib.

### Estrutura do Projeto

#### **Abertura e Carregamento de Dados (ETL - Extract, Transform, Load)**

1. **Extração de Dados:** 
   - Inicie o projeto extraindo dados de um arquivo CSV.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sqlite3 as sql

In [4]:
df = pd.read_csv('INMET_MS_ITAQUIRAI_2020.csv',delimiter=';',skiprows=8,encoding='latin1',skip_blank_lines=True,skipinitialspace=False)  

2. **Inspeção Inicial:**
   - Revise o conteúdo dos dados extraídos, observando as primeiras e últimas linhas, a forma e a descrição geral dos dados, e os tipos de dados.

In [5]:
df.head()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
0,2020/01/01,0000 UTC,",6",970,970,9695,,231,226,231,226,228,216,98.0,94.0,97.0,11.0,32,19,
1,2020/01/01,0100 UTC,0,9702,9702,970,29,237,217,237,23,225,216,97.0,88.0,88.0,10.0,46,13,
2,2020/01/01,0200 UTC,0,9698,9702,9698,16,24,218,244,237,219,212,88.0,83.0,88.0,345.0,32,",6",
3,2020/01/01,0300 UTC,0,9701,9701,9698,",6",243,214,251,24,22,212,88.0,80.0,83.0,332.0,48,15,
4,2020/01/01,0400 UTC,0,9702,9705,9701,,238,217,243,237,218,214,89.0,83.0,89.0,316.0,33,",2",


In [8]:
df.tail()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)",PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB),PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB),RADIACAO GLOBAL (Kj/m²),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C),TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C),TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C),UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, RAJADA MAXIMA (m/s)","VENTO, VELOCIDADE HORARIA (m/s)",Unnamed: 19
8779,2020/12/31,1900 UTC,",4",9726,9733,9726,7759,231,227,233,217,,,,,97.0,32.0,66,12,
8780,2020/12/31,2000 UTC,0,9704,9726,9704,8378,242,227,244,231,228.0,221.0,97.0,89.0,91.0,355.0,28,",8",
8781,2020/12/31,2100 UTC,0,9707,9707,9701,5247,249,23,249,241,233.0,225.0,93.0,89.0,89.0,315.0,42,12,
8782,2020/12/31,2200 UTC,0,9724,9724,9707,2565,242,221,251,242,231.0,221.0,89.0,87.0,88.0,291.0,48,",9",
8783,2020/12/31,2300 UTC,0,9741,9741,9724,96,235,225,242,234,225.0,22.0,94.0,88.0,94.0,132.0,39,",9",


In [9]:
df.describe()

Unnamed: 0,UMIDADE REL. MAX. NA HORA ANT. (AUT) (%),UMIDADE REL. MIN. NA HORA ANT. (AUT) (%),"UMIDADE RELATIVA DO AR, HORARIA (%)","VENTO, DIREÇÃO HORARIA (gr) (° (gr))",Unnamed: 19
count,8292.0,8292.0,8318.0,8778.0,0.0
mean,69.94754,63.516884,66.817264,185.015835,
std,18.862049,19.718935,19.45659,81.669629,
min,17.0,13.0,14.0,1.0,
25%,56.0,48.0,52.0,133.0,
50%,72.0,65.0,69.0,171.0,
75%,86.0,80.0,83.0,254.0,
max,100.0,100.0,100.0,360.0,


In [6]:
df.dtypes

Data                                                      object
Hora UTC                                                  object
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                          object
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)     object
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)           object
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)          object
RADIACAO GLOBAL (Kj/m²)                                   object
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)              object
TEMPERATURA DO PONTO DE ORVALHO (°C)                      object
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)                object
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)                object
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)          object
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)          object
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)                 float64
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)                 float64
UMIDADE RELATIVA DO AR, H

In [7]:
df.shape

(8784, 20)

3. **Identificação e Tratamento de Valores Faltantes:**
   - Identifique a presença de valores nulos e trate-os adequadamente, seja removendo, preenchendo ou substituindo esses valores.

In [10]:
df.isnull().sum()

Data                                                        0
Hora UTC                                                    0
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                            6
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)       6
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)             6
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)            6
RADIACAO GLOBAL (Kj/m²)                                  4049
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)                6
TEMPERATURA DO PONTO DE ORVALHO (°C)                      466
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)                  6
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)                 88
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)          495
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)          495
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)                  492
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)                  492
UMIDADE RELATIVA DO AR, HORARIA (%)                       466
VENTO, D

In [11]:
df = df.replace(',','.',regex=True)

In [12]:
df = df.fillna(0)

In [13]:
df.isnull().sum()

Data                                                     0
Hora UTC                                                 0
PRECIPITAÇÃO TOTAL, HORÁRIO (mm)                         0
PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)    0
PRESSÃO ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)          0
PRESSÃO ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)         0
RADIACAO GLOBAL (Kj/m²)                                  0
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)             0
TEMPERATURA DO PONTO DE ORVALHO (°C)                     0
TEMPERATURA MÁXIMA NA HORA ANT. (AUT) (°C)               0
TEMPERATURA MÍNIMA NA HORA ANT. (AUT) (°C)               0
TEMPERATURA ORVALHO MAX. NA HORA ANT. (AUT) (°C)         0
TEMPERATURA ORVALHO MIN. NA HORA ANT. (AUT) (°C)         0
UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)                 0
UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)                 0
UMIDADE RELATIVA DO AR, HORARIA (%)                      0
VENTO, DIREÇÃO HORARIA (gr) (° (gr))                    

#### **Tratamento de Dados**

1. **Ajustes e Limpeza:**
   - Organize e limpe os dados, removendo duplicatas e normalizando quando necessário.

In [14]:
df = df[['Data','Hora UTC','PRECIPITAÇÃO TOTAL, HORÁRIO (mm)','TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)','TEMPERATURA DO PONTO DE ORVALHO (°C)','UMIDADE RELATIVA DO AR, HORARIA (%)','RADIACAO GLOBAL (Kj/m²)','VENTO, DIREÇÃO HORARIA (gr) (° (gr))','VENTO, VELOCIDADE HORARIA (m/s)']]
df.head()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),"UMIDADE RELATIVA DO AR, HORARIA (%)",RADIACAO GLOBAL (Kj/m²),"VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, VELOCIDADE HORARIA (m/s)"
0,2020/01/01,0000 UTC,0.6,23.1,22.6,97.0,0.0,11.0,1.9
1,2020/01/01,0100 UTC,0.0,23.7,21.7,88.0,2.9,10.0,1.3
2,2020/01/01,0200 UTC,0.0,24.0,21.8,88.0,1.6,345.0,0.6
3,2020/01/01,0300 UTC,0.0,24.3,21.4,83.0,0.6,332.0,1.5
4,2020/01/01,0400 UTC,0.0,23.8,21.7,89.0,0.0,316.0,0.2


In [15]:
df.shape

(8784, 9)

In [16]:
df = df.drop_duplicates()

In [17]:
df.shape #não há linhas duplicadas

(8784, 9)

In [18]:
df['UMIDADE RELATIVA DO AR, HORARIA (%)'] = (df['UMIDADE RELATIVA DO AR, HORARIA (%)'] - df['UMIDADE RELATIVA DO AR, HORARIA (%)'].min()) / (df['UMIDADE RELATIVA DO AR, HORARIA (%)'].max() - df['UMIDADE RELATIVA DO AR, HORARIA (%)'].min())

In [19]:
df.head()

Unnamed: 0,Data,Hora UTC,"PRECIPITAÇÃO TOTAL, HORÁRIO (mm)","TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),"UMIDADE RELATIVA DO AR, HORARIA (%)",RADIACAO GLOBAL (Kj/m²),"VENTO, DIREÇÃO HORARIA (gr) (° (gr))","VENTO, VELOCIDADE HORARIA (m/s)"
0,2020/01/01,0000 UTC,0.6,23.1,22.6,0.97,0.0,11.0,1.9
1,2020/01/01,0100 UTC,0.0,23.7,21.7,0.88,2.9,10.0,1.3
2,2020/01/01,0200 UTC,0.0,24.0,21.8,0.88,1.6,345.0,0.6
3,2020/01/01,0300 UTC,0.0,24.3,21.4,0.83,0.6,332.0,1.5
4,2020/01/01,0400 UTC,0.0,23.8,21.7,0.89,0.0,316.0,0.2


2. **Renomeação e Ajuste de Colunas:**
   - Renomeie colunas e ajuste os tipos de dados conforme necessário para garantir a consistência e clareza.

In [20]:
df = df.rename(columns={
    'PRECIPITAÇÃO TOTAL, HORÁRIO (mm)' : 'PRECIPITAÇÃO TOTAL/HORÁRIO (mm)',
    'VENTO, DIREÇÃO HORARIA (gr) (° (gr))' : 'VENTO, DIREÇÃO HORARIA (°gr)'
})

In [21]:
df.head()

Unnamed: 0,Data,Hora UTC,PRECIPITAÇÃO TOTAL/HORÁRIO (mm),"TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)",TEMPERATURA DO PONTO DE ORVALHO (°C),"UMIDADE RELATIVA DO AR, HORARIA (%)",RADIACAO GLOBAL (Kj/m²),"VENTO, DIREÇÃO HORARIA (°gr)","VENTO, VELOCIDADE HORARIA (m/s)"
0,2020/01/01,0000 UTC,0.6,23.1,22.6,0.97,0.0,11.0,1.9
1,2020/01/01,0100 UTC,0.0,23.7,21.7,0.88,2.9,10.0,1.3
2,2020/01/01,0200 UTC,0.0,24.0,21.8,0.88,1.6,345.0,0.6
3,2020/01/01,0300 UTC,0.0,24.3,21.4,0.83,0.6,332.0,1.5
4,2020/01/01,0400 UTC,0.0,23.8,21.7,0.89,0.0,316.0,0.2


In [23]:
df.dtypes

Data                                             object
Hora UTC                                         object
PRECIPITAÇÃO TOTAL/HORÁRIO (mm)                 float64
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)    float64
TEMPERATURA DO PONTO DE ORVALHO (°C)            float64
UMIDADE RELATIVA DO AR, HORARIA (%)             float64
RADIACAO GLOBAL (Kj/m²)                         float64
VENTO, DIREÇÃO HORARIA (°gr)                    float64
VENTO, VELOCIDADE HORARIA (m/s)                 float64
dtype: object

In [22]:
coluna_objeto = df.select_dtypes(include = ['object']).columns
coluna_objeto = coluna_objeto.drop(['Data','Hora UTC'])
for coluna in coluna_objeto:
    df[coluna] = pd.to_numeric(df[coluna], errors='coerce')

In [24]:
df.dtypes

Data                                             object
Hora UTC                                         object
PRECIPITAÇÃO TOTAL/HORÁRIO (mm)                 float64
TEMPERATURA DO AR - BULBO SECO, HORARIA (°C)    float64
TEMPERATURA DO PONTO DE ORVALHO (°C)            float64
UMIDADE RELATIVA DO AR, HORARIA (%)             float64
RADIACAO GLOBAL (Kj/m²)                         float64
VENTO, DIREÇÃO HORARIA (°gr)                    float64
VENTO, VELOCIDADE HORARIA (m/s)                 float64
dtype: object

3. **Transformações e Criação de Novas Colunas:**
   - Realize transformações relevantes nos dados, como criar novas colunas derivadas de outras existentes.

#### **Análise de Dados**

1. **Geração de Insights Estatísticos:**
   - Utilize técnicas estatísticas para entender os dados, como calcular somas, médias e identificar valores máximos e mínimos.

2. **Agrupamento e Sumarização:**
   - Agrupe os dados para identificar padrões e tendências, gerando sumarizações que permitam uma análise mais profunda.

#### **Visualização de Dados com Matplotlib**

1. **Criação de Gráficos Básicos:**
   - Visualize os dados através de gráficos, como histogramas e gráficos de barras, para facilitar a compreensão das análises realizadas.

2. **Customização de Gráficos:**
   - Personalize os gráficos, adicionando títulos, legendas e ajustando as cores para torná-los mais informativos.

#### **Persistência dos Resultados no SQLite**

1. **Criação do Banco de Dados:**
   - Estabeleça um banco de dados SQLite para armazenar os resultados das análises.

2. **Salvamento dos Dados Tratados:**
   - Salve os dados tratados e os resultados das análises em tabelas dentro do banco de dados.

#### **Finalização do Projeto**

**Perguntas para Reflexão:**
Ao final do projeto, as alunas devem refletir sobre as seguintes questões baseadas nos dados analisados:


1. Qual foi a média de valores de uma coluna específica?
2. Qual o total de registros após a limpeza dos dados?
3. Quais foram os valores máximos e mínimos identificados?
4. Quantos registros tinham valores nulos antes do tratamento?
5. Qual foi o impacto da normalização de uma coluna específica?
6. Que padrões emergiram após a análise dos dados?
7. Como os dados foram agrupados e quais insights foram gerados?
8. Quais visualizações forneceram as informações mais valiosas?
9. Como o uso de SQL contribuiu para a organização dos resultados?
10. De que forma os gráficos ajudaram na compreensão dos dados?

**Apresentação Final:**

As alunas deverão criar uma apresentação final que resuma o projeto, abordando as etapas de tratamento e análise de dados, as decisões tomadas ao longo do processo, e as conclusões obtidas. A apresentação deve incluir exemplos dos gráficos e discussões sobre os insights gerados durante o projeto.