 # Limpeza de dados
 
A limpeza de dados é uma etapa essencial no processamento de datasets em Python. Muitas vezes, os dados brutos contêm valores ausentes, duplicados ou erros, que podem comprometer a análise e os resultados. Para resolver estes problemas, bibliotecas como Pandas são amplamente utilizadas.
## Ações para Limpeza de Dados

1. **Remover valores ausentes (missing values):**  
   - Eliminar linhas ou colunas com valores nulos (`dropna()` no Pandas).  
   - Substituir valores ausentes por média, mediana, moda ou um valor fixo (`fillna()`).  

2. **Corrigir valores inconsistentes:**  
   - Uniformizar o formato de dados (e.g., datas no mesmo padrão).  
   - Corrigir erros ortográficos ou diferenças de nomenclatura em categorias (e.g., "Lisboa" vs. "lisboa").  

3. **Eliminar duplicados:**  
   - Identificar e remover linhas duplicadas no dataset (`drop_duplicates()`).  

4. **Verificar e ajustar tipos de dados:**  
   - Garantir que os tipos de dados estão corretos (e.g., números como `int` ou `float`, datas como `datetime`).  

5. **Remover ou tratar outliers:**  
   - Identificar valores extremos com métodos estatísticos (e.g., Z-score ou IQR) e decidir se devem ser mantidos, ajustados ou removidos.  

6. **Normalizar e padronizar dados:**  
   - Escalar valores para um intervalo comum (e.g., entre 0 e 1).  
   - Padronizar com média e desvio padrão (Z-score normalization).  

7. **Renomear colunas ou reorganizar dados:**  
   - Usar nomes claros e consistentes para colunas (`rename()`).  

8. **Tratar dados categóricos:**  
   - Converter categorias em variáveis dummy (`get_dummies()`).  

9. **Remover colunas irrelevantes:**  
   - Eliminar colunas que não sejam úteis para a análise.  

10. **Verificar integridade dos dados:**  
    - Garantir que valores correspondem às regras esperadas (e.g., valores positivos para preços).  


Exemplo de um deles:

In [None]:
import pandas as pd

df = pd.read_csv("exemploqualquer.csv")
df = df.dropna()  # Remove linhas com valores nulos
df["coluna"].fillna(0, inplace=True)  # Substitui nulos por 0 numa coluna específica


# Hierarquias

Os índices hierárquicos em DataFrames do Pandas, também conhecidos como MultiIndex, permitem organizar os dados em múltiplos níveis, criando uma estrutura mais flexível para análise. Esta funcionalidade é especialmente útil em cenários onde os dados possuem uma relação hierárquica natural, como agrupamentos por categorias, anos ou localizações.

Por exemplo, num dataset com informações sobre vendas, pode-se criar um índice hierárquico que agrupe os dados por produto e ano. Isso facilita operações como filtragem, agregação ou comparação dentro de grupos específicos.

Para criar um MultiIndex, utiliza-se o método set_index(), especificando as colunas que devem compor os níveis do índice. A navegação nos dados hierárquicos pode ser feita com o método loc[], permitindo acesso rápido e intuitivo aos valores de interesse.

A hierarquia não só melhora a organização, mas também otimiza cálculos e manipulação de dados complexos, tornando-a uma ferramenta poderosa para análise de dados em Python. No entanto, é importante planejar os níveis do índice com cuidado, para evitar estruturas desnecessariamente complicadas ou redundantes. O Professor expandiu mais este tema, mas no fundo acaba por ser uma redução interessante dos dados de modo a que se possam mostrar dados com facilidade num Jupiter Notebook.

In [1]:
import pandas as pd

# Dados fictícios
dados = {
    'Produto': ['Maçã', 'Maçã', 'Laranja', 'Laranja'],
    'Ano': [2023, 2024, 2023, 2024],
    'Vendas': [100, 120, 80, 90]
}

# Criação do DataFrame
df = pd.DataFrame(dados)

# Criar um índice hierárquico (MultiIndex)
df = df.set_index(['Produto', 'Ano'])

# Exibir o DataFrame
print(df)

# Acessar dados específicos com MultiIndex
print("\nVendas de Maçã em 2023:")
print(df.loc[('Maçã', 2023)])


              Vendas
Produto Ano         
Maçã    2023     100
        2024     120
Laranja 2023      80
        2024      90

Vendas de Maçã em 2023:
Vendas    100
Name: (Maçã, 2023), dtype: int64


  from pandas.core import (


## Combinar e juntar Datasets

Esta foi a "base" do meu trabalho. Muito a ver com a maneira que estou habituado a olhar para dados (de bases de dados), pareceu-me a abordagem mais natural para alguém como eu. A normalização inerente às BDs relacionais torna dificil para alguém como eu visualizar dados que não estejam já bem formatados. Tive algumas dificuldades nesse aspecto. Seria interessante abordar estes temas em cima de BDs não relacionais, do tipo documentais, como o Mongo.

A minha abordagem foi portanto, esta:
-> importar dados -> normalizar (limpar, alterar, melhorar) -> juntar -> repeat

Fazendo isto até ter o resultado final.

## Séries temporais


Não foram usadas séries temporais neste trabalho pois não se aplicavam aos dados explorados.