# Lab 02 - Extração de Dados: Arquivos Planos
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos praticar a leitura de diferentes formatos de arquivos planos (CSV, Excel) e lidar com problemas comuns como codificação, delimitadores e metadados.

## 1. Setup
Importe a biblioteca pandas.

In [None]:
import pandas as pd

## 2. CSV Padrão
Carregue o arquivo `vendas.csv` e exiba as 5 primeiras linhas.

In [None]:
df = pd.read_csv ("Aula 02/vendas.csv")
print(df)

## 3. CSV com Problemas (Delimitador e Encoding)
Tente carregar o arquivo `produtos_brasil.csv`.
Você encontrará erros. Corrija utilizando os parâmetros `sep` e `encoding`.
Obs: O separador é `;` e o encoding é `latin1`.

In [None]:
import pandas as pd

df = pd.read_csv(
    "Aula 02/produtos_brasil.csv",
    sep=";",       
    encoding="latin1" 
)

df.head()


## 4. Excel com Múltiplas Abas
Carregue a aba 'Jan' do arquivo `relatorio_financeiro.xlsx`.
Observe que o cabeçalho não está na primeira linha. Use o parâmetro `header` ou `skiprows` para corrigir.

In [None]:
df = pd.read_csv(
    "Aula 02/produtos_brasil.csv",
    sheet_name= "Jan"
)

df.head()

## 5. Delimitadores Exóticos
Carregue o arquivo `movies.csv`. Ele usa o caractere `|` como separador.

In [None]:
df = pd.read_csv(
    "Aula 02/movies.csv",
    sep="|"
)

df.head()


## 6. Arquivos com Metadados no Início
O arquivo `ibge_metadata.csv` possui 3 linhas de texto antes do cabeçalho real.
Use o parâmetro `skiprows` para ignorá-las. Dica: encoding `cp1252`.

In [None]:
df = pd.read_csv(
    "Aula 02/ibge_metadata.csv",
    skiprows=3,    
    encoding="cp1252" 
)   

print(df.head())


---
## PARTE 2: APROFUNDAMENTO
Tratamento de Arquivos Massivos e Múltiplos Arquivos.

## 7. Leitura em Chunks (Big Files)
O arquivo `big_file.csv` simula um arquivo grande. Leia-o em pedaços (chunks) de 10.000 linhas e exiba o tipo do objeto resultante.

In [None]:
chunk_iter = pd.read_csv("Aula 02/big_file.csv", chunksize=10000)
for chunk in chunk_iter:
    print(f'chunk shape: [chunk.shape]')
    break


## 8. Linhas com Erro (Bad Lines)
O arquivo `bad_lines.csv` possui linhas quebradas. Tente carregar ignorando as linhas com erro utilizando `on_bad_lines`.

In [None]:
df_bad = pd.read_csv('Aula 02/bad_lines.csv', on_bad_lines='skip')
df.head()

## 9. Múltiplos Arquivos (Glob)
Use a biblioteca `glob` para listar os arquivos na pasta `batch_data/` e carregá-los em um único DataFrame com `pd.concat`.

In [None]:
import glob
arquivos = glob.glob('Aula 02/batch_data/*.csv')
dfs = [pd.read_csv(arquivos) for arquivos in arquivos]
df_final = pd.concat(dfs, ignore_index=True)

df_final.head()
df_final.shape

---
## PARTE 3: NÍVEL EXPERT
Otimização e Limpeza Avançada.

## 10. Otimização de Memória (Downcasting)
1. Carregue o arquivo `big_file.csv` inteiro (se couber) ou um chunk.
2. Verifique o uso de memória com `.info(memory_usage='deep')`.
3. Converta uma coluna numérica para `float32` ou `int32` e verifique a réduction do uso de memória.

In [None]:
df = pd.read_csv("Aula 02/big_file.csv")
df.head()
df.info(memory_usage='deep')
#df.dtypes

df = df.astype({
    "A": "int32",
    "B": "int32",
    "C": "int32",
    "D": "int32",
    "E": "int32"
})
df.info(memory_usage='deep')

df = df.astype({
    "A": "int62",
    "B": "int62",
    "C": "int62",
    "D": "int62",
    "E": "int62"
})
df.info(memory_usage='deep')

## 11. Extração com Regex
Suponha a seguinte coluna de texto sujo. Crie um DataFrame com ela e use `str.extract` para obter apenas o código numérico.
```python
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
```

In [None]:
import pandas as pd 
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
print(dados)
df = pd.DataFrame(dados)
df["codigo"]= df["Info"].str.extract(r"\[(\d+)\]")
print(df)
print(df["codigo"])



---
## 12. DESAFIO PARA CASA (Real Data)
1. Entre no site [dados.gov.br](https://dados.gov.br) ou [Kaggle](https://kaggle.com).
2. Baixe um dataset CSV de seu interesse (tamanho mínimo: 1000 linhas).
3. Carregue-o no pandas, tratando problemas de encoding/separador se houver.
4. Exiba um `.info()` e `.describe()`.
5. Responda: Qual o tamanho do arquivo em memória?

In [None]:
import pandas as pd 
df = pd.read_csv('Aula 02/ultimate_student_productivity_dataset_5000.csv', sep=",")
df.head()
df.info
df.describe
df.info(memory_usage='deep')

#memory usage: 1.5 MB