# Lab 02 - Extração de Dados: Arquivos Planos
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos praticar a leitura de diferentes formatos de arquivos planos (CSV, Excel) e lidar com problemas comuns como codificação, delimitadores e metadados.

## 1. Setup
Importe a biblioteca pandas.

In [1]:
# Seu código aqui
import pandas as pd

## 2. CSV Padrão
Carregue o arquivo `vendas.csv` e exiba as 5 primeiras linhas.

In [2]:
# Seu código aqui
df = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\raw\\vendas.csv')
df

NameError: name 'pd' is not defined

## 3. CSV com Problemas (Delimitador e Encoding)
Tente carregar o arquivo `produtos_brasil.csv`.
Você encontrará erros. Corrija utilizando os parâmetros `sep` e `encoding`.
Obs: O separador é `;` e o encoding é `latin1`.

In [3]:
# Seu código aqui
df_brasil = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\processed\\produtos_brasil.csv',
                        sep=';',
                        encoding='latin1')
df_brasil

Unnamed: 0,id,nome,preco_reais
0,101,Café,3275
1,102,Feijão,4996
2,103,Pão de Queijo,3298
3,104,Açaí,624
4,105,Guaraná,1924
5,106,Cachaça,1506
6,107,Brigadeiro,4760
7,108,Coxinha,4073
8,109,Pastel,4966
9,110,Farofa,3194


## 4. Excel com Múltiplas Abas
Carregue a aba 'Jan' do arquivo `relatorio_financeiro.xlsx`.
Observe que o cabeçalho não está na primeira linha. Use o parâmetro `header` ou `skiprows` para corrigir.

In [None]:
# Seu código aqui
df_financeiro = pd.read_excel('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\raw\\relatorio_financeiro.xlsx',
                              sheet_name='Jan',
                              skiprows=[0, 1],
                                header = 1 )
df_financeiro


Unnamed: 0,Dia,Receita
0,1,4475
1,2,2561
2,3,4247
3,4,3347
4,5,2334
5,6,2262
6,7,4387
7,8,3765
8,9,3264
9,10,4807


## 5. Delimitadores Exóticos
Carregue o arquivo `movies.csv`. Ele usa o caractere `|` como separador.

In [None]:
# Seu código aqui
df_movies = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\raw\\movies.csv',
                        sep = '|')
df_movies 

Unnamed: 0,movie_id,title,year
0,1,Inception,2010
1,2,The Matrix,1999
2,3,Interstellar,2014
3,4,Parasite,2019
4,5,Avengers,2012
5,6,Joker,2019
6,7,Lion King,1994
7,8,Toy Story,1995
8,9,Titanic,1997
9,10,Avatar,2009


## 6. Arquivos com Metadados no Início
O arquivo `ibge_metadata.csv` possui 3 linhas de texto antes do cabeçalho real.
Use o parâmetro `skiprows` para ignorá-las. Dica: encoding `cp1252`.

In [None]:
# Seu código aqui
df_ibge = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\raw\\ibge_metadata.csv',
                      encoding='cp1252',
                      skiprows=[1, 2])
df_ibge

Unnamed: 0,Unnamed: 1,Fonte: IBGE
cod_municipio,nome_municipio,populacao_estimada
3550308,São Paulo,11451245
3304557,Rio de Janeiro,6211423
3106200,Belo Horizonte,2438423


---
## PARTE 2: APROFUNDAMENTO
Tratamento de Arquivos Massivos e Múltiplos Arquivos.

## 7. Leitura em Chunks (Big Files)
O arquivo `big_file.csv` simula um arquivo grande. Leia-o em pedaços (chunks) de 10.000 linhas e exiba o tipo do objeto resultante.

In [7]:
# Seu código aqui
chunck_iter = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\processed\\big_file.csv',
                          chunksize=1000)
for chunck in chunck_iter:
    print(f'chunck shape{chunck.shape}')
    break


chunck shape(1000, 5)


## 8. Linhas com Erro (Bad Lines)
O arquivo `bad_lines.csv` possui linhas quebradas. Tente carregar ignorando as linhas com erro utilizando `on_bad_lines`.

In [8]:
# Seu código aqui
df_bad = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\processed\\bad_lines.csv',
                     on_bad_lines='skip')
df_bad

Unnamed: 0,id,nome,email
0,1,Joao,joao@email.com
1,3,Pedro,pedro@email.com


## 9. Múltiplos Arquivos (Glob)
Use a biblioteca `glob` para listar os arquivos na pasta `batch_data/` e carregá-los em um único DataFrame com `pd.concat`.

In [None]:
# Seu código aqui
import glob
arquivos = glob.glob('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\processed\\batch_data')
dfs = [pd.read_csv(f) for f in arquivos]
df_junto = pd.concat(dfs, ignore_index=True)
df_junto

  arquivos = glob.glob('C:\pedro_ibmec\quinto_semestre\data_extraction\data\processed\batch_data')
  arquivos = glob.glob('C:\pedro_ibmec\quinto_semestre\data_extraction\data\processed\batch_data')


ValueError: No objects to concatenate

---
## PARTE 3: NÍVEL EXPERT
Otimização e Limpeza Avançada.

## 10. Otimização de Memória (Downcasting)
1. Carregue o arquivo `big_file.csv` inteiro (se couber) ou um chunk.
2. Verifique o uso de memória com `.info(memory_usage='deep')`.
3. Converta uma coluna numérica para `float32` ou `int32` e verifique a réduction do uso de memória.

In [None]:
# Seu código aqui
df_big = pd.read_csv('C:\\pedro_ibmec\\quinto_semestre\\data_extraction\\data\\raw\\big_file.csv')
print(f'Original: {df_big.memory_usage(deep=True).sum()} bytes')
df_big['A'] = df_big['A'].astype('float32')
print(f'Otimizado:{df_big.memory_usage(deep=True).sum}bytes')

Original: 2000132 bytes
Otimizado:<bound method Series.sum of Index       132
A        200000
B        400000
C        400000
D        400000
E        400000
dtype: int64>bytes


## 11. Extração com Regex
Suponha a seguinte coluna de texto sujo. Crie um DataFrame com ela e use `str.extract` para obter apenas o código numérico.
```python
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
```

In [None]:
# Seu código aqui

---
## 12. DESAFIO PARA CASA (Real Data)
1. Entre no site [dados.gov.br](https://dados.gov.br) ou [Kaggle](https://kaggle.com).
2. Baixe um dataset CSV de seu interesse (tamanho mínimo: 1000 linhas).
3. Carregue-o no pandas, tratando problemas de encoding/separador se houver.
4. Exiba um `.info()` e `.describe()`.
5. Responda: Qual o tamanho do arquivo em memória?

In [None]:
# Seu código aqui