# Lab 02 - Extração de Dados: Arquivos Planos
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos praticar a leitura de diferentes formatos de arquivos planos (CSV, Excel) e lidar com problemas comuns como codificação, delimitadores e metadados.

## 1. Setup
Importe a biblioteca pandas.

In [1]:
# Seu código aqui
import pandas as pd
# arquivos = "vendas.csv"
# vendas = pd.read_csv(arquivos)

# vendas.head(5)

## 2. CSV Padrão
Carregue o arquivo `vendas.csv` e exiba as 5 primeiras linhas.

In [2]:
# Seu código aqui
arquivo = "C:/Users/isabe/Documents/data-extraction-course/aulas_preparacao_extracao_dados/Aula 02/data_aula_02/vendas.csv"
df_vendas = pd.read_csv(arquivo)

df_vendas.head(5)

Unnamed: 0,id_venda,data,produto,quantidade,preco_unitario,total
0,1,2024-01-01,Teclado,1,2852.92,2852.92
1,2,2024-01-02,Teclado,7,3249.47,22746.29
2,3,2024-01-03,Teclado,7,4104.96,28734.72
3,4,2024-01-04,Teclado,1,870.74,870.74
4,5,2024-01-05,Notebook,7,3614.27,25299.89


## 3. CSV com Problemas (Delimitador e Encoding)
Tente carregar o arquivo `produtos_brasil.csv`.
Você encontrará erros. Corrija utilizando os parâmetros `sep` e `encoding`.
Obs: O separador é `;` e o encoding é `latin1`.

In [None]:
# Seu código aqui
df_produtos_brasil = pd.read_csv('data_aula_02/produtos_brasil.csv', 
                 sep=';',           # Separador
                 encoding='latin1', # Codificação
                 decimal=',')  
 
df_produtos_brasil.head()

Unnamed: 0,id,nome,preco_reais
0,101,Café,32.75
1,102,Feijão,49.96
2,103,Pão de Queijo,32.98
3,104,Açaí,6.24
4,105,Guaraná,19.24


## 4. Excel com Múltiplas Abas
Carregue a aba 'Jan' do arquivo `relatorio_financeiro.xlsx`.
Observe que o cabeçalho não está na primeira linha. Use o parâmetro `header` ou `skiprows` para corrigir.

In [None]:
# Seu código aqui
df_relatorio_financeiro = pd.read_excel('data_aula_02/relatorio_financeiro.xlsx', sheet_name='Jan', header=2)  
df_relatorio_financeiro.head()


Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,Dia,Receita
1,1,4475
2,2,2561
3,3,4247
4,4,3347


## 5. Delimitadores Exóticos
Carregue o arquivo `movies.csv`. Ele usa o caractere `|` como separador.

In [None]:
# Seu código aqui
df_movies = pd.read_csv('data_aula_02/movies.csv', sep='|')
df_movies.head()

Unnamed: 0,movie_id,title,year
0,1,Inception,2010
1,2,The Matrix,1999
2,3,Interstellar,2014
3,4,Parasite,2019
4,5,Avengers,2012


## 6. Arquivos com Metadados no Início
O arquivo `ibge_metadata.csv` possui 3 linhas de texto antes do cabeçalho real.
Use o parâmetro `skiprows` para ignorá-las. Dica: encoding `cp1252`.

In [None]:
# Seu código aqui
df_ibge_metadata = pd.read_csv('data_aula_02/ibge_metadata.csv', skiprows=3, encoding='cp1252')
df_ibge_metadata.head()

Unnamed: 0,cod_municipio,nome_municipio,populacao_estimada
0,3550308,São Paulo,11451245
1,3304557,Rio de Janeiro,6211423
2,3106200,Belo Horizonte,2438423


---
## PARTE 2: APROFUNDAMENTO
Tratamento de Arquivos Massivos e Múltiplos Arquivos.

## 7. Leitura em Chunks (Big Files)
O arquivo `big_file.csv` simula um arquivo grande. Leia-o em pedaços (chunks) de 10.000 linhas e exiba o tipo do objeto resultante.

In [None]:
# Seu código aqui
df_big_file = pd.read_csv('data_aula_02/big_file.csv', chunksize=10000)

for df_big_file in (df_big_file): 
    # print(big_file)
    # print(big_file.describe())
    print(df_big_file.shape)


(10000, 5)
(10000, 5)
(10000, 5)
(10000, 5)
(10000, 5)


## 8. Linhas com Erro (Bad Lines)
O arquivo `bad_lines.csv` possui linhas quebradas. Tente carregar ignorando as linhas com erro utilizando `on_bad_lines`.

In [None]:
# Seu código aqui
df_bad_lines = pd.read_csv('data_aula_02/bad_lines.csv', on_bad_lines='skip')
df_bad_lines.head()

Unnamed: 0,id,nome,email
0,1,Joao,joao@email.com
1,3,Pedro,pedro@email.com


## 9. Múltiplos Arquivos (Glob)
Use a biblioteca `glob` para listar os arquivos na pasta `batch_data/` e carregá-los em um único DataFrame com `pd.concat`.

In [None]:
import glob 
arquivo = r'C:\Users\isabe\Documents\data-extraction-course\aulas_preparacao_extracao_dados\Aula 02\data_aula_02\batch_data'
df_batch_data = glob.glob(arquivo + "/*.csv")

lista_df = [pd.read_csv(df_batch_data) for batch_data in df_batch_data]
df_final = pd.concat(lista_df, ignore_index=True)
print("Formato final:", df_final.shape)
print(df_final)


Formato final: (30, 2)
    id       val
0   10  0.694176
1   11  0.932038
2   12  0.630918
3   13  0.246435
4   14  0.191149
5   15  0.884932
6   16  0.067014
7   17  0.105127
8   18  0.918379
9   19  0.457547
10   0  0.781380
11   1  0.133207
12   2  0.519294
13   3  0.836694
14   4  0.811590
15   5  0.031818
16   6  0.457655
17   7  0.282596
18   8  0.648938
19   9  0.643613
20  20  0.747106
21  21  0.177963
22  22  0.914852
23  23  0.610660
24  24  0.397687
25  25  0.827235
26  26  0.482531
27  27  0.370568
28  28  0.916949
29  29  0.532984


<!-- ---
## PARTE 3: NÍVEL EXPERT
Otimização e Limpeza Avançada. -->

## 10. Otimização de Memória (Downcasting)
1. Carregue o arquivo `big_file.csv` inteiro (se couber) ou um chunk.
2. Verifique o uso de memória com `.info(memory_usage='deep')`.
3. Converta uma coluna numérica para `float32` ou `int32` e verifique a réduction do uso de memória.

In [None]:
# Seu código aqui
arquivo = "C:/Users/isabe/Documents/data-extraction-course/aulas_preparacao_extracao_dados/Aula 02/data_aula_02/big_file.csv"
df_big = pd.read_csv(arquivo)


print(f'Original: {df_big.memory_usage(deep=True).sum()} bytes')
df_big['A'] = df_big['A'].astype('float32')
print(f'Otimizado: {df_big.memory_usage(deep=True).sum()} bytes')

Original: 2000132 bytes
Otimizado: 1800132 bytes


## 11. Extração com Regex
Suponha a seguinte coluna de texto sujo. Crie um DataFrame com ela e use `str.extract` para obter apenas o código numérico.
```python
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
```

In [None]:
# Seu código aqui
dados = {'Info': ['Produto: [123] - Vendido', 
                  'Produto: [456] - Estoque', 
                  'Produto: [789] - Devolvido']}

df = pd.DataFrame(dados)
df['Codigo'] = df['Info'].str.extract(r'(\d+)') 
print(df)

                         Info Codigo
0    Produto: [123] - Vendido    123
1    Produto: [456] - Estoque    456
2  Produto: [789] - Devolvido    789


---
## 12. DESAFIO PARA CASA (Real Data)
1. Entre no site [dados.gov.br](https://dados.gov.br) ou [Kaggle](https://kaggle.com).
2. Baixe um dataset CSV de seu interesse (tamanho mínimo: 1000 linhas).
3. Carregue-o no pandas, tratando problemas de encoding/separador se houver.
4. Exiba um `.info()` e `.describe()`.
5. Responda: Qual o tamanho do arquivo em memória?

In [None]:
# Seu código aqui
df_movies = pd.read_csv("data_aula_02/netflix_titles.csv", encoding="utf-8")

# # Info 
print(df_movies.info())

# # Descricao
print(df_movies.describe(include='all'))

# Tamanho do arquivo 
memoria_bytes = df_movies.memory_usage(deep=True).sum()
memoria_mb = round(memoria_bytes / (1024**2), 2)
print(f"Tamanho do arquivo em memoria: {memoria_mb} MB")


<class 'pandas.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   show_id       8807 non-null   str  
 1   type          8807 non-null   str  
 2   title         8807 non-null   str  
 3   director      6173 non-null   str  
 4   cast          7982 non-null   str  
 5   country       7976 non-null   str  
 6   date_added    8797 non-null   str  
 7   release_year  8807 non-null   int64
 8   rating        8803 non-null   str  
 9   duration      8804 non-null   str  
 10  listed_in     8807 non-null   str  
 11  description   8807 non-null   str  
dtypes: int64(1), str(11)
memory usage: 825.8 KB
None
       show_id   type                 title       director  \
count     8807   8807                  8807           6173   
unique    8807      2                  8807           4528   
top         s1  Movie  Dick Johnson Is Dead  Rajiv Chilaka   
freq         1   6131       