# Lab 02 - Extração de Dados: Arquivos Planos
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos praticar a leitura de diferentes formatos de arquivos planos (CSV, Excel) e lidar com problemas comuns como codificação, delimitadores e metadados.

## 1. Setup
Importe a biblioteca pandas.

In [8]:
# Seu código aqui
import pandas as pd

## 2. CSV Padrão
Carregue o arquivo `vendas.csv` e exiba as 5 primeiras linhas.

In [18]:
# Seu código aqui
df_PATH = r"..\data-extraction-course\data\raw\aula_02\vendas.csv"
df_vendas = pd.read_csv(df_PATH)
df_vendas.head()

Unnamed: 0,id_venda,data,produto,quantidade,preco_unitario,total
0,1,2024-01-01,Teclado,1,2852.92,2852.92
1,2,2024-01-02,Teclado,7,3249.47,22746.29
2,3,2024-01-03,Teclado,7,4104.96,28734.72
3,4,2024-01-04,Teclado,1,870.74,870.74
4,5,2024-01-05,Notebook,7,3614.27,25299.89


## 3. CSV com Problemas (Delimitador e Encoding)
Tente carregar o arquivo `produtos_brasil.csv`.
Você encontrará erros. Corrija utilizando os parâmetros `sep` e `encoding`.
Obs: O separador é `;` e o encoding é `latin1`.

In [28]:
# Seu código aqui
df_PATH_produtos = '..\\data-extraction-course\\data\\raw\\aula_02\\produtos_brasil.csv'
df_produtos = pd.read_csv(df_PATH_produtos, sep=';', encoding='latin-1')
df_produtos.head()


Unnamed: 0,id,nome,preco_reais
0,101,Café,3275
1,102,Feijão,4996
2,103,Pão de Queijo,3298
3,104,Açaí,624
4,105,Guaraná,1924


## 4. Excel com Múltiplas Abas
Carregue a aba 'Jan' do arquivo `relatorio_financeiro.xlsx`.
Observe que o cabeçalho não está na primeira linha. Use o parâmetro `header` ou `skiprows` para corrigir.

In [29]:
# Seu código aqui
df_PATH_relatorio_financeiro = '..\\data-extraction-course\\data\\raw\\aula_02\\relatorio_financeiro.xlsx'
df_relatorio_financeiro = pd.read_excel(df_PATH_relatorio_financeiro, sheet_name='Jan', skiprows=2)
df_relatorio_financeiro.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,Dia,Receita
1,1,4475
2,2,2561
3,3,4247
4,4,3347


## 5. Delimitadores Exóticos
Carregue o arquivo `movies.csv`. Ele usa o caractere `|` como separador.

In [30]:
# Seu código aqui
df_PATH_movies = '..\\data-extraction-course\\data\\raw\\aula_02\\movies.csv'
df_movies = pd.read_csv(df_PATH_movies, sep='|')
df_movies.head()

Unnamed: 0,movie_id,title,year
0,1,Inception,2010
1,2,The Matrix,1999
2,3,Interstellar,2014
3,4,Parasite,2019
4,5,Avengers,2012


## 6. Arquivos com Metadados no Início
O arquivo `ibge_metadata.csv` possui 3 linhas de texto antes do cabeçalho real.
Use o parâmetro `skiprows` para ignorá-las. Dica: encoding `cp1252`.

In [31]:
# Seu código aqui
df_PATH_metadata = '..\\data-extraction-course\\data\\raw\\aula_02\\ibge_metadata.csv'
df_metadata = pd.read_csv(df_PATH_metadata, encoding='cp1252',skiprows=2,sep=',')
df_metadata.head()

Unnamed: 0,Unnamed: 1,Responsável: Sistema X
cod_municipio,nome_municipio,populacao_estimada
3550308,São Paulo,11451245
3304557,Rio de Janeiro,6211423
3106200,Belo Horizonte,2438423


---
## PARTE 2: APROFUNDAMENTO
Tratamento de Arquivos Massivos e Múltiplos Arquivos.

## 7. Leitura em Chunks (Big Files)
O arquivo `big_file.csv` simula um arquivo grande. Leia-o em pedaços (chunks) de 10.000 linhas e exiba o tipo do objeto resultante.

In [None]:
# Seu código aqui
df_PATH_big_file = '..\\data-extraction-course\\data\\raw\\aula_02\\big_file.csv'
chunk_iter = pd.read_csv(df_PATH_big_file, chunksize=1000)
for chunk in chunk_iter:
    print(f'chunk.shape: {chunk.shape}')
    break

chunk.shape: (1000, 5)


## 8. Linhas com Erro (Bad Lines)
O arquivo `bad_lines.csv` possui linhas quebradas. Tente carregar ignorando as linhas com erro utilizando `on_bad_lines`.

In [32]:
# Seu código aqui
df_PATH_bad_lines = '..\\data-extraction-course\\data\\raw\\aula_02\\bad_lines.csv'
df_bad_lines = pd.read_csv(df_PATH_bad_lines, on_bad_lines='skip')
df_bad_lines.head()

Unnamed: 0,id,nome,email
0,1,Joao,joao@email.com
1,3,Pedro,pedro@email.com


## 9. Múltiplos Arquivos (Glob)
Use a biblioteca `glob` para listar os arquivos na pasta `batch_data/` e carregá-los em um único DataFrame com `pd.concat`.

In [33]:
# Seu código aqui
from glob import glob
arquivos = glob('..\\data-extraction-course\\data\\raw\\aula_02\\batch_data\\*.csv')
dfs = [pd.read_csv(f) for f in arquivos]
df_final = pd.concat(dfs, ignore_index=True)
df_final.head()

Unnamed: 0,id,val
0,10,0.694176
1,11,0.932038
2,12,0.630918
3,13,0.246435
4,14,0.191149


---
## PARTE 3: NÍVEL EXPERT
Otimização e Limpeza Avançada.

## 10. Otimização de Memória (Downcasting)
1. Carregue o arquivo `big_file.csv` inteiro (se couber) ou um chunk.
2. Verifique o uso de memória com `.info(memory_usage='deep')`.
3. Converta uma coluna numérica para `float32` ou `int32` e verifique a réduction do uso de memória.

In [34]:
# Seu código aqui
df_PATH_big_file = '..\\data-extraction-course\\data\\raw\\aula_02\\big_file.csv'
df_big = pd.read_csv(df_PATH_big_file)
print(f'Original: {df_big.memory_usage(deep=True).sum()} bytes')
df_big['A'] = df_big['A'].astype('float32')
print(f'Optimizado: {df_big.memory_usage(deep=True).sum()} bytes')

Original: 2000132 bytes
Optimizado: 1800132 bytes


## 11. Extração com Regex
Suponha a seguinte coluna de texto sujo. Crie um DataFrame com ela e use `str.extract` para obter apenas o código numérico.
```python
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
```

In [41]:
# Seu código aqui
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
df_dados = pd.DataFrame(dados)
df_dados['Produto_ID'] = df_dados['Info'].str.extract(r'\[(\d+)\]')
df_dados.head()

Unnamed: 0,Info,Produto_ID
0,Produto: [123] - Vendido,123
1,Produto: [456] - Estoque,456
2,Produto: [789] - Devolvido,789


---
## 12. DESAFIO PARA CASA (Real Data)
1. Entre no site [dados.gov.br](https://dados.gov.br) ou [Kaggle](https://kaggle.com).
2. Baixe um dataset CSV de seu interesse (tamanho mínimo: 1000 linhas).
3. Carregue-o no pandas, tratando problemas de encoding/separador se houver.
4. Exiba um `.info()` e `.describe()`.
5. Responda: Qual o tamanho do arquivo em memória?

In [49]:
import pandas as pd
from pathlib import Path
import kagglehub

# Baixa e pega pasta local do dataset
path = kagglehub.dataset_download("maazshaikh05/world-university-student-survey-dataset")
print("Path:", path)

# Encontra o CSV
csv_file = next(Path(path).glob("*.csv"))
print("Arquivo:", csv_file.name)

# Lê e visualiza
df = pd.read_csv(csv_file)
display(df.head(10))   # primeiras 10 linhas
print("Shape:", df.shape)
df.info()
df.describe


Path: C:\Users\Milton\.cache\kagglehub\datasets\maazshaikh05\world-university-student-survey-dataset\versions\1
Arquivo: world_university_survey_dataset.csv


Unnamed: 0,student_id,student_name,age,gender,country,university,program_level,field_of_study,year_of_study,tuition_usd,scholarship,online_classes,campus_facilities_rating,teaching_quality_rating,overall_satisfaction
0,1,Dustin Shaw,30,Other,Netherlands,"Herrera, Juarez and Williams University",Bachelor,Data Science,5,47419,Yes,No,1,2,Satisfied
1,2,Richard Hughes,20,Female,UK,Norton LLC University,Master,Computer Science,4,6419,Yes,Yes,3,4,Satisfied
2,3,John Cooper,34,Female,UK,Berg Inc University,PhD,Engineering,3,7126,Yes,No,3,5,Very Dissatisfied
3,4,Travis Thompson,19,Female,Japan,Johnson-Gordon University,Bachelor,Business,2,13564,No,Yes,4,4,Dissatisfied
4,5,Jessica Campbell,34,Female,Japan,Nixon-Dodson University,PhD,Social Sciences,3,2531,Yes,Yes,5,3,Dissatisfied
5,6,Kristin Thompson,19,Other,Japan,Page LLC University,Master,Data Science,3,21558,Yes,Yes,1,4,Very Dissatisfied
6,7,Laura Stephens,34,Male,France,"Smith, Ferrell and Curtis University",PhD,Physics,5,48252,No,Yes,1,1,Dissatisfied
7,8,Mary Scott,25,Female,India,"Johnson, Malone and Brown University",PhD,Medicine,2,46233,Yes,No,1,5,Very Dissatisfied
8,9,Peter Fernandez,29,Male,UAE,Martinez-Perez University,Bachelor,Business,1,17725,No,Yes,2,2,Neutral
9,10,Mark Gibson,20,Other,Germany,"Henry, Jones and Anderson University",Master,Business,1,5089,Yes,No,5,5,Neutral


Shape: (1000, 15)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   student_id                1000 non-null   int64 
 1   student_name              1000 non-null   object
 2   age                       1000 non-null   int64 
 3   gender                    1000 non-null   object
 4   country                   1000 non-null   object
 5   university                1000 non-null   object
 6   program_level             1000 non-null   object
 7   field_of_study            1000 non-null   object
 8   year_of_study             1000 non-null   int64 
 9   tuition_usd               1000 non-null   int64 
 10  scholarship               1000 non-null   object
 11  online_classes            1000 non-null   object
 12  campus_facilities_rating  1000 non-null   int64 
 13  teaching_quality_rating   1000 non-null   int64 
 14  overall

<bound method NDFrame.describe of      student_id      student_name  age  gender      country  \
0             1       Dustin Shaw   30   Other  Netherlands   
1             2    Richard Hughes   20  Female           UK   
2             3       John Cooper   34  Female           UK   
3             4   Travis Thompson   19  Female        Japan   
4             5  Jessica Campbell   34  Female        Japan   
..          ...               ...  ...     ...          ...   
995         996       Angel Allen   31  Female       Turkey   
996         997     Denise Willis   34  Female     Malaysia   
997         998      Dylan Sexton   26  Female       Canada   
998         999         Ryan Cook   20  Female        India   
999        1000      Harry Taylor   21  Female       Turkey   

                                  university program_level    field_of_study  \
0    Herrera, Juarez and Williams University      Bachelor      Data Science   
1                      Norton LLC University     