# Lab 02 - Extração de Dados: Arquivos Planos
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos praticar a leitura de diferentes formatos de arquivos planos (CSV, Excel) e lidar com problemas comuns como codificação, delimitadores e metadados.

## 1. Setup
Importe a biblioteca pandas.

In [9]:
# Seu código aqui
import pandas as pd

## 2. CSV Padrão
Carregue o arquivo `vendas.csv` e exiba as 5 primeiras linhas.

In [45]:
arquivo ="C:\\Ludmila\\faculdade\\EstracaoPreparacaoDados\\data-extraction-course\\Aula 02\\data_aula2\\vendas.csv" 
df = pd.read_csv(arquivo)
print(df.head())

   id_venda        data   produto  quantidade  preco_unitario     total
0         1  2024-01-01   Teclado           1         2852.92   2852.92
1         2  2024-01-02   Teclado           7         3249.47  22746.29
2         3  2024-01-03   Teclado           7         4104.96  28734.72
3         4  2024-01-04   Teclado           1          870.74    870.74
4         5  2024-01-05  Notebook           7         3614.27  25299.89


## 3. CSV com Problemas (Delimitador e Encoding)
Tente carregar o arquivo `produtos_brasil.csv`.
Você encontrará erros. Corrija utilizando os parâmetros `sep` e `encoding`.
Obs: O separador é `;` e o encoding é `latin1`.

In [92]:
arquivo = "data_aula2\\produtos_brasil.csv"
df = pd.read_csv(arquivo, 
                 encoding='latin1')   
print(df)    


                      id;nome;preco_reais
101;Café;32                            75
102;Feijão;49                          96
103;Pão de Queijo;32                   98
104;Açaí;6                             24
105;Guaraná;19                         24
106;Cachaça;15                          6
107;Brigadeiro;47                      60
108;Coxinha;40                         73
109;Pastel;49                          66
110;Farofa;31                          94


## 4. Excel com Múltiplas Abas
Carregue a aba 'Jan' do arquivo `relatorio_financeiro.xlsx`.
Observe que o cabeçalho não está na primeira linha. Use o parâmetro `header` ou `skiprows` para corrigir.

In [113]:
arquivo = "C:\\Ludmila\\faculdade\\EstracaoPreparacaoDados\\data-extraction-course\\Aula 02\\data_aula2\\relatorio_financeiro.xlsx"
df = pd.read_excel(arquivo, sheet_name='Jan', header=2)
print(df)

   Unnamed: 0 Unnamed: 1
0         Dia    Receita
1           1       4475
2           2       2561
3           3       4247
4           4       3347
5           5       2334
6           6       2262
7           7       4387
8           8       3765
9           9       3264
10         10       4807
11         11       1402
12         12       3878
13         13       3311
14         14       2578
15         15       3942
16         16       1560
17         17       2569
18         18       4229
19         19       2176
20         20       2583
21         21       2138
22         22       2054
23         23       3781
24         24       3872
25         25       2560
26         26       3076
27         27       3125
28         28       2124
29         29       3710
30         30       1569
31         31       4455


## 5. Delimitadores Exóticos
Carregue o arquivo `movies.csv`. Ele usa o caractere `|` como separador.

In [142]:
arquivo = "C:\\Ludmila\\faculdade\\EstracaoPreparacaoDados\\data-extraction-course\\Aula 02\\data_aula2\\movies.csv"   
df = pd.read_csv(arquivo, sep='|')
print(df)

   movie_id         title  year
0         1     Inception  2010
1         2    The Matrix  1999
2         3  Interstellar  2014
3         4      Parasite  2019
4         5      Avengers  2012
5         6         Joker  2019
6         7     Lion King  1994
7         8     Toy Story  1995
8         9       Titanic  1997
9        10        Avatar  2009


## 6. Arquivos com Metadados no Início
O arquivo `ibge_metadata.csv` possui 3 linhas de texto antes do cabeçalho real.
Use o parâmetro `skiprows` para ignorá-las. Dica: encoding `cp1252`.

In [165]:
arquivo = "data_aula2\\ibge_metadata.csv"
df = pd.read_csv(arquivo, sep=',', skiprows=3, encoding='cp1252')
print(df)

   cod_municipio  nome_municipio  populacao_estimada
0        3550308       São Paulo            11451245
1        3304557  Rio de Janeiro             6211423
2        3106200  Belo Horizonte             2438423


---
## PARTE 2: APROFUNDAMENTO
Tratamento de Arquivos Massivos e Múltiplos Arquivos.

## 7. Leitura em Chunks (Big Files)
O arquivo `big_file.csv` simula um arquivo grande. Leia-o em pedaços (chunks) de 10.000 linhas e exiba o tipo do objeto resultante.

In [193]:
arquivo = "data_aula2\\big_file.csv"
chunks = pd.read_csv(arquivo, chunksize=10000)
for chunk in chunks:
    print(chunk.shape)
    break

(10000, 5)


## 8. Linhas com Erro (Bad Lines)
O arquivo `bad_lines.csv` possui linhas quebradas. Tente carregar ignorando as linhas com erro utilizando `on_bad_lines`.

In [217]:
arquivo = "C:\\Ludmila\\faculdade\\EstracaoPreparacaoDados\\data-extraction-course\\Aula 02\\data_aula2\\bad_lines.csv"
df = pd.read_csv(arquivo, on_bad_lines='skip')
print(df)

   id   nome            email
0   1   Joao   joao@email.com
1   3  Pedro  pedro@email.com


## 9. Múltiplos Arquivos (Glob)
Use a biblioteca `glob` para listar os arquivos na pasta `batch_data/` e carregá-los em um único DataFrame com `pd.concat`.

In [265]:
import glob
caminho = "C:\\Ludmila\\faculdade\\EstracaoPreparacaoDados\\data-extraction-course\\Aula 02\\batch_data\\*.csv"
arquivos = glob.glob(caminho)
lista_df = [pd.read_csv(arquivo) for arquivo in arquivos]

df_final = pd.concat(lista_df, ignore_index=True)
df_final.shape
print(df_final)





    id       val
0   10  0.694176
1   11  0.932038
2   12  0.630918
3   13  0.246435
4   14  0.191149
5   15  0.884932
6   16  0.067014
7   17  0.105127
8   18  0.918379
9   19  0.457547
10   0  0.781380
11   1  0.133207
12   2  0.519294
13   3  0.836694
14   4  0.811590
15   5  0.031818
16   6  0.457655
17   7  0.282596
18   8  0.648938
19   9  0.643613
20  20  0.747106
21  21  0.177963
22  22  0.914852
23  23  0.610660
24  24  0.397687
25  25  0.827235
26  26  0.482531
27  27  0.370568
28  28  0.916949
29  29  0.532984


---
## PARTE 3: NÍVEL EXPERT
Otimização e Limpeza Avançada.

## 10. Otimização de Memória (Downcasting)
1. Carregue o arquivo `big_file.csv` inteiro (se couber) ou um chunk.
2. Verifique o uso de memória com `.info(memory_usage='deep')`.
3. Converta uma coluna numérica para `float32` ou `int32` e verifique a réduction do uso de memória.

In [273]:
import pandas as pd

arquivo = "data_aula2/big_file.csv"
df_big = pd.read_csv(arquivo)

print(f'original: {df_big.memory_usage(deep=True).sum()} bytes')

df_big['A'] = df_big['A'].astype('float32')

print(f'otimizado: {df_big.memory_usage(deep=True).sum()} bytes')


original: 2000132 bytes
otimizado: 1800132 bytes


## 11. Extração com Regex
Suponha a seguinte coluna de texto sujo. Crie um DataFrame com ela e use `str.extract` para obter apenas o código numérico.
```python
dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
```

In [277]:

dados = {'Info': ['Produto: [123] - Vendido', 'Produto: [456] - Estoque', 'Produto: [789] - Devolvido']}
df = pd.DataFrame(dados)

df['codigo'] = df['Info'].str.extract('(\d+)')

print(df)

                         Info codigo
0    Produto: [123] - Vendido    123
1    Produto: [456] - Estoque    456
2  Produto: [789] - Devolvido    789


  df['codigo'] = df['Info'].str.extract('(\d+)')


---
## 12. DESAFIO PARA CASA (Real Data)
1. Entre no site [dados.gov.br](https://dados.gov.br) ou [Kaggle](https://kaggle.com).
2. Baixe um dataset CSV de seu interesse (tamanho mínimo: 1000 linhas).
3. Carregue-o no pandas, tratando problemas de encoding/separador se houver.
4. Exiba um `.info()` e `.describe()`.
5. Responda: Qual o tamanho do arquivo em memória?

In [None]:
arquivo = "data_aula2\\voos_2025_1.csv"

import pandas as pd

df = pd.read_csv(arquivo, sep=';', encoding='utf-8', skiprows=1)

# 4. Exiba um .info() e .describe()
print("--- INFORMAÇÕES DO DATASET ---")
df.info()

print("\n--- ESTATÍSTICAS DESCRITIVAS ---")
print(df.describe(include='all'))


tamanho_bytes = df.memory_usage(deep=True).sum()

print(f"\ntamanho do arquivo em memória é de {tamanho_bytes:.2f}")



--- INFORMAÇÕES DO DATASET ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89716 entries, 0 to 89715
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ICAO Empresa Aérea       89716 non-null  object 
 1   Número Voo               89716 non-null  object 
 2   Código Autorização (DI)  89716 non-null  object 
 3   Código Tipo Linha        89716 non-null  object 
 4   ICAO Aeródromo Origem    89716 non-null  object 
 5   ICAO Aeródromo Destino   89716 non-null  object 
 6   Partida Prevista         87363 non-null  object 
 7   Partida Real             86361 non-null  object 
 8   Chegada Prevista         87363 non-null  object 
 9   Chegada Real             86361 non-null  object 
 10  Situação Voo             89716 non-null  object 
 11  Código Justificativa     0 non-null      float64
dtypes: float64(1), object(11)
memory usage: 8.2+ MB

--- ESTATÍSTICAS DESCRITIVAS ---
       ICAO Empre