# Aula 06

## CSV

O **CSV** (*Comma Separated Values*), Valores Separados por Vírgula em tradução direta, é o formato mais comum para importação e exportação de dados para planilhas e bases de dados. Apesar de o nome indicar a separação de valores por vírugla, na realidade outros separadores podem ser utilizados. No [RFC 4180](https://datatracker.ietf.org/doc/html/rfc4180.html) é possível encontrar uma proposta de padronização do formato.

De modo geral um arquivo CSV vai conter a seguinte estrutura:

- **linha 1**: cabeçalho, com os nomes das colunas separados por vírgula.
- **demais linhas**: cada linha contém os valores de alguma observação separados por vírgula.

O módulo [csv](https://docs.python.org/3.13/library/csv.html), nativo do Python, implementa classes para leitura e escrita de dados tabulares no formato CSV. As principais funções do módulo são:

- [csv.reader(csvfile, /, dialect='excel', **fmtparams)](https://docs.python.org/3.13/library/csv.html#csv.reader).
- [csv.writer(csvfile, /, dialect='excel', **fmtparams)](https://docs.python.org/3.13/library/csv.html#csv.writer).

As principais classes implementadas pelo módulo são:

- [class csv.DictReader(f, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds)](https://docs.python.org/3.13/library/csv.html#csv.DictReader).
- [class csv.DictWriter(f, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)](https://docs.python.org/3.13/library/csv.html#csv.DictWriter).
- [csv.Dialect](https://docs.python.org/3.13/library/csv.html#csv.Dialect).

Os objetos `reader` (as instâncias de `DictReader` e os objetos retornados pela função `reader()`) têm o seguinte método público:

- [csvreader.__next__()](https://docs.python.org/3.13/library/csv.html#csv.csvreader.__next__)

Os objetos retornados pela função `reader()` possuem os seguintes atributos públicos:

- [csvreader.dialect](https://docs.python.org/3.13/library/csv.html#csv.csvreader.dialect).
- [csvreader.line_num](https://docs.python.org/3.13/library/csv.html#csv.csvreader.line_num).

Os objetos da classe `DictReader` possuem o seguinte atributo público:

- [DictReader.fieldnames](https://docs.python.org/3.13/library/csv.html#csv.DictReader.fieldnames).

Os objetos `writer` (as instâncias de `DictWriter` e os objetos retornados pela função `writer()`) têm os seguintes métodos públicos:

- [csvwriter.writerow(row, /)](https://docs.python.org/3.13/library/csv.html#csv.csvwriter.writerow).
- [csvwriter.writerows(rows, /)](https://docs.python.org/3.13/library/csv.html#csv.csvwriter.writerows).

Os objetos `writer` têm o seguinte atributo público:

- [csvwriter.dialect](https://docs.python.org/3.13/library/csv.html#csv.csvwriter.dialect).

Os objetos `DictWriter` têm o seguinte método público:

- [DictWriter.writeheader()](https://docs.python.org/3.13/library/csv.html#csv.DictWriter.writeheader).


## Exercícios

### Questões Fáceis (1-20)
Essas questões focam em operações básicas de leitura, escrita e acesso a dados em arquivos CSV usando o módulo `csv`.

1. Crie um script que abra um arquivo CSV chamado "dados.csv" e imprima o cabeçalho (primeira linha).

2. Escreva um programa que crie um novo arquivo CSV chamado "saida.csv" com duas colunas: "Nome" e "Idade", e adicione uma linha de exemplo: "João, 25".

3. Leia "dados.csv" e imprima o valor da primeira coluna da primeira linha de dados (ignorando o cabeçalho).

4. Conte o número total de linhas (incluindo cabeçalho) em "dados.csv".

5. Leia "dados.csv" e imprima todos os valores da coluna "Nome" (assumindo que existe).

6. Copie o conteúdo inteiro de "entrada.csv" para um novo arquivo chamado "copia.csv".

7. Abra "dados.csv" e adicione uma nova linha no final: "Maria, 30, São Paulo".

8. Verifique se o arquivo "dados.csv" existe antes de tentar lê-lo e imprima uma mensagem apropriada.

9. Crie um arquivo CSV "numeros.csv" com uma coluna "Numero" contendo os números de 1 a 10.

10. Leia "dados.csv" e imprima cada linha como uma lista de strings.

11. Substitua o valor da coluna "Idade" na primeira linha de "dados.csv" por 99 e salve em um novo arquivo "modificado.csv".

12. Leia "dados.csv", divida em dicionários (usando cabeçalho como chaves) e imprima o primeiro dicionário.

13. Conte quantas linhas em "dados.csv" têm a palavra "São Paulo" na coluna "Cidade".

14. Inverta a ordem das linhas de dados (excluindo cabeçalho) de "dados.csv" e escreva em "invertido.csv".

15. Leia "dados.csv", ordene as linhas pela coluna "Nome" alfabeticamente e salve em "ordenado.csv".

16. Encontre e imprima a linha com o maior valor na coluna "Idade" de "dados.csv".

17. Remova linhas onde a coluna "Idade" está vazia em "dados.csv" e salve o resultado em "limpo.csv".

18. Use o gerenciador de contexto (`with`) para ler "dados.csv" e imprimir o número de colunas no cabeçalho.

19. Crie um arquivo "nomes.csv" extraindo apenas a coluna "Nome" de "dados.csv".

20. Leia "dados.csv" e imprima o tamanho total do arquivo em bytes.

In [None]:
# ...


### Questões de Dificuldade Média (21-40)
Essas questões envolvem manipulação mais avançada, como filtragem, tratamento de erros, operações com múltiplos CSVs e uso básico de pandas se preferir.

21. Leia dois arquivos CSV ("dados1.csv" e "dados2.csv") e concatene-os em um terceiro arquivo "uniao.csv", preservando cabeçalhos.

22. Procure por linhas em "vendas.csv" onde a coluna "Produto" é "Notebook" e imprima essas linhas.

23. Trate um erro de arquivo CSV malformado ao tentar ler "invalido.csv" e imprima uma mensagem de erro personalizada.

24. Leia "dados.csv" com delimitador ';' (em vez de vírgula) e salve com delimitador padrão em "padrao.csv".

25. Crie um dicionário de frequência de valores na coluna "Cidade" de "dados.csv" e imprima as 5 cidades mais comuns.

26. Numere as linhas de dados em "dados.csv" adicionando uma coluna "ID" (1, 2, 3...) e salve em "numerado.csv".

27. Compare duas colunas de "dados.csv" ("Idade" e "Idade_Esperada") e imprima linhas onde diferem em "diferencas.csv".

28. Gere um backup de "dados.csv" renomeando para "dados_backup.csv" se o original existir.

29. Filtre "dados.csv" removendo linhas onde "Idade" < 18 e salve em "adultos.csv".

30. Crie um arquivo "resumo.csv" com estatísticas: contagem de linhas, média de "Idade" e lista de cidades únicas de "dados.csv".

31. Divida "dados.csv" em arquivos separados por valor da coluna "Cidade" (ex: sao_paulo.csv, rio.csv).

32. Encontre linhas em "dados.csv" onde o "Nome" é um palíndromo e liste-as.

33. Substitua valores em "dados.csv" usando um dicionário (ex: {'SP': 'São Paulo'}) na coluna "Cidade" e salve o resultado.

34. Leia "dados.csv" e "referencia.csv", encontre linhas com "Nome" comum e escreva em "comuns.csv".

35. Trate exceções ao adicionar uma coluna nova em "dados.csv" se o arquivo estiver corrompido (use try-except).

36. Processe todos os arquivos .csv em um diretório e conte o total de linhas em todos eles.

37. Adicione uma coluna "Data" com a data atual em todas as linhas de "dados.csv" e salve.

38. Valide se "dados.csv" tem exatamente 5 colunas; se não, adicione colunas vazias até atingir o número e salve.

39. Extraia apenas valores numéricos da coluna "Salario" em "dados.csv" (usando regex simples) e salve em "salarios.csv".

40. Calcule e adicione uma coluna "Idade_Media" (média global de idades) em cada linha de "dados.csv" e salve.

In [None]:
# ...


### Questões de Dificuldade Alta (41-50)
Essas questões demandam complexidade maior, como manipulação eficiente de CSVs grandes, junções, validação avançada e integração com pandas ou estruturas de dados complexas.

41. Processe um CSV grande ("vendas_grande.csv") em chunks de 1000 linhas, contando totais por "Produto" sem carregar tudo na memória (use pandas se preferir).

42. Use expressões regulares para validar e extrair CPFs da coluna "CPF" em "clientes.csv" e salve apenas linhas válidas em "validos.csv".

43. Edite "dados.csv" in-place removendo linhas duplicadas baseadas em todas as colunas (sem criar cópia).

44. Parse "config.csv" (formato chave=valor) em um dicionário e use-o para mapear colunas em outro CSV "dados.csv", salvando o mapeado.

45. Compare similaridade entre dois CSVs grandes ("versao1.csv" e "versao2.csv") calculando Jaccard por linhas e gere um relatório em "relatorio.csv".

46. Gere um relatório consolidado de múltiplos CSVs de vendas ("vendas1.csv" a "vendas5.csv"), somando totais por "Produto" e "Regiao" em "consolidado.csv".

47. Implemente uma substituição condicional em "dados.csv": altere "Salario" por valor médio apenas se "Cargo" for "Gerente".

48. Leia "hierarquia.csv" (com colunas "Funcionario", "Chefe"), construa um grafo de relações e salve uma versão de caminhos em "caminhos.csv".

49. Otimize a busca em "dados_enorme.csv" para filtrar por substring na coluna "Descricao" usando índices de pandas ou similar.

50. Integre manipulação de CSVs com validação: leia "transacoes.csv", processe em DataFrame, valide saldos cumulativos por "Conta" e gere "auditoria.csv" com discrepâncias.

In [None]:
# ...