# O formato CSV

Dados podem guardados de diferentes formas:

- Planilhas 
- XML
- JSON
- Bancos SQL
- ...

No entanto a forma mais simples e comum de guardar dados é no formato **CSV**.

Que significa **C**omma **S**eparated **V**alues ou valores separados por vírgula. Apesar do nome, este formato se estende a qualquer separador.

Em geral, o trabalho de interpretar os dados em CSV é feito automaticamente usando bibliotecas. No entanto é bom ter um modelo mental, do trabalho que essas bibliotecas fazem pra conseguir resolver problemas com mais facilidade. Em geral, o trabalho de carregar os arquivos consiste em quatro etapas:
- Carregar o arquivo (por padrão como uma string)
- Interpretar as linhas do arquivo
- Transformar no tipo certo para uso
- Carregar numa estrutura de dados conveniente

E para escrever no disco precisamos transformar uma estrutura de dados em uma string.

Existe alguns métodos de string que ajudam muito com isso.

In [18]:
csv = " 1,2,3,4,5 \n"

# Demo: strip (limpa string)
csv = csv.strip()
print(csv)

# Demo: split (separa partes no delimitador indicado)
csv = csv.split(",")
print(csv)

# Demo: casting (ato de transformar tipos)
csv = list(map(int, csv))
print(csv)

# Demo: join (c)
csv = ",".join(map(str, csv))
print(csv)

1,2,3,4,5
['1', '2', '3', '4', '5']
[1, 2, 3, 4, 5]
1,2,3,4,5


# Entrada e Saída de dados

Relembrando a compreensão de lista:

`lista = [<algum objeto\> for <item\> in <coleção\> if <condição desejada\>]`

In [19]:
# Demo: Carregando dados (usando administrador de contexto)
nome_do_arquivo = "arquivox.txt"

# Usando administrador de contexto para carregar linhas
with open(nome_do_arquivo) as arquivo:
    dados = [linha.strip().split(",") for linha in arquivo]

# Transformando coluna dois no tipo correto
for linha in dados:
    linha[1] = int(linha[1])
    
print(dados)

[['A', 1], ['B', 2], ['C', 3], ['D', 4], ['E', 5], ['F', 6], ['G', 7], ['H', 8], ['I', 9], ['J', 10]]


In [14]:
# Demo: Extraindo subset

subset = [linha for linha in dados if linha[1] > 6]
print(subset)

[['G', 7], ['H', 8], ['I', 9], ['J', 10]]


In [16]:
# Demo: escrevendo usando modo write (w)

with open("novo_arquivo.csv", "w") as novo:
    for linha in subset:
        novo.write(",".join(map(str, linha)) + "\n")

> Em geral esse processo é feito usando bibliotecas, no entanto saber a forma manual do processo ajuda a ter uma intuição do processo, facilitando a resolução de problemas no futuro.

In [None]:
# Exemplo:
# import pandas as pd
# dados = pd.read_csv(nome_do_arquivo)