# Arquivos CSV e JSON em Python: Uma Visão Geral

Em Python, dois formatos de arquivo populares para trabalhar com dados são CSV (comma-separated values) e JSON (JavaScript Object Notation). Cada um tem suas próprias vantagens e desvantagens, e a escolha do formato certo depende de suas necessidades específicas.

### CSV (Comma-separated values):

Um formato simples e text-based, fácil de ler e escrever manualmente.
Cada linha representa um registro de dados, e os valores individuais são separados por vírgulas (,).
Ideal para dados tabulares simples, como planilhas ou dados extraídos de websites.
Limitações: não fornece informações sobre o tipo de dados ou a estrutura dos registros, nem suporta dados não-ASCII.
JSON (JavaScript Object Notation):

Um formato baseado em chave-valor, mais estruturado e legível para a máquina.
Os dados são representados como pares de chave-valor (key-value), aninhados em objetos e arrays.
É excelente para dados complexos com hierarquias e diferentes tipos de dados.
Permite definir o tipo de cada dado (string, integer, etc.) e facilita o parsing e o uso em programas.
Pode ser menos amigável para a leitura humana.
Trabalhando com CSV e JSON em Python:

### Python possui bibliotecas padrão (csv e json) para trabalhar facilmente com esses formatos:

- csv: 
Permite ler e escrever arquivos CSV, definir delimitadores, ignorar linhas em branco, etc.

- json: 
Permite carregar e salvar dados JSON, converter objetos Python em JSON e vice-versa, etc.

### Além disso, vários pacotes extras oferecem funcionalidades avançadas, como:

- pandas: 
Uma biblioteca poderosa para análise de dados que suporta leitura e escrita de CSV e JSON com manipulação e análise avançadas.
- fastcsv: 
Uma biblioteca alternativa para leitura e escrita de CSV para melhor performance.
- orjson: 
Uma biblioteca JSON mais rápida e eficiente do que a padrão.

### Resumindo:

Escolha CSV para dados simples tabulares e legíveis manualmente.
Use JSON para dados complexos com estrutura e tipos de dados definidos.
Python oferece bibliotecas padrão e pacotes extras para trabalhar com ambos os formatos com facilidade e flexibilidade.
Espero que esta explicação tenha sido útil! Se tiver dúvidas específicas sobre como trabalhar com CSV ou JSON no Python, fique à vontade para perguntar.

In [1]:
import os

In [2]:
os.listdir()

['.ipynb_checkpoints', 'Aula_2_lendo_csv_json.ipynb', 'file']

In [3]:
os.listdir('file/')

['lutadores.csv']

- Possível se trabalhar, porém, não é o ideal

In [11]:
with open('file/lutadores.csv', encoding='utf-8') as df:
    dados = df.read()
    dados = dados.split(',')
    print(type(dados))

<class 'list'>


In [12]:
print(dados)

['Nome', 'País', 'Altura (em cm)\nRyu', 'Japão', '175\nKen', 'EUA', '175\nChun-Li', 'China', '165\nGuile', 'EUA', '185\nE. Honda', 'Japão', '185\nDhalsim', 'Índia', '176\nBlanka', 'Brasil', '192\nZangief', 'Rússia', '214']


In [14]:
print(dados[2:])

['Altura (em cm)\nRyu', 'Japão', '175\nKen', 'EUA', '175\nChun-Li', 'China', '165\nGuile', 'EUA', '185\nE. Honda', 'Japão', '185\nDhalsim', 'Índia', '176\nBlanka', 'Brasil', '192\nZangief', 'Rússia', '214']


Python possui duas formas diferentes para er dados em arquivos CSV:
 - reader -> Permite que interemos sobre as linhas do arquivo csv como listas
 - dictReader -> Permite que iteremos sobre as linhas do arquivo scv como OrderDicts

In [51]:
import csv

In [52]:
dir(csv)

['Dialect',
 'DictReader',
 'DictWriter',
 'Error',
 'QUOTE_ALL',
 'QUOTE_MINIMAL',
 'QUOTE_NONE',
 'QUOTE_NONNUMERIC',
 'Sniffer',
 'StringIO',
 '_Dialect',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 'excel',
 'excel_tab',
 'field_size_limit',
 'get_dialect',
 'list_dialects',
 're',
 'reader',
 'register_dialect',
 'unix_dialect',
 'unregister_dialect',
 'writer']

## Reader

In [15]:
from csv import reader

In [16]:
dir(reader)

['__call__',
 '__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__self__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__text_signature__']

In [31]:
with open('file/lutadores.csv', encoding='UTF-8') as df:
    dados_csv = reader(df)
    for linha in dados_csv:
        #Cada linha é uma lista
        print(f'{linha[0]} nasceu no(a)(s) {linha[1]} e tem {linha[2]} metros')

Nome nasceu no(a)(s) País e tem Altura (em cm) metros
Ryu nasceu no(a)(s) Japão e tem 175 metros
Ken nasceu no(a)(s) EUA e tem 175 metros
Chun-Li nasceu no(a)(s) China e tem 165 metros
Guile nasceu no(a)(s) EUA e tem 185 metros
E. Honda nasceu no(a)(s) Japão e tem 185 metros
Dhalsim nasceu no(a)(s) Índia e tem 176 metros
Blanka nasceu no(a)(s) Brasil e tem 192 metros
Zangief nasceu no(a)(s) Rússia e tem 214 metros


### Pular o cabeçalho

In [37]:
with open('file/lutadores.csv', encoding='UTF-8') as df:
    dados_csv = reader(df)
    next(dados_csv) # Pula o cabeçalho
    for linha in dados_csv:
        #Cada linha é uma lista
        print(f'{linha[0]} nasceu no(a)(s) {linha[1]} e tem {int(linha[2]) / 100} metros')

Ryu nasceu no(a)(s) Japão e tem 1.75 metros
Ken nasceu no(a)(s) EUA e tem 1.75 metros
Chun-Li nasceu no(a)(s) China e tem 1.65 metros
Guile nasceu no(a)(s) EUA e tem 1.85 metros
E. Honda nasceu no(a)(s) Japão e tem 1.85 metros
Dhalsim nasceu no(a)(s) Índia e tem 1.76 metros
Blanka nasceu no(a)(s) Brasil e tem 1.92 metros
Zangief nasceu no(a)(s) Rússia e tem 2.14 metros


In [33]:
print(type(dados_csv))

<class '_csv.reader'>


In [35]:
dir(dados_csv)

['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'dialect',
 'line_num']

## DictReader

In [45]:
from csv import DictReader

In [46]:
dir(DictReader)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'fieldnames']

In [49]:
with open('file/lutadores.csv', encoding='UTF-8') as df:
    dados_csv = DictReader(df)
    for i in dados_csv:
        print(i)

{'Nome': 'Ryu', 'País': 'Japão', 'Altura (em cm)': '175'}
{'Nome': 'Ken', 'País': 'EUA', 'Altura (em cm)': '175'}
{'Nome': 'Chun-Li', 'País': 'China', 'Altura (em cm)': '165'}
{'Nome': 'Guile', 'País': 'EUA', 'Altura (em cm)': '185'}
{'Nome': 'E. Honda', 'País': 'Japão', 'Altura (em cm)': '185'}
{'Nome': 'Dhalsim', 'País': 'Índia', 'Altura (em cm)': '176'}
{'Nome': 'Blanka', 'País': 'Brasil', 'Altura (em cm)': '192'}
{'Nome': 'Zangief', 'País': 'Rússia', 'Altura (em cm)': '214'}


In [50]:
with open('file/lutadores.csv', encoding='UTF-8') as df:
    dados_csv = DictReader(df)
    for i in dados_csv:
        print(f"Nome: {i['Nome']}, País: {i['País']}, Altura: {i['Altura (em cm)']}")

Nome: Ryu, País: Japão, Altura: 175
Nome: Ken, País: EUA, Altura: 175
Nome: Chun-Li, País: China, Altura: 165
Nome: Guile, País: EUA, Altura: 185
Nome: E. Honda, País: Japão, Altura: 185
Nome: Dhalsim, País: Índia, Altura: 176
Nome: Blanka, País: Brasil, Altura: 192
Nome: Zangief, País: Rússia, Altura: 214


In [None]:
# Caso o delimitador seja diferente de virgula

In [None]:
with open('file/lutadores.csv', encoding='UTF-8') as df:
    dados_csv = DictReader(df, delimiter=',')
    for i in dados_csv:
        print(f"Nome: {i['Nome']}, País: {i['País']}, Altura: {i['Altura (em cm)']}")