# Trabalhando com Arquivos CSV

Bem-vindo de volta! Vamos discutir como trabalhar com arquivos CSV em Python. Um arquivo com a extensão CSV é um arquivo de Valores Separados por Vírgula. Todos os arquivos CSV são arquivos de texto simples, contêm caracteres alfanuméricos e estruturam os dados contidos neles de forma tabular. Não confunda arquivos Excel com arquivos CSV, embora os arquivos CSV sejam formatados de maneira muito semelhante aos arquivos do Excel, eles não têm tipos de dados para seus valores, todos são strings sem fonte ou cor. Além disso, eles não têm planilhas da mesma forma que um arquivo do Excel. Python possui várias bibliotecas para trabalhar com arquivos do Excel, você pode conferi-las [aqui](http://www.python-excel.org/) e [aqui](https://www.xlwings.org/).

Arquivos no formato CSV são geralmente usados para trocar dados, geralmente quando há uma grande quantidade de dados, entre diferentes aplicativos. Programas de banco de dados, software de análise e outras aplicações que armazenam grandes quantidades de informações (como contatos e dados de clientes) normalmente oferecem suporte ao formato CSV.

Vamos explorar como podemos abrir um arquivo CSV com a biblioteca csv incorporada do Python.

____
## Localização do Notebook

Execute **pwd** dentro de uma célula do caderno para descobrir onde seu caderno está localizado.

In [1]:
pwd

'g:\\Meu Drive\\Curso\\Code\\2. Criando Automações'

____
## Lendo arquivos CSV

In [None]:
import csv

Ao passar o caminho do arquivo, certifique-se de incluir a extensão se houver uma. Você deve ser capaz de usar o recurso de autocompletar com a tecla Tab para o nome do arquivo. Se você não conseguir usar o autocompletar, é um bom indicador de que o arquivo não está na mesma localização do seu caderno. Você sempre pode digitar o caminho completo do arquivo (ele terá um formato semelhante à saída de **pwd**).

In [3]:
data = open('example.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'example.csv'

In [4]:
data

NameError: name 'data' is not defined

### Encoding

Frequentemente, arquivos CSV podem conter caracteres que não podem ser interpretados com o Python padrão, como o símbolo **@**, ou mesmo caracteres estrangeiros. Vamos ver um exemplo desse tipo de erro ([isso é bastante comum, por isso é importante revisar](https://stackoverflow.com/questions/9233027/unicodedecodeerror-charmap-codec-cant-decode-byte-x-in-position-y-character)).

In [5]:
csv_data = csv.reader(data)

NameError: name 'csv' is not defined

Converter para uma lista causará um erro, observe a linha **can't decode** no erro, isso indica que temos um problema de codificação!

In [6]:
data_lines = list(csv_data)

NameError: name 'csv_data' is not defined

Let's not try reading it with a "utf-8" encoding.

In [None]:
data = open('example.csv',encoding="utf-8")
csv_data = csv.reader(data)
data_lines = list(csv_data)

In [None]:
# Parece que funcionou!
data_lines[:3]

[['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city'],
 ['1',
  'Joseph',
  'Zaniolini',
  'jzaniolini0@simplemachines.org',
  'Male',
  '163.168.68.132',
  'Pedro Leopoldo'],
 ['2',
  'Freida',
  'Drillingcourt',
  'fdrillingcourt1@umich.edu',
  'Female',
  '97.212.102.79',
  'Buri']]

Nota: O primeiro item da lista é a linha do cabeçalho, isso contém as informações sobre o que cada coluna representa. Vamos formatar nosso print um pouco:

In [None]:
for line in data_lines[:5]:
    print(line)

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']
['1', 'Joseph', 'Zaniolini', 'jzaniolini0@simplemachines.org', 'Male', '163.168.68.132', 'Pedro Leopoldo']
['2', 'Freida', 'Drillingcourt', 'fdrillingcourt1@umich.edu', 'Female', '97.212.102.79', 'Buri']
['3', 'Nanni', 'Herity', 'nherity2@statcounter.com', 'Female', '145.151.178.98', 'Claver']
['4', 'Orazio', 'Frayling', 'ofrayling3@economist.com', 'Male', '25.199.143.143', 'Kungur']


Let's imagine we wanted a list of  all the emails. For demonstration, since there are 1000 items plus the header, we will only do a few rows.

In [None]:
len(data_lines)

1001

In [None]:
all_emails = []
for line in data_lines[1:15]:
    all_emails.append(line[3])

In [None]:
print(all_emails)

['jzaniolini0@simplemachines.org', 'fdrillingcourt1@umich.edu', 'nherity2@statcounter.com', 'ofrayling3@economist.com', 'jmurrison4@cbslocal.com', 'lgamet5@list-manage.com', 'dhowatt6@amazon.com', 'kherion7@amazon.com', 'chedworth8@china.com.cn', 'hgasquoine9@google.ru', 'ftarra@shareasale.com', 'abathb@umn.edu', 'lchastangc@goo.gl', 'cceried@yale.edu']


E se quiséssemos uma lista de nomes completos?

In [None]:
full_names = []

for line in data_lines[1:15]:
    full_names.append(line[1]+' '+line[2])

In [None]:
full_names

['Joseph Zaniolini',
 'Freida Drillingcourt',
 'Nanni Herity',
 'Orazio Frayling',
 'Julianne Murrison',
 'Lucy Gamet',
 'Dyana Howatt',
 'Kassey Herion',
 'Chrissy Hedworth',
 'Hyatt Gasquoine',
 'Felicdad Tarr',
 'Andrew Bath',
 'Lucais Chastang',
 'Car Cerie']

## Writing to CSV Files

We can also write csv files, either new ones or add on to existing ones.

### Arquivo Novo
Também podemos escrever arquivos CSV, seja novos ou adicionando a arquivos existentes.

In [None]:
# newline controla como universal newlines funciona (Ele só se aplica ao modo texto)
# Pode ser None, '', '\n', '\r', e '\r\n'.
file_to_output = open('to_save_file.csv','w',newline='')

In [None]:
csv_writer = csv.writer(file_to_output,delimiter=',')

In [None]:
csv_writer.writerow(['a','b','c'])

7

In [None]:
csv_writer.writerows([['1','2','3'],['4','5','6']])

In [None]:
file_to_output.close()

____
### Arquivo existente

In [None]:
f = open('to_save_file.csv','a',newline='')

In [None]:
csv_writer = csv.writer(f)

In [None]:
csv_writer.writerow(['new','new','new'])

13

In [None]:
f.close()

 ## Criando arquivos em excel e tratando com Pandas
 
 Certifique-se de que você tenha a biblioteca pandas instalada em seu ambiente antes de executar este código:

In [10]:
pip install pandas

In [None]:
import pandas as pd

# Crie um DataFrame com alguns dados
data = {'Nome': ['João', 'Maria', 'Carlos', 'Ana'],
        'Idade': [25, 30, 22, 28],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']}

df = pd.DataFrame(data)

# Especifique o nome do arquivo Excel que você deseja criar
nome_arquivo = 'dados.xlsx'

# Salve o DataFrame no arquivo Excel
df.to_excel(nome_arquivo, index=False)

print(f'Arquivo Excel "{nome_arquivo}" criado com sucesso.')


ModuleNotFoundError: No module named 'pandas'

Neste código, estamos criando um DataFrame usando a biblioteca pandas e, em seguida, usando o método to_excel() para salvar os dados em um arquivo Excel com o nome "dados.xlsx". Certifique-se de que o arquivo "dados.xlsx" será criado no diretório em que seu script está sendo executado.

Depois de executar o código, você deve encontrar o arquivo Excel no mesmo diretório em que o script foi executado.


Certamente! Vou mostrar como você pode realizar um tratamento simples dos dados no DataFrame usando a biblioteca pandas. Neste exemplo, faremos o seguinte:

Calcular a média das idades.
Encontrar a pessoa mais velha.
Classificar o DataFrame por idade em ordem decrescente.
Aqui está o código:

In [9]:
import pandas as pd

# Crie um DataFrame com os dados
data = {'Nome': ['João', 'Maria', 'Carlos', 'Ana'],
        'Idade': [25, 30, 22, 28],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']}

df = pd.DataFrame(data)

# 1. Calcular a média das idades
media_idades = df['Idade'].mean()
print(f'Média das idades: {media_idades} anos')

# 2. Encontrar a pessoa mais velha
pessoa_mais_velha = df[df['Idade'] == df['Idade'].max()]
print(f'Pessoa mais velha:\n{pessoa_mais_velha}')

# 3. Classificar o DataFrame por idade em ordem decrescente
df_ordenado = df.sort_values(by='Idade', ascending=False)
print('DataFrame ordenado por idade em ordem decrescente:')
print(df_ordenado)


ModuleNotFoundError: No module named 'pandas'