# Trabalhando com Arquivos CSV

Bem-vindo de volta! Vamos discutir como trabalhar com arquivos CSV em Python. Um arquivo com a extensão CSV é um arquivo de Valores Separados por Vírgula. Todos os arquivos CSV são arquivos de texto simples, contêm caracteres alfanuméricos e estruturam os dados contidos neles de forma tabular. Não confunda arquivos Excel com arquivos CSV, embora os arquivos CSV sejam formatados de maneira muito semelhante aos arquivos do Excel, eles não têm tipos de dados para seus valores, todos são strings sem fonte ou cor. Além disso, eles não têm planilhas da mesma forma que um arquivo do Excel. Python possui várias bibliotecas para trabalhar com arquivos do Excel, você pode conferi-las [aqui](http://www.python-excel.org/) e [aqui](https://www.xlwings.org/).

Arquivos no formato CSV são geralmente usados para trocar dados, geralmente quando há uma grande quantidade de dados, entre diferentes aplicativos. Programas de banco de dados, software de análise e outras aplicações que armazenam grandes quantidades de informações (como contatos e dados de clientes) normalmente oferecem suporte ao formato CSV.

Vamos explorar como podemos abrir um arquivo CSV com a biblioteca csv incorporada do Python.

____
## Localização do Notebook + Criação de dados Fakes

Execute **pwd** dentro de uma célula do caderno para descobrir onde seu caderno está localizado.

In [1]:
pwd

'd:\\ESTUDOS\\git\\everythingAboutPython\\cda-python-master\\2. Criando Automações'

In [2]:
!pip install faker

Collecting faker
  Downloading Faker-25.6.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-25.6.0-py3-none-any.whl (1.8 MB)
   ---------------------------------------- 0.0/1.8 MB ? eta -:--:--
   ------- -------------------------------- 0.4/1.8 MB 11.2 MB/s eta 0:00:01
   ------------------- -------------------- 0.9/1.8 MB 11.2 MB/s eta 0:00:01
   ------------------------------- -------- 1.4/1.8 MB 11.3 MB/s eta 0:00:01
   ---------------------------------------  1.8/1.8 MB 11.4 MB/s eta 0:00:01
   ---------------------------------------- 1.8/1.8 MB 10.4 MB/s eta 0:00:00
Installing collected packages: faker
Successfully installed faker-25.6.0


Você pode criar um arquivo CSV com os headers fornecidos e 2000 linhas de dados aleatórios. Aqui está um exemplo de como você pode fazer isso em Python:

In [3]:
import csv
import random
import faker

# Inicializar o gerador de dados falsos
fake = faker.Faker()

# Headers do arquivo CSV
headers = ['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']



In [12]:
fake.first_name()

'Nathan'

In [13]:
# Gerar 2000 linhas de dados aleatórios
data = []
for i in range(1, 2001):
    row = [i,
           fake.first_name(),
           fake.last_name(),
           fake.email(),
           random.choice(['Male', 'Female']),
           fake.ipv4(),
           fake.city()]
    data.append(row)

In [14]:
data

[[1,
  'Johnny',
  'Logan',
  'brandon69@example.com',
  'Male',
  '193.108.22.36',
  'Morrowberg'],
 [2,
  'Matthew',
  'Duran',
  'qfletcher@example.com',
  'Female',
  '70.97.228.249',
  'Port Joseph'],
 [3,
  'Deanna',
  'Clark',
  'marklynch@example.net',
  'Female',
  '128.59.142.9',
  'East Meghan'],
 [4,
  'Andrew',
  'Le',
  'jeffrey33@example.com',
  'Female',
  '105.221.202.160',
  'South Nicholas'],
 [5,
  'George',
  'Miles',
  'shannonstevens@example.net',
  'Female',
  '207.123.119.202',
  'East Mandy'],
 [6,
  'Ryan',
  'Hart',
  'timothyballard@example.org',
  'Male',
  '88.245.165.28',
  'Lake Tiffanyshire'],
 [7,
  'Susan',
  'Wheeler',
  'hayesmichael@example.com',
  'Male',
  '53.17.50.60',
  'Bergerchester'],
 [8,
  'Andre',
  'Thomas',
  'elizabethchase@example.org',
  'Female',
  '34.63.83.225',
  'Lake Christybury'],
 [9,
  'Ashley',
  'Flowers',
  'vicki77@example.com',
  'Female',
  '221.57.89.1',
  'Micheletown'],
 [10,
  'Katelyn',
  'Mccall',
  'pittmanbon

In [None]:


# Escrever os dados para um arquivo CSV
with open('dados.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(headers)  # Escrever os headers
    writer.writerows(data)    # Escrever os dados



Neste exemplo:
- Utilizamos a biblioteca `csv` para trabalhar com arquivos CSV.
- Utilizamos a biblioteca `faker` para gerar dados falsos, como nomes, endereços de e-mail, IP e cidades.
- Geramos 2000 linhas de dados aleatórios, cada uma com um ID, primeiro nome, sobrenome, e-mail, gênero, endereço IP e cidade.
- Escrevemos os dados para um arquivo CSV chamado `dados.csv`, com os headers na primeira linha.

____
## Lendo arquivos CSV

In [4]:
import csv

Ao passar o caminho do arquivo, certifique-se de incluir a extensão se houver uma. Você deve ser capaz de usar o recurso de autocompletar com a tecla Tab para o nome do arquivo. Se você não conseguir usar o autocompletar, é um bom indicador de que o arquivo não está na mesma localização do seu caderno. Você sempre pode digitar o caminho completo do arquivo (ele terá um formato semelhante à saída de **pwd**).

In [15]:
data = open('dados.csv')

In [16]:
data

<_io.TextIOWrapper name='dados.csv' mode='r' encoding='cp1252'>

### Encoding

Frequentemente, arquivos CSV podem conter caracteres que não podem ser interpretados com o Python padrão, como o símbolo **@**, ou mesmo caracteres estrangeiros. Vamos ver um exemplo desse tipo de erro ([isso é bastante comum, por isso é importante revisar](https://stackoverflow.com/questions/9233027/unicodedecodeerror-charmap-codec-cant-decode-byte-x-in-position-y-character)).

In [17]:
csv_data = csv.reader(data)

Converter para uma lista causará um erro, observe a linha **can't decode** no erro, isso indica que temos um problema de codificação!

In [18]:
data_lines = list(csv_data)

Let's not try reading it with a "utf-8" encoding.

In [19]:
data = open('dados.csv',encoding="utf-8")
csv_data = csv.reader(data)
data_lines = list(csv_data)

In [20]:
# Parece que funcionou!
data_lines[:3]

[['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city'],
 ['1',
  'April',
  'Hoffman',
  'harellano@example.com',
  'Male',
  '186.225.13.96',
  'Crystalfort'],
 ['2',
  'Katrina',
  'Lindsey',
  'hwalker@example.org',
  'Female',
  '88.239.81.222',
  'New Scottburgh']]

Nota: O primeiro item da lista é a linha do cabeçalho, isso contém as informações sobre o que cada coluna representa. Vamos formatar nosso print um pouco:

In [21]:
for line in data_lines[:5]:
    print(line)

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']
['1', 'April', 'Hoffman', 'harellano@example.com', 'Male', '186.225.13.96', 'Crystalfort']
['2', 'Katrina', 'Lindsey', 'hwalker@example.org', 'Female', '88.239.81.222', 'New Scottburgh']
['3', 'Kevin', 'Johnston', 'randysalazar@example.net', 'Female', '143.219.166.160', 'Port Danielmouth']
['4', 'Kenneth', 'Garcia', 'kayla30@example.com', 'Male', '44.69.180.6', 'Meganhaven']


In [22]:
len(data_lines)

2001

In [23]:
all_emails = []
for line in data_lines[1:15]:
    all_emails.append(line[3])

In [24]:
print(all_emails)

['harellano@example.com', 'hwalker@example.org', 'randysalazar@example.net', 'kayla30@example.com', 'charlesanita@example.org', 'ibenton@example.org', 'lisasanders@example.org', 'ejones@example.net', 'proberts@example.org', 'wattsbryan@example.net', 'ryanroberson@example.com', 'thomas59@example.net', 'patrick18@example.org', 'justinharrell@example.org']


E se quiséssemos uma lista de nomes completos?

In [25]:
full_names = []

for line in data_lines[1:15]:
    full_names.append(line[1]+' '+line[2])

In [26]:
full_names

['April Hoffman',
 'Katrina Lindsey',
 'Kevin Johnston',
 'Kenneth Garcia',
 'Randy Medina',
 'Martha Kelly',
 'Daniel Dean',
 'Tracy Clark',
 'Laurie Walls',
 'Dawn Lynch',
 'Ryan Yang',
 'William Ayers',
 'David Bailey',
 'Andrea Johnson']

### Arquivo Novo
Também podemos escrever arquivos CSV, seja novos ou adicionando a arquivos existentes.

In [21]:
# newline controla como as novas linhas são definidas
# Pode ser None, '', '\n', '\r', e '\r\n'.
file_to_output = open('to_save_file.csv','w',newline='')

In [22]:
csv_writer = csv.writer(file_to_output,delimiter=',')

In [23]:
csv_writer.writerow(['a','b','c'])

7

In [24]:
csv_writer.writerows([['1','2','3'],['4','5','6']])

In [25]:
file_to_output.close()

____
### Arquivo existente

In [26]:
f = open('to_save_file.csv','a',newline='')

In [27]:
csv_writer = csv.writer(f)

In [28]:
csv_writer.writerow(['new','new','new'])

13

In [29]:
f.close()

 ## Criando arquivos em excel e tratando com Pandas
 
 Certifique-se de que você tenha a biblioteca pandas instalada em seu ambiente antes de executar este código:

In [34]:
!pip install pandas
!pip install openpyxl




[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting openpyxl
  Downloading openpyxl-3.1.2-py2.py3-none-any.whl (249 kB)
     ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
     ---------------------------------------- 0.0/250.0 kB ? eta -:--:--
     ------------------ ------------------- 122.9/250.0 kB 7.5 MB/s eta 0:00:01
     -------------------------------------- 250.0/250.0 kB 5.1 MB/s eta 0:00:00
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.2



[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [37]:
import pandas as pd

# Crie um DataFrame com alguns dados
data = {'Nome': ['João', 'Maria', 'Carlos', 'Ana'],
        'Idade': [25, 30, 22, 28],
        'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']}

df = pd.DataFrame(data)

# Especifique o nome do arquivo Excel que você deseja criar
nome_arquivo = 'dados_pessoas.xlsx'

# Salve o DataFrame no arquivo Excel
df.to_excel(nome_arquivo, index=False)

print(f'Arquivo Excel "{nome_arquivo}" criado com sucesso.')


Arquivo Excel "dados_pessoas.xlsx" criado com sucesso.


Neste código, estamos criando um DataFrame usando a biblioteca pandas e, em seguida, usando o método to_excel() para salvar os dados em um arquivo Excel com o nome "dados.xlsx". Certifique-se de que o arquivo "dados.xlsx" será criado no diretório em que seu script está sendo executado.

Depois de executar o código, você deve encontrar o arquivo Excel no mesmo diretório em que o script foi executado.


Certamente! Vou mostrar como você pode realizar um tratamento simples dos dados no DataFrame usando a biblioteca pandas. Neste exemplo, faremos o seguinte:

Calcular a média das idades.
Encontrar a pessoa mais velha.
Classificar o DataFrame por idade em ordem decrescente.
Aqui está o código:

In [39]:
# 1. Calcular a média das idades
media_idades = df['Idade'].mean()
print(f'Média das idades: {media_idades} anos')


Média das idades: 26.25 anos


In [40]:
# 2. Encontrar a pessoa mais velha
pessoa_mais_velha = df[df['Idade'] == df['Idade'].max()]
print(f'Pessoa mais velha:\n{pessoa_mais_velha}')


Pessoa mais velha:
    Nome  Idade          Cidade
1  Maria     30  Rio de Janeiro


In [41]:

# 3. Classificar o DataFrame por idade em ordem decrescente
df_ordenado = df.sort_values(by='Idade', ascending=False)
print('DataFrame ordenado por idade em ordem decrescente:')
print(df_ordenado)

DataFrame ordenado por idade em ordem decrescente:
     Nome  Idade          Cidade
1   Maria     30  Rio de Janeiro
3     Ana     28    Porto Alegre
0    João     25       São Paulo
2  Carlos     22  Belo Horizonte
