# Lendo e escrevendo textos

In [1]:
import pandas as pd

# read_csv é uma função para ler tabelas de arquivos .csv
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL/teste2.csv')
teste

Unnamed: 0,1;,Raphael
0,2;,Jhonathan
1,3;,Isabella
2,4;,João
3,5;,


In [2]:
# read_table ler tabelas de qualquer tipo de arquivo, incluindo
# arquivos com extensão .txt
teste = pd.read_table('Tabelas CSV, TXT e EXCEL/teste2.csv', sep=',')
teste

Unnamed: 0,1;,Raphael
0,2;,Jhonathan
1,3;,Isabella
2,4;,João
3,5;,


In [3]:
# através do argumento names podemos especificar os nomes das
# nossas colunas
names = ['ID', 'Nomes']
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL/teste2.csv', names=names)
teste

Unnamed: 0,ID,Nomes
0,1;,Raphael
1,2;,Jhonathan
2,3;,Isabella
3,4;,João
4,5;,


In [4]:
# Através de index_col podemos especificar qual coluna será
# a coluna id do nosso DataFrame
names = ['ID', 'Nomes']
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL/teste2.csv', names=names, index_col='ID')
teste

Unnamed: 0_level_0,Nomes
ID,Unnamed: 1_level_1
1;,Raphael
2;,Jhonathan
3;,Isabella
4;,João
5;,


In [5]:
names = ['ID', 'Nomes']
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL/teste2.csv', names=names, index_col='ID')
teste

Unnamed: 0_level_0,Nomes
ID,Unnamed: 1_level_1
1;,Raphael
2;,Jhonathan
3;,Isabella
4;,João
5;,


In [6]:
# As vezes em um arquivo de texto podemos encontrar dados semi-estruturados
# separados por uma desingual quantidade de espaços, nestes casos
# usamos o argumento sep = '\s+'
names = ['ID', 'Nomes', 'Senha']
teste = pd.read_table('Tabelas CSV, TXT e EXCEL\Table.txt', names=names, index_col='ID', sep='\s+')
teste

Unnamed: 0_level_0,Nomes,Senha
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Raphael,165414788&
2,Jhonathan,41544784
3,Tobias,544145
4,Paula,89987809


In [11]:
# Com o argumento skiprows posso ignorar linhas de um arquivo 
# de texto.
teste = pd.read_table('Tabelas CSV, TXT e EXCEL\Tabela_de_nome.csv', skiprows=3)
teste

Unnamed: 0,4;Paulo
0,5;Matheus
1,6;Gabriel
2,7;Raphael
3,8;Maria
4,9;Elzenar
5,10;Miriam


In [15]:
# isnull() lê se algum campo está vazio
names = ['ID', 'Nomes']
teste = pd.read_excel('Tabelas CSV, TXT e EXCEL\Tabela_de_nome2.xlsx', names=names)
teste.isnull()

# Veja que o campo no índice 3 e na coluna Nome está vazio

Unnamed: 0,ID,Nomes
0,False,False
1,False,False
2,False,False
3,False,True


In [21]:
# na_values é um argumento que substitui valores ausentes na tabela
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL\Tabela_de_nome3.csv', na_values=[5])
teste

Unnamed: 0,45;,Gabi
0,44;,Joaquin
1,43;,
2,42;,Guedes
3,41;,
4,40;,Faustão
5,39;,Louro
6,38;,
7,37;,Gabriela
8,36;,Bagaça


In [37]:
# O read_xlsx lê arquivos de extensão xlsx() ou seja, Excel.
teste = pd.read_excel('Tabelas CSV, TXT e EXCEL\Teste_3_tabela.xlsx')
teste

Unnamed: 0,1,Raphael
0,2,Jhonathan
1,3,Gabriel
2,4,Pedro
3,5,Matheus
4,6,Nathália
5,7,Isabella
6,8,Kaio
7,9,Diego
8,10,Fernando


In [39]:
#Vamos supor que você quer ler um arquivo, mas não quer lê-lo
#todo, o argumento nrows te ajuda nisso
teste = pd.read_excel('Tabelas CSV, TXT e EXCEL\Teste_3_tabela.xlsx', nrows=5)
teste
# nrows=5 quer dizer que ele apenas lê as cinco primeiras linhas 
#do arquivo

Unnamed: 0,1,Raphael
0,2,Jhonathan
1,3,Gabriel
2,4,Pedro
3,5,Matheus
4,6,Nathália


### Escrevendo arquivos em formato-texto e delimitadores de texto

Usando o to_csv podemos escrever dados de um arquivo existente para um novo arquivo

In [43]:
names = ['ID', 'Nomes']
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL\Teste_4.csv', names=names)
teste

Unnamed: 0,ID,Nomes
0,1;,R
1,2;,G
2,3;,H
3,4;,F
4,5;,DS
5,6;,W
6,7;,E
7,8;,R4
8,9;,4R


In [46]:
teste.to_csv('Tabelas CSV, TXT e EXCEL\  novo_arquivo_teste.csv')
teste

Unnamed: 0,ID,Nomes
0,1;,R
1,2;,G
2,3;,H
3,4;,F
4,5;,DS
5,6;,W
6,7;,E
7,8;,R4
8,9;,4R


In [47]:
# Através do sys.stdout podemos criar um delimitador para nosso documento.
import sys
teste.to_csv(sys.stdout, sep='|', na_rep='Vazio')

|ID|Nomes
0|1;|R
1|2;|G
2|3;|H
3|4;|F
4|5;|DS
5|6;|W
6|7;|E
7|8;|R4
8|9;|4R


In [48]:
# Com o argumento columns podemos acessar a uma coluna especificamente
teste.to_csv(sys.stdout, sep=',', na_rep='Vazio', columns=['ID'])

,ID
0,1;
1,2;
2,3;
3,4;
4,5;
5,6;
6,7;
7,8;
8,9;


In [59]:
teste = pd.read_csv('Tabelas CSV, TXT e EXCEL\Pasta3.csv')
teste

Unnamed: 0,ID;,Nomes
0,0;,R
1,1;,T
2,2;,Y
3,3;,T
4,4;,R
5,5;,E
6,6;,
7,7;,E
8,8;,
9,9;,
