# Manipulação de arquivos

- Text files
- CSV files
- JSON

In [5]:
# Importando o módulo os
import os

In [44]:
# Criando um arquivo (no mesmo diretório onde está o Jupyter Notebook)
arquivo = open(os.path.join('./data/file handling/cientista.txt'),'w')

In [45]:
texto = "Cientista de Dados é a profissão que mais tem crescido ultimamente.\n"
texto = texto + "Esses profissionais precisam se especializar em Estatística, Programação e Machine Learning.\n"
texto += "E claro, em Big Data."

In [46]:
# Gravando os dados no arquivo
for palavra in texto.split():
    arquivo.write(palavra+' ')

In [47]:
# Fechando o arquivo
arquivo.close()

In [48]:
!cat cientista.txt

Cientista de Dados é 
Cientista de Dados é a profissão 


In [49]:
# Lendo o arquivo
arquivo = open('./data/file handling/cientista.txt','r')
texto = arquivo.read()
arquivo.close()

print (texto)

Cientista de Dados é a profissão que mais tem crescido ultimamente. Esses profissionais precisam se especializar em Estatística, Programação e Machine Learning. E claro, em Big Data. 


Com o with, não temos a necessidade de utilizar o .close()

In [50]:
with open('./data/file handling/cientista.txt','r') as arquivo:
    texto = arquivo.read()

In [51]:
print (len(texto))

183


In [52]:
print (texto)

Cientista de Dados é a profissão que mais tem crescido ultimamente. Esses profissionais precisam se especializar em Estatística, Programação e Machine Learning. E claro, em Big Data. 


In [53]:
with open('./data/file handling/cientista.txt','w') as arquivo:
    arquivo.write(texto[:21])
    arquivo.write('\n')
    arquivo.write(texto[:33])

In [54]:
!cat cientista.txt

Cientista de Dados é 
Cientista de Dados é a profissão 


# CSV (comma-separated values)

In [18]:
# Importando o módulo csv
import csv

In [55]:
with open('./data/file handling/numeros.csv','w') as arquivo:
    writer = csv.writer(arquivo)
    writer.writerow(('primeira','segunda','terceira'))
    writer.writerow((55,93,76)) 
    writer.writerow((62,14,86))

In [56]:
!cat numeros.csv

primeira,segunda,terceira

55,93,76

62,14,86



In [57]:
# Leitura de arquivos csv
with open('./data/file handling/numeros.csv','r') as arquivo:
    leitor = csv.reader(arquivo)
    for x in leitor:
        print ('Número de colunas:', len(x))
        print(x)

Número de colunas: 3
['primeira', 'segunda', 'terceira']
Número de colunas: 0
[]
Número de colunas: 3
['55', '93', '76']
Número de colunas: 0
[]
Número de colunas: 3
['62', '14', '86']
Número de colunas: 0
[]


In [58]:
# Gerando uma lista com dados do arquivo csv
with open('./data/file handling/numeros.csv','r') as arquivo:
    leitor = csv.reader(arquivo)
    dados = list(leitor)
    
    
print (dados)

[['primeira', 'segunda', 'terceira'], [], ['55', '93', '76'], [], ['62', '14', '86'], []]


In [59]:
# Impriminfo a partir da segunda linha
for linha in dados[1:]:
    print (linha)

[]
['55', '93', '76']
[]
['62', '14', '86']
[]


# JSON (Java Script Object Notation )

In [60]:
# Criando um dicionário
dict = {'nome': 'Guido van Rossum',
        'linguagem': 'Python',
        'similar': ['c','Modula-3','lisp'],
        'users': 1000000}

In [61]:
for k,v in dict.items():
    print (k,v)

users 1000000
nome Guido van Rossum
linguagem Python
similar ['c', 'Modula-3', 'lisp']


In [62]:
# Importando o módulo Json
import json

In [64]:
# Convertendo o dicionário para um objeto json
json.dumps(dict)

'{"users": 1000000, "nome": "Guido van Rossum", "linguagem": "Python", "similar": ["c", "Modula-3", "lisp"]}'

In [65]:
# Criando um arquivo Json
with open('./data/file handling/dados.json','w') as arquivo:
    arquivo.write(json.dumps(dict))

In [66]:
# Leitura de arquivos Json
with open('./data/file handling/dados.json','r') as arquivo:
    texto = arquivo.read()
    data = json.loads(texto)

In [67]:
print (data)

{'users': 1000000, 'nome': 'Guido van Rossum', 'linguagem': 'Python', 'similar': ['c', 'Modula-3', 'lisp']}


In [68]:
print (data['nome'])

Guido van Rossum


In [69]:
# Imprimindo um arquivo Json copiado da internet
from urllib.request import urlopen

response = urlopen("http://vimeo.com/api/v2/video/57733101.json").read().decode('utf8')
data = json.loads(response)[0]

In [70]:
print ('Título: ', data['title'])
print ('URL: ', data['url'])
print ('Duração: ', data['duration'])
print ('Número de Visualizações: ', data['stats_number_of_plays'])

Título:  The Good Man trailer
URL:  https://vimeo.com/57733101
Duração:  143
Número de Visualizações:  5295


In [71]:
arquivo_fonte = './data/file handling/dados.json'
arquivo_destino = './data/file handling/json_data.txt'

In [72]:
# Método 1
with open(arquivo_fonte,'r') as infile:
    text = infile.read()
    with open(arquivo_destino,'w') as outfile:
        outfile.write(text)  

In [73]:
# Método 2
open(arquivo_destino,'w').write(open(arquivo_fonte,'r').read()) 

107

In [74]:
!cat json_data.txt

{"users": 1000000, "nome": "Guido van Rossum", "linguagem": "Python", "similar": ["c", "Modula-3", "lisp"]}


In [75]:
from pprint import pprint

with open('./data/file handling/map.json') as data_file:    
    data = json.load(data_file)

pprint(data)

{'maps': [{'id': 'blabla', 'iscategorical': '0'},
          {'id': 'blabla', 'iscategorical': '0'}],
 'masks': {'id': 'valore'},
 'om_points': 'value',
 'parameters': {'id': 'valore'}}


In [76]:
pprint(data["maps"][0]["id"])
pprint(data["masks"]["id"])
pprint(data["om_points"])

'blabla'
'valore'
'value'


## Done!