<a href="https://colab.research.google.com/github/marquesgabi/CoE/blob/main/Big_Data_016_Tutorial_IO_B%C3%A1sico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Instruções iniciais**

*   Abra os links dos dados:
    * https://tinyurl.com/bd-b3data
    * https://tinyurl.com/bigdata-gut-pt
*   Clique em "Adicionar ao Drive"

*  [Formato de dados B3](https://drive.google.com/file/d/13dYeRVlJkusQjAwqw1JSmMylXbLTqCmt/view?usp=sharing)


# Acesso ao Drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# I/O e comandos básicos

* Células iniciadas com ! são executadas como comandos em um terminal
* A maioria dos comandos básicos de terminal Unix está disponível no Colab


In [None]:
!ls "/content/drive/My Drive/gut-pt/"

In [None]:
!ls "/content/drive/My Drive/gut-pt/small"

## Exemplos de leitura com cat

* O caractere * (wildcard ou curinga) indica sequência de qualquer caracteres
* Note que no segundo exemplo, o wildcard (*) está fora das aspas duplas



In [None]:
!cat "/content/drive/My Drive/gut-pt/all/u-54829-8"

In [None]:
!cat "/content/drive/My Drive/gut-pt/small"/*

In [None]:
!ls /content/drive/My\ Drive/gut-pt/small

In [None]:
!ln -s "/content/drive/My Drive/gut-pt/small" /content/

In [None]:
!ls -ls /content/

In [None]:
!wc /content/small/u-54829-8

## Comunicação entre processos

* A saída do cat pode ser redirecionada para outro processo com um pipe (|)
* Exemplo: busca de padrões com grep
  * Cat envia o conteúdo do arquivo para a saída padrão
  * Grep recebe os dados na entrada padrão
  * Grep procura pelo padrão “Braz” em cada linha de entrada
  * Grep direciona para a saída somente as linhas que contém o padrão


In [None]:
!cat /content/small/u-54829-8 | grep "Braz"

* É possível encadear múltiplos pipes (|)
* Exemplo: quantas linhas do arquivo contém “Braz”

  * Cat lê o arquivo
  * Grep filtra as linhas com Braz
  * wc conta as linhas resultantes do grep



In [None]:
!cat /content/small/u-54829-8 | grep "Braz" | wc

In [None]:
!cat /content/small/u-54829-8 | grep "Quincas" | wc

## Links

* Vamos criar um "atalho" (link) para os arquivos no diretório base do Colab para simplificar os comandos
* O caminho "/content/b3" agora aponta para o diretório do pacote de dados
* Podemos acessar os arquivos diretamente pelo atalho



In [None]:
!ls "/content/drive/My Drive/"

In [None]:
!ln -s "/content/drive/My Drive/b3" /content/

In [None]:
!ls -la b3

In [None]:
!wc "/content/drive/My Drive/b3/COTAHIST.A1995.TXT"

In [None]:
!ls /content/b3/

# Abertura de arquivos e leitura de dados

* Vamos criar uma lista com os arquivos no diretório b3

In [None]:
import os
import glob

filenames = glob.glob("/content/b3/*TXT")

In [None]:
print(filenames)

## Leitura de arquivos inteiros

* Arquivo é aberto com open
* Leitura dos dados (arquivo inteiro)
* Arquivo é fechado com close


In [None]:
for filename in filenames :
    f = open(filename, encoding='utf-8', errors='ignore')
    contents = f.readlines()
    f.close()
    print(filename,"tem",len(contents),"linhas")

## Leitura linha-a-linha

* É possível ler os conteúdos de um arquivo uma linha por vez
  * Método readline retorna uma linha ou None
  * Loop é interrompido quando None é retornado


In [None]:
filename = "/content/small/u-54829-8"
f = open(filename, encoding='utf-8', errors='ignore')
while True :
  line = f.readline()
  if not line :
    break
  words = line.split()
  print(len(words), words)
f.close()


In [None]:
# Função para contagem de palavras em um arquivo

def wordcount(filename) :
  f = open(filename, encoding='utf-8', errors='ignore')
  lines = f.readlines()
  nwords = 0
  for line in lines :
    words = line.split()
    nwords = nwords + len(words)
  f.close()
  print(filename, nwords)
  return nwords

In [None]:
wordcount("/content/small/u-54829-8")

## Leitura da entrada padrão

* No lugar de arquivos, é possível acessar dados (texto) diretamente da entrada padrão
* Equivalente ao scanf de C


* Vamos executar o script pela linha de comando
  * %%file indica uma célula que deve ser salva em arquivo (e não executada diretamente)

*  Arquivos podem ser lidos com cat e direcionados para o script com um pipe (|)


In [None]:
%%file leitor.py

import sys
import re

nwords = 0

for line in sys.stdin:
  words = line.split()
  nwords = nwords + len(words)

print("total: ", nwords, " linhas")

In [None]:
!cat leitor.py

In [None]:
!cat "/content/small/u-54829-8" | python leitor.py

# Perfilamento Básico

* Vamos determinar quanto tempo cada parte do script está levando
  * Exemplo: tempo para  I/O de arquivo


In [None]:
import time

for filename in filenames :
    start = time.time()
    f = open(filename, encoding='utf-8', errors='ignore')
    contents = f.readlines()
    f.close()
    done = time.time()
    print(filename,"foi lido em",done-start,"segundos")

# Atividade: Processamento de Campos e Perfilamento

* Escreva uma função que, para cada linha de dados, separe os campos de acordo com o formato dos arquivos
 * https://tinyurl.com/bd-b3data
 * Formato de dados: Arquivo "SeriesHistoricas_Layout.pdf"

* Versão avançada: descubra o papel com maior valor de fechamento para cada ano/arquivo
* Versão (mais) avançada: descubra o maior valor de fechamento para cada papel


In [None]:
def process_file(filename) :
  start = time.time()
  f = open(filename, encoding='utf-8', errors='ignore')
  contents = f.readlines()
  for line in contents :
    tipo = line[0:2]
    if tipo == '01' :
      dia = line[2:10]
      codneg = line[12:24]
      preabe = float(line[56:69])/100
      premax = float(line[69:82])/100
      premin = float(line[82:95])/100
      preult = float(line[108:121])/100
  f.close()
  done = time.time()
  return done - start


In [None]:
import time

total_start = time.time()

for filename in filenames :
    t = process_file(filename)
    print("time: ",t)

total_done = time.time()

print("total processing time: ",total_done - total_start)

In [None]:
from multiprocessing import Pool

total_start = time.time()

pool = Pool(processes=2)
res = pool.imap_unordered(process_file, filenames)

for r in res :
    print("time:", r)

total_done = time.time()
print("total processing time: ",total_done - total_start)


In [None]:
drive.flush_and_unmount()
