# Análise de arquivos de texto

Neste mini projeto iremos aprender a realizar a leitura e uma breve análise de dados de um arquivo de texto. Embora o arquivo dicionário tenha mais de 10 milhões de termos (que incluem palavras com prefixos e sufixos e siglas), como o tamanho do dicionário era do ordem de várias dezenas de megabytes, resolvi extrair uma amostra aleatória desses termos, obtendo um arquivo com mais de 10.000 linhas e aproximadamente 20Kb de tamanho apenas.

Primeiramente vamos construir algumas variáveis auxiliares:

In [1]:
nome_arquivo = 'amostra-palavras.txt'
diretorio_arquivo = '../dados/'
caminho_arquivo = diretorio_arquivo + nome_arquivo

Em seguida vamos abrir o arquivo em modo de leitura apenas.

In [9]:
arquivo = open(caminho_arquivo, mode = 'r')  # mode = 'r' é o argumento padrão, não precisava ter sido incluido.

Lendo uma linha:

In [4]:
arquivo.readline()

'adeusarmos\n'

In [5]:
# Lendo de novo:
arquivo.readline()    

'desrelvaste\n'

O que aconteceu? Acabamos de invocar o método readline() de arquivo duas vezes e obtivemos resultados diferentes!

**Exercício 1**: Abra o arquivo 'amostra-palavras.txt' usando um editor de texto simples (Notepad no Windows, p. ex.) e faça uma hipótese sobre o que ocorreu.

Não siga em frente sem realizar esta tarefa, discuta com seus colegas, se preciso pesquise na internet.

---

## Stream Ponteiro de arquivo.
Veja o código abaixo:

In [10]:
arquivo.seek(0)
arquivo.readline()

'adeusarmos\n'

Um objeto de arquivo possui um cursor (`stream` em inglês) que indica a posição de leitura/escrita atual do arquivo. Note que a cada chamada do método `readline()` o stream avança uma linha.
Quando o método de arquivo `seek()` é invocado com o argumento `0` ele muda a posição do cursor para o início do arquivo (o valor 1 mantém na posição atual e 2 desloca para o final). Vamos retirar  os caracteres de controle ds strings:

In [13]:
arquivo.readline()

'pinheiro-insigne\n'

---
## Limpeza de dados

Limpando a entrada com o método `strip()`.

In [28]:
linha = arquivo.readline()
linha

'encoimamo-lo\n'

In [30]:
linha = linha.strip()
linha

'encoimamo-lo'

---
## Um pouco de análise

Agora vamos imprimir uma amostra de `n` linhas (vc define quantas linhas quer ver mudando a variável  `n`).

In [33]:
n = 10
for i in range(n):
    linha = arquivo.readline()
    print(i, linha.strip())

0 companhareis
1 enchavetassem-me
2 esbamboaram-lhe
3 gebando-as
4 acotonada
5 latimo-lo
6 saltei-lhe
7 achoar-vos
8 agératos
9 escarguemos-te


Agora vamos imprimir todas as linhas do arquivo. Preste atenção na sintaxe, ela é diferente da sintaxe acima. Dependendo da interface utilizada, vc ficará com uma saída gigantesca no Jupyter Notebook.

In [34]:
arquivo.seek(0)
for linha in arquivo:
    print(linha, end='')

adeusarmos
desrelvaste
hiperorganizá-la-iam
pinheiro-insigne
afinhar-vos-ás
vibrar-vos-ia
contrafortar-te-ia
encoimamo-lo
dessoldá-los-emos
pleiteara-o
superlotei
braceado-se
colchetarem-lhes
tangava-lhe
conglobai-te
seguemos-te
desenfarda
ultradimensionei-as
açalmadorazinhas
asseveravam-nas
emboldriando-te
desenrugaá-la-á
endoudecesse-o
esgaço-vos
derrelhe-se-lhes
deslabializavam-lhes
febrilíssimo
enlapávamo-vos
companhareis
enchavetassem-me
esbamboaram-lhe
gebando-as
acotonada
latimo-lo
saltei-lhe
achoar-vos
agératos
escarguemos-te
assim-assim
do
panegirizado-as
ressegundavam-na
sugilaram-se
fodamo-nos
concordarmo-la
turtuveei-lhe
jalapãozinho
fobite-os
injuriadorazinhas
deletrear-se-ia
engaliadão
ovacionai-nos
desengajavam-vos
suplicá-los-emos
esborrachara-me
apompem-lhes
abarrilhado-nos
embuçalando-me
aferar-me-ei
espavitam-lhe
arrendondavam-lhes
engaravitam-se-lhes
carcacharem-na
desconstranger-te-ia
morfodiferenciem-vos
endoudara-o
rebuliam-me
eticizar-lha
pandemizaram-lhes
colta

---
## Exemplos

**Exemplo 1**: contar quantos caracteres aparecem em um arquivo (sem contar os caracteres de controle).

In [35]:
arquivo.seek(0)
n = 0
for linha in arquivo:
    linha = linha.strip()
    n = n + len(linha)

print(n)    

17922


**Exemplo 2**: contar quantas vezes um caracter aparece em um arquivo.

In [47]:
caracter = 'c'
arquivo.seek(0)
nc = 0
for linha in arquivo: 
    linha = linha.strip()
    for letra in linha:
        if letra == caracter:
            nc = nc + 1

print(n, nc, nc/n*100)

17922 564 3.146970204218279


## Exercícios

**Exercício 2**: Faça um código que conte o número de linhas de um arquivo.

**Exercício 3**: Implemente um função `conta_caracteres`, com a seguinte sintaxe:

```Python
def conta_caracteres(arquivo, caracter): 
    ...   # aqui entra o código 
    return n  # retorna o número de vezes que caracter aparece no arquivo.
```

---
## Investigando informações sobre um arquivo, antes de abrir ele, usando o módulo os.

**Qual o tamanho do arquivo?**

In [29]:
status = os.stat(caminho_arquivo)
print('O arquivo "', nome_arquivo, '" possui ', status.st_size, ' bytes.', sep='')

O arquivo "amostra-palavras.txt" possui 19535 bytes.


In [None]:
arquivo.readline()