In [1]:
# Função para ler um arquivo texto e atribuir o texto em uma variável

def ler(arq_texto):
    arquivo = open(arq_texto, 'r', encoding='utf-8')
    texto = arquivo.read()
    arquivo.close()
    return texto

In [2]:
texto = ler('Corpora\\Ubirajara.txt') #Atenção a barra dupla para abertura do arquivo
print(len(texto))

219702


Concordanciador
Os concordanciadores são programas que buscam por expressões em um corpus e criam listagens dos resultados, incluindo um número determinado de outras expressões antes e depois daquela que é buscada, a fim de situá-la em um contexto.

In [3]:
# CONCORDANCIADOR simples

def concordanciador(alvo, texto):
    texto = texto.replace('\n', ' ')
    texto = texto.replace('\t', ' ')

    ocorrencias = list()
    resultado = texto.find(alvo, 0)
    while resultado > 0:
        pos_inicial = resultado - (40 -len(alvo) // 2)
        ocorrencias.append(texto[pos_inicial : pos_inicial + 80])
        resultado = texto.find(alvo, resultado + 1)

    return ocorrencias

In [4]:
resultados = concordanciador('serpente', texto)
for i in resultados:
    print(i)

e, Jaguarê não te quer matar como a serpente que ataca o descuidado caçador. Dez
reiro invencivel que tem por arma a serpente. Reconhece o teu vencedor, Pojucan,
zes ella escapou-lhe da mão, como a serpente das garras do gavião.  «Mais uma ve
reiro terrivel que tem por arma uma serpente.»         *       *       *       *
«Agora eu queria ter no coração uma serpente para morder aquella que me roubou o
 porque elle tem os olhos da grande serpente de fogo, que vôa como o raio de Tup
uerreiros ferozes, filhos da grande serpente do mar.  Um dia esses guerreiros sa
la, muito cheiroza, a qual a grande serpente creava no bucho.  Os Tupinambás faz
 na tromba. Elle fujia, esticando a serpente; e a serpente encolhendo-se o arras
le fujia, esticando a serpente; e a serpente encolhendo-se o arrastava até á bei
 pelo meio.  O velho tapir rompeu a serpente como se rompe uma corda de piassaba
 a liberdade. Ella tem a astucia da serpente e seu veneno.  --Eu era a cobra d'a
to.  Vem depois Arariboia, a

## Limpeza do texto

In [5]:
palavras = texto.split()

In [6]:
# Problemas de pontuação e caracteres maiúsculos

def limpar(lista):
    lixo = '.,:;?!"`()[]{}\/|#$%^&*'
    return[X.strip(lixo).lower() for X in lista]

In [7]:
corpus_sujo = ['banana', 'maça.', 'abaca.te', ':MeLancia' ]
print(limpar(corpus_sujo))

['banana', 'maça', 'abaca.te', 'melancia']


In [8]:
# Problemas de pontuação e caracteres maiúsculos
# Inclusão do isalpha

def limpar(lista):
    lixo = '.,:;?!"`()[]{}\/|#$%^&*'
    passo1 = [X.strip(lixo).lower() for X in lista]    
    return[X for X in passo1 if X.isalpha() or '-' in X]

In [9]:
corpus_sujo = ['banana', 'maça.', 'abaca.te', ':MeLancia', 'busca-se' ]
print(limpar(corpus_sujo))

['banana', 'maça', 'melancia', 'busca-se']


In [10]:
# Limpando o corpus
len(palavras)

37120

In [11]:
palavras = limpar(palavras)
len(palavras)

36001

## Vocabulário e riqueza lexical

In [12]:
# Análises quantitativas
# Estabelecimento do vocabulário do corpus, as palavras não podem ser repetidas

vocabulario = set(palavras)
len(vocabulario)

6944

In [13]:
# Cálculo da riqueza lexical

riqueza = len(vocabulario) / len(palavras)
print(riqueza)

0.1928835310130274


## Classificação de palavras por ocorrência

In [14]:
from collections import defaultdict

In [15]:
def ocorrencias(lista_palavras):
    dicionario = defaultdict(int)
    for p in lista_palavras:
        dicionario[p] += 1
    return dicionario

In [16]:
dic = ocorrencias(palavras)
mf = sorted(dic.items(), key=lambda tupla:tupla[1], reverse=True) [:10] # [:10] lista as 10 ocorrencias
for palavra, n in mf:
    print(palavra,'\t',n)

a 	 1473
o 	 1378
de 	 1199
que 	 1118
e 	 918
do 	 685
da 	 624
os 	 490
para 	 346
não 	 335


In [17]:
# Observe que as palavras de maior ocorrência são as palavras funcionais, isto é, 
# palavras de reduzida contribuição semântica ou nocional, que servem apenas para
# estabelecer relações de outras palavras entre si.
# 
# Pela fraca contribuição semântica é comum que estas palavras sejam eliminadas 
# do CORPUS nas análises computacionais relacionadas ao significado.
# São tidas como "palavra vazia" (stop words), que também podem incluir substantivos e verbos banais.

In [18]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [19]:
import nltk
vazias = nltk.corpus.stopwords.words('portuguese')

In [20]:
# O resultado deve ser 0, ou seja, todas as dez palavras mais frequentes do livro são vazias
frequentes_plenas = [X for X in mf if X[0].lower() not in vazias]
len(frequentes_plenas)

0

In [21]:
mf = sorted(dic.items(), key=lambda tupla:tupla[1], reverse=True) [:20] # [:20] lista as 10 ocorrencias
for palavra, n in mf:
    print(palavra,'\t',n)

a 	 1473
o 	 1378
de 	 1199
que 	 1118
e 	 918
do 	 685
da 	 624
os 	 490
para 	 346
não 	 335
dos 	 327
se 	 290
as 	 265
como 	 243
guerreiro 	 235
um 	 229
seu 	 215
em 	 212
na 	 205
mais 	 205


In [22]:
# O resultado deve ser 1, a palavra guerreiro não é uma palavra vazia
frequentes_plenas = [X for X in mf if X[0].lower() not in vazias]
len(frequentes_plenas)

1

### Hápax legômena

In [23]:
# Hápax legômena, no plural, ou Hápax legômenon, no singular, é o termo técnico usado
# para designar as palavras com única ocorrência.

In [24]:
hapax = [X for X in palavras if palavras.count(X) == 1]
len(hapax)

4365

In [25]:
# Um dos problemas à identificar são as formas raras de conjugação verbal, assim reduz-se
# todas as palavras do corpus as sua raízes morfológicas

In [26]:
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\mflav\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [27]:
# O stemmer do NLTK reduz as palavras as suas raízes
stemmer = nltk.stem.RSLPStemmer()
raizes = [stemmer.stem(X) for X in set(palavras)]
hapax = [X for X in raizes if raizes.count(X) == 1]

In [28]:
print(len(raizes),'\t',len(hapax))

6944 	 3210


In [29]:
print(raizes[:30],'\n',hapax[:30])

['acompanh', 'abrig', 'poderoz', 'assez', 'burac', 'dê', 'ubiraj', 'recolh', 'am', 'transport', 'noiv', 'desmentir', 'pul', 'trabalh', 'following', 'ici', 'fórmul', 'através', 'receb', 'crav', 'var', 'aparec', 'mat', 'dezign', 'arc', 'manuel', 'nunci', 'nobr', 'torn', 'cit'] 
 ['assez', 'burac', 'transport', 'desmentir', 'pul', 'following', 'ici', 'fórmul', 'através', 'manuel', 'nunci', 'god', 'sul', 'contributiom', 'c', 'orbigny', 'avilt', 'corisc', 'influenc', '420:--«luct', 'glor', 'whenev', 'iii', 'quibu', 'aflij', 'gravid', 'advenit', 'numb', 'intoleranc', 'conjur']


In [30]:
# Uma outra medida de riqueza lexical do corpus seria dada pela divisão do conjunto
# de raízes distintas pela contagem absoluta de ocorrências de raízes, ou seja, 
# divisão de types por tokens

print(len(set(raizes)) / len(raizes))

0.6247119815668203


## Estatística Descritiva

In [31]:
# Frequência absoluta: número de observações de determinada variável, como o número de caracteres por exemplo.
# Frequência relativa: proporção de determinadas observações dividida pelo total de observações, como no caso
#                      caso da riqueza lexical.
#
# A estatística descritiva tem como objetivo organizar dados na forma de sínteses quantitativas e medidas 
# comparativas.

In [32]:
from nltk.corpus import machado

In [33]:
print(machado.readme())

Machado de Assis -- Obra Completa

http://machado.mec.gov.br/

Public Domain

Contents:

Romance

romance/marm01.txt: Ressurreição (1872)
romance/marm02.txt: A Mão e a Luva (1874)
romance/marm03.txt: Helena (1876)
romance/marm04.txt: Iaiá Garcia (1878)
romance/marm05.txt: Memórias Póstumas de Brás Cubas (1881)
romance/marm06.txt: Casa Velha (1885)
romance/marm07.txt: Quincas Borba (1891)
romance/marm08.txt: Dom Casmurro (1899)
romance/marm09.txt: Esaú e Jacó (1904)
romance/marm10.txt: Memorial de Aires (1908)

Poesia

poesia/maps01.txt: Crisálidas (1864)
poesia/maps02.txt: Falenas (1870)
poesia/maps03.txt: Americanas (1875)
poesia/maps04.txt: Gazeta de Holanda (1886-88)
poesia/maps05.txt: Ocidentais (1901)
poesia/maps06.txt: O Almada (1908)
poesia/maps07.txt: Dispersas (1854-1939)

Contos

contos/macn001.txt: Contos Fluminenses (1870); Miss Dollar; Luís Soares; A mulher de preto; O segredo de Augusta; Confissões de uma viúva moça; Linha reta e linha curva; Frei Sim
contos/macn002.txt: 

In [34]:
# Objetivo para exemplificar é comparar o uso de advérbios entre várias obras.
# É necessário realizar a etiquetagem morfossintática (pos-tagging) de cada palavra dos contos e crônicas.

In [35]:
# Testes do etiquetador morfossintático do spaCy

In [36]:
# https://spacy.io/usage
%pip install -U pip setuptools wheel
%pip install -U spacy
# Abrir o prompt pelo Anaconda e executar
#python -m spacy download en_core_web_sm
#python -m spacy download pt_core_news_sm

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [46]:
import spacy
nlp = spacy.load('pt_core_news_sm')
doc = nlp('Será que vai funcionar essa etiquetagem?')
etiq = [(X.orth_, X.pos_) for X in doc]
print(etiq)

[('Será', 'VERB'), ('que', 'SCONJ'), ('vai', 'AUX'), ('funcionar', 'VERB'), ('essa', 'DET'), ('etiquetagem', 'NOUN'), ('?', 'PUNCT')]


In [49]:
import statistics as stat 

obras = list()

for i in range(1,6):
    obras.append('romance/marm0'+str(i)+'.txt')

for i in range(1,6):
    obras.append('cronica/macr0'+str(i)+'.txt')

cont_adv = list()

for obra in obras:
    print(obra)
    s = machado.raw(obra)
    doc = nlp(s)
    etiq = [(pal.orth_, pal.pos_) for pal in doc]
    adv = [(ort, pos) for (ort, pos) in etiq if pos == 'ADV']
    cont_adv.append(len(adv) / len(etiq))

rom_m = stat.mean(cont_adv[:4])
rom_dp = stat.stdev(cont_adv[:4])
cro_m = stat.mean(cont_adv[:5])
cro_dp = stat.stdev(cont_adv[:5])




romance/marm01.txt
romance/marm02.txt
romance/marm03.txt
romance/marm04.txt
romance/marm05.txt
cronica/macr01.txt
cronica/macr02.txt
cronica/macr03.txt
cronica/macr04.txt
cronica/macr05.txt


In [52]:
print('Romance \t',rom_m)
print('Romance \t',rom_dp)
print('Cronicas \t',cro_m)
print('Cronicas \t',cro_dp)

Romance 	 0.059228932420173935
Romance 	 0.0034634010945340512
Cronicas 	 0.05884309279220977
Cronicas 	 0.0031210128882707875


In [54]:
%pip install matplotlib

Collecting matplotlib
  Obtaining dependency information for matplotlib from https://files.pythonhosted.org/packages/da/88/513a104dc2b3e9c1395598480466c55d2b1358e05c7198764670c4b1ddd0/matplotlib-3.7.3-cp310-cp310-win_amd64.whl.metadata
  Downloading matplotlib-3.7.3-cp310-cp310-win_amd64.whl.metadata (5.8 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Obtaining dependency information for contourpy>=1.0.1 from https://files.pythonhosted.org/packages/94/0a/5eb57dd395fade977786b2d2c98c2bee8234358794be44422fe58a719d42/contourpy-1.1.0-cp310-cp310-win_amd64.whl.metadata
  Downloading contourpy-1.1.0-cp310-cp310-win_amd64.whl.metadata (5.7 kB)
Collecting cycler>=0.10 (from matplotlib)
  Downloading cycler-0.11.0-py3-none-any.whl (6.4 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Obtaining dependency information for fonttools>=4.22.0 from https://files.pythonhosted.org/packages/1c/c6/408ee90eae2fd7ef85c5baaedfc8d533805f4c54fc6670dbde9539f1277b/fonttools-4.42.1-cp310-cp310-win_amd64

In [55]:
import matplotlib.pyplot as plt

In [None]:
tipo_obra = ('Romances', 'Crônicas')
x = [0,1]
y = [rom_m, cro_m]
dp = [rom_dp, cro_dp]

plt.bar(x, y, yerr = dp)
plt.xticks(x, tipo_obra)
plt.ylabel('Percentual médio de advérbios (%)')
plt.title('Adverbiação média em obras de M. de Assis')

plt.show()