<a href="https://colab.research.google.com/github/thiagodepaulo/nlp/blob/enap/preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import os.path
import glob
import codecs
import nltk
import re
import spacy
from nltk.stem import SnowballStemmer
from nltk.stem import WordNetLemmatizer
import unicodedata
from sklearn.feature_extraction.text import TfidfTransformer
import pandas as pd

In [None]:
corpus = ["""Naruto (ナルト?) é uma série de mangá escrita e ilustrada por Masashi Kishimoto,
que conta a história de Naruto Uzumaki, um jovem ninja que constantemente procura por
reconhecimento e sonha em se tornar Hokage, o ninja líder de sua vila.
A história é dividida em duas partes, a primeira parte se passa nos anos da pré-adolescência de Naruto,
e a segunda parte se passa em sua adolescência. A série é baseada em dois mangás one-shots de Kishimoto:
Karakuri (1995), e que por causa dele Kishimoto ganhou uma menção honrosa no prêmio Hop Step da Shueisha
no ano seguinte, e Naruto (1997). A editora Panini Comics licenciou e publicou o mangá em
três versões no Brasil, e em Portugal é a editora Devir Manga quem licencia e publica o mangá.
A história de Naruto continua com o seu filho, Boruto Uzumaki em Boruto: Naruto Next Generations.""",

"""Serial Experiments Lain (シリアルエクスペリメンツレイン Shiriaru Ekusuperimentsu Rein?) é uma série anime
lançada pelo estúdio Triangle Staff, dirigida por Ryutaro Nakamura, criação de cenários por
Chiaki J. Konaka e desenhada por Yoshitoshi ABe. A série foi transmitida pela TV Tokyo de Julho a
Setembro de 1998 e teve um jogo para PlayStation lançado no mesmo ano.""",

"""Fullmetal Alchemist (鋼の錬金術師 Hagane no Renkinjutsushi?, lit. "Alquimista de Aço")
é um anime baseado no mangá shōnen escrito e ilustrado por Hiromu Arakawa. O mangá foi
serializado na revista mensal japonesa Monthly Shōnen Gangan entre agosto de 2001 e junho de 2010,
com os seus 108 capítulos individuais compilados em 27 volumes em formato tankōbon e publicados pela
editora Square Enix. O mundo de Fullmetal Alchemist é baseado no período após a Revolução Industrial
Europeia. Situado em um universo ficcional em que a alquimia é uma das mais avançadas técnicas científicas
conhecidas pelo homem, a história centra-se nos irmãos Edward Elric e Alphonse Elric, que estão procurando
a pedra filosofal para restaurar seus corpos após uma desastrosa tentativa de trazer a mãe falecida de volta à
vida através da alquimia."""
]

# Pré-processamento

limpando o texto

In [None]:
corpus_clean1 = [ unicodedata.normalize('NFKD', s).encode('ISO-8859-1', 'ignore').decode('ISO-8859-1')
                 for s in corpus]

In [None]:
single_char = 'ê'
multiple_chars = '\N{LATIN SMALL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'

In [None]:
unicodedata.normalize('NFKD', corpus_clean1[0]).encode('ISO-8859-1', 'ignore')

b'Naruto (?) e uma serie de manga escrita e ilustrada por Masashi Kishimoto, \nque conta a historia de Naruto Uzumaki, um jovem ninja que constantemente procura por \nreconhecimento e sonha em se tornar Hokage, o ninja lider de sua vila. \nA historia e dividida em duas partes, a primeira parte se passa nos anos da pre-adolescencia de Naruto, \ne a segunda parte se passa em sua adolescencia. A serie e baseada em dois mangas one-shots de Kishimoto: \nKarakuri (1995), e que por causa dele Kishimoto ganhou uma mencao honrosa no premio Hop Step da Shueisha \nno ano seguinte, e Naruto (1997). A editora Panini Comics licenciou e publicou o manga em \ntres versoes no Brasil, e em Portugal e a editora Devir Manga quem licencia e publica o manga. \nA historia de Naruto continua com o seu filho, Boruto Uzumaki em Boruto: Naruto Next Generations.'

In [None]:
# stop words
import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
stop_list = nltk.corpus.stopwords.words('portuguese')

In [None]:
corpus_tokens = [nltk.word_tokenize(doc) for doc in corpus_clean]

In [None]:
# Stemming

corpus_tokens2 = [nltk.word_tokenize(doc) for doc in corpus_clean]
ps = SnowballStemmer('portuguese')
def do_stem(tokens):
    return [ps.stem(word) for word in tokens]

corpus_stem = [' '.join(do_stem(doc)) for doc in corpus_tokens2]

In [None]:
ps.stem('falando'), ps.stem('falado')

('fal', 'fal')

In [None]:
# Lematizador
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m24.2 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
sp = spacy.load("pt_core_news_sm")

In [None]:
doc = sp(corpus[0])
' '.join([token.lemma_ for token in doc])

'Naruto ( ナルト ? ) ser um série de mangá escrever e ilustrar por Masashi Kishimoto , \n que contar o história de Naruto Uzumaki , um jovem ninja que constantemente procurar por \n reconhecimento e sonhar em se tornar Hokage , o ninja líder de seu vila . \n o história ser divider em dois parte , o primeiro parte se passar em o ano de o pré-adolescência de Naruto , \n e o segundo parte se passar em seu adolescência . o série ser basear em dois mangás one-shots de Kishimoto : \n Karakuri ( 1995 ) , e que por causa de ele Kishimoto ganhar um menção honroso em o prêmio Hop Step de o Shueisha \n em o ano seguinte , e Naruto ( 1997 ) . o editora Panini Comics licenciar e publicar o mangá em \n três versão em o Brasil , e em Portugal ser o editora Devir Manga quem licencia e publicar o mangá . \n o história de Naruto continuar com o seu filho , Boruto Uzumaki em Boruto : Naruto Next Generations .'

In [None]:
# Criando Matrizes

In [None]:
from scipy.sparse import csr_matrix
import numpy as np

indptr = np.array([0,2,3,6])
indices = np.array([0,2,2,0,1,2])
data = np.array([1,2,3,4,5,6])
S = csr_matrix( (data,indices,indptr))
print(S)

  (0, 0)	1
  (0, 2)	2
  (1, 2)	3
  (2, 0)	4
  (2, 1)	5
  (2, 2)	6


In [None]:
S.todense()

matrix([[1, 0, 2],
        [0, 0, 3],
        [4, 5, 6]])

In [None]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, HashingVectorizer

count_vect = CountVectorizer()
count_vect.fit(corpus)
X = count_vect.transform(corpus)
X.shape

(3, 194)

In [None]:
names = count_vect.get_feature_names_out()

In [None]:
print( [ (names[w],w) for w in X.getrow(0).nonzero()[1]] )

[('1995', 1), ('1997', 2), ('adolescência', 8), ('ano', 15), ('anos', 16), ('baseada', 22), ('boruto', 24), ('brasil', 25), ('causa', 27), ('com', 32), ('comics', 33), ('constantemente', 36), ('conta', 37), ('continua', 38), ('da', 41), ('de', 43), ('dele', 44), ('devir', 47), ('dividida', 49), ('dois', 50), ('duas', 51), ('editora', 52), ('em', 56), ('escrita', 59), ('filho', 67), ('ganhou', 73), ('generations', 74), ('história', 77), ('hokage', 78), ('honrosa', 80), ('hop', 81), ('ilustrada', 82), ('jovem', 89), ('karakuri', 92), ('kishimoto', 93), ('licencia', 98), ('licenciou', 99), ('líder', 101), ('manga', 103), ('mangá', 104), ('mangás', 105), ('masashi', 106), ('menção', 108), ('naruto', 115), ('next', 116), ('ninja', 117), ('no', 118), ('nos', 119), ('one', 120), ('panini', 122), ('parte', 124), ('partes', 125), ('passa', 126), ('por', 132), ('portugal', 133), ('primeira', 134), ('procura', 135), ('pré', 137), ('prêmio', 138), ('publica', 139), ('publicou', 141), ('que', 142),

In [None]:
hash_vect = HashingVectorizer(n_features=10000)
X3 = hash_vect.fit_transform(corpus)
X3.shape

(3, 10000)