## Carregando o dataset

In [1]:
import pandas as pd

df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8')

df.describe()

Unnamed: 0,nome,descricao,categoria
count,4080,2916,4080
unique,3696,2460,4
top,Boneco Dragon Ball Z Son Gokou,JOGO ORIGINAL. NOVO. LACRADO. PRONTA ENTREGA. ...,brinquedo
freq,20,39,1020


In [None]:
'''
import pandas as pd
from google.colab import drive

drive.mount('/content/gdrive', force_remount=True)

# mostrar a estrutura de pastas do google drive montado
!ls -la
!ls -la gdrive/MyDrive/FIAP/NLP/dados

# carrega dataframe do Google Drive
df = pd.read_csv("gdrive/MyDrive/FIAP/NLP/dados/produtos.csv", delimiter=";", encoding='utf-8')
df = pd.read_csv("gdrive/MyDrive/<diretorio>/produtos.csv", delimiter=";", encoding='utf-8')
'''

In [2]:
df.dropna(inplace=True) # exclui registros com valores faltantes no própro objeto. inplace=False retorna uma cópia sem alterar o objeto.
df.shape

(2916, 3)

## Criar uma nova coluna Nome + Descrição

In [3]:
# Exemplo de concateção de informações
print("Anderson" + "Dourado")

AndersonDourado


In [4]:
df["texto"] = df['nome'] + " " + df['descricao'] # cria uma nova culuna com os valores concatenados
df.texto[0]

' O Hobbit - 7ª Ed. 2013  Produto NovoBilbo Bolseiro é um hobbit que leva uma vida confortável e sem ambições. Mas seu contentamento é perturbado quando Gandalf, o mago, e uma companhia de anões batem à sua porta e levam-no para uma expedição. Eles têm um plano para roubar o tesouro guardado por Smaug, o Magnífico, um grande e perigoso dragão. Bilbo reluta muito em participar da aventura, mas acaba surpreendendo até a si mesmo com sua esperteza e sua habilidade como ladrão!CaracterísticasAutor: Tolkien, J. R. R.Peso: 0.44I.S.B.N.: 9788578277109Altura: 20.000000Largura: 13.000000Profundidade: 1.000000Número de Páginas: 328Idioma: PortuguêsAcabamento: BrochuraNúmero da edição: 7Ano da edição: 2013'

## Quantos Unigramas existem antes e depois de remover stopwords?


In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [6]:
from sklearn.feature_extraction.text import CountVectorizer # Converte uma coleção de documentos de texto em uma matriz de contagens de tokens

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('UNIGRAMAS com STOPWORDS', text_vect.shape[1])

UNIGRAMAS com STOPWORDS 35466


In [7]:
text_vect.shape

(2916, 35466)

In [8]:
from sklearn.feature_extraction.text import CountVectorizer

stopwords = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stopwords)
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('UNIGRAMAS sem STOPWORDS', text_vect.shape[1])

UNIGRAMAS sem STOPWORDS 35310


## Quantos Bigramas existem antes e depois de remover stopwords?


In [9]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('BIGRAMAS com STOPWORDS', text_vect.shape[1])

BIGRAMAS com STOPWORDS 159553


In [10]:
from sklearn.feature_extraction.text import CountVectorizer

stopwords = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(2,2), stop_words=stopwords)
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('BIGRAMAS sem STOPWORDS', text_vect.shape[1])

BIGRAMAS sem STOPWORDS 145409


## Quantos Trigramas existem antes e depois de remover stopwords?


In [11]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(3,3))
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('TRIGRAMAS com STOPWORDS', text_vect.shape[1])

TRIGRAMAS com STOPWORDS 228162


In [12]:
from sklearn.feature_extraction.text import CountVectorizer

stopwords = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(3,3), stop_words=stopwords)
vect.fit(df.texto)
text_vect = vect.transform(df.texto)

print('TRIGRAMAS sem STOPWORDS', text_vect.shape[1])

TRIGRAMAS sem STOPWORDS 177869


## Quantos verbos e adverbios existem na nova coluna?

In [13]:
nltk.download('punkt')
nltk.download('universal_tagset')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [14]:
from nltk.tokenize import word_tokenize

word_tokenize('O Hobbit - 7ª Ed. 2013  Produto NovoBilbo Bolseiro é um hobbit que')

['O',
 'Hobbit',
 '-',
 '7ª',
 'Ed',
 '.',
 '2013',
 'Produto',
 'NovoBilbo',
 'Bolseiro',
 'é',
 'um',
 'hobbit',
 'que']

In [15]:
df['tokens'] = df.texto.apply(word_tokenize) # aplica a tokenização no campo texto

df[["tokens","texto"]].head(2)

Unnamed: 0,tokens,texto
0,"[O, Hobbit, -, 7ª, Ed, ., 2013, Produto, NovoB...",O Hobbit - 7ª Ed. 2013 Produto NovoBilbo Bol...
1,"[Livro, -, It, A, Coisa, -, Stephen, King, Pro...",Livro - It A Coisa - Stephen King Produto No...


In [None]:
'''
pd.set_option('display.max_colwidth', -1) # habilita a descrição completa do conteúdo das colunas
df[["tokens","texto"]].head(2)
pd.reset_option('display.max_colwidth')
'''

In [16]:
from nltk.tag import pos_tag

df['tags'] = df.tokens.apply(pos_tag, tagset='universal')

df.tags.head()

0    [(O, NOUN), (Hobbit, NOUN), (-, .), (7ª, NUM),...
1    [(Livro, NOUN), (-, .), (It, PRON), (A, DET), ...
2    [(Box, NOUN), (As, ADP), (Crônicas, NOUN), (De...
3    [(Box, NOUN), (Harry, NOUN), (Potter, NOUN), (...
4    [(Livro, NOUN), (Origem, NOUN), (-, .), (Dan, ...
Name: tags, dtype: object

In [17]:
df.tags[0]

[('O', 'NOUN'),
 ('Hobbit', 'NOUN'),
 ('-', '.'),
 ('7ª', 'NUM'),
 ('Ed', 'NOUN'),
 ('.', '.'),
 ('2013', 'NUM'),
 ('Produto', 'NOUN'),
 ('NovoBilbo', 'NOUN'),
 ('Bolseiro', 'NOUN'),
 ('é', 'NOUN'),
 ('um', 'ADJ'),
 ('hobbit', 'NOUN'),
 ('que', 'ADJ'),
 ('leva', 'NOUN'),
 ('uma', 'ADJ'),
 ('vida', 'NOUN'),
 ('confortável', 'NOUN'),
 ('e', 'NOUN'),
 ('sem', 'NOUN'),
 ('ambições', 'NOUN'),
 ('.', '.'),
 ('Mas', 'NOUN'),
 ('seu', 'VERB'),
 ('contentamento', 'ADJ'),
 ('é', 'NOUN'),
 ('perturbado', 'NOUN'),
 ('quando', 'NOUN'),
 ('Gandalf', 'NOUN'),
 (',', '.'),
 ('o', 'NOUN'),
 ('mago', 'NOUN'),
 (',', '.'),
 ('e', 'X'),
 ('uma', 'ADJ'),
 ('companhia', 'NOUN'),
 ('de', 'ADP'),
 ('anões', 'X'),
 ('batem', 'NOUN'),
 ('à', 'NOUN'),
 ('sua', 'NOUN'),
 ('porta', 'NOUN'),
 ('e', 'VERB'),
 ('levam-no', 'ADJ'),
 ('para', 'NOUN'),
 ('uma', 'ADJ'),
 ('expedição', 'NOUN'),
 ('.', '.'),
 ('Eles', 'NOUN'),
 ('têm', 'VERB'),
 ('um', 'ADJ'),
 ('plano', 'NOUN'),
 ('para', 'NOUN'),
 ('roubar', 'NOUN'),
 ('

In [19]:
from collections import Counter
counter = Counter()

counter['a'] += 2
counter

counter.update('a')
counter.update('b')
counter

Counter({'a': 3, 'b': 1})

In [20]:
tags = df.tags[1]
print(tags)
print(" ")

for word, tag in tags[:5]:
  print("word: ", word, " tag: ", tag)

[('Livro', 'NOUN'), ('-', '.'), ('It', 'PRON'), ('A', 'DET'), ('Coisa', 'NOUN'), ('-', '.'), ('Stephen', 'NOUN'), ('King', 'NOUN'), ('Produto', 'NOUN'), ('NovoDurante', 'NOUN'), ('as', 'ADP'), ('férias', 'ADJ'), ('escolares', 'NOUN'), ('de', 'ADP'), ('1958', 'NUM'), (',', '.'), ('em', 'X'), ('Derry', 'NOUN'), (',', '.'), ('pacata', 'NOUN'), ('cidadezinha', 'NOUN'), ('do', 'VERB'), ('Maine', 'NOUN'), (',', '.'), ('Bill', 'NOUN'), (',', '.'), ('Richie', 'NOUN'), (',', '.'), ('Stan', 'NOUN'), (',', '.'), ('Mike', 'NOUN'), (',', '.'), ('Eddie', 'NOUN'), (',', '.'), ('Ben', 'NOUN'), ('e', 'VERB'), ('Beverly', 'NOUN'), ('aprenderam', 'NOUN'), ('o', 'NOUN'), ('real', 'ADJ'), ('sentido', 'NOUN'), ('da', 'NOUN'), ('amizade', 'NOUN'), (',', '.'), ('do', 'VERB'), ('amor', 'ADV'), (',', '.'), ('da', 'NOUN'), ('confiança', 'NOUN'), ('e', 'NOUN'), ('...', '.'), ('do', 'VERB'), ('medo', 'NOUN'), ('.', '.'), ('O', 'NOUN'), ('mais', 'VERB'), ('profundo', 'ADJ'), ('e', 'NOUN'), ('tenebroso', 'NOUN'), ('

In [21]:
from collections import Counter

counter = Counter()

for tags in df.tags:
  for word, tag in tags:
    counter[tag] += 1

print('Verbos', counter.get('VERB'))
print('Adjetivos', counter.get('ADJ'))

Verbos 41770
Adjetivos 50788


In [None]:
'''
# para quem quiser entender como funciona a lógica, segue a mesma lógica usando print para mapear os passos
from collections import Counter
counter = Counter()
for tags in df.tags:
  print("tags: ", tags)
  for word, tag in tags:
    counter[tag] += 1
    print("word: ", word, " tag: ", tag)
print('Verbos', counter.get('VERB'))
print('Adjetivos', counter.get('ADJ'))
'''

In [22]:
counter.get('NOUN') # SUBSTANTIVO

357181

In [23]:
counter

Counter({'.': 89103,
         'ADJ': 50788,
         'ADP': 18205,
         'ADV': 3652,
         'CONJ': 1189,
         'DET': 15421,
         'NOUN': 357181,
         'NUM': 24064,
         'PRON': 282,
         'PRT': 1824,
         'VERB': 41770,
         'X': 38967})

De/Para do POS Tag com o tagset='universal':

- NOUN (nouns / substantivos)
- VERB (verbs / verbos)
- ADJ (adjectives / adjetivos)
- ADV (adverbs / advérbios)
- PRON (pronouns / pronomes)
- DET (determiners and articles / determinantes e artigos)
- ADP (prepositions and postpositions / preposições e postposições)
- NUM (numerals / numerais)
- CONJ (conjunctions / conjunções)
- PRT (particles / partículas)
- . (punctuation marks / sinais de pontuação)
- X (a catch-all for other categories such as abbreviations or foreign words / um exemplo geral para outras categorias, como abreviações ou palavras estrangeiras)

## Aplicar Stemmer em uma frase

In [None]:
import pandas as pd
df = pd.read_csv("https://dados-ml-pln.s3-sa-east-1.amazonaws.com/produtos.csv", delimiter=";", encoding='utf-8')

df.info()
df.dropna(inplace=True) # exclui registros com valores faltantes no própro objeto. inplace=False retorna uma cópia sem alterar o objeto.
df.info()

df["texto"] = df['nome'] + " " + df['descricao'] # cria uma nova culuna com os valores concatenados

from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
df['tokens'] = df.texto.apply(word_tokenize)

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem.rslp import RSLPStemmer
import nltk
nltk.download('rslp')

tokens = df.tokens[0]

ps = PorterStemmer()
rslp = RSLPStemmer()

for tok in tokens:
  print('PorterStemmer: %s \t\t RSLPStemmer: %s' % (ps.stem(tok), rslp.stem(tok)))

## Quantos unigramas existem após aplicar Stemmer?

In [None]:
', '.join(['Anderson', 'Dourado'])

'Anderson,Dourado'

In [None]:
from nltk.stem.rslp import RSLPStemmer
import nltk
nltk.download('rslp')

rslp = RSLPStemmer()

def stem_pandas(line):
  return ' '.join([rslp.stem(token) for token in line])

df['stemmer'] = df.tokens.apply(stem_pandas)

df.stemmer.head()

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

vect = CountVectorizer(ngram_range=(1,1), stop_words=stopwords)
vect.fit(df.stemmer)

text_vect = vect.transform(df.stemmer)

print('UNIGRAMAS sem STOPWORDS', text_vect.shape[1])

Comparando com o primeiro exercício => UNIGRAMAS sem STOPWORDS 35310

NLTK = Natural Language Tool Kit

RSLP = Removedor de Sulfixos da Língua Portuguesa
