# Processamento de Linguagem Natural

O objetivo do PLN é fornecer aos computadores a capacidade de entender e compor textos. “Entender” um texto significa reconhecer o contexto, fazer análise sintática, semântica, léxica e morfológica, criar resumos, extrair informação, interpretar os sentidos, analisar sentimentos e até aprender conceitos com os textos processados.


Neste notebook, exploraremos dois problemas clássicos de PLN: `classificação de texto` e `agrupamento de tópicos`;

### Bibliotecas Auxiliares

In [21]:
import pandas as pd
from re import sub

from numpy import asarray
import matplotlib.pyplot as plt

from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
from nltk.stem import PorterStemmer 
from nltk import download

from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import TfidfVectorizer

from warnings import filterwarnings

filterwarnings('ignore')
download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/thaisalmeida/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Prática I : Identificação de Fake News

<img src="https://media.giphy.com/media/26n6ziTEeDDbowBkQ/giphy.gif"/>

### Carregando base de dados

In [12]:
fake_set = pd.read_csv('datasets/fakenews_silverman.csv')
real_set = pd.read_csv('datasets/realnews_silverman.csv')

In [13]:
print(f'|fake news| = {fake_set.shape[0]} samples \n|legitimate news| = {real_set.shape[0]} samples')

|fake news| = 467 samples 
|legitimate news| = 467 samples


In [14]:
fake_set.head(3)

Unnamed: 0,headline,main_content,label
0,AUSTRALIA: 600-POUND WOMAN GIVES BIRTH TO 40-P...,Perth | A 600-pound woman has given birth to a...,0
1,Jonathan S. Geller,Apple has been hard at work on multiple upcomi...,0
2,Amazon Is Opening a Brick-and-Mortar Store in ...,"Amazon, the cyber store that sells everything,...",0


In [15]:
real_set.head(3)

Unnamed: 0,headline,main_content,label
0,Apple’s next major Mac revealed: the radically...,Apple is preparing an all-new MacBook Air for ...,1
1,Report: A Radically Redesigned 12-Inch MacBook...,Everyone's been waiting years and years for a ...,1
2,Apple may launch 12-inch MacBook Air with Reti...,Apple would never lower itself to rubbing elbo...,1


In [16]:
news_list = pd.concat([fake_set['headline'],real_set['headline']], axis=0, ignore_index=True)
target_list = pd.concat([fake_set['label'],real_set['label']], axis=0, ignore_index=True)

print(f'|corpus| = {news_list.shape[0]} samples')

|corpus| = 934 samples


In [17]:
# Limpeza de dados + Engenharia de Atributos...

In [None]:
# Engenharia de Atributos + Classificação de Texto....

### Desafio:

- Criar um modelo de identificação de notícias falsas utilizando o `conteúdo` das notícias representado por `bigramas` ponderados por TF-IDF.

<img height="50" width="300" src="https://media.giphy.com/media/l2YWs1NexTst9YmFG/giphy.gif"/>

## Prática II : Agrupamento em Tópicos

### Carregando base de dados

In [2]:
fake_set = pd.read_csv('datasets/fakenews_silverman.csv')
real_set = pd.read_csv('datasets/realnews_silverman.csv')

In [3]:
print(f'|fake news| = {fake_set.shape[0]} samples \n|legitimate news| = {real_set.shape[0]} samples')

|fake news| = 467 samples 
|legitimate news| = 467 samples


In [6]:
news_list = pd.concat([fake_set['headline'],real_set['headline']], axis=0, ignore_index=True)
target_list = pd.concat([fake_set['label'],real_set['label']], axis=0, ignore_index=True)

print(f'|corpus| = {news_list.shape[0]} samples')

|corpus| = 934 samples


In [7]:
# Limpeza de dados + Engenharia de Atributos...

In [8]:
# Visualização....

In [9]:
# Agrupamento de tópicos...

### Referências:

- https://www.amazon.com.br/Express%C3%B5es-Regulares-Uma-Abordagem-Divertida/dp/8575223372
- Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto. Recuperação de Informação-: Conceitos e Tecnologia das Máquinas de Busca. Bookman Editora, 2013.
- https://medium.com/botsbrasil/o-que-%C3%A9-o-processamento-de-linguagem-natural-49ece9371cff