# Classificação


* Classifica textos baseados em rótulos e dados inseridos previamente no treino, como entrada.

* Os rótulos são essenciais para a classificação.

* O modelo pode classificar por meio de uma árvore de decisão, ou por meio de uma visão vetorial, utilizando um plano cartesiano para separar os tipos por meio espacial, torulando os dados que ficam proximos entre si.


* O deep learning mistura as duas visões, porem sem a separação espacial por meio funções lineares.

### Explicabilidade


* Área de estudo que visa entender como o modelo funciona e como este toma decisão.

### Exp. Classificação

In [66]:
from sklearn.datasets import fetch_20newsgroups

In [67]:
ng_train = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

In [68]:
len(ng_train.data)

11314

In [69]:
ng_train.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [70]:
X = ng_train.data
Y = ng_train.target

### Vetorização dos documentos

* Representa cada documento e suas respectivas palavar em uma matriz esparsa, onde as linhas serão os documentos, e as colunas a  

In [71]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
X_vect = count_vect.fit_transform(X)


In [72]:
# O output indica o formato da vetorização, sendo o (número de documentos, pelo número de palavras). 
print(X_vect.shape)

# !!! a quantidade de palavras está muito grande pois não foi feito o pré processamento dos dados, portanto não está devidamente otimizado. 

(11314, 101631)


In [73]:
count_vect.get_feature_names()[95844]
#Funcao para identificar um palavra em um documento por seu id gerado a baixo



'was'

In [74]:
#Abaixo, sera printado o (documento, determinada palavra no documento) e a frequencia dessa palavra no documento.
print(X_vect)

  (0, 95844)	4
  (0, 97181)	1
  (0, 48754)	2
  (0, 18915)	2
  (0, 68847)	1
  (0, 88638)	1
  (0, 30074)	1
  (0, 37335)	1
  (0, 60560)	1
  (0, 68080)	2
  (0, 88767)	4
  (0, 25775)	4
  (0, 80623)	1
  (0, 88532)	6
  (0, 68781)	1
  (0, 31990)	1
  (0, 51326)	2
  (0, 34809)	1
  (0, 84538)	1
  (0, 57390)	1
  (0, 89360)	1
  (0, 21987)	1
  (0, 41715)	2
  (0, 55746)	1
  (0, 9843)	1
  :	:
  (11313, 40387)	1
  (11313, 81792)	1
  (11313, 81742)	1
  (11313, 96497)	1
  (11313, 89804)	1
  (11313, 23302)	1
  (11313, 82660)	1
  (11313, 85524)	1
  (11313, 70066)	1
  (11313, 21258)	1
  (11313, 62086)	1
  (11313, 71992)	1
  (11313, 87730)	1
  (11313, 84605)	1
  (11313, 61975)	1
  (11313, 26205)	1
  (11313, 71786)	1
  (11313, 78365)	1
  (11313, 89465)	1
  (11313, 56719)	1
  (11313, 54033)	1
  (11313, 26208)	1
  (11313, 52230)	1
  (11313, 4486)	1
  (11313, 96707)	1


### Multinomial Naive Bayes

* O Algoritimo de Naive Bayes, calcula a probabilidade de tal palavra aparecer em determinado rótulo.

* O multinomial se refere a múltiplas dimensões, ou seja, onde cada palavra possui uma dimensão referente.

In [75]:
from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB()

#Treino do modelo, passando os documentos devidamente vetorizados e os rótulos.
model.fit(X_vect, Y)

In [76]:
# Criacao de dois documentos para testar sse o modelo esta funcionando.
doc1 = 'The bible is on the dataset'
doc2 = 'The engine is on'

# Vetorizacao dos documentos acima para que o modelo aceite como entrada.
X_ex = count_vect.transform([doc1, doc2])

In [77]:
X_ex.shape

(2, 101631)

In [78]:
# Rotula os documentos baseado no que foi treinado.
model.predict(X_ex) 

# O doc1 sera da classe 15 e o doc2 da classe 7

array([15,  7])

In [79]:
print(ng_train.target_names[15])
print(ng_train.target_names[7])
 
# O doc1 e da classe religiao e o doc2 e da classe automovel.

soc.religion.christian
rec.autos
