# Stack Exchange Question Classifier

In [25]:
import json
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB

### 1. Leitura e formatação dos dados

In [70]:
data = json.load(open('training.json'))

Para executar algoritmos de aprendizado de máquina, precisamos converter os arquivos de texto em vetores de features numéricas. Nós estaremos usando o modelo 'bag of words' para o nosso exemplo. Resumidamente, nós segmentamos cada arquivo de texto em palavras (dividido pelo espaço) e contamos o número de vezes que cada palavra ocorre em cada documento e finalmente atribuímos a cada palavra um ID inteiro. Cada palavra única no nosso dicionário irá corresponder a uma característica 

In [74]:
df = CountVectorizer(stop_words='english', strip_accents='unicode')
for line in data:
    data_test = [line['excerpt']]
    
for line in data:
    y = [line['topic']]

X_train = df.fit_transform(data_test)
X_train_counts.shape

Selecionando cada tipo de variável (features e target) do conjunto de dados. Apenas contar o número de palavras em cada documento tem um problema: ele dará mais peso a documentos mais longos do que documentos mais curtos. Para evitar isso, podemos usar a frequência (TF - Term Frequencies) e, também, podemos até reduzir o peso de palavras mais comuns (TF-IDF - Term Frequency times inverse document frequency).

In [77]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

(1, 1)

Existem vários algoritmos que podem ser usados para classificação de texto, vamos usar Naive Bayes do sklearn.

### 2. Treinamento

In [78]:
naive_bayes = MultinomialNB()
naive_bayes.fit(X, y)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

### 3. Teste

In [86]:
data_test = json.load(open('input/input00.txt'))

In [87]:
for line in data_test:
    test = [d['excerpt']]

X_test = df.transform(test)

In [98]:
y_test = list(open('output/output00.txt').read())

In [99]:
print y_test

['e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't', 'r', 'o', 'n', 'i', 'c', 's', '\n', 'e', 'l', 'e', 'c', 't'