### Libraries

In [24]:
import warnings
warnings.filterwarnings('ignore')
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn import preprocessing
from sklearn import metrics
from sklearn.model_selection import train_test_split 
import numpy as np
import pandas as pd
import time
from sklearn.ensemble import RandomForestClassifier

### Opening Dataset

In [11]:
path = "C:/PMON2021-NLP"
file = "DATASET_CLEAN.csv"

DATASET = pd.read_csv(path + file, error_bad_lines=False, delimiter=';')
DATASET.head(4)

Unnamed: 0,RELATOCLIENTE,PROBLEMA,RELATOCLIENTE_CLEAN
0,cliente entrou em contato informando que está ...,Queda / Intermitência,cliente entrou contato informando esta sem sin...
1,CLIENTE COM QUEDAS REALIZEI OS TESTE E ENCAMIN...,Queda / Intermitência,cliente com quedas realizei teste encaminhei s...
2,"Cliente reclama de quedas e intermitência , pr...",Queda / Intermitência,cliente reclama quedas intermitencia procedime...
3,CLIENTE INFORMA QUE INTERNET ESTA COM QUEDAS H...,Queda / Intermitência,cliente informa internet esta com quedas mais ...


### Exemple using TF-IDF

In [29]:
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = train_test_split( DATASET["RELATOCLIENTE_CLEAN"] ,
                                                    DATASET["PROBLEMA"], 
                                                    train_size=0.80, random_state=28)

encoder = preprocessing.LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.fit_transform(y_test)


vectorizer = TfidfVectorizer()
X_train_v = vectorizer.fit_transform(X_train.apply(str))
X_test_v = vectorizer.transform(X_test.apply(str))

ini = time.time()

rf = RandomForestClassifier(n_estimators=50, random_state=1)
rf.fit(X_train_v, y_train)
Y_previsto_RF = rf.predict(X_test_v)

fim = time.time()
print( "Tempo de execução: {:.2f} segundos".format(fim-ini) )

# Análise da previsão
p_ac = metrics.accuracy_score(y_test, np.floor( Y_previsto_RF) )
print("Acurácia: {:.4f}".format(p_ac) ) 

Tempo de execução: 0.06 segundos
Acurácia: 0.6667


In [22]:
X_train

269    cliente reclama nao esta batendo valor contrat...
120                            cliente massiva sem prazo
1      cliente com quedas realizei teste encaminhei s...
280           cliente informa esta com baixa velocidade 
9      cliente informa esta sem conexao feito procedi...
                             ...                        
259    cliente possui telefone respondeu mensagem rec...
32     averiguei algum problema massiva pedi cliente ...
278                    teste dow ping teste dow up ping 
5      procedimentos realizados cliente reclamando qu...
257    cliente informa esta com banda larga bastante ...
Name: RELATOCLIENTE_CLEAN, Length: 150, dtype: object

### sparse matrix

In [23]:
X_train_v

<150x572 sparse matrix of type '<class 'numpy.float64'>'
	with 2028 stored elements in Compressed Sparse Row format>

### Exemple using CountVectorizer 

In [30]:
import warnings
warnings.filterwarnings('ignore')

def cv(data):
    count_vectorizer = CountVectorizer()

    emb = count_vectorizer.fit_transform(data)

    return emb, count_vectorizer


list_corpus = DATASET["RELATOCLIENTE_CLEAN"].tolist()
list_labels = DATASET["PROBLEMA"].tolist()

X_train, X_test, y_train, y_test = train_test_split(list_corpus, list_labels, train_size=0.80, 
                                                                                random_state=28)

X_train_v, count_vectorizer = cv(X_train)
X_test_v = count_vectorizer.transform(X_test)

encoder = preprocessing.LabelEncoder()
y_train = encoder.fit_transform(y_train)
y_test = encoder.fit_transform(y_test)


ini = time.time()

rf = RandomForestClassifier(n_estimators=50, random_state=1)
rf.fit(X_train_v, y_train)
Y_previsto_RF = rf.predict(X_test_v)

fim = time.time()
print( "Tempo de execução: {:.2f} segundos".format(fim-ini) )

# Análise da previsão
p_ac = metrics.accuracy_score(y_test, np.floor( Y_previsto_RF) )
print("Acurácia: {:.4f}".format(p_ac) ) 

Tempo de execução: 0.06 segundos
Acurácia: 0.6000


In [33]:
X_train_v

<240x732 sparse matrix of type '<class 'numpy.int64'>'
	with 3252 stored elements in Compressed Sparse Row format>