 # Construindo um Classificador de Texto Avançado usando Python
 Neste artigo, vamos explorar como construir um classificador de texto avançado usando Python. O classificador utiliza técnicas de processamento de texto e aprendizado de máquina para realizar a classificação de frases em diferentes categorias. Vamos dar uma olhada no código e entender como ele funciona passo a passo.
 ## Pré-processamento de Texto
 O primeiro passo é pré-processar o texto para prepará-lo para a classificação. O código utiliza as bibliotecas  `re` ,  `demoji`  e  `nltk`  para remover emojis, caracteres especiais e números, além de converter o texto para minúsculas. Também são removidas as stopwords e aplicada a técnica de stemming para reduzir as palavras à sua forma básica.
 ## Carregando e Preparando os Dados
 Os dados de treinamento são carregados em um DataFrame do pandas. O código divide os dados em conjuntos de treinamento e teste. Em seguida, aplica a técnica de oversampling para lidar com o desbalanceamento das classes no conjunto de treinamento.
 ## Construindo o Modelo
 O modelo é construído utilizando uma combinação de diferentes classificadores, como regressão logística, floresta aleatória, SVM, boosting e XGBoost. Esses classificadores são combinados em um modelo de votação para melhorar a precisão da classificação. O código utiliza a biblioteca  `sklearn`  para implementar os classificadores e o modelo de votação.
 ## Avaliando o Modelo
 Após treinar o modelo, é feita a avaliação utilizando os dados de teste. O código calcula a acurácia, a matriz de confusão e o relatório de classificação do modelo. Essas métricas ajudam a entender o desempenho do classificador e a identificar possíveis melhorias.
 ## Conclusão
 Neste artigo, exploramos como construir um classificador de texto avançado usando Python. O código utiliza técnicas de pré-processamento de texto e aprendizado de máquina para realizar a classificação de frases. O modelo é construído com uma combinação de classificadores e é avaliado utilizando métricas de desempenho. Essa abordagem pode ser aplicada em uma variedade de problemas de classificação de texto, como análise de sentimentos, categorização de documentos e muito mais.
 Espero que este artigo tenha sido útil para entender como construir um classificador de texto avançado. Sinta-se à vontade para explorar o código e adaptá-lo para suas necessidades específicas. O código completo pode ser encontrado no [repositório GitHub](https://github.com/seu-usuario/nome-do-repositorio).
 Obrigado por ler e boa sorte em seus projetos de classificação de texto!

In [4]:
import pandas as pd
import re
import demoji
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from imblearn.over_sampling import RandomOverSampler
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
nltk.download('stopwords')

# TextClassifier Class
class TextClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer(ngram_range=(1, 3))
        self.classifiers = {
            'Logistic Regression': LogisticRegression(),
            'Random Forest': RandomForestClassifier(),
            'Random Forest with Balanced Classes': RandomForestClassifier(class_weight='balanced'),
            'SVM': SVC(),
            'Gradient Boosting': GradientBoostingClassifier(),
            'XGBoost': XGBClassifier()
        }
        self.ensemble_model = VotingClassifier(estimators=list(self.classifiers.items()), voting='hard')
        
    def preprocess_text(self, text):
        # Remove emojis
        text = demoji.replace(text, '')
        # Remove special characters and numbers
        text = re.sub(r'[^\w\s]', '', text)
        # Convert to lowercase
        text = text.lower()
        # Remove stopwords and apply stemming
        stop_words = set(stopwords.words('english'))
        ps = PorterStemmer()
        words = text.split()
        words = [ps.stem(w) for w in words if w not in stop_words]
        text = ' '.join(words)
        return text
    
    def preprocess_and_train(self, df_train):
        X_train = df_train['Frases'].apply(self.preprocess_text)
        y_train = df_train['Classes']
        
        # Apply RandomOverSampler to handle class imbalance
        ros = RandomOverSampler(random_state=42)
        X_train_resampled, y_train_resampled = ros.fit_resample(X_train.to_frame(), y_train)
        pipeline = Pipeline([
            ('vectorizer', self.vectorizer),
            ('classifier', self.ensemble_model)
        ])
        params = {
            'classifier__Logistic Regression__C': [0.1, 1, 10],
            'classifier__Random Forest__n_estimators': [50, 100, 200],
            'classifier__Random Forest__max_depth': [None, 5, 10],
            'classifier__Random Forest with Balanced Classes__n_estimators': [50, 100, 200],
            'classifier__Random Forest with Balanced Classes__max_depth': [None, 5, 10],
            'classifier__SVM__C': [0.1, 1, 10],
            'classifier__SVM__kernel': ['linear', 'rbf', 'sigmoid'],
            'classifier__Gradient Boosting__n_estimators': [50, 100, 200],
            'classifier__Gradient Boosting__learning_rate': [0.01, 0.1, 0.2],
            'classifier__XGBoost__n_estimators': [50, 100, 200],
            'classifier__XGBoost__learning_rate': [0.01, 0.1, 0.2]
        }
            
         # Check the number of unique classes in the resampled target variable
        num_classes = len(set(y_train_resampled))
        
         # Choose the minimum between the number of classes and 5 (desired n_splits)
        n_splits = min(num_classes, 5)
        
         # Use StratifiedKFold with the selected n_splits
        cv = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=42)
        gs_model = GridSearchCV(pipeline, params, cv=cv)
        gs_model.fit(X_train_resampled.squeeze(), y_train_resampled)
        self.ensemble_model = gs_model.best_estimator_
        
    def evaluate(self, X_test, y_test):
        X_test_preprocessed = X_test.apply(self.preprocess_text)
        y_pred_ensemble = self.ensemble_model.predict(X_test_preprocessed)
        print("Ensemble Model Metrics:")
        print("Accuracy:", accuracy_score(y_test, y_pred_ensemble))
        print("Classification Report:")
        print(classification_report(y_test, y_pred_ensemble, zero_division=1))
        print("Confusion Matrix:")
        print(confusion_matrix(y_test, y_pred_ensemble))
        print("="*50)
        return y_pred_ensemble
    
# Example usage
# Load your training data into a pandas DataFrame 'df_train'
# Split the data into 'X_train', 'y_train', 'X_test', 'y_test'
# text_classifier = TextClassifier()
# text_classifier.preprocess_and_train(df_train)
# text_classifier.evaluate(X_test, y_test)



[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
pip install demoji

Collecting demoji
  Downloading demoji-1.1.0-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.9/42.9 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: demoji
Successfully installed demoji-1.1.0
Note: you may need to restart the kernel to use updated packages.
