In [None]:
def generate_word_sentence_features(df : pd.DataFrame,column = 'texto') -> pd.DataFrame:
    """
    Extrai algumas features básicas dos textos

    Esse método extrai alguma features dos textos, como contagem de palavras, contagem de palavras únicas 
    e contagem de sentenças
    
    Args:
        df: datafame que contém as redações 
        column: nome da coluna que conterá os textos
    """

    df['word_count'] = df[column].apply(lambda x: word_count(x))
    df['unique_word_count'] = df[column].apply(lambda x: word_count_unique(x))
    df['sentence_count'] = df[column].apply(lambda x: sentence_count(x))
    
    return df

In [None]:
def fit_vectorizer(df_train: pd.DataFrame) -> pickle:
    """
    Método responsável por usar o conjunto de treino para treinar o vetorizador de textos 

    O método recebe um dataframe contendo as redações que foram selecionadas para o conjunto de treino
    e a partir dessas redações cria um vocabulário, o método então usa esse vocabulário
     para treinar um vetorizador do tipo TF-IDF 

    Args:
        df_train: conjunto de redações que foram selecionadas para treino
    """
    ## obtém a lista de textos do conjunto usado para treinar o vetorizador
    lista = list(df_train['texto'])

    dicio_tf_idf = {}

    for count in TF_IDF_MAX_FEATURES:
        ## cria o vetorizador que utiliza TF-IDF
        tv = TfidfVectorizer(min_df = 10,max_features=count)

        ## treina o vetorizador com o conjunto fornecido para treino
        vectorizer_vez = tv.fit(lista)

        key = "TF_IDF_" + str(count)

        # prepara o dicionário para versionamento
        dicio_tf_idf[key] = vectorizer_vez
    
    return dicio_tf_idf

In [None]:
def vectorize_all(df_train: pd.DataFrame,df_test: pd.DataFrame,model : pickle) -> tuple:
    """
        Método responsavel por vetorizar os conjuntos de treino e teste

        O método usa o vetorizador TD-IDF treinado anteriormente com o conjunto de treino 
        para vetorizar, tanto o conjunto de treino, quanto o conjunto de teste.
        Além de vetorizar esses conjuntos, o método também separa os três tipos de texto.
        Cabe pontuar que nessa exploração inicial, nosso pipeline somente está trabalhando com o primeiro tipo 
        de texto, mas estamos nos preparando para trabalhar com os outros tipos de texto 

        Args:
            df_train: conjunto de redações de treino
            df_test: conjunto de redações de teste
            model: vetorizador treinado anteriormente
    
    """

    df_train,df_train_list = vectorize_data(df_train,model)
    df_test,df_test_list = vectorize_data(df_test,model)

   

    return df_train_list,df_test_list