In [26]:
import pandas as pd 
import numpy as np
pd.set_option('display.max_colwidth', None)

In [27]:
# Tratamento de warning
import warnings
warnings.filterwarnings('ignore')

In [28]:
%store -r datatran

In [29]:
df = datatran

### An√°lise da causa do acidente, coluna de texto atrav√©s de Topic Modeling

In [30]:
df['causa_acidente'].unique()

array(['Manobra de mudan√ßa de faixa',
       'Acessar a via sem observar a presen√ßa dos outros ve√≠culos',
       'Rea√ß√£o tardia ou ineficiente do condutor',
       'Aus√™ncia de rea√ß√£o do condutor', 'Frear bruscamente',
       'Demais falhas mec√¢nicas ou el√©tricas', 'Transitar na contram√£o',
       'Condutor Dormindo', 'Velocidade Incompat√≠vel',
       'Entrada inopinada do pedestre',
       'Objeto est√°tico sobre o leito carro√ß√°vel',
       'Acumulo de √°gua sobre o pavimento', 'Pedestre andava na pista',
       'Ultrapassagem Indevida',
       'Trafegar com motocicleta (ou similar) entre as faixas',
       'Condutor deixou de manter dist√¢ncia do ve√≠culo da frente',
       'Pedestre cruzava a pista fora da faixa',
       'Ingest√£o de √°lcool pelo condutor', 'Problema com o freio',
       'Acesso irregular', 'Retorno proibido', 'Pista Escorregadia',
       'Desrespeitar a prefer√™ncia no cruzamento', 'Pista esburacada',
       'Convers√£o proibida', 'Avarias e/ou desga

### Tokeniza√ß√£o para remo√ß√£o de stopwords

In [31]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [8]:
# # Baixar dados necess√°rios do NLTK
# nltk.download('punkt')
# nltk.download('stopwords')

In [32]:
custom_stopwords = set(stopwords.words('portuguese')) | set([
    " ", "ou", "", "ok", "problema", "paciente", "necess√°rio", "feito", "w", "devido",
    "precisa", "dr", "op√ß√µes", "caso", "o", "x", "tentar", "ainda", "pr√≥ximo", "r",
    "d", "desde", "teste", "testando", "resultados", "recomendar", "pode", "por favor",
    "m√©dico", "normal", "seria", "discutido", "medicamento", "doen√ßa",
    "sugerido", "considerar", "sim", "prov√°vel", "cl√≠nico", "revis√£o",
    "interno", "tratar", "rever", "semana", "ensaio", "coment√°rio", "rec",
    "vai", "n√≥s", "oi", "ol√°", "cumprimento", "gostar", "saber", "sim", "certo",
    "amanh√£", "olhar", "dizer", "okay", "quilograma", "zoom", "link", "tudo bem"
])


In [33]:
# Tokenizar e remover stopwords
def process_text(text):
        tokens = word_tokenize(str(text).lower())  # Tokenizar e converter para min√∫sculas
        filtered_tokens = [word for word in tokens if word.isalnum() and word not in custom_stopwords]
        return " ".join(filtered_tokens)  # Reunir palavras filtradas em uma string

# Aplicar processamento ao DataFrame
df["palavras_filtradas"] = df["causa_acidente"].apply(process_text)

Lematiza√ß√£o e Radicaliza√ß√£o

üîπ Lema (Lemmatization): Processo de reduzir palavras √† sua forma base ou raiz, conhecida como lema.

üîπ Radical (Stemming): Redu√ß√£o de palavras √† sua forma raiz (stem) sem considerar regras gramaticais ou significado.



In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

def lemma_nltk(df):
    # Inicializar o the lemmatizer
    lemmatizer = WordNetLemmatizer()

    def get_wordnet_pos(word):
        """Map POS tag to first character lemmatize() accepts"""
        tag = nltk.pos_tag([word])[0][1][0].upper()
        tag_dict = {"J": wordnet.ADJ,
                    "N": wordnet.NOUN,
                    "V": wordnet.VERB,
                    "R": wordnet.ADV}
        return tag_dict.get(tag, wordnet.NOUN)

    def lemmatize_words(text):
        words = text.split()
        lemmatized_words = [lemmatizer.lemmatize(word, get_wordnet_pos(word)) for word in words]
        return ' '.join(lemmatized_words)

    # Aplicar lemmatization function a coluna do DataFrame
    df['lemma'] = df['palavras_filtradas'].apply(lemmatize_words)

    return df

In [36]:
%%time
df_lemma = lemma_nltk(df)

Wall time: 32.7 s


In [37]:
df_lemma[['palavras_filtradas', 'lemma']].head(10)

Unnamed: 0,palavras_filtradas,lemma
0,manobra mudan√ßa faixa,manobra mudan√ßa faixa
1,acessar via observar presen√ßa outros ve√≠culos,acessar via observar presen√ßa outros ve√≠culos
2,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor
3,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor
4,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor
5,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor
6,manobra mudan√ßa faixa,manobra mudan√ßa faixa
7,frear bruscamente,frear bruscamente
8,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor
9,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor


In [None]:
from nltk.stem import PorterStemmer

def stem_nltk_after_lemma(df):
    # Inicializar o stemmer
    stemmer = PorterStemmer()

    def stem_words(text):
        # Split do texto em palavras
        words = text.split()
        # Stem cada palavra
        stemmed_words = [stemmer.stem(word) for word in words]
        # Join as palavras apos o stemmed words de volta a uma single string
        return ' '.join(stemmed_words)

    # Aplica a stemming function ao DataFrame
    df['normalizado'] = df['lemma'].apply(stem_words)

    return df

In [39]:
%%time
df_final = stem_nltk_after_lemma(df_lemma)

Wall time: 1.27 s


In [40]:
df_final[['palavras_filtradas', 'lemma', 'normalizado']].head(10)

Unnamed: 0,palavras_filtradas,lemma,normalizado
0,manobra mudan√ßa faixa,manobra mudan√ßa faixa,manobra mudan√ßa faixa
1,acessar via observar presen√ßa outros ve√≠culos,acessar via observar presen√ßa outros ve√≠culos,acessar via observar presen√ßa outro ve√≠culo
2,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficient condutor
3,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficient condutor
4,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficient condutor
5,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor
6,manobra mudan√ßa faixa,manobra mudan√ßa faixa,manobra mudan√ßa faixa
7,frear bruscamente,frear bruscamente,frear bruscament
8,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficiente condutor,rea√ß√£o tardia ineficient condutor
9,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor,aus√™ncia rea√ß√£o condutor


In [41]:
df_final[df_final['lemma']==''].head(5)

Unnamed: 0,id,ano,feriado,mes,data_inversa,uf,br,km,municipio,causa_acidente,...,mortos,feridos_graves,latitude,longitude,status,regiao,periodo,palavras_filtradas,lemma,normalizado


### LDA (entendendo o algoritmo)

In [42]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import gensim
from gensim.models import CoherenceModel
from gensim.corpora.dictionary import Dictionary

In [43]:

def lda(df_final, topics, words, threshold):
    """
    Executa a **Latent Dirichlet Allocation (LDA)** em um DataFrame para identificar t√≥picos.

    **Par√¢metros:**
    df_final (DataFrame): O DataFrame de entrada contendo os dados de texto.
    topics (int): O n√∫mero de t√≥picos a identificar.
    words (int): O n√∫mero de palavras mais relevantes a serem exibidas para cada t√≥pico.

    **Retorna:**
    df_topics (DataFrame): O DataFrame de sa√≠da contendo os dados de texto.

    Esta fun√ß√£o divide o DataFrame em conjuntos de treino e teste, **vetoriza os dados de texto** usando **TF-IDF**, 
    ajusta um modelo LDA nos dados de treino e transforma os dados de teste. 
    Ela imprime o n√∫mero de linhas nos conjuntos de treino e teste, confirma a cria√ß√£o das matrizes correspondentes, 
    e indica a conclus√£o das fases de treinamento e teste.
    """

    # Separar o DataFrame em conjuntos de treino e teste
    train_df = df_final.sample(frac=0.7, random_state=42)
    test_df = df_final.drop(train_df.index)

    print(f"Contagem df treino: {len(train_df)}")
    print(f"Contagem df teste: {len(test_df)}")

    train_texts = train_df['normalizado'].tolist()
    test_texts = test_df['normalizado'].tolist()

    vectorizer = TfidfVectorizer()
    train_matrix = vectorizer.fit_transform(train_texts)
    test_matrix = vectorizer.transform(test_texts)

    print(f"Matrix de treino e testes criadas!")

    # Define o n√∫mero de t√≥picos e palavras dentro de cada t√≥pico
    num_topics = topics
    num_top_words = words

    # Cria√ß√£o LDA object
    lda = LatentDirichletAllocation(doc_topic_prior=0.5, learning_decay=0.5, learning_method='online', max_iter= 10, topic_word_prior=0.1, n_components=num_topics, random_state=42)

    # Fit do modelo na matrix de treino
    lda_matrix_train = lda.fit_transform(train_matrix)

    print(f"Treinamento completo!")

    # Transforma a matrix de teste
    lda_matrix_test = lda.transform(test_matrix)

    print(f"Teste completo!")

    # Obt√©m os termos de cada t√≥pico
    terms = vectorizer.get_feature_names_out()

    topics = []
    top_terms_dict = {}
    for idx, topic in enumerate(lda.components_):
        top_terms = [terms[i] for i in topic.argsort()[-num_top_words:]]
        topics.append((f"Topic {idx + 1}", ", ".join(top_terms)))
        top_terms_dict[idx] = ", ".join(top_terms)

    # Cria√ß√£o df com os t√≥picos
    df_topics = pd.DataFrame(topics, columns=["Topic", "Top Terms"])

    print(f"T√≥picos gerados!")

    # Teste de perplexidade
    perplexity = lda.perplexity(test_matrix)
    print(f'Perplexity: {perplexity}')
 
    # Prepara o dado para coherence model
    texts = [doc.split() for doc in test_texts]
    dictionary = Dictionary(texts)
    corpus = [dictionary.doc2bow(text) for text in texts]

    # Fit do modelo LDA usando gensim
    lda_model = gensim.models.LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=10)

    # C√°lculo coherence score
    coherence_model_lda = CoherenceModel(model=lda_model, texts=texts, dictionary=dictionary, coherence='c_v')
    coherence_score = coherence_model_lda.get_coherence()
    print(f'Coherence Score: {coherence_score}')

    # Atribue os t√≥picos para o df original
    # O par√¢metro de limite (threshold) √© utilizado para garantir que apenas t√≥picos com uma probabilidade acima do limite especificado sejam atribu√≠dos. Se a maior probabilidade estiver abaixo desse limite, o t√≥pico √© definido como -1, indicando que n√£o h√° uma atribui√ß√£o clara de t√≥pico. Essa abordagem pode ajudar a melhorar a precis√£o do mapeamento de t√≥picos.
    num_threshold = threshold
    topic_prob_matrix = lda.transform(vectorizer.transform(df_final['normalizado'].tolist()))
    df_final['Topic'] = np.where(topic_prob_matrix.max(axis=1) >= num_threshold, topic_prob_matrix.argmax(axis=1), -1)
    df_final['Top Terms'] = df_final['Topic'].map(lambda x: top_terms_dict.get(x, ''))

    return df_topics, df_final

In [47]:
%%time
df_topics, df_final = lda(df_final, 8, 6, 0.1)

Contagem df treino: 13996
Contagem df teste: 5999
Matrix de treino e testes criadas!
Treinamento completo!
Teste completo!
T√≥picos gerados!
Perplexity: 47.724964704056994
Coherence Score: 0.5833879736271982
Wall time: 1min 9s


In [49]:
df_final[['Topic', 'Top Terms']].drop_duplicates().sort_values(by='Topic', ascending=True)

Unnamed: 0,Topic,Top Terms
16,0,"tr√¢nsito, largura, insuficient, modifica√ß√£o, velocidad, incompat√≠vel"
0,1,"trafegar, similar, motocicleta, mudan√ßa, manobra, faixa"
2,2,"chuva, mal, condutor, rea√ß√£o, ineficient, tardia"
1,3,"outro, observar, acessar, presen√ßa, via, ve√≠culo"
17,4,"andava, cruzamento, prefer√™ncia, desrespeitar, pedestr, pista"
5,5,"mec√¢nica, falha, demai, condutor, rea√ß√£o, aus√™ncia"
12,6,"sobr, acostamento, ultrapassagem, indevida, contram√£o, transitar"
14,7,"animai, freio, √°lcool, ingest√£o, dormindo, condutor"


In [50]:
topico_para_categoria = {
    0: "Infra√ß√£o de Tr√¢nsito",
    1: "Obst√°culo ou Motocicleta envolvida",
    2: "Condutor rea√ß√£o tardia",
    3: "Manobra imprudente condutor",
    4: "Manobra imprudente condutor",
    5: "Problema mec√¢nico no ve√≠culo",
    6: "Acostamento ou Ultrapassagem",
    7: "Condutor sob efeito de subst√¢ncias",
}

Explorando os t√≥picos

In [51]:
df_final[df_final['normalizado'].str.contains('observar', na=False)][['causa_acidente','Topic', 'Top Terms', 'normalizado']].drop_duplicates()

Unnamed: 0,causa_acidente,Topic,Top Terms,normalizado
1,Acessar a via sem observar a presen√ßa dos outros ve√≠culos,3,"outro, observar, acessar, presen√ßa, via, ve√≠culo",acessar via observar presen√ßa outro ve√≠culo


In [52]:
df_final[df_final['normalizado'].str.contains('ineficient', na=False)][['Topic', 'Top Terms', 'normalizado']].drop_duplicates()

Unnamed: 0,Topic,Top Terms,normalizado
2,2,"chuva, mal, condutor, rea√ß√£o, ineficient, tardia",rea√ß√£o tardia ineficient condutor
1710,4,"andava, cruzamento, prefer√™ncia, desrespeitar, pedestr, pista",sistema drenagem ineficient


### Analisando Medidas de Acur√°cia

#### 1. Perplexity
A perplexidade √© uma medida de qu√£o bem um modelo probabil√≠stico prev√™ um conjunto de amostras. No contexto de LDA (Latent Dirichlet Allocation), valores mais baixos de perplexidade indicam um melhor ajuste aos dados.


#### 2. Coherence Score
A coer√™ncia mede a similaridade sem√¢ntica entre as palavras mais relevantes dentro dos t√≥picos. Pontua√ß√µes mais altas indicam t√≥picos de melhor qualidade. 

Um Coherence Score de 0.5329 indica que os t√≥picos gerados pelo modelo LDA possuem um n√≠vel razo√°vel de interpretabilidade e similaridade sem√¢ntica.
Interpreta√ß√£o da pontua√ß√£o:

- Acima de 0.5 ‚Üí Indica que os t√≥picos t√™m uma coer√™ncia moderada a boa, com palavras que fazem sentido juntas.
- Entre 0.6 e 0.8 ‚Üí Indica boa coer√™ncia sem√¢ntica, sugerindo que os t√≥picos est√£o bem agrupados e interpret√°veis.
- Acima de 0.8 ‚Üí Indica alta qualidade, onde os t√≥picos gerados s√£o claramente diferenci√°veis e t√™m forte significado sem√¢ntico.

üîπ Resultado (0.5329) sugere que os t√≥picos fazem sentido, mas ainda h√° espa√ßo para refinamento. Algumas melhorias que podem ser feitas para aumentar a coer√™ncia:

- Refinar o pr√©-processamento do texto ‚Üí Remover palavras irrelevantes ou normalizar melhor o texto.
- Ajustar o n√∫mero de t√≥picos ‚Üí Talvez reduzir ou aumentar um pouco os t√≥picos ajude na segmenta√ß√£o das palavras.
- Alterar hiperpar√¢metros do LDA ‚Üí Testar ajustes na alpha e beta, al√©m de aumentar o n√∫mero de itera√ß√µes.


### GRID SEARCH 

>- simplificado devido √† problemas de performance do micro

In [53]:
from utils.grid_search import grid_search

In [54]:
%%time
df_topics, df_final = grid_search(df_final)

Contagem df treino: 13996
Contagem df teste: 5999
Matrix de treino e testes criadas!
Fitting 2 folds for each of 32 candidates, totalling 64 fits
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=5, topic_word_prior=0.01; total time=   2.7s
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=5, topic_word_prior=0.01; total time=   2.7s
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=5, topic_word_prior=0.1; total time=   2.8s
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=5, topic_word_prior=0.1; total time=   2.7s
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=8, topic_word_prior=0.01; total time=   2.8s
[CV] END doc_topic_prior=0.1, learning_decay=0.3, learning_method=batch, max_iter=5, n_components=8, topic_word_prior=0.01; total time=   3.3

In [55]:
df_final[['Topic', 'Top Terms']].drop_duplicates().sort_values(by='Topic', ascending=True)

Unnamed: 0,Topic,Top Terms
2,0,"largura, curva, acentuada, incompat√≠vel, velocidad, tardia, ineficient, aus√™ncia, condutor, rea√ß√£o"
0,1,"cruzamento, prefer√™ncia, desrespeitar, trafegar, similar, motocicleta, freio, mudan√ßa, manobra, faixa"
14,2,"carga, s√∫bito, chuva, mal, √°lcool, ingest√£o, indevida, ultrapassagem, condutor, dormindo"
1,3,"presen√ßa, acessar, outro, observar, mec√¢nica, el√©trica, via, demai, falha, ve√≠culo"
12,4,"pneu, desgast, avaria, excessivo, animai, andava, acostamento, pista, contram√£o, transitar"


In [56]:
topico_para_categoria = {
    0: "Condutor rea√ß√£o tardia",
    1: "Infra√ß√£o de Tr√¢nsito",
    2: "Condutor sob efeitos de subst√¢ncias",
    3: "Problema mec√¢nico no ve√≠culo",
    4: "Manobra imprudente condutor"
}

In [57]:
df_final['Categoria'] = df_final['Topic'].map(topico_para_categoria)

In [58]:
df_final[['Categoria', 'Topic', 'Top Terms', 'normalizado']]

Unnamed: 0,Categoria,Topic,Top Terms,normalizado
0,Infra√ß√£o de Tr√¢nsito,1,"cruzamento, prefer√™ncia, desrespeitar, trafegar, similar, motocicleta, freio, mudan√ßa, manobra, faixa",manobra mudan√ßa faixa
1,Problema mec√¢nico no ve√≠culo,3,"presen√ßa, acessar, outro, observar, mec√¢nica, el√©trica, via, demai, falha, ve√≠culo",acessar via observar presen√ßa outro ve√≠culo
2,Condutor rea√ß√£o tardia,0,"largura, curva, acentuada, incompat√≠vel, velocidad, tardia, ineficient, aus√™ncia, condutor, rea√ß√£o",rea√ß√£o tardia ineficient condutor
3,Condutor rea√ß√£o tardia,0,"largura, curva, acentuada, incompat√≠vel, velocidad, tardia, ineficient, aus√™ncia, condutor, rea√ß√£o",rea√ß√£o tardia ineficient condutor
4,Condutor rea√ß√£o tardia,0,"largura, curva, acentuada, incompat√≠vel, velocidad, tardia, ineficient, aus√™ncia, condutor, rea√ß√£o",rea√ß√£o tardia ineficient condutor
...,...,...,...,...
19993,Problema mec√¢nico no ve√≠culo,3,"presen√ßa, acessar, outro, observar, mec√¢nica, el√©trica, via, demai, falha, ve√≠culo",acessar via observar presen√ßa outro ve√≠culo
19994,Condutor sob efeitos de subst√¢ncias,2,"carga, s√∫bito, chuva, mal, √°lcool, ingest√£o, indevida, ultrapassagem, condutor, dormindo",ingest√£o √°lcool condutor
19995,Infra√ß√£o de Tr√¢nsito,1,"cruzamento, prefer√™ncia, desrespeitar, trafegar, similar, motocicleta, freio, mudan√ßa, manobra, faixa",freio
19996,Problema mec√¢nico no ve√≠culo,3,"presen√ßa, acessar, outro, observar, mec√¢nica, el√©trica, via, demai, falha, ve√≠culo",condutor deixou manter dist√¢ncia ve√≠culo frent


### Salvando para o PowerBI

In [59]:
df_final.to_csv('./resultados/Data categorizado.csv', index=False, sep=';')