# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__MODELAGEM DE TÓPICOS COM NMF__</center>
#### <center>__Aluno:__ Cefras Mandú</center>

In [2]:
import sys
!{sys.executable} -m pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Using cached threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp311-cp311-win_amd64.whl (8.9 MB)
   ---------------------------------------- 0.0/8.9 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.9 MB ? eta -:--:--
   -------- ------------------------------- 1.8/8.9 MB 12.6 MB/s eta 0:00:01
   ------------------------------ --------- 6.8/8.9 MB 20.9 MB/s eta 0:00:01
   ---------------------------------------- 8.9/8.9 MB 19.1 MB/s  0:00:00
Using cached joblib-1.5.2-py3-none-any.whl (308 kB)
Using cached threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Installing collected packages: threadpoolctl, joblib, scikit-learn

   ------------- -------------------------- 1/3 [joblib]
   -

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

Este trabalho aborda a técnica de Modelagem de Tópicos (*Topic Modeling*), uma área do Processamento de Linguagem Natural (NLP). Utilizamos métodos numéricos de fatoração para descobrir temas abstratos ocultos em uma coleção de documentos de texto não rotulados.

<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

O problema consiste em organizar, entender e resumir grandes volumes de texto sem leitura humana direta. Dado um conjunto de documentos (corpus), o desafio é agrupar palavras que aparecem juntas frequentemente para formar "tópicos" e classificar cada documento com base nesses tópicos. É amplamente usado em análise de sentimentos, categorização de notícias e sistemas de busca jurídica.

<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

Aplicamos a **Fatoração de Matriz Não-Negativa (NMF)**. Diferente do SVD, o NMF decompõe a matriz de entrada $V$ (Documentos $\times$ Palavras) em duas matrizes $W$ e $H$ com a restrição de que nenhum elemento seja negativo.
$$V \approx WH$$
* **Por que é útil?** A restrição de não-negatividade torna o resultado interpretável. Como textos são compostos pela *soma* de significados (e não subtração), o NMF nos dá uma representação baseada em partes: $H$ mostra quais palavras compõem um tópico e $W$ mostra o peso desse tópico em cada documento.

Explicação do código:

1. Corpus de Texto
    
        documents = [
    
Esporte

        "O atacante chutou a bola no gol",              
    
Tech    

        "O processador do computador é rápido e ágil",  
    
Esporte

        "A torcida gritou gol no estádio",              
    
Tech

        "A inteligência artificial avança no software", 
    ]

2. Pré-processamento (TF-IDF)
    
        vectorizer = TfidfVectorizer()
        tfidf = vectorizer.fit_transform(documents)
        feature_names = vectorizer.get_feature_names_out()

3. Aplicação do NMF

Buscando 2 tópicos
    
        nmf = NMF(n_components=2, init='nndsvd', random_state=1).fit(tfidf)

4. Análise dos Resultados

        for topic_idx, topic in enumerate(nmf.components_):
            top_words = [feature_names[i] for i in topic.argsort()[:-4:-1]]
            print(f"Tópico {topic_idx}: {' '.join(top_words)}")

Classificando os documentos

        W = nmf.transform(tfidf)
        print("\nClassificação dos Documentos (Pesos):")
        print(W)

In [5]:
documents = [
    "O atacante chutou a bola no gol",              
    "O processador do computador é rápido e ágil",  
    "A torcida gritou gol no estádio",              
    "A inteligência artificial avança no software", 
]

vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(documents)
feature_names = vectorizer.get_feature_names_out()

nmf = NMF(n_components=2, init='nndsvd', random_state=1).fit(tfidf)

for topic_idx, topic in enumerate(nmf.components_):
    top_words = [feature_names[i] for i in topic.argsort()[:-4:-1]]
    print(f"Tópico {topic_idx}: {' '.join(top_words)}")

W = nmf.transform(tfidf)
print("\nClassificação dos Documentos (Pesos):")
print(W)

Tópico 0: no gol estádio
Tópico 1: ágil processador rápido

Classificação dos Documentos (Pesos):
[[0.69449633 0.        ]
 [0.         1.        ]
 [0.69449633 0.        ]
 [0.42660423 0.        ]]


