# Questao 1

In [17]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_files
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline


def carregar_dados_imdb():
    """Carrega o dataset de reviews positivos e negativos do IMDb."""
    reviews_train = load_files("aclImdb/train/", categories=['pos', 'neg'], encoding='utf-8', random_state=42)
    reviews_test = load_files("aclImdb/test/", categories=['pos', 'neg'], encoding='utf-8', random_state=42)
    return reviews_train.data, reviews_train.target, reviews_test.data, reviews_test.target


def redimensionar_texto_tfidf(textos_treino, vetor_config):
    """Converte texto em matriz TF-IDF e retorna a forma (dimensão) e o vetorizador."""
    vetor = TfidfVectorizer(**vetor_config)
    matriz = vetor.fit_transform(textos_treino)
    print(f"\n[1] Redimensionamento de features com TF-IDF:")
    print(f"- Número de documentos: {matriz.shape[0]}")
    print(f"- Número de features (palavras/ngramas): {matriz.shape[1]}")
    print(f"- Primeiras 10 features: {vetor.get_feature_names_out()[:10]}")
    return vetor, matriz


X_train, y_train, X_test, y_test = carregar_dados_imdb()

vetor_config = {"min_df": 5, "stop_words": "english", "ngram_range": (1, 2)}
vetor, matriz = redimensionar_texto_tfidf(X_train, vetor_config)


[1] Redimensionamento de features com TF-IDF:
- Número de documentos: 20476
- Número de features (palavras/ngramas): 66970
- Primeiras 10 features: ['00' '000' '000 00' '000 000' '000 budget' '000 feet' '000 year'
 '000 years' '007' '01']


# Questao 2


In [22]:
def exibir_extremos_tfidf(vetor, textos_treino, top_n=10):
    """Exibe as features com os maiores e menores valores máximos de TF-IDF no conjunto de treino."""
    matriz_tfidf = vetor.transform(textos_treino)
    max_tfidf = matriz_tfidf.max(axis=0).toarray().ravel()
    feature_names = np.array(vetor.get_feature_names_out())
    indices_ordenados = max_tfidf.argsort()[::-1]

    print(f"\n[1.5] Top {top_n} features com maiores valores de TF-IDF:")
    for idx in indices_ordenados[:top_n]:
        print(f"{feature_names[idx]}: {max_tfidf[idx]:.4f}")

    print(f"\n[1.5] Top {top_n} features com menores valores de TF-IDF:")
    for idx in indices_ordenados[-top_n:]:
        print(f"{feature_names[idx]}: {max_tfidf[idx]:.4f}")


exibir_extremos_tfidf(vetor, X_train)



[1.5] Top 10 features com maiores valores de TF-IDF:
pokemon: 0.8860
doodlebops: 0.8533
casper: 0.8497
raj: 0.8227
dev: 0.8164
zizek: 0.8116
darkman: 0.8074
demons: 0.7975
joan: 0.7857
zatoichi: 0.7837

[1.5] Top 10 features com menores valores de TF-IDF:
seven dwarfs: 0.0668
enrico ratso: 0.0656
snake like: 0.0651
supposed budget: 0.0650
horace: 0.0647
scene stealing: 0.0639
vampire cloak: 0.0639
intercontinental: 0.0629
literally br: 0.0600
stubbornly: 0.0596


# Questão 3:


In [14]:
from sklearn.preprocessing import Normalizer
from sklearn import datasets
import numpy as np

iris = datasets.load_iris()


Features Originais (primeiras 5 observações):
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

Features Normalizadas (L2, primeiras 5 observações):
 [[0.80377277 0.55160877 0.22064351 0.0315205 ]
 [0.82813287 0.50702013 0.23660939 0.03380134]
 [0.80533308 0.54831188 0.2227517  0.03426949]
 [0.80003025 0.53915082 0.26087943 0.03478392]
 [0.790965   0.5694948  0.2214702  0.0316386 ]]

Norma L2 da primeira observação normalizada: 12.247448713915889
