In [None]:
import requests
import json

#insira sua chave da API do Youtube
API_KEY = "AIzaSyB8MZSRAlMuLkjLdqqU4G6THN4l7mnEUls"

# URL base da API
BASE_URL = "https://www.googleapis.com/youtube/v3"

# função para buscar informaçoes do canal
def get_channel_info(channel_id):
    url = f"{BASE_URL}/channels?part=snippet,statistics&id={channel_id}&key={API_KEY}"
    response = requests.get(url)
    data = response.json()
    return data

# Teste com ID de um canal
CHANNEL_ID = "UC9cz05xObaFpB8U72t73IFA"
info = get_channel_info(CHANNEL_ID)

# Exibir JSON formatado
print(json.dumps(info, indent=2))

In [None]:
def get_video_ids(channel_id):
    url = f"{BASE_URL}/search?key={API_KEY}&channelId={channel_id}&part=id&order=date&maxResults=50"
    response = requests.get(url)

    if response.status_code != 200:
        print(f"Erro na requisição: {response.status_code}, {response.text}")
        return []

    data = response.json()
    
    video_ids = []
    for item in data.get("items", []):
        if item["id"]["kind"] == "youtube#video":
            video_ids.append(item["id"]["videoId"])

    return video_ids

# Buscar os vídeos do canal
CHANNEL_ID = "UC9cz05xObaFpB8U72t73IFA"
video_ids = get_video_ids(CHANNEL_ID)

# Exibir os primeiros 5 IDs para conferir
print(video_ids[:5])

In [None]:
def get_video_details(video_ids):
    video_data = []

    for video_id in video_ids:
        url = f"{BASE_URL}/videos?part=snippet,statistics,contentDetails&id={video_id}&key={API_KEY}"
        response = requests.get(url).json()

        for item in response.get("items", []):
            video_info = {
                "video_id": item["id"],
                "title": item["snippet"]["title"],
                "description": item["snippet"]["description"],
                "published_at": item["snippet"]["publishedAt"],
                "views": int(item["statistics"].get("viewCount", 0)),
                "likes": int(item["statistics"].get("likeCount", 0)),
                "comments": int(item["statistics"].get("commentCount", 0)),
                "duration": item["contentDetails"]["duration"],
            }
            video_data.append(video_info)
    
    return video_data

# Buscar informações dos vídeos
video_details = get_video_details(video_ids)

# Exibir as informações do primeiro vídeo como teste
video_details[:1]

In [None]:
import pandas as pd

# Criar DataFrame com os dados coletados
df_videos = pd.DataFrame(video_details)

df_videos.head()

In [None]:
import datetime
import isodate

# Converter a data de publicação para formato datetime
df_videos["published_at"] = pd.to_datetime(df_videos["published_at"])

# Converter a duração para segundos
def parse_duration(duration):
    return isodate.parse_duration(duration).total_seconds()

df_videos["duration_sec"] = df_videos["duration"].apply(parse_duration)

# Exibir os dados convertidos
df_videos[["published_at", "duration", "duration_sec"]].head()

In [None]:
# Criar colunas para ano, mês, dia e dia da semana
df_videos["year"] = df_videos["published_at"].dt.year
df_videos["month"] = df_videos["published_at"].dt.month
df_videos["day"] = df_videos["published_at"].dt.day
df_videos["weekday"] = df_videos["published_at"].dt.day_name()

# Criar colunas para métricas de engajamento
df_videos["likes_per_view"] = df_videos["likes"] / df_videos["views"]
df_videos["comments_per_view"] = df_videos["comments"] / df_videos["views"]

# Exibir os dados processados
df_videos.head()

In [None]:
import matplotlib.pyplot as plt

# Contagem de vídeos por dia da semana
df_videos["weekday"].value_counts().plot(kind="bar", title="Vídeos Postados por Dia da Semana")
plt.show()

In [None]:
plt.scatter(df_videos["duration_sec"] / 60, df_videos["views"], alpha=0.5)
plt.xlabel("Duração (minutos)")
plt.ylabel("Visualizações")
plt.title("Relação entre Duração do Vídeo e Visualizações")
plt.show()

In [None]:
df_videos.plot(x="likes_per_view", y="comments_per_view", kind="scatter", title="Correlação entre Likes e Comentários")
plt.show()

In [None]:
df_videos["title_word_count"] = df_videos["title"].apply(lambda x: len(x.split()))

plt.scatter(df_videos["title_word_count"], df_videos["views"], alpha=0.5)
plt.xlabel("Número de Palavras no Título")
plt.ylabel("Visualizações")
plt.title("Relação entre Número de Palavras no Título e Visualizações")
plt.show()

In [None]:
from collections import Counter
import re

# Lista de palavras irrelevantes (pode ser ajustada conforme necessário)
stopwords = {"a", "o", "os", "as", "de", "da", "do", "dos", "das", "em", "para", 
             "por", "com", "um", "uma", "uns", "umas", "e", "ou", "se", "que", 
             "é", "na", "no", "nas", "nos", "como", "mais", "menos", "muito", 
             "pouco", "ser", "ter", "vai", "tá", "to", "vou"}

# Função para limpar o texto e contar palavras relevantes
def contar_palavras_relevantes(textos):
    palavras = []
    for texto in textos:
        palavras.extend(
            word for word in re.findall(r'\b\w+\b', texto.lower()) if word not in stopwords
        )  
    return Counter(palavras)

# Contar palavras relevantes nos títulos dos vídeos mais vistos (top 20%)
top_videos = df_videos.nlargest(int(len(df_videos) * 0.2), "views")
palavras_relevantes = contar_palavras_relevantes(top_videos["title"])

# Exibir as 10 palavras mais frequentes nos títulos dos vídeos de maior sucesso
palavras_relevantes.most_common(10)



In [None]:
# Lista de palavras irrelevantes (stopwords)
stopwords = {"a", "o", "os", "as", "de", "da", "do", "dos", "das", "em", "para", 
             "por", "com", "um", "uma", "uns", "umas", "e", "ou", "se", "que", 
             "é", "na", "no", "nas", "nos", "como", "mais", "menos", "muito", 
             "pouco", "ser", "ter", "vai", "tá", "to", "vou", "sobre", "essa", "esse",
             "isso", "isso", "todo", "toda", "todos", "todas", "neste", "nesta", "nesse"}

# Função para limpar o texto das descrições
def limpar_texto(texto):
    # Converter para minúsculas
    texto = texto.lower()
    # Remover URLs (https:// ou www.)
    texto = re.sub(r"http\S+|www\S+|https\S+", "", texto)
    # Remover hashtags e menções (@usuário)
    texto = re.sub(r"#\w+|@\w+", "", texto)
    # Remover caracteres especiais que não são palavras
    texto = re.sub(r"[^\w\s]", "", texto)
    return texto

# Função para contar palavras relevantes em descrições
def contar_palavras_relevantes_desc(textos):
    palavras = []
    for texto in textos:
        texto_limpo = limpar_texto(texto)
        palavras.extend(
            word for word in re.findall(r'\b\w+\b', texto_limpo) if word not in stopwords
        )
    return Counter(palavras)

# Contar palavras relevantes nas descrições dos vídeos mais vistos (top 20%)
palavras_relevantes_desc = contar_palavras_relevantes_desc(top_videos["description"])

# Exibir as 10 palavras mais frequentes nas descrições dos vídeos de maior sucesso
palavras_relevantes_desc.most_common(10)

In [134]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Configurar o TF-IDF
vectorizer_title = TfidfVectorizer(max_features=100)
vectorizer_desc = TfidfVectorizer(max_features=100)

# Transformar títulos e descrições
title_tfidf = vectorizer_title.fit_transform(df_videos["title"])
desc_tfidf = vectorizer_desc.fit_transform(df_videos["description"])

# Converter para DataFrame
df_title_tfidf = pd.DataFrame(title_tfidf.toarray(), columns=vectorizer_title.get_feature_names_out())
df_desc_tfidf = pd.DataFrame(desc_tfidf.toarray(), columns=vectorizer_desc.get_feature_names_out())

In [135]:
# Combinar TF-IDF com o DataFrame principal
df_model = pd.concat([df_videos, df_title_tfidf, df_desc_tfidf], axis=1)

# Selecionar as features que vamos usar para o modelo
features = df_model.drop(columns=["video_id", "title", "description", "published_at", "duration", "views"])
target = df_model["views"]

In [136]:
from sklearn.model_selection import train_test_split

# Dividir os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

In [137]:
X_train = X_train.apply(pd.to_numeric, errors='coerce')
X_test = X_test.apply(pd.to_numeric, errors='coerce')

In [138]:
X_train = X_train.fillna(0)
X_test = X_test.fillna(0)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Treinar o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R² Score: {r2}")

In [None]:
import numpy as np
rmse = np.sqrt(mse)
print(f"Root Mean Squared Error: {rmse}")

In [None]:
from sklearn.ensemble import RandomForestRegressor

model_rf = RandomForestRegressor(n_estimators=100, random_state=42)
model_rf.fit(X_train, y_train)

y_pred_rf = model_rf.predict(X_test)

mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Random Forest - MSE: {mse_rf}")
print(f"Random Forest - R² Score: {r2_rf}")

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model.fit(X_train_scaled, y_train)
y_pred_scaled = model.predict(X_test_scaled)

print(f"R² Score após normalização: {r2_score(y_test, y_pred_scaled)}")

In [None]:
import numpy as np

# Converter X_train e X_test para arrays NumPy
X_train = np.array(X_train)
X_test = np.array(X_test)

# Verificar se a conversão funcionou
print(type(X_train), X_train.shape)
print(type(X_test), X_test.shape)

In [None]:
from xgboost import XGBRegressor

# Criar o modelo XGBoost
model_xgb = XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42)

# Treinar o modelo
model_xgb.fit(X_train, y_train)

# Fazer previsões
y_pred_xgb = model_xgb.predict(X_test)

# Avaliar o modelo
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
r2_xgb = r2_score(y_test, y_pred_xgb)

print(f"XGBoost - MSE: {mse_xgb}")
print(f"XGBoost - R² Score: {r2_xgb}")

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

# Definir o modelo base
rf = RandomForestRegressor(random_state=42)

# Definir os hiperparâmetros a serem testados
param_grid = {
    "n_estimators": [50, 100, 200],
    "max_depth": [5, 10, 20],
    "min_samples_split": [2, 5, 10]
}

# Rodar o GridSearchCV
grid_search = GridSearchCV(rf, param_grid, cv=3, scoring="r2", verbose=1, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Melhor modelo encontrado
best_rf = grid_search.best_estimator_

# Avaliar o modelo otimizado
y_pred_rf_best = best_rf.predict(X_test)
mse_rf_best = mean_squared_error(y_test, y_pred_rf_best)
r2_rf_best = r2_score(y_test, y_pred_rf_best)

print(f"Melhor Random Forest - MSE: {mse_rf_best}")
print(f"Melhor Random Forest - R² Score: {r2_rf_best}")

In [None]:
models_results = {
    "Linear Regression": r2,
    "Random Forest": r2_rf,
    "Random Forest (Tuned)": r2_rf_best,
    "XGBoost": r2_xgb
}

for model, score in models_results.items():
    print(f"{model}: R² Score = {score:.4f}")

In [None]:
# Calcular o RMSE para cada modelo
rmse_xgb = np.sqrt(mse_xgb)
rmse_rf_best = np.sqrt(mse_rf_best)

print(f"XGBoost - RMSE: {rmse_xgb}")
print(f"Random Forest (Otimizado) - RMSE: {rmse_rf_best}")

In [None]:
from xgboost import XGBRegressor

# Ajustando hiperparâmetros manualmente
model_xgb_tuned = XGBRegressor(n_estimators=500, learning_rate=0.05, max_depth=8, subsample=0.8, colsample_bytree=0.8, random_state=42)

# Treinar o modelo
model_xgb_tuned.fit(X_train, y_train)

# Fazer previsões
y_pred_xgb_tuned = model_xgb_tuned.predict(X_test)

# Avaliar o modelo
mse_xgb_tuned = mean_squared_error(y_test, y_pred_xgb_tuned)
r2_xgb_tuned = r2_score(y_test, y_pred_xgb_tuned)

print(f"XGBoost (Otimizado) - MSE: {mse_xgb_tuned}")
print(f"XGBoost (Otimizado) - R² Score: {r2_xgb_tuned}")

In [None]:
import pandas as pd

# Exemplo de novo vídeo para previsão
novo_video = pd.DataFrame({
    "title": ["Treino de Hipertrofia para Iniciantes"],
    "description": ["Descubra o melhor treino para ganhar massa muscular! Assista agora e veja os melhores exercícios."],
    "duration_sec": [600],  # Duração do vídeo em segundos (exemplo: 10 minutos)
    "year": [2025],
    "month": [1],
    "day": [31],
    "weekday_Monday": [0],
    "weekday_Tuesday": [0],
    "weekday_Wednesday": [1],  # Supondo que será postado numa quarta-feira
    "weekday_Thursday": [0],
    "weekday_Friday": [0],
    "weekday_Saturday": [0],
    "weekday_Sunday": [0]
})

# Exibir o DataFrame do novo vídeo
novo_video

In [None]:
# Transformar o título e a descrição do novo vídeo para TF-IDF
novo_video_title_tfidf = vectorizer_title.transform(novo_video["title"]).toarray()
novo_video_desc_tfidf = vectorizer_desc.transform(novo_video["description"]).toarray()

# Converter para DataFrame
df_title_tfidf_novo = pd.DataFrame(novo_video_title_tfidf, columns=vectorizer_title.get_feature_names_out())
df_desc_tfidf_novo = pd.DataFrame(novo_video_desc_tfidf, columns=vectorizer_desc.get_feature_names_out())

# Juntar os dados numéricos com os TF-IDF
novo_video_model = pd.concat([novo_video.drop(columns=["title", "description"]), df_title_tfidf_novo, df_desc_tfidf_novo], axis=1)

# Exibir o DataFrame formatado para o modelo
novo_video_model

In [151]:
X_train = np.nan_to_num(X_train)  # Substitui NaNs por 0 diretamente no array NumPy
X_test = np.nan_to_num(X_test)

In [None]:
import requests
import json

#insira sua chave da API do Youtube
API_KEY = "AIzaSyB8MZSRAlMuLkjLdqqU4G6THN4l7mnEUls"

# URL base da API
BASE_URL = "https://www.googleapis.com/youtube/v3"

# função para buscar informaçoes do canal
def get_channel_info(channel_id):
    url = f"{BASE_URL}/channels?part=snippet,statistics&id={channel_id}&key={API_KEY}"
    response = requests.get(url)
    data = response.json()
    return data

# Teste com ID de um canal
CHANNEL_ID = "UC9cz05xObaFpB8U72t73IFA"
info = get_channel_info(CHANNEL_ID)

# Exibir JSON formatado
print(json.dumps(info, indent=2))

In [None]:
def get_video_ids(channel_id):
    url = f"{BASE_URL}/search?key={API_KEY}&channelId={channel_id}&part=id&order=date&maxResults=50"
    response = requests.get(url)

    if response.status_code != 200:
        print(f"Erro na requisição: {response.status_code}, {response.text}")
        return []

    data = response.json()
    
    video_ids = []
    for item in data.get("items", []):
        if item["id"]["kind"] == "youtube#video":
            video_ids.append(item["id"]["videoId"])

    return video_ids

# Buscar os vídeos do canal
CHANNEL_ID = "UC9cz05xObaFpB8U72t73IFA"
video_ids = get_video_ids(CHANNEL_ID)

# Exibir os primeiros 5 IDs para conferir
print(video_ids[:5])

In [None]:
def get_video_details(video_ids):
    video_data = []

    for video_id in video_ids:
        url = f"{BASE_URL}/videos?part=snippet,statistics,contentDetails&id={video_id}&key={API_KEY}"
        response = requests.get(url).json()

        for item in response.get("items", []):
            video_info = {
                "video_id": item["id"],
                "title": item["snippet"]["title"],
                "description": item["snippet"]["description"],
                "published_at": item["snippet"]["publishedAt"],
                "views": int(item["statistics"].get("viewCount", 0)),
                "likes": int(item["statistics"].get("likeCount", 0)),
                "comments": int(item["statistics"].get("commentCount", 0)),
                "duration": item["contentDetails"]["duration"]
            }
            video_data.append(video_info)
    
    return video_data

# Buscar informações dos vídeos
video_details = get_video_details(video_ids)

# Exibir as informações do primeiro vídeo como teste
video_details[:1]

In [None]:
import pandas as pd

# Criar DataFrame com os dados coletados
df_videos = pd.DataFrame(video_details)

df_videos.head()

In [None]:
import datetime
import isodate

# Converter a data de publicação para formato datetime
df_videos["published_at"] = pd.to_datetime(df_videos["published_at"])

# Converter a duração para segundos
def parse_duration(duration):
    return isodate.parse_duration(duration).total_seconds()

df_videos["duration_sec"] = df_videos["duration"].apply(parse_duration)

# Exibir os dados convertidos
df_videos[["published_at", "duration", "duration_sec"]].head()

In [None]:
# Criar colunas para ano, mês, dia e dia da semana
df_videos["year"] = df_videos["published_at"].dt.year
df_videos["month"] = df_videos["published_at"].dt.month
df_videos["day"] = df_videos["published_at"].dt.day
df_videos["weekday"] = df_videos["published_at"].dt.day_name()

# Criar colunas para métricas de engajamento
df_videos["likes_per_view"] = df_videos["likes"] / df_videos["views"]
df_videos["comments_per_view"] = df_videos["comments"] / df_videos["views"]

# Exibir os dados processados
df_videos.head()

In [None]:
import matplotlib.pyplot as plt

# Contagem de vídeos por dia da semana
df_videos["weekday"].value_counts().plot(kind="bar", title="Vídeos Postados por Dia da Semana")
plt.show()

In [None]:
plt.scatter(df_videos["duration_sec"] / 60, df_videos["views"], alpha=0.5)
plt.xlabel("Duração (minutos)")
plt.ylabel("Visualizações")
plt.title("Relação entre Duração do Vídeo e Visualizações")
plt.show()

In [None]:
df_videos.plot(x="likes_per_view", y="comments_per_view", kind="scatter", title="Correlação entre Likes e Comentários")
plt.show()

In [None]:
df_videos["title_word_count"] = df_videos["title"].apply(lambda x: len(x.split()))

plt.scatter(df_videos["title_word_count"], df_videos["views"], alpha=0.5)
plt.xlabel("Número de Palavras no Título")
plt.ylabel("Visualizações")
plt.title("Relação entre Número de Palavras no Título e Visualizações")
plt.show()

In [None]:
from collections import Counter
import re

# Lista de palavras irrelevantes (pode ser ajustada conforme necessário)
stopwords = {"a", "o", "os", "as", "de", "da", "do", "dos", "das", "em", "para", 
             "por", "com", "um", "uma", "uns", "umas", "e", "ou", "se", "que", 
             "é", "na", "no", "nas", "nos", "como", "mais", "menos", "muito", 
             "pouco", "ser", "ter", "vai", "tá", "to", "vou"}

# Função para limpar o texto e contar palavras relevantes
def contar_palavras_relevantes(textos):
    palavras = []
    for texto in textos:
        palavras.extend(
            word for word in re.findall(r'\b\w+\b', texto.lower()) if word not in stopwords
        )  
    return Counter(palavras)

# Contar palavras relevantes nos títulos dos vídeos mais vistos (top 20%)
top_videos = df_videos.nlargest(int(len(df_videos) * 0.2), "views")
palavras_relevantes = contar_palavras_relevantes(top_videos["title"])

# Exibir as 10 palavras mais frequentes nos títulos dos vídeos de maior sucesso
palavras_relevantes.most_common(10)



In [None]:
# Lista de palavras irrelevantes (stopwords)
stopwords = {"a", "o", "os", "as", "de", "da", "do", "dos", "das", "em", "para", 
             "por", "com", "um", "uma", "uns", "umas", "e", "ou", "se", "que", 
             "é", "na", "no", "nas", "nos", "como", "mais", "menos", "muito", 
             "pouco", "ser", "ter", "vai", "tá", "to", "vou", "sobre", "essa", "esse",
             "isso", "isso", "todo", "toda", "todos", "todas", "neste", "nesta", "nesse"}

# Função para limpar o texto das descrições
def limpar_texto(texto):
    # Converter para minúsculas
    texto = texto.lower()
    # Remover URLs (https:// ou www.)
    texto = re.sub(r"http\S+|www\S+|https\S+", "", texto)
    # Remover hashtags e menções (@usuário)
    texto = re.sub(r"#\w+|@\w+", "", texto)
    # Remover caracteres especiais que não são palavras
    texto = re.sub(r"[^\w\s]", "", texto)
    return texto

# Função para contar palavras relevantes em descrições
def contar_palavras_relevantes_desc(textos):
    palavras = []
    for texto in textos:
        texto_limpo = limpar_texto(texto)
        palavras.extend(
            word for word in re.findall(r'\b\w+\b', texto_limpo) if word not in stopwords
        )
    return Counter(palavras)

# Contar palavras relevantes nas descrições dos vídeos mais vistos (top 20%)
palavras_relevantes_desc = contar_palavras_relevantes_desc(top_videos["description"])

# Exibir as 10 palavras mais frequentes nas descrições dos vídeos de maior sucesso
palavras_relevantes_desc.most_common(10)

In [164]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Configurar o TF-IDF
vectorizer_title = TfidfVectorizer(max_features=100)
#vectorizer_desc = TfidfVectorizer(max_features=100)

# Transformar títulos e descrições
title_tfidf = vectorizer_title.fit_transform(df_videos["title"])
#desc_tfidf = vectorizer_desc.fit_transform(df_videos["description"])

# Converter para DataFrame
df_title_tfidf = pd.DataFrame(title_tfidf.toarray(), columns=vectorizer_title.get_feature_names_out())
#df_desc_tfidf = pd.DataFrame(desc_tfidf.toarray(), columns=vectorizer_desc.get_feature_names_out())

In [165]:
# Combinar TF-IDF com o DataFrame principal
#df_model = pd.concat([df_videos, df_title_tfidf, df_desc_tfidf], axis=1)
df_model = pd.concat([df_videos, df_title_tfidf], axis=1)

# Selecionar as features que vamos usar para o modelo
features = df_model.drop(columns=["video_id", "title", "description", "published_at", "duration", "views"])
target = df_model["views"]

In [166]:
from sklearn.model_selection import train_test_split

# Dividir os dados em treino e teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

In [167]:
X_train = X_train.apply(pd.to_numeric, errors='coerce')
X_test = X_test.apply(pd.to_numeric, errors='coerce')

In [168]:
X_train = X_train.fillna(0)
X_test = X_test.fillna(0)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Treinar o modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar o modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R² Score: {r2}")

In [None]:
import numpy as np
rmse = np.sqrt(mse)
print(f"Root Mean Squared Error: {rmse}")

In [None]:
from sklearn.ensemble import RandomForestRegressor

model_rf = RandomForestRegressor(n_estimators=100, random_state=42)
model_rf.fit(X_train, y_train)

y_pred_rf = model_rf.predict(X_test)

mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Random Forest - MSE: {mse_rf}")
print(f"Random Forest - R² Score: {r2_rf}")

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

model.fit(X_train_scaled, y_train)
y_pred_scaled = model.predict(X_test_scaled)

print(f"R² Score após normalização: {r2_score(y_test, y_pred_scaled)}")

In [None]:
import numpy as np

# Converter X_train e X_test para arrays NumPy
X_train = np.array(X_train)
X_test = np.array(X_test)

# Verificar se a conversão funcionou
print(type(X_train), X_train.shape)
print(type(X_test), X_test.shape)

In [None]:
from xgboost import XGBRegressor

# Criar o modelo XGBoost
model_xgb = XGBRegressor(n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42)

# Treinar o modelo
model_xgb.fit(X_train, y_train)

# Fazer previsões
y_pred_xgb = model_xgb.predict(X_test)

# Avaliar o modelo
mse_xgb = mean_squared_error(y_test, y_pred_xgb)
r2_xgb = r2_score(y_test, y_pred_xgb)

print(f"XGBoost - MSE: {mse_xgb}")
print(f"XGBoost - R² Score: {r2_xgb}")

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

# Definir o modelo base
rf = RandomForestRegressor(random_state=42)

# Definir os hiperparâmetros a serem testados
param_grid = {
    "n_estimators": [50, 100, 200],
    "max_depth": [5, 10, 20],
    "min_samples_split": [2, 5, 10]
}

# Rodar o GridSearchCV
grid_search = GridSearchCV(rf, param_grid, cv=3, scoring="r2", verbose=1, n_jobs=-1)
grid_search.fit(X_train, y_train)

# Melhor modelo encontrado
best_rf = grid_search.best_estimator_

# Avaliar o modelo otimizado
y_pred_rf_best = best_rf.predict(X_test)
mse_rf_best = mean_squared_error(y_test, y_pred_rf_best)
r2_rf_best = r2_score(y_test, y_pred_rf_best)

print(f"Melhor Random Forest - MSE: {mse_rf_best}")
print(f"Melhor Random Forest - R² Score: {r2_rf_best}")

In [None]:
models_results = {
    "Linear Regression": r2,
    "Random Forest": r2_rf,
    "Random Forest (Tuned)": r2_rf_best,
    "XGBoost": r2_xgb
}

for model, score in models_results.items():
    print(f"{model}: R² Score = {score:.4f}")

In [None]:
# Calcular o RMSE para cada modelo
rmse_xgb = np.sqrt(mse_xgb)
rmse_rf_best = np.sqrt(mse_rf_best)

print(f"XGBoost - RMSE: {rmse_xgb}")
print(f"Random Forest (Otimizado) - RMSE: {rmse_rf_best}")

In [None]:
from xgboost import XGBRegressor

# Ajustando hiperparâmetros manualmente
model_xgb_tuned = XGBRegressor(n_estimators=500, learning_rate=0.05, max_depth=8, subsample=0.8, colsample_bytree=0.8, random_state=42)

# Treinar o modelo
model_xgb_tuned.fit(X_train, y_train)

# Fazer previsões
y_pred_xgb_tuned = model_xgb_tuned.predict(X_test)

# Avaliar o modelo
mse_xgb_tuned = mean_squared_error(y_test, y_pred_xgb_tuned)
r2_xgb_tuned = r2_score(y_test, y_pred_xgb_tuned)

print(f"XGBoost (Otimizado) - MSE: {mse_xgb_tuned}")
print(f"XGBoost (Otimizado) - R² Score: {r2_xgb_tuned}")

In [None]:
import joblib

# Salvar o modelo treinado
joblib.dump(model_xgb_tuned, "modelo_xgb_tuned.pkl")

# Salvar os vetorizadores TF-IDF
joblib.dump(vectorizer_title, "vectorizer_title.pkl")
#joblib.dump(vectorizer_desc, "vectorizer_desc.pkl")

print("✅ Modelo e vetorizadores salvos com sucesso!")

In [None]:
import pandas as pd
import joblib

# Se X_train for um array NumPy, converta de volta para DataFrame
if isinstance(X_train, np.ndarray):
    X_train = pd.DataFrame(X_train, columns=features.columns)

# Salvar as colunas
joblib.dump(X_train.columns.tolist(), "X_train_columns.pkl")
print("✅ Colunas do X_train salvas!")