Esse Notebook será dedicado a experimentar como os modelos classicos aprendem com os dados youtube e spotify.

* Primeiro será feito um teste com os modelos sem nenhum ajuste previo para entender como tão prevendo os dados em primeiro momento.

* Em segundo momento será testado como o modelo a idade dos dados ta afetenado prever dados de 3 diferentes faixas de tempo.

In [37]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

In [55]:
from sklearn.linear_model import  LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor
import xgboost as xgb

# Tratamento dos dados

In [3]:
spotify_youtube_pt1 = pd.read_csv("Dados/spotify_youtube_up_pt1.csv")
spotify_youtube_pt2 = pd.read_csv("Dados/spotify_youtube_up_pt2.csv")

In [4]:
data_extracao = pd.to_datetime("2023-02-07")
spotify_youtube_pt1["upload_date"] = pd.to_datetime(spotify_youtube_pt1["upload_date"])
spotify_youtube_pt1["dias_na_plataforma"] = (data_extracao - spotify_youtube_pt1["upload_date"]).dt.days

spotify_youtube_pt2["upload_date"] = pd.to_datetime(spotify_youtube_pt2["upload_date"])
spotify_youtube_pt2["dias_na_plataforma"] = (data_extracao - spotify_youtube_pt2["upload_date"]).dt.days

In [5]:
spotify_youtube = pd.concat([spotify_youtube_pt1,spotify_youtube_pt2])

In [6]:
spotify_youtube_dummies= pd.get_dummies(spotify_youtube,columns=['Album_type'], dtype=int)

In [7]:
spotify_youtube_dummies['artist_number'] = spotify_youtube_dummies['Artist'].str.split(',').str.len()
spotify_youtube_dummies['engagement_rate'] = spotify_youtube_dummies.apply(lambda row: (row['Likes'] + row['Comments']) / row['Views'] * 100 if row['Views'] > 0 else 0, axis=1)

In [10]:
columns_drop=['Unnamed: 0', 'Artist', 'Url_spotify', 'Track', 'Album', 'Uri','Url_youtube', 'Title', 'Channel', 'Views', 'Likes','Comments', 'Description', 'Licensed', 'official_video', 'upload_date',]
spotify_youtube_df=spotify_youtube_dummies.drop(columns=columns_drop)

In [11]:
spotify_youtube_limpo=spotify_youtube_df.dropna(subset=['Danceability','Energy','Key','Loudness','Speechiness','Acousticness', 'Instrumentalness','Liveness','Valence','Tempo','Duration_ms','Stream','engagement_rate'])

# Preparação dos dados para os experimentos

In [14]:
youtube_30_df=spotify_youtube_limpo[spotify_youtube_limpo['dias_na_plataforma']<31]
youtube_90_df=spotify_youtube_limpo[spotify_youtube_limpo['dias_na_plataforma']<91]
youtube_365_df=spotify_youtube_limpo[spotify_youtube_limpo['dias_na_plataforma']<366]

In [15]:
spotify_youtube_df_366_more = spotify_youtube_limpo.drop(youtube_365_df.index)
spotify_youtube_df_91_365 = youtube_365_df.drop(youtube_90_df.index)
spotify_youtube_df_31_90 = youtube_365_df.drop(youtube_30_df.index)

In [26]:
youtube_30_df_x = youtube_30_df.drop('engagement_rate',axis=1)
youtube_30_df_y = youtube_30_df['engagement_rate']

spotify_youtube_df_31_90_x = spotify_youtube_df_31_90.drop('engagement_rate',axis=1)
spotify_youtube_df_31_90_y = spotify_youtube_df_31_90['engagement_rate']

spotify_youtube_df_91_365_x = spotify_youtube_df_91_365.drop('engagement_rate',axis=1)
spotify_youtube_df_91_365_y = spotify_youtube_df_91_365['engagement_rate']

spotify_youtube_df_366_more_x = spotify_youtube_df_366_more.drop('engagement_rate',axis=1)
spotify_youtube_df_366_more_y = spotify_youtube_df_366_more['engagement_rate']

In [33]:
spotify_youtube_30X_train, spotify_youtube_30X_test, spotify_youtube_30y_train, spotify_youtube_30y_test = train_test_split(youtube_30_df_x, youtube_30_df_y, test_size=0.25, random_state=42)
spotify_youtube_df_31_90X_train, spotify_youtube_df_31_90X_test, spotify_youtube_df_31_90y_train, spotify_youtube_df_31_90y_test = train_test_split(spotify_youtube_df_31_90_x, spotify_youtube_df_31_90_y, test_size=0.25, random_state=42)
spotify_youtube_df_91_365X_train, spotify_youtube_df_91_365X_test, spotify_youtube_df_91_365y_train, spotify_youtube_df_91_365y_test = train_test_split(spotify_youtube_df_91_365_x, spotify_youtube_df_91_365_y, test_size=0.25, random_state=42)

In [34]:
# Dados de treino 
sy_x_train=pd.concat([spotify_youtube_30X_train,spotify_youtube_df_31_90X_train,spotify_youtube_df_91_365X_train,spotify_youtube_df_366_more_x])
sy_y_train=pd.concat([spotify_youtube_30y_train,spotify_youtube_df_31_90y_train,spotify_youtube_df_91_365y_train,spotify_youtube_df_366_more_y])

In [35]:
# Para testar o desempenho do modelo com videos com ate 30 dias
sy_30_x_test=spotify_youtube_30X_test
sy_30_y_test=spotify_youtube_30y_test

# Para testar o desempenho do modelo com videos com ate 90 dias
sy_90_x_test=pd.concat([spotify_youtube_30X_test,spotify_youtube_df_31_90X_test])
sy_90_y_test=pd.concat([spotify_youtube_30y_test,spotify_youtube_df_31_90y_test])

# Para testar o desempenho do modelo com videos com ate 1 ano
sy_365_x_test=pd.concat([spotify_youtube_30X_test,spotify_youtube_df_31_90X_test,spotify_youtube_df_91_365X_test])
sy_365_y_test=pd.concat([spotify_youtube_30y_test,spotify_youtube_df_31_90y_test,spotify_youtube_df_91_365y_test])

# Primeira esperimento com os dados

## Regressão com Random Forest

In [None]:
rf = RandomForestRegressor(n_estimators=100, random_state=42) # Random Forest

In [41]:
# Treinamento
rf.fit(sy_x_train,sy_y_train)

In [None]:
# Predição
predictions_30_days_rf=rf.predict(sy_30_x_test)# 30 dias
predictions_90_days_rf=rf.predict(sy_90_x_test)# 90 dias
predictions_365_days_rf=rf.predict(sy_365_x_test)# 365 dias

In [45]:
# Erro quadratico medio para 30 dias
mse_30_days = mean_squared_error(sy_30_y_test, predictions_30_days_rf)

# Calculo Desvio padrão
squared_errors_30_days = (sy_30_y_test - predictions_30_days_rf) ** 2
std_mse_30_days = np.std(squared_errors_30_days)

print(f'Erro quadrático médio para músicas com até 30 dias: {mse_30_days:.4f}, desvio padrão: {std_mse_30_days:.4f}')

Erro quadrático médio para músicas com até 30 dias: 3.6842, desvio padrão: 6.5005


In [46]:
# Erro quadratico medio para 90 dias
mse_90_days = mean_squared_error(sy_90_y_test, predictions_90_days_rf)

# Calculo Desvio padrão
squared_errors_90_days = (sy_90_y_test - predictions_90_days_rf) ** 2
std_mse_90_days = np.std(squared_errors_90_days)

print(f'Erro quadrático médio para músicas com até 90 dias: {mse_90_days:.4f}, desvio padrão: {std_mse_90_days:.4f}')

Erro quadrático médio para músicas com até 90 dias: 1.3242, desvio padrão: 4.6820


In [49]:
# Erro quadratico medio para 365 dias
mse_365_days = mean_squared_error(sy_365_y_test, predictions_365_days_rf)

# Calculo Desvio padrão
squared_errors_365_days = (sy_365_y_test - predictions_365_days_rf) ** 2
std_mse_365_days = np.std(squared_errors_365_days)

print(f'Erro quadrático médio para músicas com até 365 dias: {mse_365_days:.4f}, desvio padrão: {std_mse_365_days:.4f}')

Erro quadrático médio para músicas com até 365 dias: 0.9873, desvio padrão: 3.9446


## Regressão com logistic regressor

In [57]:
lin_reg = LinearRegression() # Regressor logistico

In [58]:
# Treinamento
lin_reg.fit(sy_x_train, sy_y_train)

In [59]:
# Predição
predictions_30_days_lin=lin_reg.predict(sy_30_x_test)# 30 dias
predictions_90_days_lin=lin_reg.predict(sy_90_x_test)# 90 dias
predictions_365_days_lin=lin_reg.predict(sy_365_x_test)# 365 dias

In [60]:
# Erro quadratico medio para 30 dias
mse_30_days = mean_squared_error(sy_30_y_test, predictions_30_days_lin)

# Calculo Desvio padrão
squared_errors_30_days = (sy_30_y_test - predictions_30_days_lin) ** 2
std_mse_30_days = np.std(squared_errors_30_days)

print(f'Erro quadrático médio para músicas com até 30 dias: {mse_30_days:.4f}, desvio padrão: {std_mse_30_days:.4f}')

Erro quadrático médio para músicas com até 30 dias: 8.0881, desvio padrão: 12.4980


In [61]:
# Erro quadratico medio para 90 dias
mse_90_days = mean_squared_error(sy_90_y_test, predictions_90_days_lin)

# Calculo Desvio padrão
squared_errors_90_days = (sy_90_y_test - predictions_90_days_lin) ** 2
std_mse_90_days = np.std(squared_errors_90_days)

print(f'Erro quadrático médio para músicas com até 90 dias: {mse_90_days:.4f}, desvio padrão: {std_mse_90_days:.4f}')

Erro quadrático médio para músicas com até 90 dias: 3.0575, desvio padrão: 20.1997


In [62]:
# Erro quadratico medio para 365 dias
mse_365_days = mean_squared_error(sy_365_y_test, predictions_365_days_lin)

# Calculo Desvio padrão
squared_errors_365_days = (sy_365_y_test - predictions_365_days_lin) ** 2
std_mse_365_days = np.std(squared_errors_365_days)

print(f'Erro quadrático médio para músicas com até 365 dias: {mse_365_days:.4f}, desvio padrão: {std_mse_365_days:.4f}')

Erro quadrático médio para músicas com até 365 dias: 2.6087, desvio padrão: 18.4174


## Regressão com XGBoost

In [63]:
xgb_reg = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, learning_rate=0.1, random_state=42) # xbg para regressão

In [64]:
# Treinamento
xgb_reg.fit(sy_x_train, sy_y_train)

In [65]:
# Predição
predictions_30_days_xgb=xgb_reg.predict(sy_30_x_test)# 30 dias
predictions_90_days_xgb=xgb_reg.predict(sy_90_x_test)# 90 dias
predictions_365_days_xgb=xgb_reg.predict(sy_365_x_test)# 365 dias

In [66]:
# Erro quadratico medio para 30 dias
mse_30_days = mean_squared_error(sy_30_y_test, predictions_30_days_xgb)

# Calculo Desvio padrão
squared_errors_30_days = (sy_30_y_test - predictions_30_days_xgb) ** 2
std_mse_30_days = np.std(squared_errors_30_days)

print(f'Erro quadrático médio para músicas com até 30 dias: {mse_30_days:.4f}, desvio padrão: {std_mse_30_days:.4f}')

Erro quadrático médio para músicas com até 30 dias: 4.0146, desvio padrão: 7.5191


In [67]:
# Erro quadratico medio para 90 dias
mse_90_days = mean_squared_error(sy_90_y_test, predictions_90_days_xgb)

# Calculo Desvio padrão
squared_errors_90_days = (sy_90_y_test - predictions_90_days_xgb) ** 2
std_mse_90_days = np.std(squared_errors_90_days)

print(f'Erro quadrático médio para músicas com até 90 dias: {mse_90_days:.4f}, desvio padrão: {std_mse_90_days:.4f}')

Erro quadrático médio para músicas com até 90 dias: 1.5730, desvio padrão: 4.8019


In [68]:
# Erro quadratico medio para 365 dias
mse_365_days = mean_squared_error(sy_365_y_test, predictions_365_days_xgb)

# Calculo Desvio padrão
squared_errors_365_days = (sy_365_y_test - predictions_365_days_xgb) ** 2
std_mse_365_days = np.std(squared_errors_365_days)

print(f'Erro quadrático médio para músicas com até 365 dias: {mse_365_days:.4f}, desvio padrão: {std_mse_365_days:.4f}')

Erro quadrático médio para músicas com até 365 dias: 1.3257, desvio padrão: 4.5124


## Regressão com MLP

In [75]:
mlp_reg = MLPRegressor(random_state=1, max_iter=2000, tol=0.001) # MLP para regressão

In [76]:
# Treinamento
mlp_reg.fit(sy_x_train, sy_y_train)

In [77]:
# Predição
predictions_30_days_mlp=mlp_reg.predict(sy_30_x_test)# 30 dias
predictions_90_days_mlp=mlp_reg.predict(sy_90_x_test)# 90 dias
predictions_365_days_mlp=mlp_reg.predict(sy_365_x_test)# 365 dias

In [79]:
# Erro quadratico medio para 30 dias
mse_30_days = mean_squared_error(sy_30_y_test, predictions_30_days_mlp)

# Calculo Desvio padrão
squared_errors_30_days = (sy_30_y_test - predictions_30_days_mlp) ** 2
std_mse_30_days = np.std(squared_errors_30_days)

print(f'Erro quadrático médio para músicas com até 30 dias: {mse_30_days:.4f}, desvio padrão: {std_mse_30_days:.4f}')

Erro quadrático médio para músicas com até 30 dias: 21739.3871, desvio padrão: 39962.9022


In [80]:
# Erro quadratico medio para 90 dias
mse_90_days = mean_squared_error(sy_90_y_test, predictions_90_days_mlp)

# Calculo Desvio padrão
squared_errors_90_days = (sy_90_y_test - predictions_90_days_mlp) ** 2
std_mse_90_days = np.std(squared_errors_90_days)

print(f'Erro quadrático médio para músicas com até 90 dias: {mse_90_days:.4f}, desvio padrão: {std_mse_90_days:.4f}')

Erro quadrático médio para músicas com até 90 dias: 18641.1335, desvio padrão: 43740.8588


In [81]:
# Erro quadratico medio para 365 dias
mse_365_days = mean_squared_error(sy_365_y_test, predictions_365_days_mlp)

# Calculo Desvio padrão
squared_errors_365_days = (sy_365_y_test - predictions_365_days_mlp) ** 2
std_mse_365_days = np.std(squared_errors_365_days)

print(f'Erro quadrático médio para músicas com até 365 dias: {mse_365_days:.4f}, desvio padrão: {std_mse_365_days:.4f}')

Erro quadrático médio para músicas com até 365 dias: 18140.2559, desvio padrão: 40125.7311
