In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from   sklearn.linear_model import LinearRegression
from   sklearn.metrics import r2_score
import statsmodels.api as sm
import os
from yellowbrick.regressor import ResidualsPlot
from scipy.stats import norm
from IPython.display import Markdown as md

In [2]:
# PANDAS OPTIONS
pd.set_option('display.max_columns', None)

In [3]:
# IMPORTA DATASET
df = pd.read_csv('datasets/custom/dataset_2.csv')

In [4]:
df

Unnamed: 0,ID da música,Duração (em minutos),Estimativa de popularidade nos EUA,Dançabilidade,Energia,Instrumentalidade,Ano de Lançamento,Escala musical,Música foi pulada no início,Música não foi pulada,Escutada em qual hora do dia
0,t_feb4ef97-cd30-4c33-9032-ef1f1a58d655,3.366444,99.835139,0.765982,0.761067,2.401338e-12,2017,Menor,Falso,Falso,9
1,t_7a7e4a76-7914-4d21-8773-6a54a0812de5,3.844000,99.982884,0.628740,0.736263,4.961319e-08,2016,Maior,Verdadeiro,Verdadeiro,14
2,t_f0db29da-fe13-472b-bfdf-d5a0bd783502,4.127111,99.973848,0.630953,0.749407,5.208510e-06,1971,Maior,Falso,Verdadeiro,22
3,t_c823babf-7191-49b0-ba86-48439914cc62,4.175238,99.447559,0.713650,0.619660,6.433872e-01,2015,Menor,Falso,Verdadeiro,16
4,t_93f9d8eb-6110-47d6-a1e4-6b6b9819f1d1,4.569333,99.791719,0.656329,0.654815,2.488995e-08,2016,Menor,Verdadeiro,Falso,14
...,...,...,...,...,...,...,...,...,...,...,...
1010,t_7067ad63-1ac7-4449-87be-cdec400112ce,2.780000,99.923580,0.698223,0.724418,5.838772e-06,2010,Maior,Verdadeiro,Falso,15
1011,t_5a48ea7d-3e94-41a3-aa43-22791103ae33,2.751129,99.983575,0.725614,0.387775,1.909367e-10,2015,Maior,Falso,Verdadeiro,14
1012,t_975a672f-67e2-4fb9-a007-dd197a26da22,4.634889,99.939557,0.320929,0.887347,2.335636e-07,2015,Maior,Falso,Falso,9
1013,t_0b0afb51-07bb-4fe0-a3b3-75c43d1884ae,1.750639,98.460405,0.795702,0.631768,3.346265e-07,2018,Menor,Verdadeiro,Verdadeiro,19


In [5]:
# Retira colunas que não serão utilizadas
df. drop('Estimativa de popularidade nos EUA', axis=1, inplace=True)
df. drop('Instrumentalidade', axis=1, inplace=True)
df

Unnamed: 0,ID da música,Duração (em minutos),Dançabilidade,Energia,Ano de Lançamento,Escala musical,Música foi pulada no início,Música não foi pulada,Escutada em qual hora do dia
0,t_feb4ef97-cd30-4c33-9032-ef1f1a58d655,3.366444,0.765982,0.761067,2017,Menor,Falso,Falso,9
1,t_7a7e4a76-7914-4d21-8773-6a54a0812de5,3.844000,0.628740,0.736263,2016,Maior,Verdadeiro,Verdadeiro,14
2,t_f0db29da-fe13-472b-bfdf-d5a0bd783502,4.127111,0.630953,0.749407,1971,Maior,Falso,Verdadeiro,22
3,t_c823babf-7191-49b0-ba86-48439914cc62,4.175238,0.713650,0.619660,2015,Menor,Falso,Verdadeiro,16
4,t_93f9d8eb-6110-47d6-a1e4-6b6b9819f1d1,4.569333,0.656329,0.654815,2016,Menor,Verdadeiro,Falso,14
...,...,...,...,...,...,...,...,...,...
1010,t_7067ad63-1ac7-4449-87be-cdec400112ce,2.780000,0.698223,0.724418,2010,Maior,Verdadeiro,Falso,15
1011,t_5a48ea7d-3e94-41a3-aa43-22791103ae33,2.751129,0.725614,0.387775,2015,Maior,Falso,Verdadeiro,14
1012,t_975a672f-67e2-4fb9-a007-dd197a26da22,4.634889,0.320929,0.887347,2015,Maior,Falso,Falso,9
1013,t_0b0afb51-07bb-4fe0-a3b3-75c43d1884ae,1.750639,0.795702,0.631768,2018,Menor,Verdadeiro,Verdadeiro,19


In [6]:
# Criando máscaras
variaveis_quantitativas = {
    'Duração (em minutos)',
    'Dançabilidade',
    'Energia',
    
}

variaveis_qualitativas = {
    'Ano de Lançamento',
    'Escala musical', 
    'Música foi pulada no início',
    'Música não foi pulada',
    'Escutada em qual hora do dia'
}

## Tentando encontrar linearidade entre uma variável dependente e 1 variável independente

In [7]:
for variavel_dependente in variaveis_quantitativas:
    variaveis_independentes = variaveis_quantitativas.copy()
    variaveis_independentes = variaveis_independentes.union(variaveis_qualitativas)
    variaveis_independentes.remove(variavel_dependente)
    melhor_modelo = None

    for variavel_independente in variaveis_independentes:  
        df_dummie = None
                
        if variavel_independente in variaveis_qualitativas:
            df_dummie = pd.get_dummies(data=df[variavel_independente], drop_first=True)

        X = df_dummie if df_dummie is not None else df[variavel_independente]                
        y = df[variavel_dependente]
        model = sm.OLS(y, X).fit()
        predictions = model.predict(X)
        current_r_squared = model.rsquared
        current_summary = model.summary()
                
        if melhor_modelo is None or melhor_modelo['r_squared'] < current_r_squared:
            melhor_modelo = {'variavel_dependente': variavel_dependente, 'variavel_independente': variavel_independente, 'r_squared': current_r_squared, 'summary': current_summary}
    
    print("\n\n\nVariável dependente: {}".format(melhor_modelo['variavel_dependente']))
    print("Variáveis independentes: {}".format(melhor_modelo['variavel_independente']))
    print("R-Squared: {}".format(melhor_modelo['r_squared']))
    print("\nSummary: {}".format(melhor_modelo['summary']))
    print('_______________________________________________________________________________________________________________________________________________________________________________')




Variável dependente: Duração (em minutos)
Variáveis independentes: Ano de Lançamento
R-Squared: 0.910414656186024

Summary:                                   OLS Regression Results                                 
Dep. Variable:     Duração (em minutos)   R-squared (uncentered):                   0.910
Model:                              OLS   Adj. R-squared (uncentered):              0.905
Method:                   Least Squares   F-statistic:                              170.8
Date:                  Mon, 26 Sep 2022   Prob (F-statistic):                        0.00
Time:                          20:58:32   Log-Likelihood:                         -1615.1
No. Observations:                  1015   AIC:                                      3344.
Df Residuals:                       958   BIC:                                      3625.
Df Model:                            57                                                  
Covariance Type:              nonrobust                        

In [8]:
for variavel_dependente in variaveis_quantitativas:
    variaveis_independentes = variaveis_quantitativas.copy()
    variaveis_independentes = variaveis_independentes.union(variaveis_qualitativas)
    variaveis_independentes.remove(variavel_dependente)
    melhor_modelo = None

    for variavel_independente in variaveis_independentes:  
        df_dummie = None
                
        if variavel_independente in variaveis_qualitativas:
            df_dummie = pd.get_dummies(data=df[variavel_independente], drop_first=True)

        X = df_dummie if df_dummie is not None else df[variavel_independente]                
        y = df[variavel_dependente]
        model = sm.OLS(y, X).fit()
        predictions = model.predict(X)
        current_r_squared = model.rsquared
        current_summary = model.summary()
                
        if melhor_modelo is None or melhor_modelo['r_squared'] < current_r_squared:
            melhor_modelo = {'variavel_dependente': variavel_dependente, 'variavel_independente': variavel_independente, 'r_squared': current_r_squared, 'summary': current_summary}
    
    print("\n\n\nVariável dependente: {}".format(melhor_modelo['variavel_dependente']))
    print("Variáveis independentes: {}".format(melhor_modelo['variavel_independente']))
    print("R-Squared: {}".format(melhor_modelo['r_squared']))
    print("\nSummary: {}".format(melhor_modelo['summary']))
    print('_______________________________________________________________________________________________________________________________________________________________________________')




Variável dependente: Duração (em minutos)
Variáveis independentes: Ano de Lançamento
R-Squared: 0.910414656186024

Summary:                                   OLS Regression Results                                 
Dep. Variable:     Duração (em minutos)   R-squared (uncentered):                   0.910
Model:                              OLS   Adj. R-squared (uncentered):              0.905
Method:                   Least Squares   F-statistic:                              170.8
Date:                  Mon, 26 Sep 2022   Prob (F-statistic):                        0.00
Time:                          20:58:32   Log-Likelihood:                         -1615.1
No. Observations:                  1015   AIC:                                      3344.
Df Residuals:                       958   BIC:                                      3625.
Df Model:                            57                                                  
Covariance Type:              nonrobust                        

## Tentando encontrar linearidade entre uma variável dependente e 2 variáveis independentes

In [9]:
for variavel_dependente in variaveis_quantitativas:
    variaveis_independentes = variaveis_quantitativas.copy()
    variaveis_independentes = variaveis_independentes.union(variaveis_qualitativas)
    variaveis_independentes.remove(variavel_dependente)
    melhor_modelo_2 = None

    for variavel_independente in variaveis_independentes:
        for variavel_independente_2 in variaveis_independentes:
            if variavel_independente == variavel_independente_2:
                continue
            else:
                df_dummie = None
                df_dummie_2 = None
                
                if variavel_independente in variaveis_qualitativas:
                    df_dummie = pd.get_dummies(data=df[variavel_independente], drop_first=True)
                if variavel_independente_2 in variaveis_qualitativas:
                    df_dummie_2 = pd.get_dummies(data=df[variavel_independente_2], drop_first=True)
                
                if df_dummie is not None and df_dummie_2 is not None:
                    X = pd.concat([df_dummie, df_dummie_2], axis=1, join='inner')
                
                elif df_dummie is not None and df_dummie_2 is None:
                    X = pd.concat([df_dummie, df[variavel_independente_2]], axis=1, join='inner')
                
                elif df_dummie is None and df_dummie_2 is not None:
                    X = pd.concat([df[variavel_independente], df_dummie_2], axis=1, join='inner')
                    
                else:
                    X = df[[variavel_independente, variavel_independente_2]]

                y = df[variavel_dependente]
                model = sm.OLS(y, X).fit()
                predictions = model.predict(X)
                current_r_squared = model.rsquared
                current_summary = model.summary()
                
                if melhor_modelo_2 is None or melhor_modelo_2['r_squared'] < current_r_squared:
                    melhor_modelo_2 = {'variavel_dependente': variavel_dependente, 'variavel_independente': variavel_independente, 'variavel_independente_2': variavel_independente_2, 'r_squared': current_r_squared, 'summary': current_summary}
    
    print("\n\n\nVariável dependente: {}".format(melhor_modelo_2['variavel_dependente']))
    print("Variáveis independentes: {}, {}".format(melhor_modelo_2['variavel_independente'], melhor_modelo_2['variavel_independente_2']))
    print("R-Squared: {}".format(melhor_modelo_2['r_squared']))
    print("\nSummary: {}".format(melhor_modelo_2['summary']))
    print('_______________________________________________________________________________________________________________________________________________________________________________')




Variável dependente: Duração (em minutos)
Variáveis independentes: Ano de Lançamento, Escutada em qual hora do dia
R-Squared: 0.9126478270014824

Summary:                                   OLS Regression Results                                 
Dep. Variable:     Duração (em minutos)   R-squared (uncentered):                   0.913
Model:                              OLS   Adj. R-squared (uncentered):              0.905
Method:                   Least Squares   F-statistic:                              122.1
Date:                  Mon, 26 Sep 2022   Prob (F-statistic):                        0.00
Time:                          20:58:33   Log-Likelihood:                         -1602.3
No. Observations:                  1015   AIC:                                      3365.
Df Residuals:                       935   BIC:                                      3758.
Df Model:                            80                                                  
Covariance Type:              no

## Tentando encontrar linearidade entre uma variável dependente e 3 variáveis independentes

In [10]:
for variavel_dependente in variaveis_quantitativas:
    variaveis_independentes = variaveis_quantitativas.copy()
    variaveis_independentes = variaveis_independentes.union(variaveis_qualitativas)
    variaveis_independentes.remove(variavel_dependente)
    melhor_modelo_3 = None

    for variavel_independente in variaveis_independentes:
        for variavel_independente_2 in variaveis_independentes:
            for variavel_independente_3 in variaveis_independentes:
                if variavel_independente == variavel_independente_2 or variavel_independente == variavel_independente_3 or variavel_independente_2 == variavel_independente_3:
                    continue
                else:
                    df_dummie = None
                    df_dummie_2 = None
                    df_dummie_3 = None

                    if variavel_independente in variaveis_qualitativas:
                        df_dummie = pd.get_dummies(data=df[variavel_independente], drop_first=True)
                    if variavel_independente_2 in variaveis_qualitativas:
                        df_dummie_2 = pd.get_dummies(data=df[variavel_independente_2], drop_first=True)
                    if variavel_independente_3 in variaveis_qualitativas:
                        df_dummie_3 = pd.get_dummies(data=df[variavel_independente_3], drop_first=True)
                    
                    df_x_1 = df_dummie if df_dummie is not None else df[variavel_independente]
                    df_x_2 = df_dummie_2 if df_dummie_2 is not None else df[variavel_independente_2]
                    df_x_3 = df_dummie_3 if df_dummie_3 is not None else df[variavel_independente_3]
                    

                    X = pd.concat([df_x_1, df_x_2, df_x_3], axis=1, join='inner')
                    y = df[variavel_dependente]
                    model = sm.OLS(y, X).fit()
                    predictions = model.predict(X)
                    current_r_squared = model.rsquared
                    current_summary = model.summary()
                
                    if melhor_modelo_3 is None or melhor_modelo_3['r_squared'] < current_r_squared:
                        melhor_modelo_3 = {'variavel_dependente': variavel_dependente, 'variavel_independente': variavel_independente, 'variavel_independente_2': variavel_independente_2, 'variavel_independente_3': variavel_independente_3, 'r_squared': current_r_squared, 'summary': current_summary}
    
    print("\n\n\nVariável dependente: {}".format(melhor_modelo_3['variavel_dependente']))
    print("Variáveis independentes: {}, {}, {}".format(melhor_modelo_3['variavel_independente'], melhor_modelo_3['variavel_independente_2'], melhor_modelo_3['variavel_independente_3']))
    print("R-Squared: {}".format(melhor_modelo_3['r_squared']))
    print("\nSummary: {}".format(melhor_modelo_3['summary']))
    print('_______________________________________________________________________________________________________________________________________________________________________________')




Variável dependente: Duração (em minutos)
Variáveis independentes: Ano de Lançamento, Dançabilidade, Escutada em qual hora do dia
R-Squared: 0.9141947712615515

Summary:                                   OLS Regression Results                                 
Dep. Variable:     Duração (em minutos)   R-squared (uncentered):                   0.914
Model:                              OLS   Adj. R-squared (uncentered):              0.907
Method:                   Least Squares   F-statistic:                              122.9
Date:                  Mon, 26 Sep 2022   Prob (F-statistic):                        0.00
Time:                          20:58:36   Log-Likelihood:                         -1593.2
No. Observations:                  1015   AIC:                                      3348.
Df Residuals:                       934   BIC:                                      3747.
Df Model:                            81                                                  
Covariance Type: 

## Tentando encontrar linearidade entre uma variável dependente e 4 variáveis independentes

In [11]:
for variavel_dependente in variaveis_quantitativas:
    variaveis_independentes = variaveis_quantitativas.copy()
    variaveis_independentes = variaveis_independentes.union(variaveis_qualitativas)
    variaveis_independentes.remove(variavel_dependente)
    melhor_modelo_4 = None

    for variavel_independente in variaveis_independentes:
        for variavel_independente_2 in variaveis_independentes:
            for variavel_independente_3 in variaveis_independentes:
                for variavel_independente_4 in variaveis_independentes:
                    if variavel_independente == variavel_independente_2 or variavel_independente == variavel_independente_3 or variavel_independente == variavel_independente_4 or variavel_independente_2 == variavel_independente_3 or variavel_independente_2 == variavel_independente_4 or variavel_independente_3 == variavel_independente_4 :
                        continue
                    else:
                        df_dummie = None
                        df_dummie_2 = None
                        df_dummie_3 = None
                        df_dummie_4 = None

                        if variavel_independente in variaveis_qualitativas:
                            df_dummie = pd.get_dummies(data=df[variavel_independente], drop_first=True)
                        if variavel_independente_2 in variaveis_qualitativas:
                            df_dummie_2 = pd.get_dummies(data=df[variavel_independente_2], drop_first=True)
                        if variavel_independente_3 in variaveis_qualitativas:
                            df_dummie_3 = pd.get_dummies(data=df[variavel_independente_3], drop_first=True)
                        if variavel_independente_4 in variaveis_qualitativas:
                            df_dummie_4 = pd.get_dummies(data=df[variavel_independente_4], drop_first=True)

                        df_x_1 = df_dummie if df_dummie is not None else df[variavel_independente]
                        df_x_2 = df_dummie_2 if df_dummie_2 is not None else df[variavel_independente_2]
                        df_x_3 = df_dummie_3 if df_dummie_3 is not None else df[variavel_independente_3]
                        df_x_4 = df_dummie_4 if df_dummie_4 is not None else df[variavel_independente_4]


                        X = pd.concat([df_x_1, df_x_2, df_x_3, df_x_4], axis=1, join='inner')
                        y = df[variavel_dependente]
                        model = sm.OLS(y, X).fit()
                        predictions = model.predict(X)
                        current_r_squared = model.rsquared
                        current_summary = model.summary()

                        if melhor_modelo_4 is None or melhor_modelo_4['r_squared'] < current_r_squared:
                            melhor_modelo_4 = {'variavel_dependente': variavel_dependente, 'variavel_independente': variavel_independente, 'variavel_independente_2': variavel_independente_2, 'variavel_independente_3': variavel_independente_3, 'variavel_independente_4': variavel_independente_4, 'r_squared': current_r_squared, 'summary': current_summary}

    print("\n\n\nVariável dependente: {}".format(melhor_modelo_4['variavel_dependente']))
    print("Variáveis independentes: {}, {}, {}, {}".format(melhor_modelo_4['variavel_independente'], melhor_modelo_4['variavel_independente_2'], melhor_modelo_4['variavel_independente_3'], melhor_modelo_4['variavel_independente_4']))
    print("R-Squared: {}".format(melhor_modelo_4['r_squared']))
    print("\nSummary: {}".format(melhor_modelo_4['summary']))
    
    print('_______________________________________________________________________________________________________________________________________________________________________________')




Variável dependente: Duração (em minutos)
Variáveis independentes: Música não foi pulada, Dançabilidade, Ano de Lançamento, Escutada em qual hora do dia
R-Squared: 0.9146772321979808

Summary:                                   OLS Regression Results                                 
Dep. Variable:     Duração (em minutos)   R-squared (uncentered):                   0.915
Model:                              OLS   Adj. R-squared (uncentered):              0.907
Method:                   Least Squares   F-statistic:                              122.0
Date:                  Mon, 26 Sep 2022   Prob (F-statistic):                        0.00
Time:                          20:58:43   Log-Likelihood:                         -1590.4
No. Observations:                  1015   AIC:                                      3345.
Df Residuals:                       933   BIC:                                      3748.
Df Model:                            82                                             