PROJETO 3 - CIÊNCIA DOS DADOS

Grupo: Gabriel Moura, Felipe Aron e Guilherme Aliperti


Projeto de regressão linear utilizando base de dados dos jogadores do FIFA. Pretendemos encontrar correlação entre o valor do jogador com suas outras características.

In [1]:
import math
import os.path
import pandas as pd
import json
import numpy as np
from matplotlib import pyplot as plt
from random import shuffle
from scipy.stats import linregress
import statsmodels.api as sm

In [2]:
#Transforma os valores em float e sem os caracteres invalidos
df_completo = pd.read_excel("dados_completo.xls")
lista_final_valor = []
lista_final_sal = []

    #Ajustando os Valores dos jogadores para números...
for valores in df_completo["Value"]:
    valores = str(valores)
    l = valores.split("¬")
    del l[0]
    for x in l:
        carac = x.split("M")
        if len(carac) == 2:
            vf = float(carac[0]) * 1000000
            lista_final_valor.append(vf)
        else:
            carac = x.split("K")
            vf = float(carac[0]) * 1000
            lista_final_valor.append(vf)
            
# Ajustando os salários dos jogadores para números...          
for valores in df_completo["Wage"]:
    valores = str(valores)
    l = valores.split("¬")
    del l[0]
    for x in l:
        carac = x.split("M")
        if len(carac) == 2:
            vf = float(carac[0]) * 1000000
            lista_final_sal.append(vf)
        else:
            carac = x.split("K")
            vf = float(carac[0]) * 1000
            lista_final_sal.append(vf)
            
# Cria o Novo Dataframe ajustado...
df_valor_idade = pd.DataFrame({"Valor": lista_final_valor, "Overall": df_completo.Overall, "Idade": df_completo.Age,"Salário": lista_final_sal, "Potencial":df_completo.Potential})


Vamos analisar o Rsquared por uma função de regressão linear:

In [12]:
# R2 do Overall em relação ao Valor

def lin_regression(x, y):
    m, b, R, p, SEm = linregress(x, y)

    n = len(x)
    SSx = np.var(x, ddof=1) * (n-1)  
    SEb2 = SEm **2 * (SSx/n + np.mean(x)**2)
    SEb = SEb2**0.5

    return m, b, SEm, SEb, R, p

m, b, Sm, Sb, R, p = lin_regression(lista_final_valor, df_completo.Overall)

print('m = {:>.4g} +- {:6.4f}'.format(m, Sm))
print('b = {:>.4g} +- {:6.4f}\n'.format(b, Sb))

print('R2 = {:7.5f}'.format(R**2))
print('p of test F : {:<8.6f}'.format(p))



m = 8.171e-07 +- 0.0000
b = 64.3 +- 0.0445

R2 = 0.39188
p of test F : 0.000000


In [4]:
df_valor_idade.describe()

Unnamed: 0,Idade,Overall,Potencial,Salário,Valor
count,17981.0,17981.0,17981.0,17981.0,17981.0
mean,25.144541,66.247984,71.190813,11546.966242,2385390.0
std,4.614272,6.987965,6.102199,23080.000139,5353970.0
min,16.0,46.0,46.0,0.0,0.0
25%,21.0,62.0,67.0,2000.0,300000.0
50%,25.0,66.0,71.0,4000.0,675000.0
75%,28.0,71.0,75.0,12000.0,2100000.0
max,47.0,94.0,94.0,565000.0,123000000.0


In [5]:
# R2 do Overall em relação ao Valor
Y = df_valor_idade.Valor
X = df_valor_idade.Overall
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()
results.summary()
results.rsquared


0.39187667210821164

Os resultados da regressão linear indicam que o overall do jogador explica quase 40% da variação do seu preço.

Vamos agora avaliar a influência da idade no valor do jogador:

In [6]:
# R2 da Idade em relação ao Valor
Y = df_valor_idade.Valor
X = df_valor_idade.Idade
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()
results.summary()
results.rsquared

0.0062899951432842105

Por fim , vamos analisar a inflûencia do salário de cada jogador no valor dele:

In [7]:
# R2 do Salário em relação ao Valor
Y = df_valor_idade.Valor
X = df_valor_idade.Salário
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()
results.summary()
results.rsquared

0.72336759331866829

In [8]:
# R2 do Potencial em relação ao Valor
Y = df_valor_idade.Valor
X = df_valor_idade.Potencial
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()
results.summary()
results.rsquared

0.34583143211710443

In [9]:
# R2 do Overall,Potencial e Salário juntos em relação ao Valor
Y = df_valor_idade.Valor
X = df_valor_idade.loc[:, ("Overall", "Potencial","Salário")]
X = sm.add_constant(X)
model = sm.OLS(Y,X)
results = model.fit()
results.summary()
results.rsquared

0.75737551312652207

In [13]:
#Lista Atributos dos jogadores
lista_atributos = list(df_completo)
del lista_atributos[0:12]
lista_atributos
del lista_atributos[34:62]

print(len(lista_atributos))




34


In [15]:
# RSquared Dicionário
rsquared = {}

#Ajustando Somas e Subtrações no Excel
for atributo in lista_atributos:
    lista = []
    for numeros in df_completo[atributo]:
        n = eval(str(numeros))
        lista.append(n)  
# R2 de cada Atributo                
    df_completo[atributo] = lista
    Y = df_valor_idade.Overall
    X = df_completo[atributo]
    X = sm.add_constant(X)
    model = sm.OLS(Y,X)
    results = model.fit()
    results.summary()
    rsquared[atributo] = results.rsquared










SyntaxError: invalid token (<string>, line 1)

In [16]:
print("O atributo com maior R-Squared é: {0}".format(max(rsquared, key=rsquared.get)))
del rsquared[max(rsquared, key=rsquared.get)]
print("O segundo atributo com maior R-Squared é: {0}".format(max(rsquared, key=rsquared.get)))
del rsquared[max(rsquared, key=rsquared.get)]
print("O terceiro atributo com maior R-Squared é: {0}".format(max(rsquared, key=rsquared.get)))
del rsquared[max(rsquared, key=rsquared.get)]
print("O quarto atributo com maior R-Squared é: {0}".format(max(rsquared, key=rsquared.get)))
del rsquared[max(rsquared, key=rsquared.get)]
print("O quinto atributo com maior R-Squared é: {0}".format(max(rsquared, key=rsquared.get)))


O atributo com maior R-Squared é: Acceleration


ValueError: max() arg is an empty sequence

In [None]:
def atributos(a,b,c):
    Y = df_valor_idade.Valor
    X = df_completo.loc[:, (str(a),str(b),str(c))]
    X = sm.add_constant(X)
    model = sm.OLS(Y,X)
    results = model.fit()
    return results.rsquared
   
    
for atributos in lista_atributos:
    
        