# PROJETO 3 
## André Annunziato, Bruno Tricate e Vitor Carreta

### O intuito do projeto é verificar se há e qual é a relação entre o potencial de um jogador, sua atual classificação e seu valor de mercado no FIFA 18. Para isso, fizemos uma regressão linear múltipla.

In [None]:
# Importando todas as bibliotecas a serem usadas
import numpy as np
import statsmodels.api as sm
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from math import *
import scipy.stats as stats

In [None]:
# Lendo os datasets e filtrando as colunas
dados = pd.read_csv('PlayerPersonalData.csv')
dados = dados.drop('Photo', axis=1)
dados = dados.drop('Unnamed: 0', axis=1)
dados = dados.drop('Unnamed: 0.1', axis=1)
dados = dados.drop('Flag', axis=1)
dados = dados.drop('Club Logo', axis=1)
dados = dados.drop('Wage', axis=1)
dados = dados.drop('Special', axis=1)
data = dados[pd.notnull(dados.Value) & pd.notnull(dados.Overall) & pd.notnull(dados.Potential)]

#### Para podermos manusear os valores, precisamos transformá-los de strings para números.

In [None]:
Vm = []
Vk = []
V = []
for i in data.Value:
    if "M" in i:
        x = i.replace("€","")
        x = x.replace("M","")
        x = float(x)
        V.append(x*1000)
        

    elif "K" in i:
        x = i.replace("€","")
        x = x.replace("K","")  
        x = float(x)
        V.append(x)
    else:
        V.append(0)

Valor = pd.Series(V)
data["Valor"] = Valor

### Em seguida, fizemos a correlação entre os três atributos anteriormente ditos.

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111,projection = '3d')

ax.scatter(data.Overall,data.Potential,data.Valor)
plt.title("Correlação overall x potencial x valor")
plt.show()

### Porém, percebemos que a relação era aproximadamente exponencial, portanto, utilizamos o logaritmo do Valor para obtermos a relação linear.

In [None]:
Vlog = []
for i in V:
    if i>0:
        Vlog.append(log(i))
    else:
        Vlog.append(i)

Valor_log = pd.Series(Vlog)
data["Valorlog"] = Valor_log
data = data[pd.notnull(data["Valorlog"])]

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111,projection = '3d')

ax.scatter(data.Overall,data.Potential,data.Valorlog)
plt.title("Correlação overall x potencial x valor(em log)")
plt.show()

### Agora, utilizamos a biblioteca statsmodels para obtermos os valores da regressão linear.

In [None]:
y = data.Valorlog
x = np.column_stack((data.Overall,data.Potential))
x = sm.add_constant(x, prepend=True)
res = sm.OLS(y,x).fit()
res.summary()

### Como pode ser observado, o valor de determinação entre as três variáveis é alto (R-squared = 70.1%), portanto, o cálculo do valor pode ser bem aproximado por uma relação entre classificação e potencial.

In [None]:
x1 = 0.1385
x2 = 0.0802
const = -8.2644


y = data.Overall*x1 + data.Potential*x2 + const

fig = plt.figure()
ax = fig.add_subplot(111,projection = '3d')
ax.plot_wireframe(data.Overall,data.Potential,y)
plt.title("Plano estimado com base na correlação")
plt.show()

### Para efeito de confirmação, calculamos o resíduo da nossa regressão, ou seja, a diferença entre os valores reais e os estimados pelo plano.

In [None]:
residuo = data.Valor - y

In [None]:
plt.hist(residuo,bins = 100)
plt.title("Histograma de resíduos")
plt.show()

### O histograma de densidade acima nos mostra que há uma frequência muito maior de resíduos muito pequenos, menores que 10 milhões de euros. Portanto, jogadores supervalorizados, podem dar uma diferença muito grande.

### Exemplo:

#### Vamos calcular o valor de mercado do jogador brasileiro Gabriel Jesus:

In [None]:
data[data.Name == "Gabriel Jesus"]

In [None]:
valor = 81*x1 + 92*x2 + const

In [None]:
exp(valor)

#### Como podemos ver, o valor calculado deu bem próximo do valor real, portanto nossa regressão é válida.

### Tente você mesmo!

In [None]:
jogador = input("Digite o nome de um Jogador (digite como aparece no jogo): ")

nome = data[data.Name == jogador].head(1)
valor = nome.Overall*x1 + nome.Potential*x2 + const
print("Valor calculado: {0:.2f}(em milhares de euros)".format(exp(valor)))
    
print("Valor real:\n {0}".format(data[data.Name == jogador].head(1).Value))

### Conclusão
#### A nossa regressão consegue uma boa aproximação para jogadores não tão supoervalorizados (por isso, Neymar, Cristiano Ronaldo e Messi retornam valores bem diferentes).
#### Como utilizamos o potencial para fazer a regressão, jogadores que são considerados promessas no jogo, dão valores bem próximos (tente na célula acima com "K. Dolberg", "T. Lemar", "Casemiro" ou o próprio Gabriel Jesus.