<a href="https://colab.research.google.com/github/atarasaki/DSWP-editados/blob/main/Notebooks/2020-10-21-fifa-mod.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><h1><b><i>mini task - FIFA dataset</i></b></h1></center>
(20/10/2020)

Nelio Machado, [20.10.20 17:46]

*Mini-task*: apliquem o IsolationForest (primeiro método para detecção de outliers) para o dataframe FIFA_algumas_features (variáveis numéricas). Qual a conclusão?

Qual sua conclusão em termos de outliers?

Como ficou sua "outlier region"?


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

print(f'Versão do Pandas: {pd.__version__}')
print(f'Versão do NumPy.: {np.__version__}')

In [None]:
d_configuracao = {
    'display.max_columns': 1000,
    'display.expand_frame_repr': True,
    'display.max_rows': 10,
    'display.precision': 2,
    'display.show_dimensions': True,
    'display.float_format': (lambda x: '%.2f' % x)
                  }

for op, value in d_configuracao.items():
    pd.set_option(op, value)
    print(op, value)

## 1) carga do datset

In [None]:
df_fifa = pd.read_csv('https://raw.githubusercontent.com/atarasaki/DSWP/master/Dataframes/FIFA_algumas_features.csv')

In [None]:
df_fifa.head()

In [None]:
df_fifa.shape

In [None]:
df_fifa.columns

In [None]:
df_fifa_org = df_fifa.copy()

## 2) aplicação do Isolation Forest

In [None]:
from sklearn.ensemble import IsolationForest

### 2.1) 'wage'

In [None]:
# objeto Isolation Forest
iso_forest_wage = IsolationForest( n_estimators=100 )

# aplicação do algoritmo sobre df_fifa['wage'] após transformar amplitudes no intevalo (-1,1)
iso_forest_wage.fit( df_fifa['wage'].values.reshape(-1,1) )

# retorna array numpy com N pontos uniformemente espaçados num intervalo (min, max, N) com amplitudes no intervalo (-1,1)
fifa_wage_is = np.linspace( df_fifa['wage'].min(), df_fifa['wage'].max(), len( df_fifa['wage'] ) ).reshape(-1,1)

# retorna anomaly score do algoritmo Isolation Forest sobre o array numpy - IsolationForest.decision_function(X) : Average anomaly score of X of the base classifiers.
fifa_wage_as = iso_forest_wage.decision_function( fifa_wage_is )

# indica os candidatos a outlier - IsolationForest.predict(X) : predict if a particular sample is an outlier or not.
fifa_wage_out = iso_forest_wage.predict( fifa_wage_is )



In [None]:
iso_forest_wage

In [None]:
fifa_wage_is

In [None]:
fifa_wage_as

In [None]:
fifa_wage_out

In [None]:
# preparação da visualização
plt.figure( figsize=(10,4) )

# gráfico anomaly score
plt.plot( fifa_wage_is, fifa_wage_as, label='anomaly score')

# aplica coloração nas regiões de outliers
plt.fill_between( fifa_wage_is.T[0], np.min( fifa_wage_as ),
                 np.max( fifa_wage_as ), where = fifa_wage_out == -1, color = 'r', alpha = .4, label = 'outlier region')

# preparação de legenda
plt.legend()
plt.xlabel('wage')
plt.ylabel('anomaly score')

# apresenta gráfico
plt.show()

In [None]:
# maior 'wage' não outlier
round( fifa_wage_is[ fifa_wage_out != -1 ].max(), 2 )

### 2.2) 'value'

In [None]:
# objeto Isolation Forest
iso_forest_value = IsolationForest( n_estimators=100 )

# aplicação do algoritmo sobre df_fifa['wage'] após transformar amplitudes no intevalo (-1,1)
iso_forest_value.fit( df_fifa['value'].values.reshape(-1,1) )

# retorna array numpy com N pontos uniformemente espaçados num intervalo (min, max, N) com amplitudes no intervalo (-1,1)
fifa_value_is = np.linspace( df_fifa['value'].min(), df_fifa['value'].max(), len( df_fifa['value'] ) ).reshape(-1,1)

# retorna anomaly score do algoritmo Isolation Forest sobre o array numpy - IsolationForest.decision_function(X) : Average anomaly score of X of the base classifiers.
fifa_value_as = iso_forest_value.decision_function( fifa_value_is )

# indica os candidatos a outlier - IsolationForest.predict(X) : predict if a particular sample is an outlier or not.
fifa_value_out = iso_forest_value.predict( fifa_value_is )

In [None]:
# preparação da visualização
plt.figure( figsize=(10,4) )

# gráfico anomaly score
plt.plot( fifa_value_is, fifa_value_as, label='anomaly score')

# aplica coloração nas regiões de outliers
# matplotlib.pyplot.fill_between(x, y1, y2=0, where=None, interpolate=False, step=None, *, data=None, **kwargs)[source]
plt.fill_between( fifa_value_is.T[0], np.min( fifa_value_as ),
                 np.max( fifa_value_as ), where = fifa_value_out == -1, color = 'r', alpha = .4, label = 'outlier region')

# preparação de legenda
plt.legend()
plt.xlabel('value')
plt.ylabel('anomaly score')

# apresenta gráfico
plt.show()

In [None]:
# maior 'value' não outlier
round( fifa_value_is[ fifa_value_out != -1 ].max(), 2 )

### 2.3) 'age'

In [None]:
# objeto Isolation Forest
iso_forest_age = IsolationForest( n_estimators=100 )

# aplicação do algoritmo sobre df_fifa['age'] após transformar amplitudes no intevalo (-1,1)
iso_forest_age.fit( df_fifa['age'].values.reshape(-1,1) )

# retorna array numpy com N pontos uniformemente espaçados num intervalo (min, max, N) com amplitudes no intervalo (-1,1)
fifa_age_is = np.linspace( df_fifa['age'].min(), df_fifa['age'].max(), len( df_fifa['age'] ) ).reshape(-1,1)

# retorna anomaly score do algoritmo Isolation Forest sobre o array numpy - IsolationForest.decision_function(X) : Average anomaly score of X of the base classifiers.
fifa_age_as = iso_forest_wage.decision_function( fifa_age_is )

# indica os candidatos a outlier - IsolationForest.predict(X) : predict if a particular sample is an outlier or not.
fifa_age_out = iso_forest_wage.predict( fifa_age_is )

In [None]:
# preparação da visualização
plt.figure( figsize=(10,4) )

# gráfico anomaly score
plt.plot( fifa_age_is, fifa_age_as, label='anomaly score')

# aplica coloração nas regiões de outliers
plt.fill_between( fifa_age_is.T[0], np.min( fifa_age_as ),
                 np.max( fifa_age_as ), where = fifa_age_out == -1, color = 'r', alpha = .4, label = 'outlier region')

# preparação de legenda
plt.legend()
plt.xlabel('age')
plt.ylabel('anomaly score')

# apresenta gráfico
plt.show()

In [None]:
fifa_age_is

In [None]:
fifa_age_as

In [None]:
fifa_age_is

In [None]:
# método parece não ser adequado para detecção de outliers em idade

### 2.3) 'overall'

In [None]:
# objeto Isolation Forest
iso_forest_over = IsolationForest( n_estimators=100 )

# aplicação do algoritmo sobre df_fifa['overall'] após transformar amplitudes no intevalo (-1,1)
iso_forest_over.fit( df_fifa['overall'].values.reshape(-1,1) )

# retorna array numpy com N pontos uniformemente espaçados num intervalo (min, max, N) com amplitudes no intervalo (-1,1)
fifa_over_is = np.linspace( df_fifa['overall'].min(), df_fifa['overall'].max(), len( df_fifa['overall'] ) ).reshape(-1,1)

# retorna anomaly score do algoritmo Isolation Forest sobre o array numpy - IsolationForest.decision_function(X) : Average anomaly score of X of the base classifiers.
fifa_over_as = iso_forest_wage.decision_function( fifa_over_is )

# indica os candidatos a outlier - IsolationForest.predict(X) : predict if a particular sample is an outlier or not.
fifa_over_out = iso_forest_over.predict( fifa_over_is )

In [None]:
# preparação da visualização
plt.figure( figsize=(10,4) )

# gráfico anomaly score
plt.plot( fifa_over_is, fifa_over_as, label='anomaly score')

# aplica coloração nas regiões de outliers
plt.fill_between( fifa_over_is.T[0], np.min( fifa_over_as ),
                 np.max( fifa_over_as ), where = fifa_over_out == -1, color = 'r', alpha = .4, label = 'outlier region')

# preparação de legenda
plt.legend()
plt.xlabel('overall')
plt.ylabel('anomaly score')

# apresenta gráfico
plt.show()

In [None]:
# maior 'overall' não outlier
round( fifa_over_is[ fifa_over_out != -1 ].max(), 2 )

In [None]:
# menor 'overall' não outlier
round( fifa_over_is[ fifa_over_out != -1 ].min(), 2 )

### 2.3) 'potential'

In [None]:
# objeto Isolation Forest
iso_forest_pot = IsolationForest( n_estimators=100 )

# aplicação do algoritmo sobre df_fifa['potential'] após transformar amplitudes no intevalo (-1,1)
iso_forest_pot.fit( df_fifa['potential'].values.reshape(-1,1) )

# retorna array numpy com N pontos uniformemente espaçados num intervalo (min, max, N) com amplitudes no intervalo (-1,1)
fifa_pot_is = np.linspace( df_fifa['potential'].min(), df_fifa['potential'].max(), len( df_fifa['potential'] ) ).reshape(-1,1)

# retorna anomaly score do algoritmo Isolation Forest sobre o array numpy - IsolationForest.decision_function(X) : Average anomaly score of X of the base classifiers.
fifa_pot_as = iso_forest_wage.decision_function( fifa_pot_is )

# indica os candidatos a outlier - IsolationForest.predict(X) : predict if a particular sample is an outlier or not.
fifa_pot_out = iso_forest_over.predict( fifa_pot_is )

In [None]:
# preparação da visualização
plt.figure( figsize=(10,4) )

# gráfico anomaly score
plt.plot( fifa_pot_is, fifa_pot_as, label='anomaly score')

# aplica coloração nas regiões de outliers
plt.fill_between( fifa_pot_is.T[0], np.min( fifa_pot_as ),
                 np.max( fifa_pot_as ), where = fifa_pot_out == -1, color = 'r', alpha = .4, label = 'outlier region')

# preparação de legenda
plt.legend()
plt.xlabel('potential')
plt.ylabel('anomaly score')

# apresenta gráfico
plt.show()

In [None]:
# maior 'potential' não outlier
round( fifa_pot_is[ fifa_pot_out != -1 ].max(), 2 )

In [None]:
# menor 'potential' não outlier
round( fifa_pot_is[ fifa_pot_out != -1 ].min(), 2 )

## 3) 'overall' x 'potential'

In [None]:
sns.pairplot( df_fifa[['overall','potential']], kind='scatter' )
plt.show()

In [None]:
df_fifa[['overall','potential']].corr()