# Vamos a generar nuestro primer modelo de ML #

Vamos a construir un modelo de ML que prediga dado los datos de un equipos (puntos, goles, etc) la posición en la tabla.

Para ello vamos a 


 - Load : Cargar el csv en un DataFrame
 - Preprocessing : Poner el campo posición, y eliminar columnas que no queremos.
 - Split : Partir el dataset en 4 partes : train_X, train_y, test_X y test_y 
 - Train: Entrenar el modelo.
 - Visualize: Visualizar los resultados
 


## Load : Cargar el csv en un DataFrame


In [1]:

import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import html5lib
from sklearn.cross_validation import train_test_split #to split the dataset for training and testing
from sklearn                  import svm ,  metrics
from sklearn.metrics          import mean_squared_error

#df = pd.read_html("http://www.mundodeportivo.com/resultados/futbol/laliga/clasificacion.html")[0]


df = pd.read_csv("datasets/equipos.csv")

df



Unnamed: 0,Equipo,PJ,PG,PE,PP,GF,GC,DIF,PTS
0,Barcelona,37,27,9,1,98,29,69,90
1,Atlético Madrid,37,23,9,5,56,20,36,78
2,Real Madrid,37,22,9,6,92,42,50,75
3,Valencia,37,21,7,9,63,37,26,70
4,Villarreal,37,18,6,13,55,48,7,60
5,Betis,37,18,6,13,58,58,0,60
6,Sevilla,37,16,7,14,48,58,-10,55
7,Getafe,37,14,10,13,41,33,8,52
8,Eibar,37,14,8,15,42,48,-6,50
9,Real Sociedad,37,14,7,16,66,58,8,49


## Preprocessing : Poner el campo posición, y eliminar columnas que no queremos. ##


In [2]:

# Quitamos los atributos que nos sobrean para hacer la predicción , nombre del equipo y partidos jugadas
df["Posicion"] = range(1,21)

try:
  del df["Equipo"]
  del df["PJ"]
except: pass



In [3]:
#  Ponemos las lables que queremos predecir

df['Posicion'].iloc[4:6]     = "Europa League"
df['Posicion'].iloc[0:4]     = "Champions League"
df['Posicion'].iloc[16:20]   = "Descenso"
df['Posicion'].iloc[6:16]    = "Zona fria"

df

Unnamed: 0,PG,PE,PP,GF,GC,DIF,PTS,Posicion
0,27,9,1,98,29,69,90,Champions League
1,23,9,5,56,20,36,78,Champions League
2,22,9,6,92,42,50,75,Champions League
3,21,7,9,63,37,26,70,Champions League
4,18,6,13,55,48,7,60,Europa League
5,18,6,13,58,58,0,60,Europa League
6,16,7,14,48,58,-10,55,Zona fria
7,14,10,13,41,33,8,52,Zona fria
8,14,8,15,42,48,-6,50,Zona fria
9,14,7,16,66,58,8,49,Zona fria


## Split : Partir el dataset en 4 partes : train_X, train_y, test_X y test_y  ##

Separamos el dataset en train and test, y en features y labels

 - Las filas **train** son para entrenar el sistema.

 - Las filas **test** son para comprobar que el modelo funciona bien.
<br>

 <div class="alert alert-block alert-info">
Al conjunto de columnas que usamos como entrada para el el modelo ** features ** , se le suele denominar **X** (en mayúscula).
<br>
A la columna que queremos predecir **label** , se suele llamar **y** (en minúscula).
</div>

<img style="float: left;" src="images/dataset-1.png">





In [4]:



import pandas as pd
from sklearn.cross_validation import train_test_split #to split the dataset for training and testing
from sklearn import svm
from sklearn import metrics
from sklearn.metrics import mean_squared_error

# Lo partimos en las 4 partes anteriores.
# Primero en dos partes aleatorias en proporcion 25%, 75%
train, test = train_test_split(df, test_size = 0.25)



# A su vez, el train lo partimos en dos
# train_X con las labels que vamos a usar para entrenar
# train_Y con la predicción que vamos a hacer

train_X = train[["PG","PE","PP","GF","GC","DIF","PTS"]]
train_y = train.Posicion

# Tambien partimos en dos los tests
test_X  = test[[ "PG","PE","PP","GF","GC","DIF","PTS"]]
test_y  = test.Posicion

print ("   train_X es:\n " , train_X  )
print ("\n train_y es:\n " , train_y  )
print ("\n test_X es:\n " ,  test_X  )
print ("\n test_y es:\n " ,  test_y  )



   train_X es:
      PG  PE  PP  GF  GC  DIF  PTS
13  11  13  13  35  42   -7   46
0   27   9   1  98  29   69   90
15  10  13  14  41  48   -7   43
16  11   7  19  31  49  -18   40
2   22   9   6  92  42   50   75
3   21   7   9  63  37   26   70
12  12  10  15  55  58   -3   46
9   14   7  16  66  58    8   49
11  15   2  20  40  49   -9   47
6   16   7  14  48  58  -10   55
7   14  10  13  41  33    8   52
18   5   7  25  23  72  -49   22
10  13   9  15  48  58  -10   48
17   6  11  20  37  74  -37   29
14  11  13  13  42  54  -12   46

 train_y es:
  13           Zona fria
0     Champions League
15           Zona fria
16            Descenso
2     Champions League
3     Champions League
12           Zona fria
9            Zona fria
11           Zona fria
6            Zona fria
7            Zona fria
18            Descenso
10           Zona fria
17            Descenso
14           Zona fria
Name: Posicion, dtype: object

 test_X es:
      PG  PE  PP  GF  GC  DIF  PTS
4   18   6  13  

## Train: Entrenar un modelo. ##

 <div class="alert alert-block alert-info">
Para verificar la bondad de un modelo, usamos el accuracy_score si la variable es categórica.
<br>

Si la variable es continua, calculamos la media de errores cuadráticos, entre los valores predichos por el modelo, y los reales.
</div>


In [5]:
from sklearn import svm
from sklearn.metrics import mean_squared_error

# Definimos un modelo
model = svm.SVC()

# Entrenamos el modelo
model.fit(train_X,train_y)

# Predecimos, para comprobar si el modelo es bueno.
prediction = model.predict(test_X)
print ("\n test_y es:\n "     ,  test_y  )
print ("\n prediction es:\n " ,  prediction  )

print('The accuracy of the SVM is:',metrics.accuracy_score(prediction,test_y))

# Si la variable a predecir fuera continua (número), lugar de categórica, usariamos esta funcion
# print('The accuracy of the model is:',mean_squared_error(test_y, prediction))


 test_y es:
  4        Europa League
5        Europa League
8            Zona fria
19            Descenso
1     Champions League
Name: Posicion, dtype: object

 prediction es:
  ['Zona fria' 'Zona fria' 'Zona fria' 'Zona fria' 'Zona fria']
The accuracy of the SVM is: 0.2


## Visualize results. Visualizamos el clasificador ##

 <div class="alert alert-block alert-info">
 Es muy útil saber visualizar los clasificadores, para comparar los algoritmos, o el mismo algoritmo con diferentes hyperparámetros.
 
<br>

In [6]:
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions
import matplotlib.gridspec as gridspec
import itertools
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier



# Transformamos de una cadena con la posicion, a un array de numpy numerico
from sklearn.preprocessing import LabelEncoder

X = df[[ "DIF","PTS"]].values
y = df["Posicion"]
le = LabelEncoder()
y2 = le.fit_transform(y)

train_X

print(X)
print(y2)


#model = svm.SVC() 
#model = LogisticRegression(random_state=1)
model = GaussianNB()
clf=model
clf.fit(X, y2)

# Generamos el gráfico
fig = plt.figure(figsize=(10,8))
fig = plot_decision_regions(X=X, y=y2, clf=clf)
fig.set_ylabel ( "Puntos")
fig.set_xlabel ( "Diferencia goles a favor - goles en contra")

plt.title("Clasificador")


[[ 69  90]
 [ 36  78]
 [ 50  75]
 [ 26  70]
 [  7  60]
 [  0  60]
 [-10  55]
 [  8  52]
 [ -6  50]
 [  8  49]
 [-10  48]
 [ -9  47]
 [ -3  46]
 [ -7  46]
 [-12  46]
 [ -7  43]
 [-18  40]
 [-37  29]
 [-49  22]
 [-36  20]]
[0 0 0 0 2 2 3 3 3 3 3 3 3 3 3 3 1 1 1 1]


<matplotlib.text.Text at 0x10f3d5b70>

## Visualize results. Matriz de confusion ##


In [7]:
# Imprimimos la matriz de confusin
from sklearn.metrics import confusion_matrix
from pandas_ml import ConfusionMatrix
import matplotlib.pyplot as plt
cm = ConfusionMatrix(y_true=test_y, y_pred=prediction)

print("La  matriz de confusion es :\n" )
print(cm )

print("\nLos detalles de la clasificacion son :\n" )


from sklearn.metrics import classification_report
print(classification_report(y_true=test_y, y_pred=prediction))
   
    

La  matriz de confusion es :

Predicted         Champions League  Europa League  Zona fria  __all__
Actual                                                               
Champions League                 0              0          1        1
Europa League                    0              0          1        1
Zona fria                        0              0          0        0
__all__                          0              0          2        2

Los detalles de la clasificacion son :

                  precision    recall  f1-score   support

Champions League       0.00      0.00      0.00         1
        Descenso       0.00      0.00      0.00         1
   Europa League       0.00      0.00      0.00         2
       Zona fria       0.20      1.00      0.33         1

     avg / total       0.04      0.20      0.07         5



The **precision** is the ratio tp / (tp + fp) where tp is the number of true positives and fp the number of false positives.<br>The precision is intuitively the ability of the classifier not to label as positive a sample that is negative.

The **recall** is the ratio tp / (tp + fn) where tp is the number of true positives and fn the number of false negatives.<br>The recall is intuitively the ability of the classifier to find all the positive samples.

The **F-beta** score can be interpreted as a weighted harmonic mean of the precision and recall, where an F-beta score reaches its best value at 1 and worst score at 0.

The **support** is the number of occurrences of each class in y_true.

## Hagamos lo mismo, pero con una variable no categórica (posición en la tabla)##


In [8]:
df = pd.read_csv("datasets/equipos.csv")

df["Posicion"] = range(1,21)

try:
  del df["Equipo"]
  del df["PJ"]
except: pass

# Lo partimos en las 4 partes anteriores.
# Primero en dos partes aleatorias en proporcion 25%, 75%
train, test = train_test_split(df, test_size = 0.25)

# A su vez, el train lo partimos en dos
# train_X con las labels que vamos a usar para entrenar
# train_Y con la predicción que vamos a hacer

train_X = train[["PG","PE","PP","GF","GC","DIF","PTS"]]
train_y = train.Posicion

# Tambien partimos en dos los tests
test_X  = test[[ "PG","PE","PP","GF","GC","DIF","PTS"]]
test_y  = test.Posicion


# Definimos un modelo
model = svm.SVC()

# Entrenamos el modelo
model.fit(train_X,train_y)

# Predecimos, para comprobar si el modelo es bueno.
prediction = model.predict(test_X)
print ("\n test_y es:\n "     ,  test_y  )
print ("\n prediction es:\n " ,  prediction  )


# Si la variable a predecir fuera continua (número), lugar de categórica, usariamos esta funcion
print('The accuracy of the model is:',mean_squared_error(test_y, prediction))




 test_y es:
  16    17
7      8
3      4
10    11
8      9
Name: Posicion, dtype: int64

 prediction es:
  [12 14  2  7 12]
The accuracy of the model is: 18.0


## Ejercicio : Hacer un predictor para el dataset iris.



In [9]:
#Load : Cargar el csv en un DataFrame
iris = pd.read_csv("datasets/iris.csv")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


### Empieza aquí el ejercicio###


In [10]:
## Preprocessing : Poner el campo posición, y eliminar columnas que no queremos.




In [11]:
## Split : Partir el dataset en 4 partes : train_X, train_y, test_X y test_y


In [12]:
## Train: Entrenar el modelo.


In [13]:
## Visualize: Visualizar los resultados