In [1]:
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split as tts
from sklearn.neural_network import MLPClassifier as MLP

iris=load_iris()
data = { 'ls':iris['data'][:,0],
'as':iris['data'][:,1],
'lp':iris['data'][:,2],
'ap':iris['data'][:,3],
'target':iris['target']
}

datap = pd.DataFrame(data)

x_e, x_v, y_e, y_v = tts(iris['data'], iris['target'], random_state=1)

datatrain = {'ls':x_e[:,0],
'as':x_e[:,1],
'lp':x_e[:,2],
'ap':x_e[:,3],
'target':y_e}

datapt = pd.DataFrame(datatrain)

## En el primer intento
Se uso un solucionador por gradiente estocástico - 
Con tres capas con 8, 8 y 3 neuronas - 
Con una funcion de unidad lineal rectificada - 
Con 5 mil iteraciones
La aproximacion o aprendizaje es malo con estos parametros 

In [2]:
mlp = MLP(solver='sgd', random_state=1, hidden_layer_sizes=[8,8,3],
activation='relu', max_iter=5000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.33035714285714285
0.34210526315789475


## En el segundo intento
Se uso optimizador de la familia de métodos cuasi-Newton - 
Con una capa con 5 neuronas - 
Con una funcion de unidad lineal rectificada - 
Con 5 mil iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [3]:
mlp = MLP(solver='lbfgs', random_state=1, hidden_layer_sizes=[5],
activation='relu', max_iter=5000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.9821428571428571
1.0


## En el tercer intento
Se uso optimizador estocástico basado en gradientes - 
Con dos capas de 5 y 7 neuronas - 
Con una funcion sigmoidea logística - 
Con 2000 iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [6]:
mlp = MLP(solver='adam', random_state=1, hidden_layer_sizes=[5, 7],
activation='logistic', max_iter=2000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.9732142857142857
1.0


## En el cuarto intento
Se uso optimizador estocástico basado en gradientes - 
Con cinco capas de 3 neuronas cada una - 
Con una funcion hiperbólica tan h - 
Con 2000 iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [9]:
mlp = MLP(solver='adam', random_state=1, hidden_layer_sizes=[3, 3, 3, 3, 3],
activation='tanh', max_iter=2000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.9821428571428571
1.0


## En el quinto intento
Se uso optimizador de la familia de métodos cuasi-Newton - 
Con 2 capas de 2 neuronas cada una - 
Con activación sin operación - 
Con 2000 iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [10]:
mlp = MLP(solver='lbfgs', random_state=1, hidden_layer_sizes=[2, 2],
activation='identity', max_iter=2000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.9821428571428571
1.0


## En el sexto intento
Se uso descenso de gradiente estocástico - 
Con 3 capa de 9 neuronas - 
Con función sigmoidea logística - 
Con 9000 iteraciones
La aproximacion o aprendizaje es muy mala con estos parametros

In [11]:
mlp = MLP(solver='sgd', random_state=1, hidden_layer_sizes=[9, 9, 9],
activation='logistic', max_iter=9000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.36607142857142855
0.23684210526315788


## En el septimo intento
Se uso descenso de gradiente estocástico - 
Con 8 capas de 1,2,3,4,5,6,7 neuronas - 
Con función de unidad lineal rectificada - 
Con 5000 iteraciones
La aproximacion o aprendizaje es mala con estos parametros

In [12]:
mlp = MLP(solver='sgd', random_state=1, hidden_layer_sizes=[1, 2, 3, 4, 5, 6, 7, 8, 9],
activation='relu', max_iter=5000)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.33035714285714285
0.34210526315789475


## En el octavo intento
Se uso un optimizador de la familia de métodos cuasi-Newton - 
Con 1 capa de 25 neuronas - 
Con función sigmoidea logística - 
Con 4500 iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [13]:
mlp = MLP(solver='lbfgs', random_state=1, hidden_layer_sizes=[25],
activation='logistic', max_iter=4500)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

1.0
1.0


## En el noveno intento
Se uso descenso de gradiente estocástico - 
Con 3 capas de 3,4,7 neuronas - 
Con función hiperbólica tan - 
Con 2500 iteraciones
La aproximacion o aprendizaje es regular con estos parametros

In [14]:
mlp = MLP(solver='sgd', random_state=1, hidden_layer_sizes=[3, 4, 7],
activation='tanh', max_iter=2500)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.6964285714285714
0.5789473684210527


## En el decimo intento
Se uso un optimizador de la familia de métodos cuasi-Newton - 
Con 20 capas de 20 neuronas - 
Con función de unidad lineal rectificada - 
Con 8500 iteraciones
La aproximacion o aprendizaje es muy buena con estos parametros

In [15]:
mlp = MLP(solver='lbfgs', random_state=1, hidden_layer_sizes=[20, 20, 20, 20],
activation='relu', max_iter=8500)

mlp.fit(x_e, y_e)
print(mlp.score(x_e, y_e))
print(mlp.score(x_v, y_v))

0.9821428571428571
1.0
