## **Modelo de Clasificación**
El objetivo de este ejercicio es encontrar un modelo que permita predecir si se echará o no a perder la comida de los perros dependiendo de 4 factores.

https://es.wikipedia.org/wiki/Tasa_de_cancelaci%C3%B3n_de_clientes

Utilizaremos los modelos de clasificación RandomForest, Regresion Logística,  y clasificación MultiClass. 

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

In [0]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn import metrics




## Lectura de datos y exploración

Leer el fichero de datos "dog_food.csv". 

In [0]:
file_path = 'dog_food.csv'
data = pd.read_csv(file_path)

Listar las primeras filas del fichero para ver los datos

In [0]:
data.head()

Unnamed: 0,A,B,C,D,Spoiled
0,4,2,12.0,3,1.0
1,5,6,12.0,7,1.0
2,6,2,13.0,6,1.0
3,4,2,12.0,1,1.0
4,4,2,12.0,3,1.0


¿cuantas filas y columnas tienen los datos?


In [0]:
data.shape

(490, 5)

Explore la cantidad de registros, la media, el desvio y los cuartiles de las columnas numéricas.

In [0]:
data.describe()

Unnamed: 0,A,B,C,D,Spoiled
count,490.0,490.0,490.0,490.0,490.0
mean,5.534694,5.504082,9.126531,5.579592,0.285714
std,2.95152,2.853797,2.055545,2.854837,0.452216
min,1.0,1.0,5.0,1.0,0.0
25%,3.0,3.0,8.0,3.0,0.0
50%,5.0,6.0,9.0,6.0,0.0
75%,8.0,8.0,11.0,8.0,1.0
max,10.0,10.0,14.0,10.0,1.0


Liste las columnas del dataframe indicando el tipo de datos.

In [0]:
for i in data.columns:
  print("Columna {} tipo: {}".format(i,data[i].dtype))

Columna A tipo: int64
Columna B tipo: int64
Columna C tipo: float64
Columna D tipo: int64
Columna Spoiled tipo: float64


## Preparación de los datos

Defina la columna objetivo a predecir en "y"  y  "X", el dataframe con las características que se utilizarán (sólo las numéricas y la fecha)

In [0]:
# target object y
y = data["Spoiled"]
# Create X
features=['A','B','C','D']
X = data[features]

print(X.head)

<bound method NDFrame.head of      A  B     C   D
0    4  2  12.0   3
1    5  6  12.0   7
2    6  2  13.0   6
3    4  2  12.0   1
4    4  2  12.0   3
..  .. ..   ...  ..
485  8  3   6.0   6
486  6  4   9.0  10
487  1  3   8.0   3
488  6  6   8.0   3
489  1  9   7.0   4

[490 rows x 4 columns]>


Revise los datos X

Defina las particiones para entrenamiento y de validación con semila=1 y dejando un 20% de filas para test. Imprima cuantas filas utilizará para entrenamiento y cuantas para validar

In [0]:
# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1, test_size=0.2)

In [0]:
print(train_X.count())


Age                720
Total_Purchase     720
Account_Manager    720
Years              720
Num_Sites          720
Onboard_date       720
dtype: int64


In [0]:
print(val_y.count())

98


## Definición del modelo

Defina el modelo utilizando un arbol de decisión con semilla=1

In [0]:
dog_food = LogisticRegression(random_state=1, solver='lbfgs', multi_class='multinomial')




Entrene el modelo 

In [0]:
# Fit Model
dog_food.fit(train_X, train_y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='multinomial', n_jobs=None, penalty='l2',
                   random_state=1, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

## Predicción y validación del modelo 

Utilice el modelo para realizar las predicciones con los datos de validación y calcule el valor "score" o "accuracy" 

In [0]:
from sklearn import metrics
val_predictions = dog_food.predict(val_X)
score=round(dog_food.score(val_X,val_y), 4)
print("Score datos validación %f" %score)
print("Accuracy:",metrics.accuracy_score(val_y, val_predictions))

Score datos validación 0.979600
Accuracy: 0.9795918367346939


In [0]:
assert round(score*100)==98,"Error en resultado de score"

In [0]:
Calcule los resultados utilizando random forest con 1000 estimadores y max_depth=10, y semilla=1

In [0]:
RF = RandomForestClassifier(n_estimators=1000, max_depth=10, random_state=1).fit(train_X, train_y)
RF.predict(val_X)
round(RF.score(val_X,val_y), 4)


0.9796

Calcule los resultados del modelo utilizando Multi-Class Classification utilizando solver='lbfgs' y un max_iter=1000

In [0]:
NN = MLPClassifier(solver='lbfgs', random_state=1, max_iter=1000).fit(train_X, train_y)
NN.predict(val_X)
round(NN.score(val_X,val_y), 4)

0.9592

## Resultados finales

Utilice el mejor modelo obtenido y calcule el score con todos los datos 

In [0]:
RF.predict(X)
score=round(RF.score(X,y), 4)
round(score,2)


0.99

In [0]:
assert round(score,2)*100==99,"Error en resultado de porcentaje de error"