In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor,RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn import metrics

**Problema 1(Regresion)**

El problema aquí es predecir el consumo de gas (en millones de galones) en 48 de los estados de EE. UU. Con base en el impuesto a la gasolina (en centavos), el ingreso per cápita (dólares), las carreteras pavimentadas (en millas) y la proporción de la población con licencia de conducir. Como lo que queremos clasificar es una cantidad, utilizamos el algoritmo random forest en forma de regresion.

In [2]:
dataset = pd.read_csv('./Datasets/petrol_consumption.csv')
dataset.head()

Unnamed: 0,Petrol_tax,Average_income,Paved_Highways,Population_Driver_licence(%),Petrol_Consumption
0,9.0,3571,1976,0.525,541
1,9.0,4092,1250,0.572,524
2,9.0,3865,1586,0.58,561
3,7.5,4870,2351,0.529,414
4,8.0,4399,431,0.544,410


Dividimos los datos en train y test, en esta primera prueba, dedicaremos un 20% de los datos a test. Iremos cambiando este valor en proximas iteraciones para ver como afecta al algoritmo.

In [27]:
#Dividimos los datos en atributos y etiquetas
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values
#Obtenemos los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [28]:
#n_estimators es el numero de arboles en el bosque
regressor = RandomForestRegressor(n_estimators=20, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 0.018000000000000006
Mean Squared Error: 0.009536363636363636
Root Mean Squared Error: 0.09765430679884854


En esta primera prueba hemos obtenido un error de un 1.8%. Probaremos ahora a aumentar el tamano de test para ver como afecta esto a nuestro algoritmo.

El test ahora sera un 50% de los datos.

In [25]:
#Dividimos los datos en atributos y etiquetas
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values
#Obtenemos los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state = 0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [26]:
#n_estimators es el numero de arboles en el bosque
regressor = RandomForestRegressor(n_estimators=20, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 0.03250728862973761
Mean Squared Error: 0.013236151603498543
Root Mean Squared Error: 0.11504847501596248


En este caso el error obtenido es del 3%, algo mas alto que en el caso anterior. Vamos a hacer una prueba mas modificando de nuevo el tamano del test, en este caso un 80% dedicado a test.

In [30]:
#Dividimos los datos en atributos y etiquetas
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values
#Obtenemos los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.8, random_state = 0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [31]:
#n_estimators es el numero de arboles en el bosque
regressor = RandomForestRegressor(n_estimators=20, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 0.05965391621129326
Mean Squared Error: 0.02727231329690346
Root Mean Squared Error: 0.16514331139014823


El error obtenido en este caso es del 6%. Como podemos observar a medida que disminuimos los datos de train, nuestro algoritmo es cada vez menos preciso. 

Para la siguiente prueba, usaremos el tamano de test del 20%, que es el que menor error tiene y probaremos a cambiar los valores del numero de estimadores, para ver los resultados que obtenemos. Probaremos aumentando primero este valor, que lo que hara sera aumentar el numero de arboles de decision.

In [34]:
#Dividimos los datos en atributos y etiquetas
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values
#Obtenemos los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

#n_estimators es el numero de arboles en el bosque
regressor = RandomForestRegressor(n_estimators=1000, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 0.02105818181818182
Mean Squared Error: 0.009188090909090908
Root Mean Squared Error: 0.0958545299351622


El error obtenido es algo mayor, de un 2.1%. Probaremos ahora a disminuir ese valor.

In [35]:
#n_estimators es el numero de arboles en el bosque
regressor = RandomForestRegressor(n_estimators=2, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

Mean Absolute Error: 0.01818181818181818
Mean Squared Error: 0.014545454545454545
Root Mean Squared Error: 0.12060453783110545


En este caso, el error obtenido es practicamente el mismo que en el de la primera prueba, un 1.2%

**Problema 2(Clasificacion)**

El problema es predecir si un billete de banco es autentico o no. Para ello nos basaremos en los siguientes 
cuatro atributos de nuestro dataset: Varianza, asimetría, entropía y curtosis. 

In [5]:
dataset = pd.read_csv("./Datasets/bill_authentication.csv")
dataset.head()


Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
0,3.6216,8.6661,-2.8073,-0.44699,0
1,4.5459,8.1674,-2.4586,-1.4621,0
2,3.866,-2.6383,1.9242,0.10645,0
3,3.4566,9.5228,-4.0112,-3.5944,0
4,0.32924,-4.4552,4.5718,-0.9888,0


In [6]:
#Dividimos los datos en atributos y etiquetas
X = dataset.iloc[:, 0:4].values
y = dataset.iloc[:, 4].values
#Obtenemos los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [7]:
#n_estimators es el numero de arboles en el bosque
regressor = RandomForestClassifier(n_estimators=20, random_state=0)
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)

print(confusion_matrix(y_test,y_pred))
print(classification_report(y_test,y_pred))
print(accuracy_score(y_test, y_pred))

[[155   2]
 [  1 117]]
              precision    recall  f1-score   support

           0       0.99      0.99      0.99       157
           1       0.98      0.99      0.99       118

    accuracy                           0.99       275
   macro avg       0.99      0.99      0.99       275
weighted avg       0.99      0.99      0.99       275

0.9890909090909091


###  Parametros modificables randomForest de scikitLearn

- n_estimators='warn' -> Especifica el numero de arboles de decision en el algoritmo.
- criterion='mse' -> Especica la calidad de las divisiones cuando se crean los arboles de decesion.
- max_depth=None -> Especifica la maxima profundidad de los arboles.
- min_samples_split=2 -> Especifica el numero minimo de datos para dividir un nodo.
- min_samples_leaf=1 -> Especifica el numero minimo de datos para ser una hoja del arbol.
- min_weight_fraction_leaf=0.0 -> Especifica otra condicion para ser una hoja del arbol.
- max_features='auto' -> Especifica el numero de caracteristicas a considerar cuando se realizan las divisiones.
- max_leaf_nodes=None -> Especifica el numero maximo de hojas del arbol.
- min_impurity_decrease=0.0 -> Especifica otra condicion de divison de un nodo del arbol.
- min_impurity_split=None -> Especifica otra condicion de divison de un nodo del arbol.
- bootstrap=True -> Especifica la utilizacion de bootstrap samples.
- oob_score=False -> Especifica la precision del algoritmo.
- n_jobs=None -> Especifica al numero de procesos en paralelo.
- random_state=None -> Especifica la semilla que se utilizara.
- verbose=0
- warm_start=False -> Especifica la utilizacion de soluciones previas del algoritmo para el calculo de futuras predicciones.