# ANÁLISIS PREDICTIVO

In [1]:
#Importando librerías

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime
from datetime import date
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore') # Para evitar los molestos avisos.
%matplotlib inline
plt.rcParams["figure.figsize"] = (15,8)

In [3]:
#PREPARAMOS DATASET
datos = pd.read_csv('dataset.csv', sep=";", decimal='.')
datos

# Asignar nombre a las columnas
columnas=['Unnamed: 0', 'Country or Area', 'Year', 'Metano', 'Co2', 'N2o',
       'Temperature', 'Code', 'Hydropower',
       'Solar', 'Wind',
       'Other renewables']

# Descargar el dataset
datos = pd.read_csv('dataset.csv', sep=";", names=columnas, header=0,thousands=' ', decimal='.')

#Eliminar columnas sin nombre
datos=datos.drop(['Unnamed: 0'], axis=1)
datos

Unnamed: 0,Country or Area,Year,Metano,Co2,N2o,Temperature,Code,Hydropower,Solar,Wind,Other renewables
0,Australia,2018,109532.0,415953,20114.0,1.112,AUS,1.726,12.00000,16.266,3.539
1,Australia,2017,108170.0,415097,21265.0,1.117,AUS,1.353,8.00000,13.193,3.543
2,Australia,2016,105873.0,411031,19566.0,1.142,AUS,1.768,7.00000,13.026,3.648
3,Australia,2015,105368.0,401554,19557.0,1.051,AUS,1.394,5.00000,11.802,3.691
4,Australia,2014,105070.0,394116,20096.0,1.139,AUS,1.453,4.00000,9.777,3.546
...,...,...,...,...,...,...,...,...,...,...,...
1171,Brasil,2014,567542.0,552841,,1.293,BRA,373.439,0.01608,12.210,46.384
1172,Brasil,2015,532432.0,521457,,1.697,BRA,359.742,0.05891,21.625,49.236
1173,Brasil,2016,576542.0,488167,,1.607,BRA,380.910,0.08526,33.488,51.040
1174,Brasil,2017,534321.0,497271,,1.498,BRA,370.906,0.83181,42.373,51.272


In [4]:
#ESTIMAMOS VALORES AUSENTES
import numpy as np
from sklearn.impute import SimpleImputer

datos["N2o"]=datos["N2o"].fillna(datos["N2o"].mean())
datos["Metano"]=datos["Metano"].fillna(datos["Metano"].mean())
datos.head()

Unnamed: 0,Country or Area,Year,Metano,Co2,N2o,Temperature,Code,Hydropower,Solar,Wind,Other renewables
0,Australia,2018,109532.0,415953,20114.0,1.112,AUS,1.726,12.0,16.266,3.539
1,Australia,2017,108170.0,415097,21265.0,1.117,AUS,1.353,8.0,13.193,3.543
2,Australia,2016,105873.0,411031,19566.0,1.142,AUS,1.768,7.0,13.026,3.648
3,Australia,2015,105368.0,401554,19557.0,1.051,AUS,1.394,5.0,11.802,3.691
4,Australia,2014,105070.0,394116,20096.0,1.139,AUS,1.453,4.0,9.777,3.546


Comprobamos que no haya valores nulos o vacíos.

In [5]:
datos.isnull().sum()

Country or Area     0
Year                0
Metano              0
Co2                 0
N2o                 0
Temperature         0
Code                0
Hydropower          0
Solar               0
Wind                0
Other renewables    0
dtype: int64

In [6]:
datos=datos.drop(columns=["Country or Area","Code","Year"])
datos

#Hemos normalizado los valores ausentes, como hemos podido ver en el análisis exploratorio y además hemos eliminado las
#columnas no numéricas para proceder con la normalización.

Unnamed: 0,Metano,Co2,N2o,Temperature,Hydropower,Solar,Wind,Other renewables
0,109532.0,415953,20114.000000,1.112,1.726,12.00000,16.266,3.539
1,108170.0,415097,21265.000000,1.117,1.353,8.00000,13.193,3.543
2,105873.0,411031,19566.000000,1.142,1.768,7.00000,13.026,3.648
3,105368.0,401554,19557.000000,1.051,1.394,5.00000,11.802,3.691
4,105070.0,394116,20096.000000,1.139,1.453,4.00000,9.777,3.546
...,...,...,...,...,...,...,...,...
1171,567542.0,552841,25558.171717,1.293,373.439,0.01608,12.210,46.384
1172,532432.0,521457,25558.171717,1.697,359.742,0.05891,21.625,49.236
1173,576542.0,488167,25558.171717,1.607,380.910,0.08526,33.488,51.040
1174,534321.0,497271,25558.171717,1.498,370.906,0.83181,42.373,51.272


In [7]:
datos.dtypes

Metano              float64
Co2                   int64
N2o                 float64
Temperature         float64
Hydropower           object
Solar               float64
Wind                float64
Other renewables    float64
dtype: object

In [8]:
datos["Metano"]=datos["Metano"].astype('int')
datos["N2o"]=datos["N2o"].astype('int')
datos["Temperature"]=datos["Temperature"].astype('float64')


datos["Hydropower"] = pd.to_numeric(datos.Hydropower, errors='coerce')



#datos["Hydropower"]=datos["Hydropower"].astype('int')
#datos["Solar"]=datos["Solar"].astype('float64')
#datos["Wind"]=datos["Wind"].astype('float64')
datos["Other renewables"]=datos["Other renewables"].astype('float64')

#Para proceder con el minMax necesitamos que todos los datos sean numericos. Por eso hemos pasado todos los datos a integer y float.

In [9]:
datos.head()

Unnamed: 0,Metano,Co2,N2o,Temperature,Hydropower,Solar,Wind,Other renewables
0,109532,415953,20114,1.112,1.726,12.0,16.266,3.539
1,108170,415097,21265,1.117,1.353,8.0,13.193,3.543
2,105873,411031,19566,1.142,1.768,7.0,13.026,3.648
3,105368,401554,19557,1.051,1.394,5.0,11.802,3.691
4,105070,394116,20096,1.139,1.453,4.0,9.777,3.546


In [10]:
datos.dtypes

Metano                int32
Co2                   int64
N2o                   int32
Temperature         float64
Hydropower          float64
Solar               float64
Wind                float64
Other renewables    float64
dtype: object

### NORMALIZAMOS mediante MinMaxScaler

In [11]:
from sklearn import preprocessing
import pandas as pd

#NORMALIZAMOS TODO EL DATASET
scaler=preprocessing.MinMaxScaler()
names=datos.columns
datos = scaler.fit_transform(datos)
datos= pd.DataFrame(datos, columns=names)
datos.head()

Unnamed: 0,Metano,Co2,N2o,Temperature,Hydropower,Solar,Wind,Other renewables
0,0.051229,0.037098,0.043076,0.566939,0.001898,0.039047,0.044443,0.037334
1,0.050589,0.037021,0.045575,0.568138,0.001487,0.026031,0.036046,0.037376
2,0.049509,0.036657,0.041886,0.574136,0.001944,0.022777,0.03559,0.038483
3,0.049271,0.035807,0.041867,0.552303,0.001533,0.016269,0.032246,0.038937
4,0.049131,0.03514,0.043037,0.573417,0.001597,0.013016,0.026713,0.037407


Los pasos anteriores simplemente era la carga de datos, ajustarlos y tratarlos como se hizo en el análisis exploratorio. Además de sustituir los Na, ya que sabemos que los NA nos afectarían para el análisis predictivo.

In [12]:
#Iniciamos el proceso del análisis predictivo con el tratado de los datos y que así nos permitan trabajar con el modelo
#predictivo sin problema alguno

X=datos.iloc[:,1:4].values
y=datos.iloc[:,5].values
#Simplemente generamos los valores de X(METANO,CO2,N2O), e Y(Temperature)

### TRAIN-TEST

In [13]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

#Entrenamos los modelos mediante train_test_split. Los valores entrenados serán de un 70%.

Dado que tenemos valores continuos, nos encontramos ante un problema de regresión. Para ello vamos a llevar a cabo un algoritmo de aprendizaje supervisado: SVR (Support Vector Regression). 
#### Support Vector Regression.
Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra. Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio, separando las clases a 2 espacios lo más amplios posibles mediante un hiperplano de separación definido como el vector entre los 2 puntos, de las 2 clases, más cercanos al que se llama vector soporte. 

Para ello cargamos las distintas librerías de sklearn:

In [14]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn.svm import SVR
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import LabelBinarizer

#clf = svm.SVC(kernel = 'linear',gamma=0.001, C=100.)
clf=svm.SVR(kernel = 'linear',gamma=0.001, C=100.)

In [15]:
clf.fit(X_train,y_train)

SVR(C=100.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma=0.001,
    kernel='linear', max_iter=-1, shrinking=True, tol=0.001, verbose=False)

In [16]:
clf

SVR(C=100.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma=0.001,
    kernel='linear', max_iter=-1, shrinking=True, tol=0.001, verbose=False)

In [17]:
y_pred=clf.predict(X_test)

In [18]:
y_pred

array([0.09535187, 0.09664052, 0.09661573, 0.09495629, 0.09636436,
       0.09506969, 0.09610785, 0.09621705, 0.09788409, 0.10889435,
       0.09623091, 0.09636755, 0.09557467, 0.09656384, 0.09702991,
       0.09620493, 0.09697831, 0.09526453, 0.09525479, 0.09673437,
       0.09532502, 0.09552909, 0.09643918, 0.09485905, 0.09542811,
       0.09615782, 0.0952407 , 0.09641084, 0.09986226, 0.1005693 ,
       0.09631919, 0.0961425 , 0.09617283, 0.09849313, 0.09681393,
       0.09637172, 0.09674037, 0.09665511, 0.09600241, 0.09602887,
       0.09671248, 0.09595618, 0.09623968, 0.09598865, 0.10014795,
       0.09700957, 0.0964118 , 0.09583849, 0.0974864 , 0.09532745,
       0.09691738, 0.09712284, 0.09556874, 0.09611864, 0.09643243,
       0.09687984, 0.09636481, 0.09553239, 0.09503591, 0.09572851,
       0.09658626, 0.097783  , 0.09611687, 0.09677423, 0.0986571 ,
       0.0964639 , 0.09707555, 0.09548455, 0.09637578, 0.09570773,
       0.09591467, 0.09635252, 0.09661609, 0.0964919 , 0.09700

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

### PCR

In [None]:
#!pip install hoggorm
import hoggorm as ho

In [None]:
model = ho.nipalsPCA(arrX=X_train, numComp=3, Xstand=False)

In [None]:
scores = model.X_scores()
loadings = model.X_loadings()
cumulativeCalibratedExplainedVariance_allVariables = model.X_cumCalExplVar_indVar()

## Principal component analysis (PCA) 
https://www.cienciadedatos.net/documentos/py19-pca-python.html

El análisis de componentes principales (Principal Component Analysis PCA) es un método de reducción de dimensionalidad que permite simplificar la complejidad de espacios con múltiples dimensiones a la vez que conserva su información.

Se describe un conjunto de datos en términos de nuevas variables («componentes») no correlacionadas. Los componentes se ordenan por la cantidad de varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad de un conjunto de datos.

Las librerías utilizadas son:

In [None]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.font_manager
from matplotlib import style
style.use('ggplot') or plt.style.use('ggplot')

# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

In [None]:
datos = datos.dropna(axis=0)

#### Modelo PCA

In [None]:
# Entrenamiento modelo PCA con escalado de los datos
# ==============================================================================
pca_pipe = make_pipeline(StandardScaler(), PCA())
pca_pipe.fit(datos)

# Se extrae el modelo entrenado del pipeline
modelo_pca = pca_pipe.named_steps['pca']

#### Interpretación

In [None]:
# Se combierte el array a dataframe para añadir nombres a los ejes.
pd.DataFrame(
    data    = modelo_pca.components_,
    columns = datos.columns,
    index   = ['PC1', 'PC2', 'PC3', 'PC4','PC5', 'PC6', 'PC7', 'PC8']
)

Podemos visualizar la influencia de las variables en cada componente con un gráfico de tipo heatmap.

In [None]:
# Heatmap componentes
# ==============================================================================
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(4, 2))
componentes = modelo_pca.components_
plt.imshow(componentes.T, cmap='viridis', aspect='auto')
plt.yticks(range(len(datos.columns)), datos.columns)
plt.xticks(range(len(datos.columns)), np.arange(modelo_pca.n_components_) + 1)
plt.grid(False)
plt.colorbar();

Una vez calculadas las componentes principales, se puede conocer la varianza explicada por cada una de ellas, la proporción respecto al total y la proporción de varianza acumulada. Esta información está almacenada en los atributos explained_variance_ y explained_variance_ratio_ del modelo.

In [None]:
# Porcentaje de varianza explicada por cada componente
# ==============================================================================
print('----------------------------------------------------')
print('Porcentaje de varianza explicada por cada componente')
print('----------------------------------------------------')
print(modelo_pca.explained_variance_ratio_)

fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(6, 4))
ax.bar(
    x      = np.arange(modelo_pca.n_components_) + 1,
    height = modelo_pca.explained_variance_ratio_
)

for x, y in zip(np.arange(len(datos.columns)) + 1, modelo_pca.explained_variance_ratio_):
    label = round(y, 2)
    ax.annotate(
        label,
        (x,y),
        textcoords="offset points",
        xytext=(0,10),
        ha='center'
    )

ax.set_xticks(np.arange(modelo_pca.n_components_) + 1)
ax.set_ylim(0, 1.1)
ax.set_title('Porcentaje de varianza explicada por cada componente')
ax.set_xlabel('Componente principal')
ax.set_ylabel('Por. varianza explicada');

En este caso, la primera componente explica el 51% de la varianza observada en los datos y la segunda el 16%. Las dos últimas componentes no superan por separado el 2% de varianza explicada

In [None]:
# Porcentaje de varianza explicada acumulada
# ==============================================================================
prop_varianza_acum = modelo_pca.explained_variance_ratio_.cumsum()
print('------------------------------------------')
print('Porcentaje de varianza explicada acumulada')
print('------------------------------------------')
print(prop_varianza_acum)

fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(6, 4))
ax.plot(
    np.arange(len(datos.columns)) + 1,
    prop_varianza_acum,
    marker = 'o'
)

for x, y in zip(np.arange(len(datos.columns)) + 1, prop_varianza_acum):
    label = round(y, 2)
    ax.annotate(
        label,
        (x,y),
        textcoords="offset points",
        xytext=(0,10),
        ha='center'
    )
    
ax.set_ylim(0, 1.1)
ax.set_xticks(np.arange(modelo_pca.n_components_) + 1)
ax.set_title('Porcentaje de varianza explicada acumulada')
ax.set_xlabel('Componente principal')
ax.set_ylabel('Por. varianza acumulada');

Si se empleasemos las cuatro primeras componentes se conseguiría explicar el 88% de la varianza observada.

#### Transformación.

Una vez entrenado el modelo, con el método transform() se puede reducir la dimensionalidad de nuevas observaciones proyectándolas en el espacio definido por las componentes.

In [None]:
# Proyección de las observaciones de entrenamiento
# ==============================================================================
proyecciones = pca_pipe.transform(X=datos)
proyecciones = pd.DataFrame(
    proyecciones,
    columns = ['PC1', 'PC2', 'PC3', 'PC4','PC5', 'PC6', 'PC7', 'PC8'],
    index   = datos.index
)
proyecciones.head()


La transformación es el resultado de multiplicar los vectores que definen cada componente con el valor de las variables. Puede calcularse de forma manual:

In [None]:
proyecciones = np.dot(modelo_pca.components_, scale(datos).T)
proyecciones = pd.DataFrame(proyecciones, index = ['PC1', 'PC2', 'PC3', 'PC4','PC5', 'PC6', 'PC7', 'PC8'])
proyecciones = proyecciones.transpose().set_index(datos.index)
proyecciones.head()

#### Reconstrucción.

Puede revertirse la transformación y reconstruir el valor inicial con el método inverse_transform(). Es importante tener en cuenta que, la reconstrucción, solo será completa si se han incluido todas las componentes.

In [None]:
# Recostruccion de las proyecciones
# ==============================================================================
recostruccion = pca_pipe.inverse_transform(X=proyecciones)
recostruccion = pd.DataFrame(
                    recostruccion,
                    columns = datos.columns,
                    index   = datos.index
)
print('------------------')
print('Valores originales')
print('------------------')
display(recostruccion.head())

print('---------------------')
print('Valores reconstruidos')
print('---------------------')
display(datos.head())

In [None]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.font_manager
from matplotlib import style
style.use('ggplot') or plt.style.use('ggplot')

# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import multiprocessing
# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

# Mínimos cuadrados (OLS)

In [None]:
# Creación y entrenamiento del modelo
# ==============================================================================
modelo = LinearRegression(normalize=True)
modelo.fit(X = X_train, y = y_train)

In [None]:
# Predicciones test
# ==============================================================================
predicciones = modelo.predict(X=X_test)
predicciones = predicciones.flatten()

# Error de test del modelo 
# ==============================================================================
rmse_ols = mean_squared_error(
            y_true  = y_test,
            y_pred  = predicciones
           )
print("")
print(f"El error (rmse) de test es: {rmse_ols}")

# PCR


Para combinar PCA con regresión lineal, se crea un pipeline que combine ambos procesos. Dado que no se puede conocer
a priori el número de componentes óptimo, se recurre a validación cruzada.

In [None]:
# Entrenamiento modelo de regresión precedido por PCA con escalado
# ==============================================================================
pipe_modelado = make_pipeline(StandardScaler(), PCA(), LinearRegression())
pipe_modelado.fit(X=X_train, y=y_train)

In [None]:
pipe_modelado.set_params

In [None]:
# Predicciones test
# ==============================================================================
predicciones = pipe_modelado.predict(X=X_test)
predicciones = predicciones.flatten()

# Error de test del modelo 
# ==============================================================================
rmse_pcr = mean_squared_error(
            y_true  = y_test,
            y_pred  = predicciones,
           )
print("")
print(f"El error (rmse) de test es: {rmse_pcr}")

In [None]:
# ==============================================================================
param_grid = {'pca__n_components': [1, 2,3]}

# Búsqueda por grid search con validación cruzada
# ==============================================================================
grid = GridSearchCV(
        estimator  = pipe_modelado,
        param_grid = param_grid,
        scoring    = 'neg_mean_squared_error',
        n_jobs     = multiprocessing.cpu_count() - 1,
        cv         = KFold(n_splits=5, random_state=123), 
        refit      = True,
        verbose    = 0,
        return_train_score = True
       )

grid.fit(X = X_train, y = y_train)

# Resultados
# ==============================================================================
resultados = pd.DataFrame(grid.cv_results_)
resultados.filter(regex = '(param.*|mean_t|std_t)') \
    .drop(columns = 'params') \
    .sort_values('mean_test_score', ascending = False) \
    .head(3)

In [None]:
# ==============================================================================
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(7, 5), sharey=True)

resultados.plot('param_pca__n_components', 'mean_train_score', ax=ax)
resultados.plot('param_pca__n_components', 'mean_test_score', ax=ax)
ax.fill_between(resultados.param_pca__n_components.astype(np.float),
                resultados['mean_train_score'] + resultados['std_train_score'],
                resultados['mean_train_score'] - resultados['std_train_score'],
                alpha=0.2)
ax.fill_between(resultados.param_pca__n_components.astype(np.float),
                resultados['mean_test_score'] + resultados['std_test_score'],
                resultados['mean_test_score'] - resultados['std_test_score'],
                alpha=0.2)
ax.legend()
ax.set_title('Evolución del error CV')
ax.set_ylabel('neg_root_mean_squared_error');

In [None]:
# Mejores hiperparámetros por validación cruzada
# ==============================================================================
print("----------------------------------------")
print("Mejores hiperparámetros encontrados (cv)")
print("----------------------------------------")
print(grid.best_params_, ":", grid.best_score_, grid.scoring)

Los resultados de validación cruzada muestran que, el mejor modelo, se obtiene empleando las 3 primeras componentes. 
Sin embargo, teniendo en cuenta la evolución del error y su intervalo, no se consiguen mejoras significativas con más
componentes. 
Siguiendo el principio de parsimonia, el mejor modelo es el que emplea únicamente las 3 primeras 
componentes. 
Se reentrena el modelo indicando esta configuración.

In [None]:
# Entrenamiento modelo de regresión precedido por PCA con escalado
# ==============================================================================
pipe_modelado = make_pipeline(StandardScaler(), PCA(n_components=2), LinearRegression())
pipe_modelado.fit(X=X_train, y=y_train)

In [None]:
# ==============================================================================
predicciones = pipe_modelado.predict(X=X_test)
predicciones = predicciones.flatten()

# Error de test del modelo 
# ==============================================================================
rmse_pcr = mean_squared_error(
            y_true  = y_test,
            y_pred  = predicciones
           )
print("")
print(f"El error (rmse) de test es: {rmse_pcr}")


Comprobamos el error para distinto número de componentes.
Empleando las dos primeras componentes del PCA como predictores en lugar de las variables originales, se consigue aumentar el root mean squared error de 0.00033 a 0.00038.
Siendo el error (rmse), con 3 componentes nos da un resultado de 0.0003.

In [None]:
def plot_svc_2D(X,y, model):
    """Plot the decision function for a 2D SVC"""
    
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap='autumn')
    ax = plt.gca() # devuelve los ejes
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    # create grid to evaluate model
    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)
    Y, X = np.meshgrid(y, x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    # plot decision boundary and margins
    ax.contour(X, Y, P, colors='k',
               levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    
    # plot support vectors
    ax.scatter(model.support_vectors_[:, 0],model.support_vectors_[:, 1],
                   s=3, linewidth=10, c= 'blue');
    #límite eje x
    ax.set_xlim(xlim)
    #límite eje y
    ax.set_ylim(ylim)

In [None]:
plt.scatter(X[0:,0],X[:,1],c=y,s=50,cmap="autumn")

In [None]:
plot_svc_2D(X,y,clf_datos)

### Árboles de decisión (algoritmo supervisado de aprendizaje automático)

Vamos a crear un árbol de decisión, es decir, un modelo predictivo que divida el espacio de los predictores agrupando observaciones con valores similares para la variable respuesta o dependiente.

Creamos el clasificador DecisionTreeClassifier

In [None]:
from sklearn import tree
clf = tree.DecisionTreeRegressor()

Entrenamos nuestro clasificador con los datos de entrenamiento: X_train y y_train.

In [None]:
clf.fit(X_train,y_train)

Predecimos sobre los datos de test

In [None]:
y_pred = clf.predict(X_test)

Evaluamos

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

In [None]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

Obtenemos una precisión muy alta del 99%. ¿Sobreajuste? \
Habría que probar variando los parámetros del clasificador para mejorar la precisión, en caso de que este mal planteado.

Definimos las siguientes funciones para visualizar el árbol de distintas maneras.

In [None]:
import matplotlib.pyplot as plt
import graphviz 
from sklearn import tree

In [None]:
def print_decisionTree(clf):
  plt.figure(figsize=(12,12))  # set plot size (denoted in inches)
  tree.plot_tree(clf, fontsize=12)
  plt.show()

In [None]:
def print_decisionTree_colour(clf,features,classes):
  dot_data = tree.export_graphviz(clf, out_file=None, 
                        feature_names=features,  
                        class_names=classes,  
                        filled=True, rounded=True,  
                        special_characters=True)  
  graph = graphviz.Source(dot_data) 
  return graph  

In [None]:
def print_decisionTree_text(clf,features):
  r = tree.export_text(clf, feature_names=features)
  print(r)

In [None]:
print_decisionTree(clf)

In [None]:
columnas = list(datos.columns)
columnas = columnas[1:4]
columnas

In [None]:
print_decisionTree_colour(clf,columnas,['0','1','2'])

In [None]:
print_decisionTree_text(clf,columnas)

Vamos a visualizar los clasificadores con la matriz de confusión, para ello definimos la siguiente función.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import plot_confusion_matrix


def print_pretty_confusionMatrix(clf, features):
  class_names = features
  np.set_printoptions(precision=2)

  # Plot non-normalized confusion matrix
  titles_options = [("Confusion matrix", None)]
  for title, normalize in titles_options:
      disp = plot_confusion_matrix(clf, X_test, y_test,
                                  display_labels=class_names,
                                  cmap=plt.cm.Blues,
                                  normalize=normalize)
      disp.ax_.set_title(title)

      print(title)
      print(disp.confusion_matrix)

  plt.show()

In [None]:
print_pretty_confusionMatrix(clf, columnas)

# RED NEURONAL

https://towardsdatascience.com/building-our-first-neural-network-in-keras-bdc8abbc17f5#:~:text=Building%20Neural%20Network%20Keras%20is%20a%20simple%20tool,20%20values%20and%20output%20is%20of%204%20values.

In [None]:
X=datos.iloc[:,1:4].values
y=datos.iloc[:,3:4].values

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)
#Simplemente normalizamos los datos.Duda: hay que normalizar dos veces??

In [None]:
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
y = ohe.fit_transform(y).toarray()
#Ahora nuestro dataset es procesado y preparado para limentar la red neuronal. 

In [None]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.1)
#Dividimos el dataset en datso entrenados y testeados. Los datos entrenados tendrán un 90% de ejemplos y 
#test data un 10%.

# Building Neural Network


Keras is a simple tool for constructing a neural network. It is a high-level framework based on tensorflow,
theano or cntk backends.

In [None]:
#Dependencies
import keras
from keras.models import Sequential
from keras.layers import Dense
import re
# Neural network
model = Sequential()
model.add(Dense(16, input_dim=20, activation="relu"))
model.add(Dense(12, activation="relu"))
model.add(Dense(4, activation="softmax"))

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
#Entrenamos el modelo
history = model.fit(X_train, y_train, epochs=100, batch_size=64)

In [None]:
y_pred = model.predict(X_test)
#Converting predictions to label
pred = list()
for i in range(len(y_pred)):
    pred.append(np.argmax(y_pred[i]))
#Converting one hot encoded test label to label
test = list()
for i in range(len(y_test)):
    test.append(np.argmax(y_test[i]))

This step is inverse one hot encoding process. We will get integer labels using this step. We can predict on test data 
using a simple method of keras, model.predict(). 
It will take the test data as input and will return the prediction outputs as softmax.

In [None]:
from sklearn.metrics import accuracy_score
a = accuracy_score(pred,test)
print('Accuracy is:', a*100)
#Obtenemos el accuracy 

Ahora podemos usar test data como validación y podemos comprobar los accuracys después de cada epoch

In [None]:
history = model.fit(X_train, y_train,validation_data = (X_test,y_test), epochs=100, batch_size=64)
#Ahora la salida del entrenamiento contiene la validación del accuracy

In [None]:
#Ahora lo queremos visualizar 

In [None]:
#model accuracy
import matplotlib.pyplot as plt
plt.plot(history.history['acc'])
plt.plot(history.history['val_acc'])
plt.title('Model accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend(['Train', 'Test'], loc='upper left')
plt.show()

In [None]:
#Model loss
plt.plot(history.history['loss']) plt.plot(history.history['val_loss']) 
plt.title('Model loss') 
plt.ylabel('Loss') 
plt.xlabel('Epoch') 
plt.legend(['Train', 'Test'], loc='upper left') 
plt.show()

In [1]:
import os
os.system("jupyter nbconvert --to html ANALISIS PREDICTIVO.ipynb")


-1