# Segundo turno

Dado el conjunto CPU en weka (formato arff), transforme la misma a formato CSV y la lectura desde python

!["./cpu0.png"](./cpu0.png)

Guardamos en formato CSV

![./cpu.png](./cpu.png)

Realizamos la lectura del archico cpu.with.vendor.csv

## Lectura de archivo "cpu.with.vendor.csv" desde python

In [1]:
import pandas as pd
import numpy as np

In [11]:
dataset = pd.read_csv("./cpu.with.vendor.csv")
dataset.head()

Unnamed: 0,vendor,MYCT,MMIN,MMAX,CACH,CHMIN,CHMAX,class
0,adviser,125,256,6000,256,16,128,199
1,amdahl,29,8000,32000,32,8,32,253
2,amdahl,29,8000,32000,32,8,32,253
3,amdahl,29,8000,32000,32,8,32,253
4,amdahl,29,8000,16000,32,8,16,132


## Preprocesamiento

### Valores faltantes

Antes de comenzar a manejar los valores perdidos, es importante identificar los valores perdidos y saber con qué valor se reemplazan. Para el caso del dataset CPU, no existen valores faltantes ya que ninguna columna, presenta valores NaN

In [12]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 8 columns):
vendor    209 non-null object
MYCT      209 non-null int64
MMIN      209 non-null int64
MMAX      209 non-null int64
CACH      209 non-null int64
CHMIN     209 non-null int64
CHMAX     209 non-null int64
class     209 non-null int64
dtypes: int64(7), object(1)
memory usage: 13.1+ KB


### División del conjunto de datos

Definimos a las 1ras 6 columnas como variables independientes y a la ultima como variable dependiente, es la que se usará para hacer la predicción.
Entonces, creamos la matriz de caracteristicas y el vector de la variable dependiente

* Matriz de caracteristicas: columnas 0 a la 6
* Vector de la variable dependiente, columna 7

In [23]:
X = dataset.iloc[:, 0:7].values
y = dataset.iloc[:, 7].values

### Caracteristicas categoricas

la biblioteca de aprendizaje automático de `sklearn` no admite el manejo de datos categóricos. Incluso para los modelos basados en árboles, es necesario convertir características categóricas en una representación numérica.

Veamos si existen columnas categoricas en el dataset.

al tener variables categoricas dentro del conjunto de datos. Se trata de traducir todo a valores numericos codificando de la forma en la que haga falta. Esto con `LabelEncoder` propia de la libreria de `scikit-learn`

In [18]:
dataset.dtypes

vendor    object
MYCT       int64
MMIN       int64
MMAX       int64
CACH       int64
CHMIN      int64
CHMAX      int64
class      int64
dtype: object

In [19]:
from sklearn.preprocessing import LabelEncoder

In [24]:
# Creamos un labelenconder para cada variable categorica
labelencoder_X1 = LabelEncoder()
X[:, 0] = labelencoder_X1.fit_transform(X[:, 0])
X

array([[0, 125, 256, ..., 256, 16, 128],
       [1, 29, 8000, ..., 32, 8, 32],
       [1, 29, 8000, ..., 32, 8, 32],
       ...,
       [28, 125, 2000, ..., 0, 2, 14],
       [29, 480, 512, ..., 32, 0, 0],
       [29, 480, 1000, ..., 0, 0, 0]], dtype=object)

### Dvisión en conjunto de entrenamiento y pruebas

Creamos el conjunto de entrenamiento y de pruebas, eso mediante el modelo de selección de ``Scikit-learn` dividiendo el conjunto en entrenamiento 80% y pruebas 20%

In [25]:
from sklearn.model_selection import train_test_split

In [26]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

### Normalización

Escalado de variables, esto debido a que existen variables que destacan mucho (tenemos variables que estan entre un rango menor, otras que llegan a tener valores que llegan a valores de 64000), cada uno esta en una escala diferente, esto para un mejor calculo y hacemos que ninguna variable domine sobre el resto

Entonces ahora estaran estandarizadas X_train, X_test, debidamente normalizadas

In [28]:
from sklearn.preprocessing import StandardScaler

In [29]:
sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

In [36]:
X_train

array([[ 0.13686133,  1.47102315, -0.53054729, ..., -0.63206819,
        -0.51650809, -0.64011436],
       [ 0.6715009 , -0.47129246, -0.20866821, ...,  0.16457625,
        -0.51650809, -0.4619492 ],
       [-2.00169696, -0.71217018,  1.35892472, ...,  0.16457625,
         0.43735914, -0.10561887],
       ...,
       [ 0.13686133,  0.03722718, -0.4699337 , ..., -0.58227791,
        -0.2439746 , -0.4619492 ],
       [-0.93241782,  2.27394889, -0.4699337 , ..., -0.63206819,
        -0.51650809, -0.64011436],
       [ 0.93882069, -0.05835922, -0.20866821, ...,  0.96122068,
        -0.51650809, -0.49758223]])

## Genere un árbol C4.5 en Excel y con python, explicado paso a paso

Exportamos el dataset ya preprocesado a un archivo csv, de salida para poder trabajar con el en excel

In [60]:
dataset.to_csv('cpu.csv')

## Realice una red neuronal XOR mediante python simple.



Primero generamos la matriz de caracteristicas, en este caso debe ser una matriz binaria de la forma:

| A | B |
|---|---|
| 0 | 0 |
| 0 | 1 |
| 1 | 0 |
| 1 | 1 |

In [49]:
INPUT_X = np.array([
  [0,0],
  [0,1],
  [1,0],
  [1,1]
])
print(INPUT_X)

[[0 0]
 [0 1]
 [1 0]
 [1 1]]


Luego definimos el vector de variables dependientes

| XOR |
|---|
| 0 |
| 1 |
| 1 |
| 0 |

In [51]:
RESULT = np.array([[0,1,1,0]]).T
print(RESULT)

# la tabla de verdad de la operación XOR
print(np.append(INPUT_X,EXPECTED_RESULT, axis=1))

[[0]
 [1]
 [1]
 [0]]
[[0 0 0]
 [0 1 1]
 [1 0 1]
 [1 1 0]]


Para que la red neuronal aprenda, debe calcular su prediccion, calcular el error, correguir los pesos y volver a calcular. Se tiene para el ejemplo 2 entradas y 1 salida, lo se se quiere conseguir es encontrar una conexión entre cada entrada y salida. Para esto cada entrada debe tener un peso. Esto para modificar mas o menos el peso segun su salida.

Definimos la función de activación, que nos permitira modelar problemas no lineales, este mapeara cualquier valor a valores entre 0 y 1, tambien dado el caso devolveremos la derivada de la función.

In [52]:
def sigmoid(x, deriv=False):
    if deriv:
        return x*(1-x)
    return 1/(1+np.exp(-x))

Creamos una capa intermedia, la cual tendra el objetivo de ir aprendiendo, donde tenemos 2 entradas y 1 salida. a su vez creamos la matriz para la capa intemedia y la de salida.

In [55]:
np.random.seed(0)
 
# Ahora creamos una matriz de 2x3 para las conexiones de la CAPA0 a CAPA1
SYN0 = 2*np.random.random((2,3)) - 1
## Y las conexiones de la CAPA1 a la CAPA2 que es la salida
SYN1 = 2*np.random.random((3,1)) - 1
print(SYN0)
print(SYN1)

[[ 0.09762701  0.43037873  0.20552675]
 [ 0.08976637 -0.1526904   0.29178823]]
[[-0.12482558]
 [ 0.783546  ]
 [ 0.92732552]]


Ahora que ya tenemos definido las capas, las entradas y salida, comencemos con las iteraciones de la red neuronal.

Lo primero es hacer el producto entre las entradas y las conexiones. Lo que da como resultado una qr activación, esto se mueve a la siguiente capa l2. Evaluando el error en esta capa final. Calculamos la diferencia con la derivada, esto debido a que nos devolvera valores que seviran de nuevos pesos para aprender en la siguiente iteración.

Luego evaluamos las partes del error acumulado, para luego definir que valores ajustaremos en las conexiones de SYN1.

Las 1ras conexiones se corrigen con `li_delta * entrada`, las 2das conexiones son corregidas con `l2_delta * entrada de la capra intermedia`

In [58]:
for i in range(20000):
    layer0 = INPUT_X
    # Multiplicamos las entradas con las conexiones
    layer1 = sigmoid(np.dot(layer0, SYN0))
    # En l1 tenemos los resultados de la primera activación, movemos esos datos a la capa siguiente
    layer2 = sigmoid(np.dot(layer1, SYN1))
    # Computamos el error de la capa final
    layer2_error = EXPECTED_RESULT - layer2
 
    # Computamos la diferencia con la derivada, dando el valor a añadir a los pesos para el aprendizaje
    layer2_delta = layer2_error * sigmoid(layer2, True)
    # El error acumulado, debido a las primeras conexiones
    layer1_error = np.dot(layer2_delta, SYN1.T)
    # Calculamos quw valor debemos ajustar, en las conexiones de SYN1
    layer1_delta = layer1_error * sigmoid(layer1, True)
 
    ## Corregimos las 1ras conexiones
    SYN0 += np.dot(layer0.T, layer1_delta)
    SYN1 += np.dot(layer1.T, layer2_delta)
    if (i % 1000) == 0 :
        print("Error: ", str(np.mean(np.abs(layer2_error))))
 
print(l2)

Error:  0.009427862886120214
Error:  0.00930639333702756
Error:  0.009189443514526482
Error:  0.009076740980230407
Error:  0.00896803570153788
Error:  0.008863097739553176
Error:  0.00876171522185459
Error:  0.008663692559567537
Error:  0.008568848874712424
Error:  0.00847701660915049
Error:  0.00838804029086706
Error:  0.008301775436997002
Error:  0.008218087576043594
Error:  0.008136851374289034
Error:  0.00805794985353219
Error:  0.007981273689087307
Error:  0.00790672057849302
Error:  0.007834194672671983
Error:  0.007763606062372261
Error:  0.007694870313654671
[[0.01588941]
 [0.99040494]
 [0.9904041 ]
 [0.00263157]]
