# Práctica sobre algoritmos de clasificación predictiva

<table align="right">
<tr>
<th></th>
<th>Master UOC en Inteligencia de Negocio</th>
  </tr>
  <tr>
   <td>Asignatura</td>
    <td>B2.332 Modelos Avanzados</td>
  </tr>
  <tr>
    <td>Consultor</td>
    <td>Jordi Gironés</td>
  </tr>
   <tr>
    <td>Estudiante</td>
    <td>Nombre estudiante</td>
  </tr>
   <tr>
    <td>Fecha</td>
    <td>19/10/2016</td>
  </tr>
</table>

## Introducción

El juego de datos a trabajar es libre, sin embargo para orientar mejor en la práctica proponemos el siguiente:
[Machine Learning Repository: Incendios forestales](https://archive.ics.uci.edu/ml/machine-learning-databases/forest-fires/).

Deberáis utilizar código R y los paquetes `kernlab` y/o `e1071`.

Se trata de un juego de datos en formato csv que recoje medidas ambientales de distintas zonas forestales con el objetivo de predecir el riesgo de incendio.

A nivel de resumen en la práctica llevaremos a cabo las siguientes tareas:
   

#### Entregable
La práctica a entregar por parte del estudiante será este mismo documento con el siguiente índice ampliamente desarrollado:

    1.  Carga de datos y tareas de preprocesado
    2.  Optimización de los parámetros gamma y coste
    3.  Aplicación del algoritmo SVM radial, polinomial y sigmoidal
    4.  Conclusiones para SVM
    5.  Fuentes consultadas

Deberá quedar explícito que se ha trabajado y entendido el material didáctico y que soys capaces de realizar tareas de laboratorio de analítica de datos con los algoritmos estudiados.

********************************************************
### 1. Carga de datos y tareas de preprocesado
********************************************************

Empezamos por cargar nuestro juego de datos

In [93]:
# Descargamos el juego de datos en un directorio local.
Fires <- read.csv(file="B2.332-20161-SVM2.csv",header = TRUE, sep = ";", quote = "\"", dec = ",")

Fires[,5] <- as.numeric(Fires[,5])
Fires[,6] <- as.numeric(Fires[,6])
Fires[,7] <- as.numeric(Fires[,7])
Fires[,8] <- as.numeric(Fires[,8])
Fires[,9] <- as.numeric(Fires[,9])
Fires[,10] <- as.numeric(Fires[,10])
Fires[,11] <- as.numeric(Fires[,11])
Fires[,12] <- as.numeric(Fires[,12])
Fires[,13] <- as.numeric(Fires[,13])

# Visualizamos la estructura del juego de datos
 summary(Fires)


       X                  Y                month      day    
 Min.   :1.000000   Min.   :2.000000   aug    :184   fri:85  
 1st Qu.:3.000000   1st Qu.:4.000000   sep    :172   mon:74  
 Median :4.000000   Median :4.000000   mar    : 54   sat:84  
 Mean   :4.669246   Mean   :4.299807   jul    : 32   sun:95  
 3rd Qu.:7.000000   3rd Qu.:5.000000   feb    : 20   thu:61  
 Max.   :9.000000   Max.   :9.000000   jun    : 17   tue:64  
                                       (Other): 38   wed:54  
      FFMC               DMC                 DC              ISI           
 Min.   :18.70000   Min.   :  1.1000   Min.   :  7.90   Min.   : 0.000000  
 1st Qu.:90.20000   1st Qu.: 68.6000   1st Qu.:437.70   1st Qu.: 6.500000  
 Median :91.60000   Median :108.3000   Median :664.20   Median : 8.400000  
 Mean   :90.64468   Mean   :110.8723   Mean   :547.94   Mean   : 9.021663  
 3rd Qu.:92.90000   3rd Qu.:142.4000   3rd Qu.:713.90   3rd Qu.:10.800000  
 Max.   :96.20000   Max.   :291.3000   Max.   :8

###### Categorización de la variable objetivo
Nuestra variable objetivo será 'area' que se corresponde con el número de hectáreas quemadas bajo las condiciones ambientales especificadas en su entrada correspondiente.

El variable area es continua y puesto que queremos realizar tareas de clasificación y no de regresión, deberemos categorizarla.

Fruto de la categorización podemos optar por trabajar con solo dos grupos (incendio, no incendio) o trabajar con varios grupos (rangos de hectareas quemadas)

In [94]:
Fires2 <- Fires
x <- Fires2[,1:12]

# Opción 1: 
# 0 = No incendio ; 1 = Incendio
Fires2[!Fires2[,13]==0,]$area <- 1

# Opción 2: 
# Considerar 3 rangos por ejemplo: (-1,0] , (0,15] , (15,10000]
# y <- cut(Fires[,13], breaks = as.numeric(c(-1,0,15,10000)))

y <- factor(Fires2[,13])

In [51]:
# Cargamos en memoria la librería R a utilizar: e1071 o kernlab
if(!require(e1071)){
    install.packages('e1071', repos='http://cran.es.r-project.org')
    require(e1071)
}

Loading required package: e1071


In [None]:
# Visualizamos nuestro juego de datos
#plot(c(min(x[,10]), max(x[,10])),c(min(x[,11]), max(x[,11])),type='n',xlab='x2',ylab='x1')
#title(main='Juego de datos inicial')
#points(x[y=="0",10], x[y=="0",11], pch = 2, col="blue")
#points(x[y=="1",10], x[y=="1",11], pch = 1, col="red")

###### Separar datos de entrenamiento y datos de prueba

In [95]:
set.seed(1)
#Separamos los datos de las etiquetas
labels <- y
data <- x

# Utilizaremos 2/3 de los datos para entrenamiento
N=dim(data)[1]
all=seq(1,N)
id.train=sort(sample(N,N*2/3));
id.test=setdiff(all,id.train);

# Generamos el conjunto de entrenamiento:
train <- data[id.train,]
labelsTrain <- labels[id.train]
nrow(train)

# Generamos el conjunto de test:
test <- data[id.test,]
labelsTest <- labels[id.test]
nrow(test)

# Preparamos los datos de entrenamiento
trainFact=data.frame(train,y=as.factor(labelsTrain))

********************************************************
### 2. Optimización de los parámetros gamma y coste
********************************************************

In [None]:
#tuned <- tune.svm(y~., data = trainFact, gamma = 10^(-6:-1), cost = 10^(-1:2))
#    summary(tuned)

********************************************************
### 3. Aplicación del algoritmo SVM radial, polinomial y sigmoidal
********************************************************

In [None]:
# Generamos el modelo de clasificacion SVM polinomial de grado 3
#svm.modelo=svm(y~.,data=trainFact,kernel="polynomial", degree=3, coef0=5 ,cross=5)

# Aplicamos el modelo sobre los datos test
#pred1 <- predict(svm.modelo, test)

# Generamos una matriz de confusion para medir el
# grado de acierto de la prediccion
#t1 <- table(pred = pred1, real = labelsTest)
#t1

In [None]:
#round(100 * sum(diag(t1)) / sum(t1), digits = 2)

In [None]:
# Resultado del modelo
#summary(svm.modelo)

In [None]:
# Visualizamos el modelo generado
#plot(svm.modelo, trainFact, wind~RH, svSymbol = 17, dataSymbol = 2)

********************************************************
### 4. Conclusiones para SVM
********************************************************

In [53]:
# Cargamos en memoria la librería R a utilizar: e1071 o kernlab
if(!require(neuralnet)){
    install.packages('neuralnet', repos='http://cran.es.r-project.org')
    require(neuralnet)
}

In [114]:
#Separamos los datos de las etiquetas
area <- y
data <- as.matrix(cbind(x,area))

# Utilizaremos 2/3 de los datos para entrenamiento
N=dim(data)[1]
all=seq(1,N)
id.train=sort(sample(N,N*2/3));
id.test=setdiff(all,id.train);

# Generamos el conjunto de entrenamiento:
trainingdata <- data[id.train,11:13]
colnames(trainingdata) <- c("Input1","Input2","Output") 
trainingdata2 <- transform(trainingdata, Input1 = as.numeric(Input1), 
                        Input2 = as.numeric(Input2),
                        Output = as.numeric(Output))




#Test the neural network on some training data
testdata <- data[id.test,11:12]
colnames(testdata) <- c("Input1","Input2") 
testdata2 <- transform(testdata, Input1 = as.numeric(Input1), 
                        Input2 = as.numeric(Input2))
                        


In [116]:
# --------------------------------
# Modelo con una capa de 2 nodos
# --------------------------------
set.seed(10)
net.radial <- neuralnet(Output~Input1+Input2,data=trainingdata2, 
                        hidden=2, threshold=0.01, algorithm = "rprop+",
                        err.fct = "sse", act.fct = "logistic" , 
                        linear.output = FALSE)

In [122]:
# Prediccion
net.predict <- compute(net.radial, testdata2) 
pred1 <- round(net.predict$net.result)

# Generamos una matriz de confusion para medir el
# grado de acierto de la prediccion
table(pred = pred1, real = data[id.test,13])

    real
pred  0  1
   1 85 88