# Introdução

O presente trabalho, realizado no âmbito da unidade curricular Aprendizagem Automática, tem como objetivo construir um modelo que, dado um conjunto de dados, responda à pergunta "quais os alunos em risco de abandonar os estudos?".

Para a realização deste trabalho foram testados os seguintes modelos:   
   * Decision Tree
   * SVC
   * Random Forest   
   
   
Os imports, a leitura de dados, o label encoder, o fit e o predict são idênticos para todos os modelos.

## Índice

[Imports](#1.-Imports)

[Leitura de dados](#2.-Leitura-dos-dados)

[Label Encoder](#3.-Label-encoder)

[Modelos](#4.-Modelos)

[Fit e Predict](#5.-Fit-e-predict)

[Melhor modelo](#Melhor-modelo)

# Conjunto de dados
O conjunto de treino para criar os modelos consiste em 1846 exemplos, cada um com 31 atributos.

O conjunto de teste contém 792 exemplos, com os mesmos 31 atributos.


## 1. Imports
---
[Voltar ao índice](#Índice)

---
+ Numpy para manipulação dos dados


+ Preprocessing do sklearn para fazer LabelEncoder do atributo Program, para este passar de String a Integer


+ Último import depende do modelo utilizado:
   * **RandomForestRegressor** : 
   ```python 
   from sklearn.ensemble import RandomForestRegressor
   ```
   * **RandomForestClassifier**: 
   ```python 
   from sklearn.ensemble import RandomForestClassifier
   ```
   * **SVC**: 
   ```python 
   from sklearn.svm import SVC
   ```
   * **DecisonTree**: 
   ```python 
   from sklearn.tree import DecisionTreeClassifier
   ```


In [7]:
import numpy as np
from sklearn import preprocessing

## 2. Leitura dos dados
---
[Voltar ao índice](#Índice)

---
É utilizada a função genfromtxt do numpy para colocar as informações dos ficheiros, de teste e treino, em matrizes.
+ x_train: Toda a informação menos o cabeçalho e a última coluna
+ y_train: Apenas a última coluna   


+ idEstudante: A primeira coluna que contém os id's dos estudantes
+ x_test: Toda a informação no ficheiro de test exceto o cabeçalho

In [6]:
train = np.genfromtxt("train.csv", delimiter=",", dtype=None, encoding=None)
x_train = train[1:,0:-1]     
y_train = train[1:,-1]


test = np.genfromtxt("test.csv", delimiter=",", dtype=None, encoding=None)
idEstudante = test [1:,0]
x_test = test[1:,0:]

Alguns dos testes foram realizados sem incluir a primeira coluna, referente ao Id dos estudantes:

```python
train = np.genfromtxt("train.csv", delimiter=",", dtype=None, encoding=None)
x_train = train[1:,1:-1]     
y_train = train[1:,-1]


test = np.genfromtxt("test.csv", delimiter=",", dtype=None, encoding=None)
idEstudante = test [1:,0]
x_test = test[1:,1:]
```
No entando, foram obtidos melhores resultados com a coluna.


## 3. Label encoder

---

[Voltar ao índice](#Índice)

---

É feito um label encoder na coluna que contém o nome do curso, para tornar os valores em inteiros. Sem isto não é possivel fazer o fit.

In [None]:
lEnc = preprocessing.LabelEncoder()
x_train[:,1] = lEnc.fit_transform(x_train[:,1])
x_test[:,1] = lEnc.fit_transform(x_test[:,1])

Nos casos onde os modelos criados não incluíam a primeira coluna:
```python
lEnc = preprocessing.LabelEncoder()
x_train[:,0] = lEnc.fit_transform(x_train[:,0])
x_test[:,0] = lEnc.fit_transform(x_test[:,0])
```

## 4. Modelos

---

[Voltar ao índice](#Índice)

---

[Decision Tree](#Decision-Tree)

[SVC](#SVC)

[Random Forest](#Random-Forest)

### Decision Tree
Não foram feitas muitas experiências.
Foi apenas realizado um teste, com os parâmetros todos a default, onde foram obtidos os seguintes resultados:
   * **public score**: 0.92307
   * **private score**: 0.88963

In [None]:
DTree = DecisionTreeClassifier(random_state=0)

### SVC
Neste modelo foram realizadas duas experiências, com todos os parâmetros a default, exceto o gamma.

Na primeira, com todo o conjunto de treino:
   * **public score**: 0.05333
   * **private score**: 0.10062
   
   
Na segunta, sem a primeira coluna:
   * **public score**: 0.73043
   * **private score**: 0.68695

In [None]:
svm = SVC(kernel='rbf', C=1.0, gamma='auto')

### Random Forest

Foram testados ambos o **Random forest regressor** e o **Random forest classifier**. Embora o classifier pareça, de início, o mais adequado, visto os resultados devolvidos serem 0 ou 1, foram obtidos melhores resultados usando o regressor, posteriormente arredondado os valores obtidos.

### Parâmetros 

Para este modelo foram experimentadas diversas combinações de parâmetros:

+ **n_estimators**: Foram testados vários valores para o nº de árvores, no qual se chegou à conclusão que 100 é o número ideal, porque até este valor havia um aumento do F1, e com mais do que 100 mantia-se o valor.


+ **criterion**: Existem apenas dois critérios mse e mae, com o mse foram obtidos melhores resultados.


+ **warm_start**: No decorrer das experiências não se notaram diferenças utilizando ou True ou False, por isso foi deixado a default (False).


+ **min_samples_leaf**: Neste parâmetro foi onde se reparou um maior aumento nos resultados: entre 2 e 5 o public score não mostrou mudanças, mas o private score foi aumentando.


+ **ccp_alpha**: Foram testados diversos valores de alfa, mas com valores inferiores a 0.0001 obteve-se sempre os mesmos resultados.


+ **max_features**: Foram testados tambem vários valores de max_features, mas obteve-se sempre melhores resultados com o default (auto).


+ **random_state**: Todas as submissões foram feitas com random_state = 0.

In [4]:
regressor = RandomForestRegressor(min_samples_leaf=5,ccp_alpha=0.000001,random_state=0)

## 5. Fit e predict

---

[Voltar ao índice](#Índice)

---

É feito o fit do conjunto de treino, e o predict usando os dados de teste, colocando o resultado no y_pred.

In [None]:
regressor.fit(x_train, y_train)

y_pred = regressor.predict(x_test)

Apenas no Random Forest Regressor é necessário arredondar os resultados obtidos e colocá-los como valores inteiros.

In [8]:
y_pred = np.round(y_pred,0)
y_pred = y_pred.astype(int)

É utilizado a função stack do numpy, para colocar as duas listas, idEstudante e y_pred, na forma de coluna, uma ao lado da outra.

Utiliza-se o insert, também do numpy, para colocar o cabeçalho do output final. 

E, por fim, a matriz é guardada num ficheiro .csv

In [3]:
final = np.stack([idEstudante,y_pred], axis=1)

final = np.insert(final,0,["Id","Failure"],axis=0)

np.savetxt("submission.csv", final,delimiter=',' ,fmt='%s')

## Melhor modelo
---
[Voltar ao índice](#Índice)

---
As submissões com melhor desempenho foram todas com o modelo Random Forest. 

Assumindo que a melhor é a que tem maior private score:
   * **private score: 0.93559**
   * **public score: 0.96551**

In [9]:
import numpy as np
from sklearn import preprocessing
from sklearn.ensemble import RandomForestRegressor

train = np.genfromtxt("train.csv", delimiter=",", dtype=None, encoding=None)
x_train = train[1:,0:-1]     
y_train = train[1:,-1]

test = np.genfromtxt("test.csv", delimiter=",", dtype=None, encoding=None)
idEstudante = test [1:,0]
x_test = test[1:,0:]

lEnc = preprocessing.LabelEncoder()
x_train[:,1] = lEnc.fit_transform(x_train[:,1])
x_test[:,1] = lEnc.fit_transform(x_test[:,1])

regressor = RandomForestRegressor(min_samples_leaf=5,ccp_alpha=0.000001,random_state=0)

regressor.fit(x_train, y_train)
y_pred = regressor.predict(x_test)

y_pred = np.round(y_pred,0) 
y_pred = y_pred.astype(int)

final = np.stack([idEstudante,y_pred], axis=1)
final = np.insert(final,0,["Id","Failure"],axis=0)
np.savetxt("submission.csv", final,delimiter=',' ,fmt='%s')