# Nanodegree Engenheiro de Machine Learning
##### Arthur Sena, 01/06/2018

<center> <h1>Projeto Final - Relatório </h1></center>

### 1) Introdução
O cérebro humano é uma das partes mais fascinantes do corpo humano. Ele é o núcleo que controla diversas das nossas ações diárias. Desde às mais complexas, como resolver uma derivada numa prova de cálculo I, até às mais simples, como reconhecer se uma foto contém ou não um cachorro. E é sobre essa ação de reconhecer uma determinada imagem, foto ou retrato que esse projeto se trata. Essa que parece ser uma tarefa simples para nós, seres humanos, não é tão fácil para um computador que apenas enxerga números binários. Ou seja, chegamos a seguinte situação: Como ensinar uma máquina a resolver tal dilema? 

Isso não é uma tarefa muito simples, por isso que ao longo das últimas décadas, diversos algoritmos e técnicas foram densenvolvidos com o intuito de indentificar e reconhecer padrões em imagens. Assim sendo, esse relatório descreve o densenvolvimento de um modelo de aprendizagem de máquina que utiliza tais técnicas e é capaz de reconhecer imagens de três tipos diferentes de ambientes:
   - Urbano: Imagens relacionadas com ambientes de cidades, prédios, casas, etc.
   - Natureza: Imagens relacionadas com ambientes de florestas, matas, jardins, etc.
   - Praia/Litoral: Imagens realacionadas com praias, mares, areia, etc.

É importante ressaltar que o foco desse projeto foi a utilização de algoritmos de Deep Learning, visto que estes apresentam os melhores resultados no campo de reconhecimento de imagem como um todo. Nas seções abaixos, é descrito todos os passos que envolveram o desenvolvimento do melhor modelo encontrado.


### 2) Dados
O primeiro desafio encontrado foi a necessidade de construção de uma base de dados de imagens que contivesse os ambientes que estamos tentando reconhecer. Cada um desses ambientes possue uma determinada peculiaridade, padrão e caracteristica que deve estar presentes na nossa base, pois assim o nosso modelo irá aprendê-lo. Dessa forma, resolvemos utilizar a rede social de fotos mais famosa do mundo conhecida como _Instagram_ como a fonte da nossa base. Para isso, foi criado um _script_ em python que acessou os seguintes perfis :
   *  [Perfil-1](https://www.instagram.com/big.cities/) - Urbano
   *  [Perfil-2](https://www.instagram.com/beaches_n_resorts/) - Praias
   *  [Perfil-3](https://www.instagram.com/forest/) - Natureza

O nosso script acessou e coletou cada uma das fotos dos links acima, resultando numa base com **945** imagens, sendo **259** fotos de cidades, **292** de florestas e **394** de praias. Todas essas imagens estão coloridas e apresentam um tamanho de 640x640. 

### 3) Métricas
A fim de avaliar nossos modelos, devemos sempre utilizar algumas métricas de performance. No nosso caso, queremos classificar as fotos em três diferentes classes, dessa forma decidimos usar a Precisão e Recall por label, juntamente com a Acurácia na avaliação. Segue abaixo as métricas:

- Pra cada uma das classes, será calculada a precisão e recall seguindo as fórmulas abaixo:
\begin{equation*}
    Precision(c) = \frac{TP(c)}{TP(c)+FP(c)}
\end{equation*}    

\begin{equation*}
    Recall(c) = \frac{TP(c)}{TP(c)+FN(c)}
\end{equation*}  

- E a acuŕacia também será considerada na avaliação:
\begin{equation*}
    Acc = \frac{TP + TN}{TP + TN + FP + FN}
\end{equation*}  

### 4) Modelo de Benchmark
O algoritmo conhecido como [KNN](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) foi escolhido como o modelo de benchmark. A ideia desse algoritmo é utilizar dos "K" vizinhos mais próximos de um determinado dado a fim de classificá-lo.

#### 4.1) Pré-processamento
Antes de aplicar KNN nos dados, algum pré-processamento foi necessário, a fim de transformar as imagens em um formato que possa ser aceito pelo algoritmo. Contudo, é bom lembrar que estamos tentando criar um modelo que possa identificar três diferentes padrões de imagens, ou seja, precisamos processar elas, de forma que realce as diferenças de caracteristicas, o que por sua vez, facilita o aprendizado do modelo. Sabemos que uma imagem pode ser representada como uma matrix de pixels que variam de 0 até 255. Todas as nossas imagens são coloridas e seguem o padrão RGB (Red, Green e Blue), ou seja,  cada imagem é composta por, na verddade, três matrizes de pixels, no qual cada uma remete à uma das três cores. Com isso em mente, uma boa estratégia é usar um histograma de cores de cada imagem como features para o modelo, visto que cada um dos ambientes apresenta uma distribuição particular. 

**Observação**: O histograma original de cada imagem se tornou dificil de processar utilizando o laptop que se encontra à disposição, pois o mesmo acabava criando um demasiado espaço de features. Por consequência, foi necessário diminuir o tamanho do histograma à partir do aumento dos _bins_ dos mesmos. As imagens abaixo representam a distribuição de cores de cada imagem após tal processamento. Note que cada cor representa uma das cores RGB. Além disso, todas as imagens foram redimensionadas para tamanho **32x32**.

<center> <h3> Histograma de cores para imagens urbanas </h3></center>
![Drag Racing](images/cities_histogram.pngd)

<center> <h3> Histograma de cores para imagens de praias </h3></center>
![Drag Racing](images/beaches_histogram.pngd)

<center> <h3> Histograma de cores para imagens de florestas </h3></center>
![Drag Racing](images/forest_histogram.pngd)

Observando os histogramas acima, vemos claramente que as distribuições são, realmente, distinguíveis entre si. 

#### 4.2) Treinando o modelo de benchmark: KNN
O treinamento do KNN usa como entrada a distribuição de cores de cada imagem. Sendo que, foi aplicado um algoritmo conhecido como _grid search_, a fim de encontrar a melhor quantidade de vizinhos a ser considerada quando classificar uma imagem. Além disso, 80% das imagens foram usadas como dados de treino e o resto como teste. O parâmetro *random_split*, também, foi utilizado para caso seja necessário replicar a separação de treino e teste, e, com isso, facilitar a comparação com outros modelos. Os resultados das métricas podem ser visualizados abaixo:

- Quantidade de imagens usadas no treino: **756**
- Quantidade de imagens usadas no teste:  **189**

- Configuração do melhor modelo

```python
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=12, p=2,
           weights='uniform')

```

- Resultados da aplicação do modelo nos dados de teste
![Drag Racing](images/benchmark_cm_test.png)

![Drag Racing](images/knn_precision_label.png)

![Drag Racing](images/knn_recall_label.png)

Os resultados acima serão usados como parâmetro para indicar se os outros modelos criados obtiveram ou não sucesso.

### 5) Deep Learning
_Deep learning_ é um conjunto de técnicas e algoritmos que envolve o uso de redes neurais profundas, ou seja, com muitas camadas. Esses tipos de redes neurais ganharam bastante atenção após os seus ótimos desempenhos nos campos de reconhecimento de imagem e voz. Pensando nisso, foi desenvolvido e avaliado duas arquiteturas de modelos _deep learning_ nesse projeto. 

#### 5.1) Primeira arquitetura
- A primeira arquitetura construída e avaliada tinha três camadas _Denses_ com 500, 300 e 100 neurônios cada, seguinda por uma camada _Flatten_ com 102400 neurônios e, por fim, a camada de softmax com 3 neurônios. Tal arquitetura pode ser melhor sumarizada na imagem abaixo.
![Drag Racing](images/dl_first_architecture.png)