# Nanodegree Engenheiro de Machine Learning
##### Arthur Sena, 14/08/2018

<center> <h1>Projeto Final - Relatório </h1></center>

### 1) Introdução
<div style="text-align: justify"> O cérebro humano é uma das partes mais fascinantes do corpo humano. Ele é o núcleo que controla diversas das nossas ações diárias. Desde às mais complexas, como resolver uma derivada numa prova de cálculo I, até às mais simples, como reconhecer se uma foto contém ou não um cachorro. E é sobre essa ação de reconhecer uma determinada imagem, foto ou retrato que esse projeto se trata. Essa que parece ser uma tarefa simples para nós, seres humanos, não é tão fácil para um computador que apenas enxerga números binários.  </div>
<br>
<div style="text-align: justify">Por esse motivo que, ao longo das últimas décadas, diversos algoritmos e técnicas foram desenvolvidos com o intuito de indentificar e reconhecer padrões em imagens. Assim sendo, esse relatório descreve o desenvolvimento de um modelo de aprendizagem de máquina que utiliza tais técnicas e é capaz de reconhecer imagens de três tipos diferentes de ambientes:</div>

   - Urbano: Imagens relacionadas com ambientes de cidades, prédios, casas, etc.
   - Natureza: Imagens relacionadas com ambientes de florestas, matas, jardins, etc.
   - Praia/Litoral: Imagens realacionadas com praias, mares, areia, etc.

<br>
<div style="text-align: justify">É importante ressaltar que o foco desse projeto foi a utilização de algoritmos de <i>Deep Learning</i>, visto que estes apresentam os melhores resultados no campo de reconhecimento de imagem como um todo. Nas seções abaixos, é descrito todos os passos que envolveram o desenvolvimento do melhor modelo encontrado.</div>


### 2) Dados
<div style="text-align: justify">O primeiro desafio encontrado foi a necessidade de construção de uma base de dados de imagens que contivesse os ambientes que estamos tentando reconhecer. Cada um desses ambientes possue uma determinada peculiaridade, padrão e caracteristica que deve estar presentes na nossa base, pois assim o nosso modelo irá aprendê-lo. Dessa forma, resolvemos utilizar a rede social de fotos mais famosa do mundo conhecida como _Instagram_ como a fonte da nossa base. Para isso, foi criado um _script_ em python que acessou os seguintes perfis :</div>
   
   * <a href="https://www.instagram.com/big.cities/">Perfil Urbano</a>
   * <a href="https://www.instagram.com/beaches_n_resorts/">Perfil de Praias e Litoral</a>
   * <a href="https://www.instagram.com/forest/">Perfil de Natureza e floretas</a>

<br>
<div style="text-align: justify">
O nosso script acessou e coletou cada uma das fotos dos links acima, resultando numa base com <b>945</b> imagens, sendo <b>259</b> fotos de cidades, <b>292</b> de florestas e <b>394</b> de praias. Todas essas imagens estão coloridas e apresentam um tamanho original de 640x640. </div>

### 3) Métricas
<div style="text-align: justify">
A fim de avaliar nossos modelos, devemos sempre utilizar algumas métricas de performance. No nosso contexto, queremos classificar as fotos em três diferentes classes, dessa forma decidimos usar a Precisão e Recall por label, juntamente com a Acurácia na avaliação. Segue abaixo as métricas:</div>

- Pra cada uma das classes (c), será calculada a precisão e recall seguindo as fórmulas abaixo:

\begin{equation*}
    Precision(c) = \frac{TP(c)}{TP(c)+FP(c)}
\end{equation*}    

\begin{equation*}
    Recall(c) = \frac{TP(c)}{TP(c)+FN(c)}
\end{equation*}  

- E a acuŕacia também será considerada na avaliação:

\begin{equation*}
    Acc = \frac{TP + TN}{TP + TN + FP + FN}
\end{equation*}  

### 4) Modelo de Benchmark
<div style="text-align: justify">
O algoritmo conhecido como [KNN](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) foi escolhido como o modelo de benchmark. A ideia desse algoritmo é utilizar dos "K" vizinhos mais próximos de um determinado dado a fim de classificá-lo.</div>

#### 4.1) Pré-processamento
<div style="text-align: justify">Antes de aplicar KNN nos dados, algum pré-processamento foi necessário, a fim de transformar as imagens em um formato que possa ser aceito pelo algoritmo. Contudo, é bom lembrar que estamos tentando criar um modelo que possa identificar três diferentes padrões de imagens, ou seja, precisamos processar elas, de forma que realce as diferenças de caracteristicas, o que por sua vez, facilita o aprendizado do modelo. Sabemos que uma imagem pode ser representada como uma matrix de pixels que variam de 0 até 255. Todas as nossas imagens são coloridas e seguem o padrão RGB (Red, Green e Blue), ou seja,  cada imagem é composta por, na verdade, três matrizes de pixels, no qual cada uma remete à uma das três cores. Com isso em mente, uma boa estratégia é usar um histograma de cores de cada imagem como features para o modelo, visto que cada um dos ambientes apresenta uma distribuição particular. </div>
<br>
<div style="text-align: justify"> <b>Observação</b>: O histograma original de cada imagem se tornou dificil de processar utilizando o laptop que se encontra à disposição, pois o mesmo acabava criando um demasiado espaço de features. Por consequência, foi necessário diminuir o tamanho do histograma à partir do aumento dos <i>bins</i> dos mesmos. As imagens abaixo representam a distribuição de cores de cada imagem após tal processamento. Note que cada cor representa uma das cores RGB. Além disso, todas as imagens foram redimensionadas para tamanho <b>32x32</b> logo antes da criação dos histogramas.</div>


<img src="images/cities_histogram.png"/>
<center> <h3> Histograma de cores para imagens urbanas </h3></center>


<img src="images/beaches_histogram.png"/>
<center> <h3> Histograma de cores para imagens de praias </h3></center>


<img src="images/forest_histogram.png"/>
<center> <h3> Histograma de cores para imagens de florestas </h3></center>

<div style="text-align: justify"> Observando os histogramas acima, vemos claramente que as distribuições são, realmente, distinguíveis entre si. É perceptível que nas imagens relacionadas com florestas e cidades, a distribuição das cores ocorre de forma mais similar entre elas, ao passo que no contexto de praias, não é tão similar, visto que a distribuição do vermelho destoa bastante do verde e azul. </div>

#### 4.2) Treinando o modelo de benchmark: KNN
<div style="text-align: justify">O treinamento do KNN usa como entrada a distribuição de cores de cada imagem. Sendo que, foi aplicado um algoritmo conhecido como _grid search_, a fim de encontrar a melhor quantidade de vizinhos a ser considerada quando classificar uma imagem. Além disso, 80% das imagens foram usadas como dados de treino e o resto como teste. O parâmetro *random_split*, também, foi utilizado para caso seja necessário replicar a separação de treino e teste, e, com isso, facilitar a comparação com outros modelos. Os resultados das métricas podem ser visualizados abaixo:</div>

- Quantidade de imagens usadas no treino: **756**
- Quantidade de imagens usadas no teste:  **189**

- Configuração do melhor modelo

```python
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=12, p=2,
           weights='uniform')

```

- Resultados da aplicação do modelo nos dados de teste pode ser visto. Tais resultados serão usados como parâmetro para indicar se os outros modelos criados obtiveram ou não sucesso.
<img src="images/benchmark_cm_test.png"/>
<img src="images/knn_precision_label.png"/>
<img src="images/knn_recall_label.png"/>

### 5) Deep Learning
<div style="text-align: justify"><i>Deep learning</i> é um conjunto de técnicas e algoritmos que envolve o uso de redes neurais profundas, ou seja, com muitas camadas. Esses tipos de redes neurais ganharam bastante atenção após os seus ótimos desempenhos nos campos de reconhecimento de imagem e voz. Pensando nisso, foi desenvolvido e avaliado duas arquiteturas de modelos _deep learning_ nesse projeto. <i>Keras</i> foi o framework utilizado na construção de tais modelos.</div>

#### 5.1) Pré-processamento
<div style="text-align: justify">Todas as imagens foram redimensionadas para o tamanho de <b>32x32</b> e os pixels foram colocados no intervalo de zero à um pela divisão dos mesmo por 255.</div>

#### 5.2) Primeira arquitetura
- A primeira arquitetura construída e avaliada contém três camadas _Denses_ com 500, 300 e 100 neurônios cada, seguida por uma camada _Flatten_ com 102400 neurônios e, por fim, a camada de softmax com 3 neurônios. Ademais, uma camada de _Dropout_ foi adicionada entre cada camada _Dense_ a fim de evitar _overfitting_. Tal arquitetura pode ser melhor sumarizada na imagem abaixo.
<img src="images/dl_first_architecture.png"/>

- O primeiro experimento foi executado com 80 épocas e a curva do erro no teste e treino pode ser vista abaixo.
<img src="images/first_architecture_loss_graph.png"/>

- Observando o gráfico acima, notamos que não precisamos usar tantas épocas, visto que o erro do teste para de descer por volta da época vinte e quatro. Por isso, resolvemos rodar novamente o experimento com vinte e quatro épocas apenas. Os resultados da aplicação do modelo nos dados de teste pode ser visto abaixo.

<img src="images/dl_first_architecture_cm_test.png"/>

<img src="images/dl_first_architecture_precision_label.png"/>

<img src="images/dl_first_architecture_recall_label.png"/>

Os resultados acima já indicam uma boa evolução em relação ao modelo de benchmark. Lembrando, que a divisão de dados de treino e teste foi mantida, pois dessa forma, conseguimos fazer uma comparação justa entre os modelos. 

#### 5.3) Segunda arquitetura
A segunda arquitetura foi contruída em cima dos conceitos de _Convolutional Neural Networks_ e _Max Pooling_. Abaixo segue uma explicação sobre tais conceitos e o porquê eles foram escolhidos.
    
- **Camadas convolucionais**: Tais camadas são muito úteis quando queremos discriminar melhor os padrões que estamos tentando ensinar à nossa rede neural. Elas funcionam por meio da convolução/deslizamento de um filtro sobre a imagem original. Dessa forma, esse filtro é capaz de identificar diferentes padrões em diferentes partes da imagem. Esse tipo de camada, diferentemente das camadas _Denses_, é localmente conectada, ou seja, seus neurônios são conectados à um subconjunto de neurônios da camada anterior, o que diminui bastante a complexidade da rede.

- **Camadas do tipo Pooling**: Tais camadas são, geralmente, aplicadas, logo após, uma camada de convolução. Elas funcionam de forma similar as camadas convolucionais, no qual, em ambas fazemos o deslizamento de um filtro. Nesse projeto, nós focamos em camadas do tipo _Max_, onde as mesmas selecionam o pixel de maior valor dentro da janela de filtro para que esse seja considerado o valor do nó. A vantagem dessa técnica é a redução de dimensionalidade causada pelo filtro que, consequentemente, gera uma redução do custo computacional de construção o modelo, visto que diminui a quantidade de parâmetros. Além disso, conseguimos aumentar as chances de evitar um possível _overfitting_, visto que temos menos parâmetros.
    
Redes neurais convolucionais vem apresentando excelentes resultados no campo de classificação de imagens, e por isso, decidimos aplicar tal técnica nesse projeto. A arquitetura sumarizada da rede pode ser vista abaixo:
<img src="images/dl_second_architecture.png"/>

- Gráfico da curva do erro.
<img src="images/second_architecture_loss_graph.png"/>
- O modelo escolhido foi treinado com 80 épocas, sendo que observando a curva do erro no gráfico acima, não sentimos necessidade de diminuir a quantidade de épocas. Os resultados da aplicação de tal modelo nos dados de teste pode ser visto logo abaixo.

<img src="images/dl_second_architecture_cm_test.png"/>

<img src="images/dl_second_architecture_precision_label.png"/>

<img src="images/dl_second_architecture_recall_label.png"/>

### 6) Sumarização dos resultados
Os resultados das métricas foram sumarizados na tabela abaixo:
<img src="images/summarization_table.png"/>
 
*Obs: O valor das métricas de revocação e precisão foram calculadas a partir da média da precisão e revocação de cada classe.

Fica evidente que os resultados da segunda arquitetura foram melhores do que da primeira, e substancialmente, melhores do que o nosso modelo de _benchmark_.

### 7) Conclusão
<div style="text-align: justify">Nesse projeto, demonstramos ser possível utilizar uma arquitetura de <i>deep learning</i> para classificar imagens de três ambientes diferentes. Verificamos, também, que o uso de técnicas de convolução melhorou a performance do modelo, sendo tal arquitetura escolhida como a melhor. Ainda assim, acreditamos que o modelo ainda possa ser evoluido. Aumentar a base de imagens, que atualmente apresenta 945 fotos, seria uma boa alternativa, haja visto que técnicas de <i>deep learning</i> possuem melhores resultados quando aplicadas em grandes bases. Isso não foi aplicado nesse projeto devido à pouca capacidade computacional que tínhamos disponível.</div>
<br>
<div style="text-align: justify">Além disso, vale ressaltar que todo o fluxo de trabalho necessário para construção de um modelo de aprendizagem de máquina foi seguido. Começando desde o desenvolvimento da base de dados, passando pelo treinamento dos modelos e chegando na escolha do melhor. É interessante deixar grifado que um tempo significante foi despendido na obtenção da base de treino de imagens, no qual a mesma foi construída a partir de conhecimentos de programação e técnicas de <i>web crawler</i>. O que corrobora a ideia de que a área de ciência de dados e aprendizagem de máquina em geral é bastante multidisciplinar por, muitas vezes, exigir que o profissional da área apresente conhecimentos estatisticos, matemáticos e de programção.  </div>

### 8) Referências
<a href="https://keras.io/">Keras Documentação</a>
