# Projeto final do curso de Machine Learning da ADA


## Premissa


Como forma de avaliação e validação dos conhecimento adquiridos durante o módulo "*Machine Lerning I*" no curso de *Data Science* ministrado pelo professor [Thiago Tavares Magalhães](https://www.linkedin.com/in/thiagotm/), na instituição [**Ada Tech**](https://ada.tech/), foi proposto um trabalho final que utilize os conhecimentos demonstrados e adquiridos durante a execução do curso.

O trabalho consiste em escolher um dataset de domínio publico e aplicar as ferramentas aprendidas em aula, de forma a obter, um modelo de aprendizado de máquina, capaz de categorizar e generalizar respostas em consistencia com o banco de dados no qual foi utilizado para o seu treinamento.

## Alunos/Autores

Os alunos que desenvolveram o trabalho foram:
- [Alexandre Paulino](https://www.linkedin.com/in/alexandre-e-paulino/)
- [Carolina Rutili de Lima](https://www.linkedin.com/in/carolinarutili/)
- [Raphael Giffoni Vieira Silva](https://www.linkedin.com/in/raphael-giffoni-b9a386172/)
- [Hugo Cezar Sales de Souza](https://www.linkedin.com/in/hugo-cs-souza/)
- [Lucas Meirelles](https://www.linkedin.com/in/lucas-meirelles-a758a5a4/)


## Escolha do Dataset

Escolhemos o [seguinte dataset](https://www.kaggle.com/datasets/tavarez/the-orl-database-for-training-and-testing) que consiste em imagens de pessoas para classificação.

O Banco de Dados ORL de Rostos é um conjunto de imagens faciais tiradas entre abril de 1992 e abril de 1994 no laboratório. O banco de dados foi usado no contexto de um projeto de reconhecimento facial realizado em colaboração com o Grupo de Fala, Visão e Robótica do Departamento de Engenharia da Universidade de Cambridge.

Há dez imagens diferentes de cada um dos 40 sujeitos distintos. Para alguns sujeitos, as imagens foram tiradas em diferentes momentos, variando a iluminação, expressões faciais (olhos abertos/fechados, sorrindo/não sorrindo) e detalhes faciais (óculos/sem óculos). Todas as imagens foram tiradas contra um fundo escuro homogêneo com os sujeitos em posição frontal e ereta (com tolerância para algum movimento lateral).

## Objetivo

O objetivo deste trabalho é utilizar este dataset, para classificar, através das imagens, o sexo biológico da pessoa da imagem em questão. O dataset está dividas em imagens de 20 homens e 20 mulheres no dataset.

## Desenvolvimento


### Ferramentas utilizadas

As ferramentas/conhecimentos utilizados no desenvolvimento deste trabalho serão:
- Utilização do Scikit-learn
- KNNs
- Random Forests
- Métricas de Avaliação de Modelos de Classificação
- Otimização de hiperparâmetros

### Explicação da manipulação do dataset

Existem 400 imagens de rostos dentro do dataset. Cada imagem tem dimensão de 46 pixels × 56 pixels. Cada pessoa tem 10 imagens distintas dentro do dataset.

A forma de categorizar e individualizar as 400 imagens será, transformar cada pixel em uma coluna para que possam ser comparados, onde o valor do pixel na escala P&B será armazenado como uma variável quantitativa. Sendo assim, teremos uma matriz de dados de 400 linhas × 2576 colunas, onde cada linha representa uma das imagens. Posterior a esta manipulação, será criada uma coluna adicional de rótulos indicando o gênero biológica da pessoa que está apresentada na foto, por exemplo, "0" = feminino, "1" = masculino.


### Execução do código

#### Importação das bibliotecas

In [3]:
import cv2
import os
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from PIL import Image

#### Criação da coluna de gêneros

In [2]:
# Criada uma matriz correspondentes ao gêneros de cada imagem
gender = [1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1 ,1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1]
# Para cada gênero, como tem 10 imagens, repete 10 vezes para gerar a coluna corretamente
final = []
for i in gender:
  if i == 0:
    for j in range(0,10):
      final.append(0)
    #new_list = [0,0,0,0,0,0,0,0,0,0]
  else:
    for j in range(0,10):
      final.append(1)
# Transforma a lista de gêneros em um array do numpy
gender = np.asarray(final)
gender = np.expand_dims(gender, axis=1)
gender.shape


(400, 1)

#### Função para carregamento das imagens

In [9]:
# Indicar o caminho relativo da pasta do dataset
folder = './images/'  # Updated folder path
# Função para carregar as imagens para o ambiente
def load_images_from_folder(folder):
  i = 1
  # Gera uma lista dos caminhos das imagens e itera sobre eles
  for filename in os.listdir(folder):
    # Abre a imagem, transforma num array, reduz para uma dimensão e expande no eixo x
    im = Image.open(os.path.join(folder,filename))
    data = np.array(im)
    
    flattened = data.flatten()
    reshape_fla = np.expand_dims(flattened, axis=0)
    if i == 1:
      final = reshape_fla
      i = 2
    else:
      final = np.vstack((final,reshape_fla))
  return final


pixels = load_images_from_folder(folder)

pixels.shape

(400, 5600)