<a href="https://colab.research.google.com/github/pitarac/PucRio_Sprint_02_MVP/blob/main/Parte_II.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Parte II **

#

## Identificação

**Nome do aluno:** Paulo Henrique Lima da Silva CPF: 032.838.091-19<br>
**Disciplina:** Sprint II Machine Learning & Analytics (40530010056_20230_01)<br>  
**Curso:** Ciência de Dados e Analytics<br>  
**Instituição:** PUC-Rio<br>


# Sprint 02: Machine Learning & Analytics

## Definição do Problema

Objetivo: Compreender e descrever claramente o problema que está sendo resolvido.

Descrição do problema: O problema envolve a segmentação do átrio esquerdo em imagens médicas. Este é um passo fundamental na análise da saúde cardíaca e na detecção de possíveis anormalidades.

Premissas ou hipóteses sobre o problema: Estamos assumindo que as etiquetas (labels) fornecidas no conjunto de dados representam com precisão as regiões do átrio esquerdo e do fundo (background) nas imagens.

Restrições ou condições impostas para a seleção dos dados: O conjunto de dados fornecido é assumido como representativo da população geral de imagens médicas que o modelo será usado para analisar. Além disso, assumimos que a divisão entre conjuntos de treinamento e teste é razoável e não introduzirá um viés significativo na avaliação do modelo.

Descrição do dataset: O conjunto de dados contém imagens rotuladas para treinamento e teste. As etiquetas incluem 'background' e 'left atrium'. O conjunto de dados tem 20 exemplos para treinamento e 10 para teste.

## Importação de bibliotecas

Nesta seção, importamos todas as bibliotecas necessárias para o projeto. As bibliotecas numpy e nibabel são usadas para manipular os dados, a biblioteca sklearn.model_selection é usada para dividir os dados em conjuntos de treinamento e teste, e a biblioteca keras é usada para construir e treinar o modelo de deep learning.


In [None]:
import numpy as np
import json
import nibabel as nib
from sklearn.model_selection import train_test_split
import keras
from keras.models import Sequential
from keras.layers import Dense, Conv2D, Flatten
!pip install gdown
import gdown


## Download de imagens e rótulos

Nesta seção, fazemos o download das imagens e rótulos de treinamento usando o `gdown`. Precisamos fornecer o ID do arquivo no Google Drive e o nome do arquivo com sua extensão. Após o download, carregamos as imagens e rótulos como arrays numpy para facilitar a manipulação posterior.



In [None]:
# Substitua 'GOOGLE_DRIVE_FILE_ID_IMAGE' pelo ID do arquivo de imagens no Google Drive
# e 'image_filename.extension' pelo nome do arquivo de imagens com sua extensão
file_id_image = "GOOGLE_DRIVE_FILE_ID_IMAGE"
image_filename = "image_filename.extension"
gdown.download(f"https://drive.google.com/uc?id={file_id_image}", image_filename)

# Substitua 'GOOGLE_DRIVE_FILE_ID_LABEL' pelo ID do arquivo de rótulos no Google Drive
# e 'label_filename.extension' pelo nome do arquivo de rótulos com sua extensão
file_id_label = "GOOGLE_DRIVE_FILE_ID_LABEL"
label_filename = "label_filename.extension"
gdown.download(f"https://drive.google.com/uc?id={file_id_label}", label_filename)


## Carregamento de imagens e rótulos

Aqui, carregamos as imagens e rótulos de treinamento usando os caminhos fornecidos no arquivo JSON. As imagens e rótulos são carregados como arrays numpy para facilitar a manipulação posterior.


In [None]:
images = np.load(image_filename)
labels = np.load(label_filename)


## Preparação de dados

Antes de treinar o modelo, precisamos preparar os dados. Primeiro, normalizamos as imagens para que todos os pixels tenham valores entre 0 e 1. Em seguida, dividimos os dados em conjuntos de treinamento e teste para que possamos avaliar o desempenho do modelo em dados não vistos.


In [None]:
images = images / np.max(images)

X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)


## Construção do modelo

Aqui, construímos o modelo de deep learning que será usado para a tarefa de segmentação de imagens. Usamos uma arquitetura simples de Rede Neural Convolucional (CNN), que é comumente usada para tarefas de visão computacional. A arquitetura consiste em duas camadas convolucionais, seguidas por uma camada Flatten para transformar os mapas de características 2D em vetores, e finalmente uma camada Dense para a classificação final. A função de ativação 'relu' é usada nas camadas convolucionais para adicionar não linearidade ao modelo, e a função de ativação 'sigmoid' é usada na última camada porque estamos fazendo uma tarefa de classificação binária (segmentação do átrio esquerdo vs. fundo).


In [None]:
model = Sequential()
model.add(Conv2D(64, kernel_size=3, activation='relu', input_shape='input_shape'))
model.add(Conv2D(32, kernel_size=3, activation='relu'))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])


## Treinamento do modelo

Nesta seção, treinamos o modelo usando os dados de treinamento. Também fornecemos os dados de teste ao modelo durante o treinamento para que possamos monitorar o desempenho do modelo em dados não vistos ao longo do tempo.


In [None]:
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=10)


## Avaliação do modelo

Por fim, avaliamos o desempenho do modelo treinado nos dados de teste. Isso nos dá uma medida final do desempenho do modelo em dados não vistos. Usamos a perda (loss) e a acurácia (accuracy) como métricas de desempenho.


In [None]:
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Loss: {loss}')
print(f'Accuracy: {accuracy}')
