<a href="https://colab.research.google.com/github/pitarac/PucRio_Sprint_02_MVP/blob/main/Parte_II.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Parte II **

#

## Identificação

**Nome do aluno:** Paulo Henrique Lima da Silva CPF: 032.838.091-19<br>
**Disciplina:** Sprint II Machine Learning & Analytics (40530010056_20230_01)<br>  
**Curso:** Ciência de Dados e Analytics<br>  
**Instituição:** PUC-Rio<br>


# Sprint 02: Machine Learning & Analytics

## Definição do Problema

Objetivo: Compreender e descrever claramente o problema que está sendo resolvido.

Descrição do problema: O problema envolve a segmentação do átrio esquerdo em imagens médicas. Este é um passo fundamental na análise da saúde cardíaca e na detecção de possíveis anormalidades.

Premissas ou hipóteses sobre o problema: Estamos assumindo que as etiquetas (labels) fornecidas no conjunto de dados representam com precisão as regiões do átrio esquerdo e do fundo (background) nas imagens.

Restrições ou condições impostas para a seleção dos dados: O conjunto de dados fornecido é assumido como representativo da população geral de imagens médicas que o modelo será usado para analisar. Além disso, assumimos que a divisão entre conjuntos de treinamento e teste é razoável e não introduzirá um viés significativo na avaliação do modelo.

Descrição do dataset: O conjunto de dados contém imagens rotuladas para treinamento e teste. As etiquetas incluem 'background' e 'left atrium'. O conjunto de dados tem 20 exemplos para treinamento e 10 para teste.

# 1: Importação de bibliotecas

Nesta célula, importamos todas as bibliotecas necessárias para executar o script.

In [4]:
# Importação de bibliotecas
import numpy as np
import json
import nibabel as nib
from sklearn.model_selection import train_test_split
import keras
from keras.models import Sequential
from keras.layers import Dense, Conv2D, Flatten
import gdown
import zipfile
import os
import matplotlib.pyplot as plt



#2: Definindo a função para extrair arquivos
Aqui definimos uma função que será responsável por extrair arquivos de um arquivo ZIP para um diretório específico.



In [5]:
def extract_files(zip_filename, extract_folder):
    with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
        zip_ref.extractall(extract_folder)



# 3: Definindo a função para baixar arquivos do Google Drive

Aqui definimos uma função que será responsável por baixar arquivos do Google Drive.

In [None]:
def extract_files(zip_filename, extract_folder):
    with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
        zip_ref.extractall(extract_folder)


## Carregamento de imagens e rótulos

Aqui, carregamos as imagens e rótulos de treinamento usando os caminhos fornecidos no arquivo JSON. As imagens e rótulos são carregados como arrays numpy para facilitar a manipulação posterior.


In [None]:
def download_from_drive(file_id, output):
    url = f"https://drive.google.com/uc?id={file_id}"
    gdown.download(url, output, quiet=False)


## 4: Definindo as variáveis de arquivo e baixando os arquivos
Nesta célula, definimos as variáveis que são usadas para especificar os IDs dos arquivos no Google Drive e os nomes dos arquivos ZIP que serão baixados. Em seguida, usamos a função definida na Célula 3 para baixar os arquivos ZIP.


In [6]:
file_id_image = "GOOGLE_DRIVE_FILE_ID_IMAGE"
image_zip_filename = "image_filename.zip"
download_from_drive(file_id_image, image_zip_filename)

file_id_label = "GOOGLE_DRIVE_FILE_ID_LABEL"
label_zip_filename = "label_filename.zip"
download_from_drive(file_id_label, label_zip_filename)


NameError: ignored

## 5: Extraindo os arquivos

Aqui usamos a função definida na Célula 2 para extrair os arquivos ZIP das imagens e rótulos para os diretórios especificados.


In [None]:
image_extract_folder = "images/"
label_extract_folder = "labels/"

extract_files(image_zip_filename, image_extract_folder)
extract_files(label_zip_filename, label_extract_folder)


## 6: Carregando dados a partir do arquivo dataset.json

Esta célula lê um arquivo JSON que contém os caminhos para as imagens e rótulos de treinamento.


In [None]:
with open('path/to/dataset.json') as file:
    data = json.load(file)


## 7: Carregamento de imagens e rótulos de treinamento

Aqui carregamos as imagens e rótulos de treinamento a partir dos caminhos especificados no arquivo JSON. As imagens e rótulos são armazenados como arrays numpy.


In [None]:
image_folder = 'images/'
label_folder = 'labels/'

images = []
labels = []

for image_path, label_path in zip(data['training'], data['labels']):
    image = nib.load(image_folder + image_path).get_fdata()
    label = nib.load(label_folder + label_path).get_fdata()

    images.append(image)
    labels.append(label)


## 8: Preparação dos dados
Esta célula normaliza as imagens dividindo-as pelo valor máximo em todo o conjunto de dados de imagens. Em seguida, divide os dados em conjuntos de treinamento e teste.

In [None]:
images = np.array(images)
labels = np.array(labels)

images = images / np.max(images)

X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)


## 9: Construção do modelo de Deep Learning
Aqui, construímos um modelo de deep learning usando a biblioteca Keras. O modelo é uma rede neural convolucional com duas camadas convolucionais e uma camada densa.[texto do link](https://)

In [None]:
model = Sequential()
model.add(Conv2D(64, kernel_size=3, activation='relu', input_shape=X_train[0].shape))
model.add(Conv2D(32, kernel_size=3, activation='relu'))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])


## 10: Treinamento do modelo
Esta célula treina o modelo nos dados de treinamento e valida nos dados de teste.

In [None]:
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=10)


## 11: Avaliação do modelo

Nesta célula, avaliamos o desempenho do modelo nos dados de teste e imprimimos a perda e a precisão.

In [None]:
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Loss: {loss}')
print(f'Accuracy: {accuracy}')


##12: Geração de gráficos para análise dos resultados
 Finalmente, nesta célula, plotamos a precisão do modelo nos dados de treinamento e teste ao longo das épocas de treinamento.

In [None]:
plt.plot(history.history['accuracy'], label='accuracy')
plt.plot(history.history['val_accuracy'], label='val_accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()
