<a href="https://colab.research.google.com/github/guipeliceri/Evolutio-Project/blob/main/01-Cancer_Diagnosis/Cancer_Diagnosis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**01 - Cancer Diagnosis**

Bem vindos a nossa primeira atividade do projeto!
A tarefa é auxiliar na detecção de cânceres de mama.

Nosso objetivo é construir e treinar um "cérebro" artificial (uma rede neural) que aprenderá a partir de dados de exames reais. Ao final, este cérebro será capaz de analisar as características de um tumor e prever se ele é maligno (cancerígeno) ou benigno (não cancerígeno).

Vamos começar!



---

**CRÉDITOS**: O código utilizado vem do usuário
GitHub: https://github.com/KhanradCoder

E seu vídeo explicativo: https://www.youtube.com/watch?v=z1PGJ9quPV8


---
#   
Passo 1: Carregando Nossos Dados 📂
- Na pasta dessa primeira atividade há o arquivo cancer.csv, abra-o e clique em "Download Raw File" na parte superior
- Aqui dentro da página do Colab, clique no ícone de pasta "File" e clique no botão "Upload to session storage"

Com os dados inseridos, agora podemos manipulá-los! Tudo começa com os dados. Nesses dados, cada linha representa um tumor e cada coluna uma característica medida (raio, textura, etc.).

---

Passo 2: Criando o Dataset


In [None]:
import pandas as pd

dataset = pd.read_csv('cancer.csv')

*import pandas as pd*

- O que ela faz? Ela importa uma "biblioteca" (uma caixa de ferramentas de código) chamada *pandas* para o nosso ambiente de trabalho.

- A biblioteca *pandas* é a ferramenta mais famosa e poderosa do Python para manipulação e análise de dados. Ela nos permite ler, limpar, transformar e entender dados de forma eficiente, especialmente dados em formato de tabela, como os de uma planilha do Excel.
- *as pd* é um apelido (em inglês, alias). Programadores gostam de ser eficientes. Em vez de escrever *pandas* toda vez que precisarmos usar uma de suas ferramentas, a comunidade global de Python concordou em usar o apelido *pd*

Analogia: a biblioteca *pandas* é uma caixa de ferramentas e *pd* é um apelido para da caixa de ferramentas, para acharmos as ferramentas mais facilmente

---

*dataset = pd.read_csv('cancer.csv')*
- O que ela faz? Esta linha lê o arquivo cancer.csv e carrega todo o seu conteúdo para dentro de uma variável chamada dataset.
- pd.read_csv(...): Aqui estamos usando a ferramenta *read_csv* da nossa caixa pd. O nome é autoexplicativo: ela é especializada em ler arquivos CSV (Comma-Separated Values), que é o formato de planilha mais comum do mundo, onde os valores são separados por vírgulas. No caso, ele está lendo *cancer.csv*
- dataset =: O resultado da leitura não pode ficar solto. Nós o "guardamos" ou "atribuímos" a uma variável chamada dataset. Agora, a variável dataset contém todos os dados do arquivo, organizados em uma estrutura de tabela super poderosa que o pandas chama de DataFrame.

---

Passo 3: Separando X e Y

In [None]:
x = dataset.drop(columns=["diagnosis(1=m, 0=b)"])

y = dataset["diagnosis(1=m, 0=b)"]

*x = dataset.drop(columns=["diagnosis(1=m, 0=b)"])*

- O que ela faz: Ela cria uma nova tabela, chamada x, que é uma cópia de todo o dataset original, EXCETO pela coluna do diagnóstico.
- Como ela faz isso: Usamos a função *.drop()* do pandas, que serve para remover linhas ou colunas.
- columns=["..."]: Especificamos que queremos remover uma coluna (e não uma linha) e passamos o nome exato da coluna a ser removida: "diagnosis(1=m, 0=b)".

No jargão de Machine Learning, x é a nossa matriz de features (evidências)

---

*y = dataset["diagnosis(1=m, 0=b)"]*
Esta linha cria a nossa variável y.

- O que ela faz: Ela cria uma nova variável, chamada y, que contém APENAS a coluna do diagnóstico e mais nada.
- Como ela faz isso: *dataset["..."]:* Esta é a sintaxe do pandas para selecionar uma ou mais colunas específicas. Ao passar o nome da coluna "diagnosis(1=m, 0=b)", estamos dizendo: "Do meu dataset inteiro, me dê apenas esta coluna."

No jargão de Machine Learning, y é o nosso vetor alvo (resposta)

---

# Por que fazemos essa separação?
 Este é o conceito central do Aprendizado Supervisionado

Nós queremos treinar nosso modelo de Inteligência Artificial para que ele aprenda a prever y (o diagnóstico) a partir de x (as evidências).

Para fazer isso, nós damos ao modelo as duas coisas durante o treinamento:

As evidências (x)
As respostas corretas para essas evidências (y)
E dizemos ao modelo: "Olhe para estas evidências e para estas respostas. Encontre os padrões. Aprenda a relação entre x e y para que, no futuro, quando eu te der um x novo que você nunca viu, você consiga me dizer qual é o y correto."

---

Passo 4: Dividir dados para o treinamento e o teste

In [4]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

*from sklearn.model_selection import train_test_split*

- O que ela faz: Ela importa para o nosso código a função específica train_test_split de dentro da gigantesca biblioteca scikit-learn.
- O que é a biblioteca scikit-learn: Se o pandas é a nossa caixa de ferramentas para manipular dados, o scikit-learn (apelido sklearn) é a nossa caixa de ferramentas para fazer Machine Learning. É com essa biblioteca que os algoritmos de Aprendizado de Máquina atuam no projeto, buscando padrões nos dados por exemplo

---
*x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)*



# Lógica
Imagine que você vai dar uma prova para um aluno. Se você entregar as perguntas da prova para ele estudar, ele vai decorar as respostas e tirar 10. Mas ele realmente aprendeu a matéria? Não. Ele apenas memorizou.

Com a IA, é a mesma coisa.

Se treinarmos e testarmos nosso modelo com os mesmos dados, ele pode simplesmente "decorar" as respostas. Ele teria uma performance de 100%, mas seria inútil no mundo real com dados novos. Isso se chama **overfitting**.
Ao usar o conjunto de treino (x_train, y_train), nós deixamos nosso modelo estudar e aprender os padrões.
Depois que ele está treinado, nós o desafiamos com a prova final (x_test), dados que ele nunca viu antes.
Só então comparamos as previsões dele com o gabarito oficial (y_test) para ver se ele realmente aprendeu e generalizou o conhecimento, ou se apenas decorou.

Assim:

- train_test_split(...): Estamos chamando a função que acabamos de importar.
(x, y, ...): Os primeiros argumentos são os dados que queremos dividir: nossa tabela de evidências x e nosso gabarito y.
- test_size=0.2: Este é o parâmetro mais importante aqui. Estamos dizendo à função para reservar 20% (0.2) dos dados para o conjunto de teste. Consequentemente, os outros 80% serão usados para o conjunto de treino. (Essa proporção 80/20 é um padrão muito comum).
- x_train, x_test, y_train, y_test =: A função train_test_split é especial porque ela não devolve apenas uma, mas quatro coisas, nesta ordem exata:
-- x_train: Material de Estudo (Perguntas). Contém 80% das evidências (x).
-- x_test: Prova Final (Perguntas). Contém os 20% restantes das evidências (x).
-- y_train: Gabarito do Material de Estudo (Respostas). Contém os diagnósticos corretos para o x_train.
-- y_test: Gabarito da Prova Final (Respostas). Contém os diagnósticos corretos para o x_test.
<br>
<br>
A função garante que a linha 10 de x_train corresponde à linha 10 de y_train, e assim por diante.

---

Passo 5: Vamos treinar nossa IA!

In [None]:
import tensorflow as tf

model = tf.keras.models.Sequential()