# Começando o projeto de Machine Learning

A primeira etapa ao iniciar um projeto de Machine Learning é definir claramente o problema que queremos resolver.

No nosso caso, queremos desenvolver um software que analise exames de câncer de mama e nos informe se o resultado é maligno (câncer) ou benigno (não é câncer).

Esse tipo de solução pode auxiliar médicos e especialistas a identificarem rapidamente se um paciente precisa de um tratamento mais imediato ou não.

Com uma ferramenta como essa, é possível detectar padrões em exames que nem sempre são evidentes a olho nu, contribuindo para diagnósticos mais precisos e aumentando as chances de tratamento eficaz.

# Definindo os dados para o projeto

O segundo passo em um projeto de Machine Learning é definir os dados que serão utilizados. No mundo real, a coleta e o tratamento desses dados são etapas essenciais. Muitas vezes, os dados precisam ser armazenados em bancos de dados e organizados de forma a permitir consultas eficientes.

Em projetos acadêmicos, é comum utilizar conjuntos de dados disponíveis online, conhecidos como datasets. Se você está começando a estudar Machine Learning, uma ótima fonte para encontrar esses datasets é o site Kaggle, que oferece uma ampla variedade de dados prontos para uso.

Antes de iniciar o treinamento do modelo, é importante analisar os dados para entender sua qualidade e adequação. Isso significa que, em situações reais, pode ser necessário buscar mais dados ou até mesmo dados diferentes daqueles que inicialmente possuímos, dependendo do que descobrimos durante a análise.

Para este projeto, utilizaremos o banco de dados Wisconsin (Wisconsin Breast Cancer Diagnostic Dataset), que contém informações sobre exames de câncer de mama. Esse dataset é amplamente utilizado em projetos de Machine Learning e está disponível para download [neste link](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic).

O banco de dados Wisconsin inclui informações coletadas de exames, onde foram registrados diversos atributos (características) que ajudam a classificar os tumores como malignos ou benignos. Cada registro do dataset corresponde a um exame de mama e possui 30 características diferentes, como textura, forma e tamanho da célula, além do diagnóstico final de cada paciente.

Esses dados serão a base para o nosso modelo de Machine Learning, e a primeira etapa será analisá-los para entender melhor seu conteúdo e garantir que possamos utilizá-los de maneira eficaz no desenvolvimento do nosso software de detecção.

# Importando os pacotes necessários

Antes de começarmos a analisar os dados, precisamos importar algumas bibliotecas Python que nos ajudarão a manipular e trabalhar com os dados de forma mais eficiente.

Mas o que é uma biblioteca? Uma biblioteca é um conjunto de códigos e funções criados por outras pessoas para resolver problemas comuns, economizando tempo e esforço, pois você não precisa reescrever o mesmo código. Você só precisa importar a biblioteca e utilizá-la no seu projeto.

Aqui estão as bibliotecas que vamos utilizar e suas funções:

* **Pandas:** utilizado para manipulação e análise de dados. Ele permite carregar, transformar e explorar os dados de maneira fácil.
* **Matplotlib:** uma biblioteca para criação de gráficos. Vamos utilizá-la para visualizar os dados de forma clara.
* **Seaborn:** uma biblioteca baseada no Matplotlib, que torna a visualização de dados ainda mais simples e esteticamente agradável.
* **XGBoost:** é um algoritmo de Machine Learning usado para construir modelos preditivos com alto desempenho, neste caso, para classificação de dados.
* **Scikit-learn (sklearn):** contém diversas funções úteis, incluindo:
* **train_test_split:** para dividir os dados em conjuntos de treinamento e teste, essencial para validar o desempenho do nosso modelo.
* **accuracy_score:** uma métrica para calcular a precisão do modelo após a realização das previsões.
* **SimpleImputer:** utilizado para preencher valores faltantes nos dados, garantindo que possamos trabalhar com dados completos.


Vamos importar as bibliotecas e iniciar o projeto:

In [None]:
# importar as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.impute import SimpleImputer


# Lendo os dados
Agora que já temos os pacotes necessários importados, vamos começar lendo os nossos dados. Como mencionado antes, utilizaremos o banco de dados Wisconsin, que contém informações sobre exames de câncer de mama. Esse dataset está em formato CSV (Comma-Separated Values), um formato comum para armazenar grandes volumes de dados tabulares.

Vamos usar o Pandas para carregar o arquivo de dados. Com a função read_csv() do Pandas, podemos facilmente importar os dados para dentro do nosso projeto e começar a manipulá-los.

Aqui está o código para ler o arquivo:

In [None]:
# importar o dataset em csv
url = "https://www.dropbox.com/s/z8nw6pfumdw3bb9/breast-cancer-wisconsin.csv?raw=1"
df = pd.read_csv(url)

Aqui, estamos:

* Definindo a URL do dataset.
* Carregando o arquivo CSV e armazenando os dados em um DataFrame chamado df.

Esse será o nosso ponto de partida para começar a explorar e analisar os dados. Agora podemos passar para a análise inicial e ver como os dados estão estruturados.

## Análise Exploratória

Agora que já importamos nosso dataset, o próximo passo será examinar as dimensões do DataFrame e dar uma olhada nas primeiras entradas dos dados.

Isso é importante porque nos ajuda a entender o formato dos dados e sua estrutura geral, permitindo criar uma base para o que faremos a seguir.


In [None]:
df.head()


**Estrutura do Dataset**

A coluna `id` representa o número de identificação de cada paciente.

A coluna `diagnosis` é a nossa variável alvo, ou seja, o que queremos prever.

* M - Indica um diagnóstico maligno (câncer).
* B - Indica um diagnóstico benigno (não câncer).

Além disso, o dataset contém 30 colunas com medidas numéricas que foram coletadas em exames laboratoriais.

Essas medidas ajudam a descrever diferentes características do tumor, como tamanho, forma e textura, e são essenciais para treinar nosso modelo de Machine Learning.

Por exemplo:

* Raio (radius): Mede o raio médio do tumor.
* Textura (texture): Mede a variação na intensidade do tumor na imagem.

E várias outras medidas que ajudam a identificar padrões nos dados.
Agora, podemos começar a explorar os dados e entender sua distribuição.

In [None]:
# Dimensões do DataFrame
print("DIMENSÕES DO DATAFRAME:")
print("Linhas:\t\t{}".format(df.shape[0]))  # Mostra o número de linhas
print("Colunas:\t{}".format(df.shape[1]))  # Mostra o número de colunas

O que o código faz:

* `df.shape[0]:` Isso retorna o número de linhas no DataFrame, ou seja, a quantidade de registros ou pacientes.
* `df.shape[1]:` Isso retorna o número de colunas, ou seja, quantas variáveis (características) estamos analisando, incluindo a coluna de diagnóstico.

Esse código nos mostra de forma clara quantos dados temos disponíveis para analisar, o que é fundamental para termos uma noção da quantidade de informações que nosso modelo de Machine Learning vai utilizar.

# Exibindo as primeiras entradas do DataFrame

Após verificarmos as dimensões do nosso dataset, o próximo passo é visualizar algumas linhas de dados para entender sua estrutura e conteúdo.

Para isso, utilizamos novamente o comando `df.head():`

In [None]:
# ver as 5 primeiras entradas
df.head()

O que esse código faz:

`df.head():` Exibe as primeiras 5 linhas do DataFrame por padrão.

Isso nos permite ver uma amostra dos dados sem carregar o DataFrame inteiro na tela.

Esse comando é útil porque dá uma visão rápida de como os dados estão organizados, permitindo identificar colunas, tipos de dados e padrões iniciais. Podemos verificar, por exemplo, como os valores de `ID` e `diagnosis` estão apresentados e ter uma ideia das variáveis numéricas que serão usadas no modelo de Machine Learning.

# Eliminando uma coluna com erro e verificando as dimensões

Em alguns casos, datasets podem conter colunas desnecessárias ou que foram adicionadas por engano. Aqui, estamos removendo uma coluna chamada `'Unnamed: 32'`, que não traz nenhuma informação útil para o nosso projeto.

In [None]:
# eliminar uma coluna com erro
df.drop('Unnamed: 32', axis=1, inplace=True)

# dimensões do df
print("DIMENSÕES DO DATAFRAME:")
print("Linhas:\t\t{}".format(df.shape[0]))
print("Colunas:\t{}".format(df.shape[1]))

O que esse código faz:
* `df.drop():` Remove colunas ou linhas do DataFrame.
* `'Unnamed: 32':` O nome da coluna que será removida.
* `axis=1:` Especifica que estamos removendo uma coluna. Se fosse axis=0, estaríamos removendo uma linha.
* `inplace=True:` Significa que a modificação será feita diretamente no DataFrame original, sem precisar criar uma cópia.

Agora que a coluna foi removida, podemos verificar novamente as dimensões do DataFrame para garantir que o número de colunas foi reduzido.

In [None]:
# ver as 5 primeiras entradas
df.head()

O que mudou:

* O número de colunas será atualizado, pois removemos uma coluna com erro.

Esse processo garante que estamos trabalhando apenas com as colunas que realmente importam para a análise e construção do nosso modelo de Machine Learning.

# Verificando os tipos de dados no DataFrame

Após visualizar as primeiras entradas do nosso dataset, percebemos que, com exceção da coluna `diagnosis`, todas as outras colunas parecem ser do tipo numérico (int ou float).

No entanto, é importante confirmar isso, pois algumas colunas podem ter sido importadas como strings (texto) por erro ou por conter algum valor inconsistente.

Para verificar o tipo de dado de cada coluna, utilizamos o seguinte código:

In [None]:
df.dtypes

**O que esse código faz:**

* `df.dtypes:` Esse comando retorna o tipo de dado de cada coluna do DataFrame.
 * `int:` Representa números inteiros.
 * `float:` Representa números com casas decimais.
 * `object:` Geralmente indica que a coluna contém texto ou strings.

**Verificar o tipo de dado é importante porque:**

* Precisão: Se uma coluna numérica for interpretada como texto, não poderemos realizar cálculos ou análises estatísticas corretamente.
* Tratamento correto: Sabendo o tipo de dado, podemos aplicar as transformações adequadas.

# Verificando valores ausentes no dataset

Em qualquer projeto de Machine Learning, a qualidade dos dados é um dos fatores mais importantes. Dados incompletos ou ausentes podem comprometer a análise e os resultados. Por isso, verificar se existem valores ausentes no dataset é uma etapa essencial antes de qualquer tratamento de dados ou modelagem.

Para verificar a presença de valores ausentes, usamos o seguinte código:

In [None]:
df.isnull().sum()

**O que esse código faz:**
* `df.isnull():` Cria uma matriz booleana (com valores True e False), onde True indica a presença de um valor ausente (ou seja, um valor nulo).
* `sum():` Soma quantos valores nulos existem em cada coluna, retornando um número para cada uma delas.

Esse código nos dá uma visão clara de quantos valores estão faltando em cada coluna do nosso DataFrame.

Como o resultado deu 0 em todas as colunas isso significa que não há valores ausentes, e o dataset está completo. Caso contrário, teriamos que decidir como lidar com esses valores ausentes, seja removendo ou preenchendo (imputando) os dados de forma adequada.

**Importância da verificação:**
* **Impacto no modelo:** Modelos de Machine Learning não funcionam corretamente com dados faltantes. Sem tratamento, os resultados podem ser imprecisos ou falhos.
* **Qualidade dos dados:** A quantidade de valores ausentes reflete diretamente na qualidade do dataset. Um dataset com muitos valores ausentes pode exigir um tratamento mais extenso, como preenchimento ou até a remoção de determinadas colunas.

**Como lidar com valores ausentes:**
* **Remover:** Em alguns casos, é possível simplesmente remover as linhas ou colunas com muitos valores ausentes, especialmente se a quantidade for pequena.
* **Preencher (Imputar):** Quando os valores ausentes são importantes, podemos usar técnicas como preencher com a média, mediana, ou valores mais comuns da coluna.

# Verificando os valores únicos

Mesmo que todas as colunas do nosso conjunto de dados sejam numéricas, é uma boa prática verificar quantos valores diferentes existem em cada coluna. Isso pode nos ajudar a descobrir se alguns números estão sendo usados para representar categorias (como tipos de diagnóstico), em vez de serem apenas números normais.

Por exemplo, imagine que temos uma coluna com os números 0 e 1. Esses números podem não ser simples números, mas sim representar algo, como 0 = não tem câncer e 1 = tem câncer. Ou seja, os números podem estar codificando categorias.

Ao verificar quantos valores únicos existem em cada coluna, podemos ter uma ideia se os números são contínuos (medidas) ou se representam grupos ou categorias.

Aqui está o código que usamos para essa verificação:

In [None]:
# valores únicos
print("\nVALORES ÚNICOS:")
print(df.nunique().sort_values())

**Por que verificar os valores únicos é importante?**

* **Identificar classes:** Se uma coluna tem poucos valores diferentes (por exemplo, 2 ou 3), isso pode significar que ela está representando categorias ou classes. Por exemplo, a coluna diagnosis tem apenas dois valores únicos: M para maligno (câncer) e B para benigno (não câncer).

* **Detectar categorias disfarçadas:** Às vezes, números podem estar representando categorias, como 1 para masculino e 2 para feminino. Se tratarmos esses números como se fossem normais (quantidades), isso pode causar problemas na análise.

* **Entender a variação:** Saber quantos valores diferentes existem em uma coluna nos ajuda a entender se a coluna varia muito ou pouco. Isso é importante para decidir como usar esses dados no nosso modelo de Machine Learning.

**Exemplo:**

Se tivermos uma coluna com apenas dois valores únicos, como 0 e 1, isso pode indicar que ela representa uma resposta binária, como "sim" e "não". Já colunas com muitos valores diferentes, como medidas de tumor, são provavelmente variáveis contínuas (números normais que podem ter muitos valores diferentes).

# Verificando o balanceamento do dataset
Agora, vamos verificar o balanceamento dos dados, ou seja, quantas vezes cada tipo de diagnóstico (maligno ou benigno) aparece no nosso conjunto de dados.

Isso é importante porque, se houver muitos mais exemplos de um tipo de diagnóstico do que do outro, pode ser mais difícil para o modelo aprender a reconhecer o tipo menos comum.

Vamos começar calculando a porcentagem de cada diagnóstico:

In [None]:
# ver porcentagem dos diagnósticos
print("Diagnósticos:")
print(df.diagnosis.value_counts() / df.shape[0])

**O que esse código faz:**
* `df.diagnosis.value_counts():` Conta quantas vezes cada tipo de diagnóstico aparece no dataset.
* `/ df.shape[0]:` Divide pela quantidade total de linhas (pacientes) para calcular a porcentagem.

Em seguida, vamos criar um gráfico de barras para visualizar essas informações:

In [None]:
# plotar o gráfico de barras com os diagnósticos
fig, ax = plt.subplots()
sns.countplot(x='diagnosis', data=df, ax=ax)
ax.set_title("Diagnósticos")
plt.show()

### **O que esse código faz:**

* `sns.countplot():` Cria um gráfico de barras que mostra quantos pacientes têm o diagnóstico de maligno (M) e quantos têm o diagnóstico de benigno (B).
* `ax.set_title():` Define o título do gráfico, que será "Diagnósticos".

### **Interpretação:**

No gráfico, cada barra representará a quantidade de diagnósticos M (maligno) e B (benigno). Assim, podemos visualizar se há um desbalanceamento entre os dois tipos.

Um pequeno desbalanceamento significa que um dos diagnósticos aparece um pouco mais do que o outro, o que pode ser relevante na hora de treinar o nosso modelo de Machine Learning.

# Visualizando a distribuição das variáveis com histogramas

Agora vamos visualizar como as variáveis numéricas estão distribuídas no nosso conjunto de dados. Isso nos ajuda a entender melhor os padrões, como a tendência dos valores se concentrarem em torno de uma média ou se "puxarem" mais para um lado do gráfico.

Como a coluna `id` não traz informações importantes (é só um identificador), vamos excluí-la ao criar os gráficos.

### O que é um histograma?

Um histograma é um gráfico de barras que mostra a distribuição dos dados, ou seja, como os valores de uma variável estão espalhados. Ele nos ajuda a entender se os valores se concentram em torno de um valor central (média) ou se são mais "desviados" para algum lado.

Aqui está o código para plotar os histogramas:

In [None]:
# plotar o histograma das features
fix, ax = plt.subplots(figsize=(12,8))
df.drop('id', axis=1).hist(ax=ax)
plt.tight_layout()

### O que esse código faz:
* `df.drop('id', axis=1):` Remove a coluna id, já que ela não é útil para o nosso gráfico.
* `hist():` Cria um histograma para cada variável numérica do dataset, mostrando como os valores estão distribuídos.
*` plt.tight_layout():` Ajusta o layout do gráfico para que ele fique bem organizado na tela.

### O que observar:
Algumas variáveis terão seus valores distribuídos de maneira uniforme ao redor de uma média, formando um gráfico mais simétrico.

Outras variáveis podem apresentar valores que se concentram mais à esquerda ou à direita, o que indica que a distribuição dos dados não é equilibrada.
Esses gráficos nos ajudam a entender melhor as características dos dados e como cada variável pode influenciar o nosso modelo de Machine Learning.

# Visualizando a correlação das variáveis com Heatmap

###**O que é um Heatmap?**

Um heatmap é uma representação gráfica onde cores são usadas para mostrar a relação entre diferentes variáveis.

Neste caso, estamos utilizando o heatmap para visualizar a correlação entre as variáveis numéricas do nosso dataset, ou seja, o quanto elas estão relacionadas umas com as outras.

Correlação é uma medida que mostra como uma variável muda em relação à outra. Ela varia de -1 a 1:

* **1:** Significa que duas variáveis estão fortemente correlacionadas positivamente, ou seja, quando uma aumenta, a outra também aumenta.
* **-1:** Significa que as variáveis estão fortemente correlacionadas negativamente, ou seja, quando uma aumenta, a outra diminui.
* **0:** Significa que não há correlação entre as variáveis, ou seja, elas não influenciam uma à outra.


In [None]:
# plotar heatmap
fig, ax = plt.subplots(figsize=(10,10))
sns.heatmap(df.drop(['id', 'diagnosis'], axis=1).corr(), cmap='coolwarm', ax=ax)
plt.show()

### Explicação do código:

* `df.drop(['id', 'diagnosis'], axis=1):` Estamos removendo a coluna `id` (que não é importante para essa análise) e a coluna `diagnosis`, pois estamos interessados nas variáveis numéricas.
* `.corr():` Esse comando calcula a correlação entre todas as variáveis numéricas do nosso dataset.
* `sns.heatmap():` Cria o gráfico de heatmap usando a matriz de correlação gerada pelo `.corr()`. Usamos o esquema de cores 'coolwarm' para representar visualmente os valores de correlação.

 * As cores mais quentes (vermelhas) indicam correlação positiva alta.
 * As cores mais frias (azuis) indicam correlação negativa alta.

### O que observar no Heatmap:

Cores escuras ou vermelhas fortes indicam uma alta correlação positiva. Isso significa que, à medida que uma variável aumenta, a outra também tende a aumentar.

Cores escuras ou azuis fortes indicam uma alta correlação negativa. Isso significa que, à medida que uma variável aumenta, a outra tende a diminuir.
Cores claras ou próximas do branco indicam que não há muita correlação entre essas variáveis, ou seja, elas não têm uma relação clara.

### Por que isso é importante?

* **Correlação alta:** Se duas variáveis estão fortemente correlacionadas, pode ser que uma delas não seja necessária no modelo, pois ambas estão fornecendo informações muito parecidas. Isso ajuda a simplificar o modelo.

* **Correlação negativa:** Quando a correlação é negativa, significa que as variáveis têm comportamentos opostos, o que também pode ser uma informação importante para o modelo.


## Preparação dos dados

Agora que temos nossos dados prontos, precisamos fazer um passo muito importante chamado pré-processamento, que basicamente prepara os dados para que o modelo de Machine Learning consiga trabalhar com eles corretamente.

#### **Padronizando os dados com `StandardScaler`**

Os valores das variáveis numéricas (como tamanho, textura do tumor, etc.) podem ter escalas diferentes. Por exemplo, algumas variáveis podem ter valores muito pequenos, enquanto outras podem ter valores grandes. Isso pode atrapalhar o modelo, pois ele pode "dar mais atenção" para os números maiores, mesmo que eles não sejam mais importantes.

Para evitar esse problema, usamos o `StandardScaler`, que ajusta todos os números para ficarem na mesma escala. Assim, o modelo trata todos de maneira justa. O cálculo que ele faz é bem simples:
$z = \frac{x-u}{s}$

Aqui:

* **$x$** é o valor da variável.
* **$u$** é a média dos valores dessa variável no conjunto de treino.
* **$s$** é o desvio padrão, que mede o quanto os valores variam em torno da média.

Em resumo, o `StandardScaler` transforma os valores para que fiquem padronizados em torno de 0, facilitando o aprendizado do modelo.

### **Convertendo a variável alvo com `LabelEncoder`**

Nossa variável alvo é o diagnóstico do tumor: M para maligno (câncer) e B para benigno (não é câncer). Esses são valores de texto, e os modelos de Machine Learning funcionam melhor com números. Para resolver isso, usamos o `LabelEncoder` que converte esses diagnósticos em números:

* M (maligno) vira 1.
* B (benigno) vira 0.

### **Dividindo o dataset em treino e teste**

Antes de construir o modelo, precisamos dividir os dados em dois grupos:

* **Treino:** São os dados que usamos para ensinar o modelo.
* **Teste:** São os dados que usamos para verificar se o modelo está funcionando corretamente.

Fazemos isso com a função `train_test_split`, que automaticamente divide os dados em 70% para treino e 30% para teste.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# separar as variáveis independentes da variável alvo
X = df.drop(['diagnosis', 'id'], axis=1)
y = df['diagnosis']

# padronizar as colunas numéricas
X = StandardScaler().fit_transform(X)

# label encoder na variável alvo
y = LabelEncoder().fit_transform(y)

# dividir o dataset entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

### **O que está acontecendo no código:**
* **Separando os dados:** Pegamos todas as colunas, exceto diagnosis (que é o que queremos prever) e id (que não é útil para o modelo). Chamamos essas colunas de X (dados de entrada). A coluna diagnosis é separada como y (o que queremos prever).

* **Padronizando os dados:** Usamos o `StandardScaler` para garantir que todas as variáveis numéricas fiquem na mesma escala.

* **Convertendo a variável alvo:** Usamos o LabelEncoder para transformar M em 1 e B em 0.

* **Dividindo os dados:** Usamos o `train_test_split` para dividir o dataset em treino (70%) e teste (30%).

## Modelo de Machine Learning para detecção do câncer de mama

Neste problema, queremos que o modelo de Machine Learning seja capaz de classificar corretamente se um tumor é benigno ou maligno. Para isso, o modelo vai analisar várias informações (chamadas de variáveis independentes, ou features), como o tamanho do tumor, sua forma, entre outros dados, para fazer essa previsão.

O modelo que vamos usar é o **Random Forest** (Floresta Aleatória), que é uma escolha excelente por ser flexível e funcionar bem mesmo sem muitos ajustes técnicos.

### **O que é o Random Forest?**

Random Forest, ou "Floresta Aleatória", é um algoritmo de Machine Learning que combina vários "pequenos modelos", chamados de árvores de decisão.

Imagine que cada árvore de decisão toma decisões baseadas em perguntas simples (por exemplo, "O tumor tem mais de 5 mm? Sim ou não?"). No final, cada árvore faz sua previsão, e o Random Forest pega a "opinião" de várias árvores para tomar uma decisão final.

Por isso o nome "Floresta Aleatória" – ele cria várias árvores e combina os resultados, aumentando a precisão da previsão.

### **Vantagens do Random Forest:**

* **Robustez:** Funciona bem com diferentes tipos de dados e sem muitos ajustes técnicos.
* **Flexibilidade:** Mesmo que alguns dados estejam faltando ou com erros, o modelo pode se sair bem, porque usa várias árvores para tomar uma decisão final.

Agora vamos ver como usamos o modelo Random Forest no código:

In [None]:
from sklearn.ensemble import RandomForestClassifier

# instanciando o modelo de Random Forest
ml_model = RandomForestClassifier(n_estimators = 10, criterion = 'entropy',
                                  random_state = 42)

# treinando o modelo
ml_model.fit(X_train, y_train)

### Explicação do Código:

1. `RandomForestClassifier:` Esse comando cria o modelo de Random Forest. Aqui, nós configuramos:
 * `n_estimators=10:` Significa que estamos criando 10 árvores de decisão na nossa floresta.
 * `criterion='entropy':` Define como as árvores tomam suas decisões. Nesse caso, usamos o critério de entropia, que é uma maneira de medir a desorganização das informações.
 * `random_state=42:` Garante que o modelo será sempre o mesmo se rodarmos o código várias vezes (isso é útil para consistência).

2. `ml_model.fit(X_train, y_train):` Aqui, estamos treinando o modelo, ou seja, estamos alimentando-o com os dados de treino para que ele aprenda a identificar se um tumor é benigno ou maligno.

###Como funciona o Random Forest:
O modelo treina criando várias árvores de decisão. Cada árvore faz previsões separadamente.

No final, o Random Forest combina os resultados de todas as árvores e decide qual é a classificação final (benigno ou maligno).

###Checando o Desempenho

Depois de treinar o modelo, vamos testar seu desempenho para ver como ele se sai ao prever o diagnóstico de novos pacientes. Para isso, utilizamos o conjunto de testes, que são dados que o modelo ainda não viu.

## Desempenho do modelo de detecção de câncer de mama

Quando avaliamos o desempenho de um modelo de Machine Learning, especialmente para um problema tão delicado como a detecção de câncer, nem sempre uma alta acurácia (ou precisão geral) significa que o modelo está realmente funcionando bem.

### O que é acurácia?

Acurácia é a métrica que nos diz quantas vezes o modelo acertou a classificação, em comparação com o total de casos testados. No entanto, em situações críticas como a detecção de câncer, só olhar para a acurácia pode ser arriscado. Isso porque podemos ter um modelo que acerta muitos casos, mas falha em detectar casos positivos de câncer (o que seria muito perigoso).

### Por que outras métricas são importantes?

Além da acurácia, existem outras métricas que nos ajudam a entender melhor o desempenho do modelo:

* Precisão (Precision): Mede quantos dos casos que o modelo classificou como positivos (câncer) realmente são positivos. Ou seja, quantas das previsões de câncer estão corretas.
* Recall: Mede quantos dos casos que realmente são positivos (câncer) o modelo conseguiu identificar. Isso é muito importante, porque queremos minimizar os falsos negativos, ou seja, aqueles casos que têm câncer, mas o modelo classificou como não tendo.
* F1-Score: É uma média ponderada entre precisão e recall, ajudando a equilibrar essas duas métricas.
* Support: Indica quantas ocorrências de cada classe (benigno ou maligno) existiam no conjunto de teste.

Essas métricas são importantes porque, ao lidar com câncer, nosso objetivo principal é maximizar o número de verdadeiros positivos (diagnósticos corretos de câncer) e minimizar os falsos negativos (casos de câncer que o modelo não detectou).

In [None]:
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

# realizar as previsões no dataset de teste
y_pred = ml_model.predict(X_test)

# ver acurácia geral
print('[Acurácia] Random Forest:', accuracy_score(y_test, y_pred))

# imprimir o classification report
print('\n[Classification Report] Random Forest')
print('')
print( classification_report(y_test, y_pred) )

###**O que esse código faz:**

1. Previsões no conjunto de teste: Usamos o modelo treinado para fazer previsões no conjunto de dados de teste (que o modelo nunca viu antes) e armazenamos os resultados em `y_pred`.
2. Acurácia: Calculamos e imprimimos a acurácia geral usando a função `accuracy_score`.
3. Classification Report: Usamos o `classification_report` para exibir as métricas de precisão, recall, F1-Score e suporte, que nos dão uma visão mais detalhada do desempenho do modelo.

###**Interpretação:**
* Acurácia: Nos diz quantas vezes o modelo acertou no geral.
* Precisão: Queremos que seja alta para minimizar os falsos positivos (diagnósticos errados de câncer).
* Recall: Também queremos um valor alto aqui, porque ele mede a capacidade do modelo de identificar corretamente os casos de câncer (minimizando os falsos negativos).
* F1-Score: Um equilíbrio entre precisão e recall, que é importante para ver como o modelo se comporta de maneira geral.

# Verificando a Matriz de Confusão

Embora o modelo tenha apresentado ótimos valores nas métricas de desempenho, como mencionamos antes, cada caso é um caso. Às vezes, uma acurácia alta não significa necessariamente que o modelo está funcionando da melhor maneira possível, especialmente quando falamos de detecção de câncer.

Por exemplo, imagine que o modelo tem uma acurácia de 99,999% ao detectar corretamente que um paciente não tem câncer, mas apenas 85% de acurácia ao prever que um paciente tem câncer. Nesse caso, o modelo pode deixar de detectar alguns tumores malignos, o que pode ser muito perigoso.

###**Falsos positivos e falsos negativos:**

* **Falsos positivos:** O modelo diz que a pessoa tem câncer, mas na verdade não tem. Embora isso possa gerar preocupação, é melhor investigar mais a fundo.
* **Falsos negativos:** O modelo diz que a pessoa não tem câncer, mas na verdade tem. Esse é o mais preocupante, pois pode atrasar o tratamento.

Às vezes, é melhor errar para o lado de mais falsos positivos, o que nos permite investigar mais a fundo, do que errar com falsos negativos, que podem levar a diagnósticos perdidos. Um exemplo parecido é a detecção de fraudes no cartão de crédito, onde preferimos investigar uma transação suspeita, mesmo que no final ela seja legítima.

###**Matriz de Confusão**

A matriz de confusão nos ajuda a entender melhor os erros que o modelo está cometendo. Ela nos mostra:

* Quantos positivos o modelo previu corretamente.
* Quantos negativos o modelo previu corretamente.
* E onde o modelo errou (falsos positivos e falsos negativos).

In [None]:
# plotar a matriz de confusão
pd.DataFrame(confusion_matrix(y_test, y_pred),
             index=['neg', 'pos'], columns=['pred_neg', 'pred_pos'])

###**O que a matriz de confusão nos mostra:**
* **neg:** Representa os casos negativos, ou seja, pacientes que não têm câncer.
* **pos:** Representa os casos positivos, ou seja, pacientes que têm câncer.
* **pred_neg:** Quantos o modelo previu como negativos (sem câncer).
* **pred_pos:** Quantos o modelo previu como positivos (com câncer).

Com essa matriz, podemos ver onde o modelo acertou e onde ele errou:

* **Canto superior esquerdo:** Casos corretamente classificados como negativos (não têm câncer).
* **Canto inferior direito:** Casos corretamente classificados como positivos (têm câncer).
* **Canto superior direito:** Falsos positivos (o modelo disse que a pessoa tem câncer, mas não tem).
* **Canto inferior esquerdo:** Falsos negativos (o modelo disse que a pessoa não tem câncer, mas tem).

# Interpretação dos resultados:

No caso do Random Forest, o modelo conseguiu atingir uma acurácia superior a **95%** e lidou bem com ambas as classes (positivos e negativos). No entanto, a matriz de confusão nos ajuda a enxergar melhor quantos falsos positivos e quantos falsos negativos ocorreram, permitindo uma análise mais detalhada.

## Outubro Rosa e Machine Learning

A campanha do Outubro Rosa acontece todos os anos em outubro, mas a conscientização sobre o câncer de mama deve estar presente durante o ano todo. O diagnóstico precoce é fundamental e salva vidas.

Com os avanços na Inteligência Artificial e especialmente no Machine Learning, a tecnologia tem ajudado muito os médicos a diagnosticar casos de câncer de mama. Esses algoritmos podem analisar grandes quantidades de dados e identificar padrões que, muitas vezes, são difíceis de ver a olho nu. Isso tem aumentado bastante as chances de sucesso nos tratamentos, especialmente quando o câncer é detectado cedo.

No entanto, por mais que os modelos de Machine Learning sejam confiáveis e possam ajudar na detecção, nada substitui a importância do diagnóstico precoce. Fazer exames regularmente e estar atento aos sinais do corpo é a principal ação que qualquer pessoa pode tomar.

