In [None]:
import os
import pathlib as p

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as s

In [None]:
HOME_PATH = p.Path(os.getcwd())
DATA_PATH = HOME_PATH.joinpath('data')

## _Dataset_

O _Dataset_ utilizado é o ___Breast Cancer Wisconsin (Diagnostic) Data Set___, com informações de imagens digitalizadas de tumores em seios.

As _features_ presentes no conjunto de dados são as medidas e descrições dessas massas, levando a identificação sobre o tumor ser benigno ou maligno.

O _dataset_ pode ser encontrado no [Kaggle](https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data).

In [None]:
data_file_path = DATA_PATH.joinpath('data.csv')

data = pd.read_csv(data_file_path)

In [None]:
data.info()

In [None]:
data.head()

In [None]:
# Remapeia os labels de classificação
data['diagnosis'] = data['diagnosis'].map({'B': 0, 'M': 1})

# Separa os casos negativos e positivos
negative = data[data['diagnosis'] == 0]
positive = data[data['diagnosis'] == 1]

## Análise de Frequência sobre _Features_

Nesta seção, serão realizadas comparações entre _features_ para casos positivos e negativos, buscando identificar fatores comuns nas classificações possíveis.

Serão gerados histogramas com 15 e 30 _bins_ para análise.

In [None]:
# Função que gera o histograma comparando as features nas duas classes possíveis
def plot_feature_histogram_between_two_classes(data_class_1, data_class_2, feature_name, feature_label, label_class_1, label_class_2, bins, alpha: float = 0.6, color_class_1: str = 'red', color_class_2: str = 'blue', kde: bool = True):
    s.histplot(data_class_1[feature_name], bins=bins, color=color_class_1, alpha=alpha, label=label_class_1, kde=True)
    s.histplot(data_class_2[feature_name], bins=bins, color=color_class_2, alpha=alpha, label=label_class_2, kde=True)
    plt.title(f'Histograma de {feature_label}')
    plt.xlabel(feature_label)
    plt.ylabel('Frequência')
    plt.legend()
    plt.tight_layout()
    plt.show()

### Primeira _Feature_

A primeira análise é sobre a _feature_ ___radius_mean___, a qual representa a média das distâncias do centro do tumor até suas extremidades.

In [None]:
feature_name = 'radius_mean'
feature_label = 'Média de Raio'
label_class_1 = 'Negativo'
label_class_2 = 'Positivo'

bins = 15
plot_feature_histogram_between_two_classes(negative, positive, feature_name, feature_label, label_class_1, label_class_2, bins)

bins = 30
plot_feature_histogram_between_two_classes(negative, positive, feature_name, feature_label, label_class_1, label_class_2, bins)

É possível ver que, apesar de ocorrer alguma sobreposição nos histogramas, há uma grande quantidade de casos positivos que estão em valores bem acima do valor máximo de um caso negativo.

Assim, pode-se afirmar que há importância na análise deste _feature_ em um projeto de aprendizado de máquina pois há boa distinção entre as classificações realizadas sobre os valores dispostos no gráfico.

Além disso, a análise com diferentes quantidade de _bins_ mostra as nuâncias e detalhes de cada distribuição, apesar de a curva continuar a mesma. Assim, o primeiro gráfico é válido para uma análise inicial, enquanto o segundo é muito importante para confirmar a tendência descrita nos parágrafos anteriores.

### Segunda _Feature_

A segunda análise é sobre a _feature_ ___smoothness mean___, a qual representa a média da suavidade dos raios do contorno das células tumorais.

In [None]:
feature_name = 'smoothness_mean'
feature_label = 'Média de Suavidade de Contorno'
label_class_1 = 'Negativo'
label_class_2 = 'Positivo'

bins = 15
plot_feature_histogram_between_two_classes(negative, positive, feature_name, feature_label, label_class_1, label_class_2, bins)

bins = 30
plot_feature_histogram_between_two_classes(negative, positive, feature_name, feature_label, label_class_1, label_class_2, bins)

Na segunda _feature_, percebe-se que a sobreposição dos gráficos é bem maior, dificultando a precisão em afirmar que um determinado valor nessa _feature_ pode levar a uma classificação positiva ou negativa - comportamento diferente da primeira _feature_ analisada.

No mais, a análise sobre duas diferentes quantidades de _bins_ segue a mesma, replicando a explicação feita anteriormente.