In [2]:
import numpy as np
import pandas as pd
from scipy.stats import ttest_ind
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [3]:
# Carregar um dataset para exemplo (câncer de mama)
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

In [4]:
# Dividir os dados em duas classes
class_0 = X[y == 0]
class_1 = X[y == 1]

# Calcular o teste t para cada atributo
t_scores = []
p_values = []


In [5]:
for column in X.columns:
    t_stat, p_val = ttest_ind(class_0[column], class_1[column], equal_var=False)
    t_scores.append(np.abs(t_stat))
    p_values.append(p_val)

In [6]:
# Criar um DataFrame com os resultados
ranking_df = pd.DataFrame({'Atributo': X.columns, 't_score': t_scores, 'p_value': p_values})


In [7]:
# Ordenar os atributos pelo valor absoluto do t_score (ordem decrescente)
ranking_df = ranking_df.sort_values(by='t_score', ascending=False)

In [8]:
# Exibir os top atributos
print("Ranking de Atributos (Baseado no Teste t):")
print(ranking_df.head())

Ranking de Atributos (Baseado no Teste t):
                Atributo    t_score       p_value
27  worst concave points  29.117659  1.061454e-96
22       worst perimeter  25.332210  1.032730e-72
7    mean concave points  24.844810  3.127316e-71
20          worst radius  24.829745  3.556557e-71
2         mean perimeter  22.935314  1.023141e-66


**Relato sobre o Entendimento:**

Relevância dos Atributos: Os cinco atributos listados na tabela têm valores de t_score elevados, indicando que eles são os mais importantes para distinguir entre as duas classes no conjunto de dados de câncer de mama. Esses atributos apresentam diferenças substanciais nas médias entre as classes, o que os torna altamente relevantes para a tarefa de classificação.

Significância Estatística: Os p_values extremamente baixos sugerem que as diferenças observadas não são fruto do acaso e são estatisticamente significativas. Isso dá confiança de que esses atributos têm um impacto real e significativo na distinção entre tumores benignos e malignos.

Interpretação Geral: Os atributos relacionados a "worst" (ou seja, as piores medições observadas para um dado paciente, como worst concave points, worst perimeter, e worst radius) aparecem no topo da lista, sugerindo que os piores valores medidos têm uma forte correlação com a malignidade do tumor. Além disso, atributos como mean concave points e mean perimeter também são altamente relevantes, indicando que as características geométricas do tumor (como a concavidade e o perímetro) são cruciais para a classificação.


Análise da Tabela:
Atributo: A tabela lista os atributos mais relevantes, que são:

worst concave points
worst perimeter
mean concave points
worst radius
mean perimeter
t_score:

O t_score indica a magnitude da diferença entre as médias das duas classes para cada atributo. Um t_score mais alto sugere que o atributo tem uma diferença significativa entre as classes, tornando-o mais relevante para a classificação.
worst concave points tem o maior t_score (29.117659), indicando que este atributo é o mais discriminante entre as classes.
p_value:

O p_value mostra a significância estatística da diferença observada. Valores de p_value muito baixos (próximos de zero) indicam que a diferença observada é altamente significativa e não é devida ao acaso.
Todos os atributos listados têm p_value extremamente baixos (e.g., 1.061454e-96 para worst concave points), reforçando a ideia de que as diferenças observadas entre as classes para esses atributos são muito significativas.

