In [1]:
import pandas as pd
import sklearn

df = sklearn.datasets.load_breast_cancer(as_frame=True)

In [2]:
X = df['frame'].drop(columns=['target'], axis=1)
y = df['target']

print(f"X tem {X.shape[1]} características e {X.shape[0]} exemplos")
print(f"y tem {len(y)} rótulos")

X tem 30 características e 569 exemplos
y tem 569 rótulos


In [3]:
X_train, X_valid, y_train, y_valid = sklearn.model_selection.train_test_split(
    X, y,
    test_size=0.25,
    random_state=42
)

print(f"Dados de treino: {len(X_train)} exemplos")
print(f"Dados de validação: {len(X_valid)} exemplos")

Dados de treino: 426 exemplos
Dados de validação: 143 exemplos


In [4]:
rf = sklearn.ensemble.RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

print(f"A floresta tem {rf.n_estimators} árvores")
print(f"Cada árvore foi treinada com {len(X_train)} exemplos")

A floresta tem 100 árvores
Cada árvore foi treinada com 426 exemplos


In [5]:
y_pred = rf.predict(X_valid)

print(f"Fizemos predições para {len(y_pred)} exemplos")
print(f"Primeiras 10 predições:        {y_pred[:10]}")
print(f"Valores reais correspondentes: {y_valid.values[:10]}")

Fizemos predições para 143 exemplos
Primeiras 10 predições:        [1 0 0 1 1 0 0 0 0 1]
Valores reais correspondentes: [1 0 0 1 1 0 0 0 1 1]


In [6]:
import numpy as np

accuracy = 1 - np.sqrt(np.sum((y_valid - y_pred)**2))/len(y_valid)

print(f'Acurácia da Random Forest: {100*accuracy:.2f}%')

Acurácia da Random Forest: 98.44%


In [7]:
from sklearn.metrics import classification_report, confusion_matrix

print("=== RELATÓRIO DE CLASSIFICAÇÃO ===")
print(classification_report(y_valid, y_pred, target_names=['Maligno', 'Benigno']))

print("\n=== MATRIZ DE CONFUSÃO ===")
cm = confusion_matrix(y_valid, y_pred)
print(f"Maligno classificado como maligno: {cm[0,0]}")
print(f"Maligno classificado como benigno: {cm[0,1]}")
print(f"Benigno classificado como maligno: {cm[1,0]}")
print(f"Benigno classificado como benigno: {cm[1,1]}")

=== RELATÓRIO DE CLASSIFICAÇÃO ===
              precision    recall  f1-score   support

     Maligno       0.96      0.94      0.95        54
     Benigno       0.97      0.98      0.97        89

    accuracy                           0.97       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.97      0.97      0.96       143


=== MATRIZ DE CONFUSÃO ===
Maligno classificado como maligno: 51
Maligno classificado como benigno: 3
Benigno classificado como maligno: 2
Benigno classificado como benigno: 87


In [8]:
importances = rf.feature_importances_
feature_names = X.columns

importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': importances
}).sort_values('importance', ascending=False)

print(importance_df)

                    feature  importance
27     worst concave points    0.172295
23               worst area    0.123192
7       mean concave points    0.090299
6            mean concavity    0.083215
20             worst radius    0.081277
22          worst perimeter    0.071388
2            mean perimeter    0.053146
13               area error    0.043551
3                 mean area    0.042780
0               mean radius    0.039711
26          worst concavity    0.031740
10             radius error    0.019517
21            worst texture    0.016490
25        worst compactness    0.015801
1              mean texture    0.014604
28           worst symmetry    0.013103
5          mean compactness    0.011402
24         worst smoothness    0.010335
12          perimeter error    0.008682
4           mean smoothness    0.008165
16          concavity error    0.007014
19  fractal dimension error    0.006583
29  worst fractal dimension    0.005182
17     concave points error    0.005047


In [9]:
dt = sklearn.tree.DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)
y_pred = dt.predict(X_valid)
accuracy = 1 - np.sqrt(np.sum((y_valid - y_pred)**2))/len(y_valid)

print(f'Acurácia da Árvore de Decisão: {100*accuracy:.2f}%')
print()
print(classification_report(y_valid, y_pred, target_names=["Maligno", "Benigno"]))

importances = dt.feature_importances_
feature_names = X.columns

importance_df = pd.DataFrame({
    'feature': feature_names,
    'importance': importances
}).sort_values('importance', ascending=False)

print()
print(importance_df)

Acurácia da Árvore de Decisão: 98.15%

              precision    recall  f1-score   support

     Maligno       0.93      0.94      0.94        54
     Benigno       0.97      0.96      0.96        89

    accuracy                           0.95       143
   macro avg       0.95      0.95      0.95       143
weighted avg       0.95      0.95      0.95       143


                    feature  importance
7       mean concave points    0.695937
21            worst texture    0.107879
20             worst radius    0.087737
23               worst area    0.034520
1              mean texture    0.026011
17     concave points error    0.017025
13               area error    0.012772
24         worst smoothness    0.009857
16          concavity error    0.006707
14         smoothness error    0.001555
5          mean compactness    0.000000
3                 mean area    0.000000
2            mean perimeter    0.000000
0               mean radius    0.000000
12          perimeter error    0.

In [11]:
n_trees_list = [10, 50, 200]

for n_trees in n_trees_list:
    rf = sklearn.ensemble.RandomForestClassifier(n_estimators=n_trees, random_state=42)
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_valid)
    accuracy = 1 - np.sqrt(np.sum((y_valid - y_pred)**2))/len(y_valid)

    print(f'Acurácia da Random Forest com {n_trees} árvores: {100*accuracy:.2f}%')

Acurácia da Random Forest com 10 árvores: 98.15%
Acurácia da Random Forest com 50 árvores: 98.60%
Acurácia da Random Forest com 200 árvores: 98.44%
