Disciplina: **Mineração de Dados**

Professor: **Wilson Castello Branco Neto**

Aula 3 - Exemplo 1: Limpeza de Dados

Nome: Wilson Castello Branco Neto

# **Descrição e Leitura do Dataset**

**Dataset**: Mammographic Mass

Disponível em: https://archive.ics.uci.edu/dataset/161/mammographic+mass

Atributos:
1. BI-RADS assessment: 1 to 5 (ordinal, non-predictive!)  
2. Age: patient's age in years (integer)
3. Shape: mass shape: round=1 oval=2 lobular=3 irregular=4 (nominal)
4. Margin: mass margin: circumscribed=1 microlobulated=2 obscured=3 ill-defined=4 spiculated=5 (nominal)
5. Density: mass density high=1 iso=2 low=3 fat-containing=4 (ordinal)
6. Severity: benign=0 or malignant=1 (binominal, goal field!)



Importação das bibliotecas necessárias, leitura do dataset e atribuição dos títulos das colunas por meio do parâmetro names.

In [None]:
import pandas as pd
import numpy as np
from google.colab import drive

drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
df = pd.read_csv('/content/gdrive/MyDrive/Colab Notebooks/Mineração de Dados/Aula3/Aula3_Ex1_LimpezaDados_CancerMama.data',
                    names=['BI_RADS','Idade','Forma','Contorno','Densidade','Severidade'])

df

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
0,5,67,3,5,3,1
1,4,43,1,1,?,1
2,5,58,4,5,3,1
3,4,28,1,1,3,0
4,5,74,1,5,?,1
...,...,...,...,...,...,...
956,4,47,2,1,3,0
957,4,56,4,5,3,1
958,4,64,4,5,3,0
959,5,66,4,5,3,1


Apresentação dos tipos de cada atributo e da quantidade de valores existentes em cada um deles.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 961 entries, 0 to 960
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   BI_RADS     961 non-null    object
 1   Idade       961 non-null    object
 2   Forma       961 non-null    object
 3   Contorno    961 non-null    object
 4   Densidade   961 non-null    object
 5   Severidade  961 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 45.2+ KB


# **Parte 1 - Valores Ausentes**

Quando as células estão em branco no dataset, a função de leitura do pandas atribui a constante NaN da bibliteca NumPy, indicando a inexistência de valor.

Entretanto, muitos datasets apresentam outros códigos para indicar a ausência de dados, como o dataset utilizado neste exemplo que usa o ponto de interrogação.

Por isto, embora todas as colunas armazenem números, as cinco primeiras foram armazenadas como texto porque possuem algum registro com o símbolo "?".

In [None]:
df.dtypes

Unnamed: 0,0
BI_RADS,object
Idade,object
Forma,object
Contorno,object
Densidade,object
Severidade,int64


In [None]:
df.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,961.0,961.0,961.0,961.0,961.0,961.0
unique,8.0,74.0,5.0,6.0,5.0,
top,4.0,59.0,4.0,1.0,3.0,
freq,547.0,36.0,400.0,357.0,798.0,
mean,,,,,,0.463059
std,,,,,,0.498893
min,,,,,,0.0
25%,,,,,,0.0
50%,,,,,,0.0
75%,,,,,,1.0




Nestes casos, é preciso substituir o código por NaN para que as funções do pandas para identificação e tratamento de valores não preenchidos funcionem corretamente.

In [None]:
df[df=='?'] = np.NaN
print(df)

    BI_RADS Idade Forma Contorno Densidade  Severidade
0         5    67     3        5         3           1
1         4    43     1        1       NaN           1
2         5    58     4        5         3           1
3         4    28     1        1         3           0
4         5    74     1        5       NaN           1
..      ...   ...   ...      ...       ...         ...
956       4    47     2        1         3           0
957       4    56     4        5         3           1
958       4    64     4        5         3           0
959       5    66     4        5         3           1
960       4    62     3        3         3           0

[961 rows x 6 columns]


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 961 entries, 0 to 960
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   BI_RADS     959 non-null    object
 1   Idade       956 non-null    object
 2   Forma       930 non-null    object
 3   Contorno    913 non-null    object
 4   Densidade   885 non-null    object
 5   Severidade  961 non-null    int64 
dtypes: int64(1), object(5)
memory usage: 45.2+ KB


Alteração do tipo de todas as colunas para float após a substituição do ? por NaN. Não pode ser convertido para int porque NaN é um valor float.

In [None]:
df = df.astype(float)
df.Severidade = df.Severidade.astype(str)

df.dtypes

Unnamed: 0,0
BI_RADS,float64
Idade,float64
Forma,float64
Contorno,float64
Densidade,float64
Severidade,object


In [None]:
df.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,959.0,956.0,930.0,913.0,885.0,961.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,516.0
mean,4.348279,55.487448,2.721505,2.796276,2.910734,
std,1.783031,14.480131,1.242792,1.566546,0.380444,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Contagem da quantidade de valores nulos em cada atributo do dataset.

A função **pd.isna** funciona da mesma forma e retorna o mesmo resultado da função **pd.isnull**.

In [None]:
nulos = pd.isnull(df).sum()
print(nulos)

BI_RADS        2
Idade          5
Forma         31
Contorno      48
Densidade     76
Severidade     0
dtype: int64


**1.1 - Eliminação**

Por padrão o método dropna apaga todas as linhas que contenham pelo menos um registro com valor ausente. Para alterar o comportamento desta função pode-se usar os seguintes parâmetros:


1.   **how='all'**: apaga apenas as linhas que tenham todos os atributos ausentes.
2.   **thresh=3**: apaga apenas as linhas que tenham n ou mais campos ausentes, neste caso 3.
3.   **subset=['Forma' , 'Contorno']**: apaga apenas as linhas que tenham os valores dos atributos Forma ou Contorno em branco.

O comando **df2 = df.dropna()** salva uma cópia do dataframe com as linhas apagadas em **df2** e mantem o dataframe original em **df** para que ele possa ser usado em outros exemplos. Caso não seja necessário manter uma cópia do dataframe original é possível excluir as linhas diretamente com o comando nele **df.dropna(inplace=True)**

In [None]:
df2 = df.dropna()
print(df2)

     BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0        5.0   67.0    3.0       5.0        3.0        1.0
2        5.0   58.0    4.0       5.0        3.0        1.0
3        4.0   28.0    1.0       1.0        3.0        0.0
8        5.0   57.0    1.0       5.0        3.0        1.0
10       5.0   76.0    1.0       4.0        3.0        1.0
..       ...    ...    ...       ...        ...        ...
956      4.0   47.0    2.0       1.0        3.0        0.0
957      4.0   56.0    4.0       5.0        3.0        1.0
958      4.0   64.0    4.0       5.0        3.0        0.0
959      5.0   66.0    4.0       5.0        3.0        1.0
960      4.0   62.0    3.0       3.0        3.0        0.0

[830 rows x 6 columns]


In [None]:
df2.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,830.0,830.0,830.0,830.0,830.0,830.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,427.0
mean,4.393976,55.781928,2.781928,2.813253,2.915663,
std,1.888371,14.671782,1.242361,1.567175,0.350936,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,46.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


In [None]:
nulos = pd.isnull(df2).sum()
print(nulos)

BI_RADS       0
Idade         0
Forma         0
Contorno      0
Densidade     0
Severidade    0
dtype: int64


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

X = df2.drop(['Severidade'] ,axis='columns')
y = df2['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.7992700729927007


Como não é possível treinar uma árvore de decisão com atributos com valores NaN, não é possível eliminar os registros que contenham apenas alguns dos atributos vazios, a menos que estes atributos não sejam utilizados na construção do modelo. As técnicas para seleção de atributos serão apresentadas posteriormente. Neste momento, para exemplificar o uso da função, o atributo **Densidade** será desconsiderado na construção do modelo, simplesmente por ser o atributo com mais valores vazios.

No exemplo anterior, utilizou-se a função **dropna** para criar automaticamente a cópia do dataframe. Neste exemplo, primeiramente utilizou-se a função **copy** para gerar a cópia e depois utilizou-se o parâmetro Inplace para indicar que a exclusão deve ser feita no próprio **df3**.

In [None]:
df3 = df.copy()
df3.dropna(inplace=True,subset=['BI_RADS','Idade','Forma' , 'Contorno'])
print(df3)

     BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0        5.0   67.0    3.0       5.0        3.0        1.0
1        4.0   43.0    1.0       1.0        NaN        1.0
2        5.0   58.0    4.0       5.0        3.0        1.0
3        4.0   28.0    1.0       1.0        3.0        0.0
4        5.0   74.0    1.0       5.0        NaN        1.0
..       ...    ...    ...       ...        ...        ...
956      4.0   47.0    2.0       1.0        3.0        0.0
957      4.0   56.0    4.0       5.0        3.0        1.0
958      4.0   64.0    4.0       5.0        3.0        0.0
959      5.0   66.0    4.0       5.0        3.0        1.0
960      4.0   62.0    3.0       3.0        3.0        0.0

[886 rows x 6 columns]


In [None]:
df3.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,886.0,886.0,886.0,886.0,830.0,886.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,467.0
mean,4.370203,55.425508,2.743792,2.76298,2.915663,
std,1.835794,14.66109,1.24276,1.571003,0.350936,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Embora mais registros tenham sido usados na construção do modelo, a acurácia foi menor provavelmente porque o atributo Densidade que foi desconsiderado possui informações relevantes para a classificação do tipo de tumor.

In [None]:
X = df3.drop(['Densidade','Severidade'] ,axis='columns')
y = df3['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.7713310580204779


**1.2 - Atribuição de valor Fixo**

In [None]:
print("Dataframe com valores nulos")
print(df.head(10))

df4 = df.copy()
df4.fillna(1,inplace=True)

print("\n\nDataframe com valores nulos substituídos por 1")
print(df4.head(10))

Dataframe com valores nulos
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        NaN        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0        0.0
4      5.0   74.0    1.0       5.0        NaN        1.0
5      4.0   65.0    1.0       NaN        3.0        0.0
6      4.0   70.0    NaN       NaN        3.0        0.0
7      5.0   42.0    1.0       NaN        3.0        0.0
8      5.0   57.0    1.0       5.0        3.0        1.0
9      5.0   60.0    NaN       5.0        1.0        1.0


Dataframe com valores nulos substituídos por 1
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        1.0        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0        0.0
4      5.0 

In [None]:
nulos = pd.isnull(df4).sum()
print(nulos)

BI_RADS       0
Idade         0
Forma         0
Contorno      0
Densidade     0
Severidade    0
dtype: int64


Dataframe original com valores nulos.

In [None]:
df.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,959.0,956.0,930.0,913.0,885.0,961.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,516.0
mean,4.348279,55.487448,2.721505,2.796276,2.910734,
std,1.783031,14.480131,1.242792,1.566546,0.380444,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Dataframe após a exclusão de todas as linhas com valores nulos.

In [None]:
df2.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,830.0,830.0,830.0,830.0,830.0,830.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,427.0
mean,4.393976,55.781928,2.781928,2.813253,2.915663,
std,1.888371,14.671782,1.242361,1.567175,0.350936,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,46.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Dataframe após a substituição dos valores nulos pelo valor constante **1**.

In [None]:
df4.describe(include="all")

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,961.0,961.0,961.0,961.0,961.0,961.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,516.0
mean,4.341311,55.203954,2.665973,2.706556,2.759625,
std,1.787704,14.965447,1.259868,1.576272,0.632022,
min,0.0,1.0,1.0,1.0,1.0,
25%,4.0,45.0,1.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Treinamento do modelo com o dataframe com os valores nulos substituídos por 1. O uso de um valor constante para substituir os vazios permitiu que o número de registros usados no treinamento fosse maior, melhorando os resultados gerados.

In [None]:
X = df4.drop(['Severidade'] ,axis='columns')
y = df4['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8176100628930818


É possível definir valores diferentes para cada atributo, usando um dicionário para armazenar os valores que devem ser usados para substituir os valores vazios em cada atributo.

In [None]:
dic = {'BI_RADS': 4, 'Idade': 40, 'Forma': 3, 'Contorno': 5, 'Densidade': 4 }

print("Dataframe com valores nulos")
print(df.head(10))

df5 = df.copy()
df5.fillna(dic,inplace=True)

print("\n\nDataframe com valores nulos substituídos pelos dados do dicionário")
print(df5.head(10))

Dataframe com valores nulos
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        NaN        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0        0.0
4      5.0   74.0    1.0       5.0        NaN        1.0
5      4.0   65.0    1.0       NaN        3.0        0.0
6      4.0   70.0    NaN       NaN        3.0        0.0
7      5.0   42.0    1.0       NaN        3.0        0.0
8      5.0   57.0    1.0       5.0        3.0        1.0
9      5.0   60.0    NaN       5.0        1.0        1.0


Dataframe com valores nulos substituídos pelos dados do dicionário
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        4.0        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0   

Como os valores de cada atributo foram definidos aleatóriamente, houve uma pequena perda na qualidade do modelo.

In [None]:
X = df5.drop(['Severidade'] ,axis='columns')
y = df5['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8113207547169812


**1.3 - Atribuição de valor de uma medida de tendência central**

Inicialmente deve-se calcular as medidas desejadas e salvá-las no dicionário. No exemplo, os atributos BI_RADS e Densidade receberão o valor da moda, os atributos Idade e Contorno o Valor da média e o atributo Forma o valor da mediana.

In [None]:
print("Dataframe com valores nulos")
print(df.head(10))

birads_md =df['BI_RADS'].mode()
idade_md = df['Idade'].mean()
forma_md = df['Forma'].median()
contorno_md = df['Contorno'].mean()
densidade_md = df['Densidade'].mode()

dic = {'BI_RADS': birads_md[0], 'Idade': idade_md, 'Forma': forma_md, 'Contorno': contorno_md, 'Densidade': densidade_md[0] }
print("Dicionário com os nomes das colunas e os valores da média e moda de cada uma dela")
print(dic)



Dataframe com valores nulos
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        NaN        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0        0.0
4      5.0   74.0    1.0       5.0        NaN        1.0
5      4.0   65.0    1.0       NaN        3.0        0.0
6      4.0   70.0    NaN       NaN        3.0        0.0
7      5.0   42.0    1.0       NaN        3.0        0.0
8      5.0   57.0    1.0       5.0        3.0        1.0
9      5.0   60.0    NaN       5.0        1.0        1.0
Dicionário com os nomes das colunas e os valores da média e moda de cada uma dela
{'BI_RADS': 4.0, 'Idade': 55.48744769874477, 'Forma': 3.0, 'Contorno': 2.796276013143483, 'Densidade': 3.0}


Em seguida, basta passar o dicionário com os novos valores para a função **fillna**. Foram utilizados os mesmos valores para todos os registros de cada atributo. Uma abordagem interessante é usar valores diferentes para os registros de acordo com o valor do atributo alvo, Severidade neste caso. A função fillna não é capaz de executar esta tarefa automaticamente, para isto é preciso manipular o dataframe antes de sua chamada.

In [None]:
df6 = df.copy()
df6.fillna(dic,inplace=True)

print("\n\nDataframe com valores nulos substituídos pela moda e média de cada coluna")
print(df6.head(10))



Dataframe com valores nulos substituídos pela moda e média de cada coluna
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0  5.000000        3.0        1.0
1      4.0   43.0    1.0  1.000000        3.0        1.0
2      5.0   58.0    4.0  5.000000        3.0        1.0
3      4.0   28.0    1.0  1.000000        3.0        0.0
4      5.0   74.0    1.0  5.000000        3.0        1.0
5      4.0   65.0    1.0  2.796276        3.0        0.0
6      4.0   70.0    3.0  2.796276        3.0        0.0
7      5.0   42.0    1.0  2.796276        3.0        0.0
8      5.0   57.0    1.0  5.000000        3.0        1.0
9      5.0   60.0    3.0  5.000000        1.0        1.0


Treinamento da árvore de decisão com o dataset que usa as medidas de tendência central. A acurácia deste modelo é maior do que a alcançada pelos modelos treinados com os datasets com as linhas excluídas ou que receberam um valor fixo para todos os valores vazios.

In [None]:
X = df6.drop(['Severidade'] ,axis='columns')
y = df6['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8207547169811321


**1.4 - Atribuição de valor conforme a última observação**

Em vez de passar um valor para a função fillna, é possível definir o parâmetro **method** com os valores **ffill** ou **bfill** para que o valor vazio seja preenchido com os mesmo valor do registro anterior ou posterior, respectivamente.

In [None]:
print("Dataframe com valores nulos")
print(df.head(10))

df7 = df.copy()
df7.fillna(method='ffill',inplace=True)

print("\n\nDataframe com valores nulos substituídos com o valor do registro anterior")
print(df7.head(10))

Dataframe com valores nulos
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        NaN        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0        3.0        0.0
4      5.0   74.0    1.0       5.0        NaN        1.0
5      4.0   65.0    1.0       NaN        3.0        0.0
6      4.0   70.0    NaN       NaN        3.0        0.0
7      5.0   42.0    1.0       NaN        3.0        0.0
8      5.0   57.0    1.0       5.0        3.0        1.0
9      5.0   60.0    NaN       5.0        1.0        1.0


Dataframe com valores nulos substituídos com o valor do registro anterior
   BI_RADS  Idade  Forma  Contorno  Densidade Severidade
0      5.0   67.0    3.0       5.0        3.0        1.0
1      4.0   43.0    1.0       1.0        3.0        1.0
2      5.0   58.0    4.0       5.0        3.0        1.0
3      4.0   28.0    1.0       1.0       

  df7.fillna(method='ffill',inplace=True)


Como não houve nenhuma ordenação no dataframe, a atribuição do valor anterior ou do próximo valor acaba sendo praticamente aleatória, o que justifica a perda de qualidade do modelo.

In [None]:
X = df7.drop(['Severidade'] ,axis='columns')
y = df7['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.789308176100629


Ordenação do dataframe pela coluna Severidade antes de preencher os valores vazios com o valor do registro anterior.

In [None]:
df8 = df.copy()

df8.sort_values(by='Severidade',inplace=True)
print("Dataframe com valores nulos ordenados por severidade")
print(df8.head(10))

df8.fillna(method='ffill',inplace=True)

print("\n\nDataframe com valores nulos substituídos com o valor do registro anterior")
print(df8.head(10))

Dataframe com valores nulos ordenados por severidade
     BI_RADS  Idade  Forma  Contorno  Densidade Severidade
960      4.0   62.0    3.0       3.0        3.0        0.0
423      4.0   31.0    1.0       1.0        3.0        0.0
422      4.0   48.0    1.0       1.0        3.0        0.0
421      4.0   26.0    1.0       1.0        NaN        0.0
770      4.0   54.0    1.0       1.0        3.0        0.0
771      2.0   35.0    2.0       1.0        2.0        0.0
773      4.0   68.0    4.0       4.0        3.0        0.0
416      4.0   35.0    1.0       1.0        3.0        0.0
775      3.0   39.0    1.0       1.0        3.0        0.0
776      4.0   44.0    2.0       1.0        3.0        0.0


Dataframe com valores nulos substituídos com o valor do registro anterior
     BI_RADS  Idade  Forma  Contorno  Densidade Severidade
960      4.0   62.0    3.0       3.0        3.0        0.0
423      4.0   31.0    1.0       1.0        3.0        0.0
422      4.0   48.0    1.0       1.0        3

  df8.fillna(method='ffill',inplace=True)


A ordenação do dataframe antes de usar o valor do registro anterior melhorou o resultado gerado, mas não alcançou o resultado gerado pelo modelo treinado com as medidas de tendência central do modelo.

In [None]:
X = df8.drop(['Severidade'] ,axis='columns')
y = df8['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8081761006289309


A utilização de modelos preditivos para definir os valores dos atributos vazios não será vista neste momento, pelo fato destes modelos ainda não terem sido apresentados.

# **Parte 2. Dados com ruído**



**2.1 Eliminação de valores fora dos limites**

Os próximos exemplos utilizam do dataframe gerado com a substituição dos valores vazio pelas medidas de tendência central (df6) que é o dataframe que levou aos melhores resultados na árvore de decisão.

In [None]:
df9 = df6.copy()

df9.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,961.0,961.0,961.0,961.0,961.0,961.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,516.0
mean,4.347555,55.487448,2.730489,2.796276,2.917794,
std,1.781244,14.442373,1.223552,1.52688,0.365869,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Apresenta todos os registros existentes nesta dataframe, cujo valor do atributo idade é inferior a 20 ou superior a 90, considerando que esta seja a faixa etária de interesse do estudo.

In [None]:
df9[(df9['Idade']>90) | (df9['Idade']<20)]

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
182,4.0,19.0,1.0,1.0,3.0,0.0
463,4.0,18.0,1.0,1.0,3.0,0.0
616,5.0,93.0,1.0,5.0,3.0,1.0
711,4.0,19.0,1.0,1.0,3.0,0.0
726,5.0,96.0,3.0,4.0,3.0,1.0
847,4.0,19.0,3.0,1.0,3.0,0.0
869,4.0,19.0,1.0,1.0,3.0,0.0


In [None]:
df9 = df9[(df9['Idade']<=90) & (df9['Idade']>=20)]

df9.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,954.0,954.0,954.0,954.0,954.0,954.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,511.0
mean,4.348008,55.597943,2.738994,2.802119,2.917191,
std,1.787347,14.136499,1.221532,1.524765,0.367142,
min,0.0,20.0,1.0,1.0,1.0,
25%,4.0,45.25,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


A eliminação dos registros com valores fora do intervalo desejado para a variável Idade levou a uma melhora importante no modelo gerado.

In [None]:
X = df9.drop(['Severidade'] ,axis='columns')
y = df9['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8539682539682539


**2.2 Eliminação de outliers considerando a média e o desvio padrão**

In [None]:
df10 = df9.copy()
df10.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,954.0,954.0,954.0,954.0,954.0,954.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,511.0
mean,4.348008,55.597943,2.738994,2.802119,2.917191,
std,1.787347,14.136499,1.221532,1.524765,0.367142,
min,0.0,20.0,1.0,1.0,1.0,
25%,4.0,45.25,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Calcula os limites, fora dos quais os valores serão considerados outliers, usando a fórmula **média +- 3 * desvio padrão**.

In [None]:
limite_inferior = df10['Densidade'].mean() - 3 * df10['Densidade'].std()
limite_superior = df10['Densidade'].mean() + 3 * df10['Densidade'].std()

print('Limite inferior:',limite_inferior)
print('Limite superior:',limite_superior)

print('Dados fora dos limites:')
df10[(df10['Densidade']<limite_inferior) | (df10['Densidade']>limite_superior)]

Limite inferior: 1.8157643221975766
Limite superior: 4.018617229165106
Dados fora dos limites:


Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
9,5.0,60.0,3.0,5.0,1.0,1.0
20,4.0,66.0,3.0,2.796276,1.0,1.0
21,5.0,56.0,4.0,3.0,1.0,1.0
41,4.0,78.0,1.0,1.0,1.0,0.0
56,4.0,49.0,2.0,1.0,1.0,0.0
79,5.0,67.0,2.0,4.0,1.0,0.0
83,4.0,57.0,3.0,4.0,1.0,0.0
210,4.0,46.0,1.0,1.0,1.0,0.0
227,2.0,55.0,1.0,2.796276,1.0,0.0
236,3.0,60.0,3.0,3.0,1.0,0.0


In [None]:
df10 = df10[(df10['Densidade']<=limite_superior) & (df10['Densidade']>=limite_inferior)]

df10.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,938.0,938.0,938.0,938.0,938.0,938.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,502.0
mean,4.351812,55.553771,2.745203,2.810905,2.949893,
std,1.799413,14.175698,1.220644,1.52544,0.270667,
min,0.0,20.0,1.0,1.0,2.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


É preciso tomar cuidado com a definição do que é ou não um outlier. Neste exemplo, os valores do atributo densidade variam apenas de 1 a 4. Como o desvio padrão é pequeno, o valor 1 foi considerado um outlier e a eliminação dos registros que possuem este valor do dataset levou a um modelo que gerou resultados piores.

In [None]:
X = df10.drop(['Severidade'] ,axis='columns')
y = df10['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8258064516129032


**2.3 Eliminação de outliers usando encaixotamento**

A técnica de encaixotamento para tratamento de rúidos pode ser realizada por meio de duas funções do Pandas, são elas:


*   **cut**: divide os valores em um conjunto de intervalos de mesmo tamanho.
*   **qcut**: divide os valores em um conjunto de intervalos de tamanhos diferentes, mas que possuem a mesma quantidade de elementos.

Os dataframes dos exemplos apresentados a seguir também foram embasados no df6. Embora o dataframe 9 tenha gerado resultados melhores após a eliminação dos registros com faixa etária fora do desejado, este dataframe não será utilizado para que se possa comparar os resultados obtidos pelo encaixotamento com a eliminação dos registros.


Organização dos dados de idade em intervalos 5 intervalos de mesmo tamanho. Os dados são armazenados em uma nova coluna a ser criada no dataframe.

In [None]:
df11 = df6.copy()

df11['Idade_cut']  = pd.cut(df11.Idade, bins=5)

df11.head(10)

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]"
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]"
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]"
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]"
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]"
5,4.0,65.0,1.0,2.796276,3.0,0.0,"(64.8, 80.4]"
6,4.0,70.0,3.0,2.796276,3.0,0.0,"(64.8, 80.4]"
7,5.0,42.0,1.0,2.796276,3.0,0.0,"(33.6, 49.2]"
8,5.0,57.0,1.0,5.0,3.0,1.0,"(49.2, 64.8]"
9,5.0,60.0,3.0,5.0,1.0,1.0,"(49.2, 64.8]"


O parâmetro **labels** pode ser usado para indicar os valores a serem retornados pela função, no lugar dos limites do intervalo.

In [None]:
df11['Idade_cut_labels']  = pd.cut(df11.Idade, bins=5, labels=['Jovem', 'Adulto Jovem', 'Adulto','Idoso','Muito Idoso'])

df11.head(10)

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,Idade_cut_labels
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]",Adulto Jovem
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]",Jovem
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso
5,4.0,65.0,1.0,2.796276,3.0,0.0,"(64.8, 80.4]",Idoso
6,4.0,70.0,3.0,2.796276,3.0,0.0,"(64.8, 80.4]",Idoso
7,5.0,42.0,1.0,2.796276,3.0,0.0,"(33.6, 49.2]",Adulto Jovem
8,5.0,57.0,1.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto
9,5.0,60.0,3.0,5.0,1.0,1.0,"(49.2, 64.8]",Adulto


Apresentação da quantidade de registros existente em cada intervalo.

In [None]:
print(df11['Idade_cut'].value_counts())
print(df11['Idade_cut_labels'].value_counts())

Idade_cut
(49.2, 64.8]      365
(33.6, 49.2]      249
(64.8, 80.4]      249
(17.922, 33.6]     70
(80.4, 96.0]       28
Name: count, dtype: int64
Idade_cut_labels
Adulto          365
Adulto Jovem    249
Idoso           249
Jovem            70
Muito Idoso      28
Name: count, dtype: int64


Também é possível usar a função **cut** passando os limites dos intervalos e não a quantidade de intervalos no parâmetro **bins**. Perceba que os registros 0 e 2 estão no intervalo entre 50 e 70, porém o primeiro é classificado como idoso e o segundo como adulto, esta diferença ocorre porque os limites especificados para os intervalos são diferentes dos limites calculados automaticamente quando se passou apenas o número de intervalos. Não existe a definição de qual está correto e qual está errado, pois isto depende do interesse de quem está analisando os dados. Entretanto, o que não pode ocorrer é utilizar as duas classificações simultaneamente na análise dos dados, apenas uma delas deve ser escolhida.

In [None]:
df11['Idade_cut2'] = pd.cut(df11.Idade, bins=[20, 30, 50, 70, 90])

df11.head(10)

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,Idade_cut_labels,Idade_cut2
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,"(50, 70]"
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]",Adulto Jovem,"(30, 50]"
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,"(50, 70]"
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]",Jovem,"(20, 30]"
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,"(70, 90]"
5,4.0,65.0,1.0,2.796276,3.0,0.0,"(64.8, 80.4]",Idoso,"(50, 70]"
6,4.0,70.0,3.0,2.796276,3.0,0.0,"(64.8, 80.4]",Idoso,"(50, 70]"
7,5.0,42.0,1.0,2.796276,3.0,0.0,"(33.6, 49.2]",Adulto Jovem,"(30, 50]"
8,5.0,57.0,1.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,"(50, 70]"
9,5.0,60.0,3.0,5.0,1.0,1.0,"(49.2, 64.8]",Adulto,"(50, 70]"


Exclusão da coluna **Idade_cut2** que não será usada nso próximos exemplos

In [None]:
df11.drop('Idade_cut2', axis=1, inplace=True)

df11

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,Idade_cut_labels
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]",Adulto Jovem
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]",Jovem
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso
...,...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,"(33.6, 49.2]",Adulto Jovem
957,4.0,56.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto
958,4.0,64.0,4.0,5.0,3.0,0.0,"(49.2, 64.8]",Adulto
959,5.0,66.0,4.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso


Um dos objetivos do encaixotamento é substituir os valores de um atributo por uma medida (média, mediana, moda ou limites) dos intervalos, atenuando o problema dos ruídos. Os códigos a seguir demonstram como realizar esta tarefa.

Agrupa os dados considerando a faixa etária (coluna Idade_cut_labels) e calcula a idade média de cada categoria.

In [None]:
dfAgrupadoIdadeCut = df11.groupby(['Idade_cut_labels'])

IdadeMediaAgrupado = dfAgrupadoIdadeCut['Idade'].mean()

IdadeMediaAgrupado

  dfAgrupadoIdadeCut = df11.groupby(['Idade_cut_labels'])


Unnamed: 0_level_0,Idade
Idade_cut_labels,Unnamed: 1_level_1
Jovem,26.785714
Adulto Jovem,42.526104
Adulto,57.228595
Idoso,70.594378
Muito Idoso,85.464286


Cria uma nova coluna denominada idade2 e atribui como seu valor a idade média da faixa etária daquela pessoa, a qual está armazenada no atributo Idade_cut_labels. A função **map** realiza a tarefa de verificar a faixa etária da pessoa e retornar a idade média daquela faixa etária.

In [None]:
df11['idade2'] = df11['Idade_cut_labels'].map(IdadeMediaAgrupado)

df11

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,Idade_cut_labels,Idade3,idade2
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]",Adulto Jovem,42.526104,42.526104
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]",Jovem,26.785714,26.785714
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378
...,...,...,...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,"(33.6, 49.2]",Adulto Jovem,42.526104,42.526104
957,4.0,56.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
958,4.0,64.0,4.0,5.0,3.0,0.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
959,5.0,66.0,4.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378


O código a seguir realiza a mesma tarefa do anterior, mas de forma mais curta. O resultado é armazenado no atributo Idade3 apenas para comparação.

In [None]:
df11['Idade3'] = df11.groupby('Idade_cut_labels')['Idade'].transform('mean')

df11

  df11['Idade3'] = df11.groupby('Idade_cut_labels')['Idade'].transform('mean')


Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,Idade_cut_labels,Idade3,idade2
0,5.0,67.0,3.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378
1,4.0,43.0,1.0,1.0,3.0,1.0,"(33.6, 49.2]",Adulto Jovem,42.526104,42.526104
2,5.0,58.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.922, 33.6]",Jovem,26.785714,26.785714
4,5.0,74.0,1.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378
...,...,...,...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,"(33.6, 49.2]",Adulto Jovem,42.526104,42.526104
957,4.0,56.0,4.0,5.0,3.0,1.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
958,4.0,64.0,4.0,5.0,3.0,0.0,"(49.2, 64.8]",Adulto,57.228595,57.228595
959,5.0,66.0,4.0,5.0,3.0,1.0,"(64.8, 80.4]",Idoso,70.594378,70.594378


Além da coluna severidade que não é utilizada como variável independente durante o treinamento, foram excluídos todos os demais atributos relacionados a idade, deixando apenas o atributo Idade2. Não houve melhoria nos resultados do modelo, o que pode indicar a inexistência de ruídos no atributo idade.

In [None]:
X = df11.drop(['Severidade','Idade','Idade_cut','Idade_cut_labels','Idade3'] ,axis='columns')
y = df11['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8207547169811321


A função **qcut** pode ser usada com o mesmo objetivo, porém a divisão dos intervalos é feita com base na frequência de observações e não no tamanho do intervalo.

In [None]:
df12 = df6.copy()

df12['Idade_cut']  = pd.qcut(df12.Idade, q=5)

df12.head(10)

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut
0,5.0,67.0,3.0,5.0,3.0,1.0,"(60.0, 67.0]"
1,4.0,43.0,1.0,1.0,3.0,1.0,"(17.999, 43.0]"
2,5.0,58.0,4.0,5.0,3.0,1.0,"(53.0, 60.0]"
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.999, 43.0]"
4,5.0,74.0,1.0,5.0,3.0,1.0,"(67.0, 96.0]"
5,4.0,65.0,1.0,2.796276,3.0,0.0,"(60.0, 67.0]"
6,4.0,70.0,3.0,2.796276,3.0,0.0,"(67.0, 96.0]"
7,5.0,42.0,1.0,2.796276,3.0,0.0,"(17.999, 43.0]"
8,5.0,57.0,1.0,5.0,3.0,1.0,"(53.0, 60.0]"
9,5.0,60.0,3.0,5.0,1.0,1.0,"(53.0, 60.0]"


Note que o número de observações em cada classe não é exatamente igual.

In [None]:
df12['Idade_cut'].value_counts()

Unnamed: 0_level_0,count
Idade_cut,Unnamed: 1_level_1
"(17.999, 43.0]",205
"(43.0, 53.0]",195
"(53.0, 60.0]",195
"(67.0, 96.0]",189
"(60.0, 67.0]",177


Cálculo da idade média de cada caixa.

In [None]:
dfAgrupadoIdadeCut = df12.groupby(['Idade_cut'])

IdadeMediaAgrupado = dfAgrupadoIdadeCut['Idade'].mean()

IdadeMediaAgrupado

  dfAgrupadoIdadeCut = df12.groupby(['Idade_cut'])


Unnamed: 0_level_0,Idade
Idade_cut,Unnamed: 1_level_1
"(17.999, 43.0]",34.990244
"(43.0, 53.0]",48.558974
"(53.0, 60.0]",57.063781
"(60.0, 67.0]",64.39548
"(67.0, 96.0]",74.899471


Criação do atributo Idade2 com a idade média do intervalo ao qual o registro pertence.

In [None]:
df12['idade2'] = df12['Idade_cut'].map(IdadeMediaAgrupado)

df12

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Idade_cut,idade2
0,5.0,67.0,3.0,5.0,3.0,1.0,"(60.0, 67.0]",64.395480
1,4.0,43.0,1.0,1.0,3.0,1.0,"(17.999, 43.0]",34.990244
2,5.0,58.0,4.0,5.0,3.0,1.0,"(53.0, 60.0]",57.063781
3,4.0,28.0,1.0,1.0,3.0,0.0,"(17.999, 43.0]",34.990244
4,5.0,74.0,1.0,5.0,3.0,1.0,"(67.0, 96.0]",74.899471
...,...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,"(43.0, 53.0]",48.558974
957,4.0,56.0,4.0,5.0,3.0,1.0,"(53.0, 60.0]",57.063781
958,4.0,64.0,4.0,5.0,3.0,0.0,"(60.0, 67.0]",64.395480
959,5.0,66.0,4.0,5.0,3.0,1.0,"(60.0, 67.0]",64.395480


O modelo gerado também não apresentou uma diferença de resultados significativa em relação ao anterior.

In [None]:
X = df12.drop(['Severidade','Idade','Idade_cut'] ,axis='columns')
y = df12['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8270440251572327


# **Parte 3. Dados duplicados e inconsistentes**


**3.1 Eliminação de dados duplicados**

Novamente, será usado o dataframe df6 como base para os próximos exemplos.

In [None]:
df13 = df6.copy()

quantidade = df13.duplicated().sum()
print("Quantidade de registros duplicados (todos os campos):",quantidade)

Quantidade de registros duplicados (todos os campos): 305


Descrição do dataframe para posterior comparação após a eliminação dos dados repetetidos.

In [None]:
df13.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,961.0,961.0,961.0,961.0,961.0,961.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,516.0
mean,4.347555,55.487448,2.730489,2.796276,2.917794,
std,1.781244,14.442373,1.223552,1.52688,0.365869,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.0,4.0,4.0,3.0,


Por padrão, o método drop_duplicates apaga apenas as linhas que possuem todos os atributos iguais a outra. Pode-se usar o parâmetro **subset** para definir uma lista de atributos. Neste caso, os registros que possuam os mesmos valores nos atributos da lista serão apagados, independente dos valores dos demais atributos.

In [None]:
df13.drop_duplicates(inplace=True)
df13.describe(include='all')

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade
count,656.0,656.0,656.0,656.0,656.0,656.0
unique,,,,,,2.0
top,,,,,,0.0
freq,,,,,,341.0
mean,4.342988,55.791082,2.806402,2.914971,2.882622,
std,2.130773,14.748446,1.172466,1.461595,0.435034,
min,0.0,18.0,1.0,1.0,1.0,
25%,4.0,45.0,2.0,1.0,3.0,
50%,4.0,57.0,3.0,3.0,3.0,
75%,5.0,66.25,4.0,4.0,3.0,


Percebe-se uma piora no modelo em devido a grande quantidade de registros eliminados.

In [None]:
X = df13.drop(['Severidade'] ,axis='columns')
y = df13['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.7235023041474654


**3.2 Eliminação de dados inconsistentes**

A eliminação de dados inconsistentes depende de um profundo conhecimento sobre os atributos e suas relações.

O exemplo a seguir é apenas fictício e considera uma relação que não existe na realidade.

Considere que se o atributo Forma possui o valor 1, o atributo Densidade não pode ser igual a 4. Portanto, registros com estes valores são inconsistentes e devem ser excluídos do dataframe.

In [None]:
df14 = df6.copy()

df14['Inconsistente'] = (df14['Forma']==1) & (df14['Densidade']==4)

df14

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Inconsistente
0,5.0,67.0,3.0,5.0,3.0,1.0,False
1,4.0,43.0,1.0,1.0,3.0,1.0,False
2,5.0,58.0,4.0,5.0,3.0,1.0,False
3,4.0,28.0,1.0,1.0,3.0,0.0,False
4,5.0,74.0,1.0,5.0,3.0,1.0,False
...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,False
957,4.0,56.0,4.0,5.0,3.0,1.0,False
958,4.0,64.0,4.0,5.0,3.0,0.0,False
959,5.0,66.0,4.0,5.0,3.0,1.0,False


In [None]:
print('Lista de pessoas com inconsistência entre os atributos Forma e Contorno  ')
df14[df14['Inconsistente']==True]

Lista de pessoas com inconsistência entre os atributos Forma e Contorno  


Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Inconsistente
364,3.0,51.0,1.0,1.0,4.0,0.0,True


In [None]:
df14 = df14[df14['Inconsistente']==False]

df14

Unnamed: 0,BI_RADS,Idade,Forma,Contorno,Densidade,Severidade,Inconsistente
0,5.0,67.0,3.0,5.0,3.0,1.0,False
1,4.0,43.0,1.0,1.0,3.0,1.0,False
2,5.0,58.0,4.0,5.0,3.0,1.0,False
3,4.0,28.0,1.0,1.0,3.0,0.0,False
4,5.0,74.0,1.0,5.0,3.0,1.0,False
...,...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0.0,False
957,4.0,56.0,4.0,5.0,3.0,1.0,False
958,4.0,64.0,4.0,5.0,3.0,0.0,False
959,5.0,66.0,4.0,5.0,3.0,1.0,False


Como era de se esperar, o modelo não apresentou melhoras significativas porque apenas um registro foi excluído e a regra de inconsistência não existe na realidade.

In [None]:
X = df14.drop(['Severidade'] ,axis='columns')
y = df14['Severidade']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42, shuffle=True)
modelo = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=0)
modelo.fit(X_train, y_train)
y_pred = modelo.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print("Acurácia: ", acc)

Acurácia:  0.8170347003154574
