# Imports

In [None]:
#Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option("display.max_rows", None)

# Amostragem de dados

In [None]:
data = pd.read_csv('data\wdbc.data') #Read the data from the file
data.head(6) #Display the first 6 rows of the data

In [None]:
data.shape #Quantidade de instancias e features do dataset

In [None]:
print(f'Quantidade de casos malignos ou benígnos: \n{data["diagnostico"].value_counts()}\n\n') #Atributo alvo do dataset dividido em benigno e maligno
print(f'Porcentagem de casos malignos ou benígnos: \n{data["diagnostico"].value_counts(normalize=True) * 100}') #Porcentagem de casos benignos e malignos

In [None]:
quantitative_classes = data.select_dtypes(include=['float64', 'int64'])
#quantitative_classes.count()
print(len(quantitative_classes.columns) - 1) #Quantidade de features quantitativas do dataset

In [None]:
qualitative_classes = data.select_dtypes(include=['object', 'string'])
#qualitative_classes.count()
print(len(qualitative_classes.columns) + 1) #Quantidade de features qualitativas do dataset

# Exploração dos dados por medidas de localidade

In [None]:
data2 = data.drop(columns=['id', 'diagnostico']) #Remove as colunas id e diagnostico
data_mean = data2.mean()
print(f"Média dos dados: \n\n{data_mean}") #Média de cada feature do dataset

In [None]:
data_mediana = data2.median() #Mediana de cada feature do dataset
print(f"Mediana dos dados: \n\n{data_mediana}")

In [None]:
data_moda = data.drop(columns='id').mode() #Moda de cada feature do dataset
print(f"Moda dos dados: \n\n{data_moda}")

# Exploração dos dados por medidas de espalhamento

In [None]:
data_variancia = data2.var() #Variância de cada feature do dataset
print(f"Variancia dos dados: \n\n{data_variancia}")

In [None]:
data_quartil = data2.quantile([0.25, 0.5, 0.75]) #Quartis de cada feature do dataset
print(f"Quartis dos dados: \n\n{data_quartil}")

In [None]:
data_desvio_padrao = data2.std() #Desvio padrão de cada feature do dataset
print(f"Desvio padrão dos dados: \n\n{data_desvio_padrao}")

In [None]:
data_amp = data2.max() - data2.min() #Amplitude de cada feature do dataset
print(f"Amplitude dos dados: \n\n{data_amp}")

# Exploração dos dados por medidas de distribuição

In [None]:
data_momento = data2.kurtosis() #Momento de cada feature do dataset
print(f"Momento dos dados: \n\n{data_momento}")

In [None]:
data_obliquidade = data2.skew() #Obliquidade de cada feature do dataset
print(f"Obliquidade dos dados: \n\n{data_obliquidade}")

# Seleção de caso teste para treinamento

In [None]:
data_teste = data.drop(index=range(20, len(data)))
data_teste.head(20)
#20 primeiras instancias do dataset

# Reescala do atributo alvo de Categórico para Numérico

In [None]:
def categorico_to_numerico_diagnostico(x):
    if x=='M':
        return 1
    if x=='B':
        return 0

data['diagnostico']= data['diagnostico'].apply(categorico_to_numerico_diagnostico)
data["diagnostico"].value_counts()

# Observando a correlação das features com o atributo alvo

In [None]:
#Correlação entre as features e o diagnóstico usando o método de Pearson
f, ax = plt.subplots(figsize=(18, 12))
tst = data.drop(columns='id').corr('pearson')['diagnostico'].copy()
tst = tst.drop('diagnostico')
tst.sort_values(inplace=True)
tst.plot(kind="bar", alpha=1, title="Correlação entre as features e o diagnóstico usando o método de Pearson (±1 = correlação total)")

# Identificação dos outliers presentes nos dados

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_med', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_med', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_med', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_med', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_med', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_med', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_med', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_med', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_med', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_med', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_ep', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_ep', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_ep', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_ep', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_ep', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_ep', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_ep', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_ep', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_ep', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_ep', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_pior', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_pior', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_pior', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_pior', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_pior', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_pior', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_pior', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_pior', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_pior', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_pior', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

# Definição das funções de detecção e substituição de outliers e reset do database

In [None]:
#data_func1_outliers = data_func1[(data_func1['raio_med'] >= limite_inferior) & (data_func1['raio_med'] <= limite_superior)]
data = pd.read_csv('data\wdbc.data')
def identifica_outliers(data_func1, i, lower_limit, upper_limit):
    Q1 = data_func1[data_func1.columns[i]].quantile(lower_limit)
    Q3 = data_func1[data_func1.columns[i]].quantile(upper_limit)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    data_func1_aux = data_func1[(data_func1[data_func1.columns[i]] >= lower_bound) & (data_func1[data_func1.columns[i]] <= upper_bound)]
    print(f"Quantidade de outliers identificados na coluna {data_func1.columns[i]}: {len(data_func1)-len(data_func1_aux)}\n")
    outliers_raio_med = data_func1[~data_func1[data_func1.columns[i]].isin(data_func1_aux[data_func1.columns[i]])][data_func1.columns[i]]
    print(outliers_raio_med)
def replace_outliers_with_mean(data_func, i, lower_limit, upper_limit):
    Q1 = data_func[data_func.columns[i]].quantile(lower_limit)
    Q3 = data_func[data_func.columns[i]].quantile(upper_limit)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    mean_value = data_func[data_func.columns[i]].mean()
    data_func[data_func.columns[i]] = np.where((data_func[data_func.columns[i]] < lower_bound) | (data_func[data_func.columns[i]] > upper_bound), mean_value, data_func[data_func.columns[i]])
    print(f'Tabela com outliers substituídos pela média:\n\n{data_func[data_func.columns[i]]}')

# Dados médios

In [None]:
identifica_outliers(data, 2, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 2, 0.25, 0.75)

In [None]:
identifica_outliers(data, 3, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 3, 0.25, 0.75)

In [None]:
identifica_outliers(data, 4, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 4, 0.25, 0.75)

In [None]:
identifica_outliers(data, 5, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 5, 0.25, 0.75)

In [None]:
identifica_outliers(data, 6, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 6, 0.25, 0.75)

In [None]:
identifica_outliers(data, 7, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 7, 0.25, 0.75)

In [None]:
identifica_outliers(data, 8, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 8, 0.25, 0.75)

In [None]:
identifica_outliers(data, 9, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 9, 0.25, 0.75)

In [None]:
identifica_outliers(data, 10, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 10, 0.25, 0.75)

In [None]:
identifica_outliers(data, 11, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 11, 0.25, 0.75)

# Dados erro padrão

In [None]:
identifica_outliers(data, 12, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 12, 0.25, 0.75)

In [None]:
identifica_outliers(data, 13, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 13, 0.25, 0.75)

In [None]:
identifica_outliers(data, 14, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 14, 0.25, 0.75)

In [None]:
identifica_outliers(data, 15, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 15, 0.25, 0.75)

In [None]:
identifica_outliers(data, 16, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 16, 0.25, 0.75)

In [None]:
identifica_outliers(data, 17, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 17, 0.25, 0.75)

In [None]:
identifica_outliers(data, 18, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 18, 0.25, 0.75)

In [None]:
identifica_outliers(data, 19, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 19, 0.25, 0.75)

In [None]:
identifica_outliers(data, 20, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 20, 0.25, 0.75)

In [None]:
identifica_outliers(data, 21, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 21, 0.25, 0.75)

# Dados piores

In [None]:
identifica_outliers(data, 22, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 22, 0.25, 0.75)

In [None]:
identifica_outliers(data, 23, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 23, 0.25, 0.75)

In [None]:
identifica_outliers(data, 24, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 24, 0.25, 0.75)

In [None]:
identifica_outliers(data, 25, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 25, 0.25, 0.75)

In [None]:
identifica_outliers(data, 26, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 26, 0.25, 0.75)

In [None]:
identifica_outliers(data, 27, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 27, 0.25, 0.75)

In [None]:
identifica_outliers(data, 28, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 28, 0.25, 0.75)

In [None]:
identifica_outliers(data, 29, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 29, 0.25, 0.75)

In [None]:
identifica_outliers(data, 30, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 30, 0.25, 0.75)

In [None]:
identifica_outliers(data, 31, 0.25, 0.75)
print("\n\n")
replace_outliers_with_mean(data, 31, 0.25, 0.75)

# Identificando a escala dos dados

In [None]:
%%HTML
<h1> ID = Nominal </h1> <br>
<h2> Diagnostico = Nominal </h2> <br>
<br><br>
<table>
    <tr>
        <td>Raio_med = Racional</td>
        Textura_med = Racional<br>
        Perimetro_med = Racional<br>
        Area_med = Racional<br>
        Suavidade_med = Racional<br>
        Compacidade_med = Racional<br>
        Concavidade_med = Racional<br>
        Pontos concavos_med = Racional<br>
        Simetria_med = Racional<br>
        Dimensao fractal_med = Racional<br>
    </tr>
    <br>
    <tr>
        Raio_ep = Racional<br>
        Textura_ep = Racional<br>
        Perimetro_ep = Racional<br>
        Area_ep = Racional<br>
        Suavidade_ep = Racional<br>
        Compacidade_ep = Racional<br>
        Concavidade_ep = Racional<br>
        Pontos concavos_ep = Racional<br>
        Simetria_ep = Racional<br>
        Dimensao fractal_ep = Racional<br>
    </tr>
    <br>
    <tr>
        Raio_pior = Racional<br>
        Textura_pior = Racional<br>
        Perimetro_pior = Racional<br>
        Area_pior = Racional<br>
        Suavidade_pior = Racional<br>
        Compacidade_pior = Racional<br>
        Concavidade_pior = Racional<br>
        Pontos concavos_pior = Racional<br>
        Simetria_pior = Racional<br>
        Dimensao fractal_pior = Racional
    </tr>
</table>