In [None]:
#Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Amostragem de dados

In [None]:
data = pd.read_csv('data\wdbc.data') #Read the data from the file
data.head(6) #Display the first 6 rows of the data

In [None]:
data.shape #Quantidade de instancias e features do dataset

In [None]:
data["diagnostico"].value_counts() #Atributo alvo do dataset dividido em benigno e maligno

In [None]:
quantitative_classes = data.select_dtypes(include=['float64', 'int64'])
#quantitative_classes.count()
print(len(quantitative_classes.columns) - 1) #Quantidade de features quantitativas do dataset

In [None]:
qualitative_classes = data.select_dtypes(include=['object', 'string'])
#qualitative_classes.count()
print(len(qualitative_classes.columns) + 1) #Quantidade de features qualitativas do dataset

# Exploração dos dados por medidas de localidade

In [None]:
data2 = data.drop(columns=['id', 'diagnostico']) #Remove as colunas id e diagnostico
data_mean = data2.mean()
print(f"Média dos dados: \n\n{data_mean}") #Média de cada feature do dataset

In [None]:
data_mediana = data2.median() #Mediana de cada feature do dataset
print(f"Mediana dos dados: \n\n{data_mediana}")

In [None]:
data_moda = data.drop(columns='id').mode() #Moda de cada feature do dataset
print(f"Moda dos dados: \n\n{data_moda}")

# Exploração dos dados por medidas de espalhamento

In [None]:
data_variancia = data2.var() #Variância de cada feature do dataset
print(f"Variancia dos dados: \n\n{data_variancia}")

In [None]:
data_quartil = data2.quantile([0.25, 0.5, 0.75]) #Quartis de cada feature do dataset
print(f"Quartis dos dados: \n\n{data_quartil}")

In [None]:
data_desvio_padrao = data2.std() #Desvio padrão de cada feature do dataset
print(f"Desvio padrão dos dados: \n\n{data_desvio_padrao}")

In [None]:
data_amp = data2.max() - data2.min() #Amplitude de cada feature do dataset
print(f"Amplitude dos dados: \n\n{data_amp}")

# Exploração dos dados por medidas de distribuição

In [None]:
data_momento = data2.kurtosis() #Momento de cada feature do dataset
print(f"Momento dos dados: \n\n{data_momento}")

In [None]:
data_obliquidade = data2.skew() #Obliquidade de cada feature do dataset
print(f"Obliquidade dos dados: \n\n{data_obliquidade}")

# Reescala do atributo alvo de Categórico para Numérico

In [None]:
def categorico_to_numerico_diagnostico(x):
    if x=='M':
        return 1
    if x=='B':
        return 0

data['diagnostico']= data['diagnostico'].apply(categorico_to_numerico_diagnostico)
data["diagnostico"].value_counts()

# Observando a correlação das features com o atributo alvo

In [None]:
#Correlação entre as features e o diagnóstico usando o método de Pearson
f, ax = plt.subplots(figsize=(18, 12))
tst = data.drop(columns='id').corr('pearson')['diagnostico'].copy()
tst = tst.drop('diagnostico')
tst.sort_values(inplace=True)
tst.plot(kind="bar", alpha=1, title="Correlação entre as features e o diagnóstico usando o método de Pearson (±1 = correlação total)")

# Identificação dos outliers presentes nos dados

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_med', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_med', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_med', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_med', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_med', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_med', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_med', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_med', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_med', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_med', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_ep', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_ep', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_ep', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_ep', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_ep', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_ep', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_ep', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_ep', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_ep', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_ep', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

In [None]:
fig, ax = plt.subplots(1, 10, figsize=(20, 10))
data.boxplot(column='raio_pior', ax=ax[0], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='textura_pior', ax=ax[1], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='perimetro_pior', ax=ax[2], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='area_pior', ax=ax[3], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='suavidade_pior', ax=ax[4], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='compacidade_pior', ax=ax[5], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='concavidade_pior', ax=ax[6], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='pontos concavos_pior', ax=ax[7], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='simetria_pior', ax=ax[8], capprops=dict(color='red', linewidth=3, markersize=10))
data.boxplot(column='dimensao fractal_pior', ax=ax[9], capprops=dict(color='red', linewidth=3, markersize=10))
plt.subplots_adjust(wspace=0.5)
plt.show()

In [58]:
dataClean = data

Q1_raioMed = data['raio_med'].quantile(0.25)
Q3_raioMed = data['raio_med'].quantile(0.75)
IQR = Q3_raioMed - Q1_raioMed
limite_inferior = Q1_raioMed - 1.5 * IQR
limite_superior = Q3_raioMed + 1.5 * IQR

data_outliers = data[(data['raio_med'] >= limite_inferior) & (data['raio_med'] <= limite_superior)]
dataClean.update(data_outliers)
#print(f"Quantidade de outliers removidos da coluna raio_med: {len(data) - len(data_outliers)}")
#print(dataClean['raio_med'])
print(data_outliers['raio_med'])

0      17.99
1      20.57
2      19.69
3      11.42
4      20.29
       ...  
564    21.56
565    20.13
566    16.60
567    20.60
568     7.76
Name: raio_med, Length: 569, dtype: float64
0      17.99
1      20.57
2      19.69
3      11.42
4      20.29
       ...  
564    21.56
565    20.13
566    16.60
567    20.60
568     7.76
Name: raio_med, Length: 555, dtype: float64


In [None]:
Q1_texturaMed = data['textura_med'].quantile(0.25)
Q3_texturaMed = data['textura_med'].quantile(0.75)
IQR = Q3_texturaMed - Q1_texturaMed
limite_inferior = Q1_texturaMed - 1.5 * IQR
limite_superior = Q3_texturaMed + 1.5 * IQR

data_outliers = data[(data['textura_med'] >= limite_inferior) & (data['textura_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna textura_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_perimetroMed = data['perimetro_med'].quantile(0.25)
Q3_perimetroMed = data['perimetro_med'].quantile(0.75)
IQR = Q3_perimetroMed - Q1_perimetroMed
limite_inferior = Q1_perimetroMed - 1.5 * IQR
limite_superior = Q3_perimetroMed + 1.5 * IQR

data_outliers = data[(data['perimetro_med'] >= limite_inferior) & (data['perimetro_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna perimetro_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_areaMed = data['area_med'].quantile(0.25)
Q3_areaMed = data['area_med'].quantile(0.75)
IQR = Q3_areaMed - Q1_areaMed
limite_inferior = Q1_areaMed - 1.5 * IQR
limite_superior = Q3_areaMed + 1.5 * IQR

data_outliers = data[(data['area_med'] >= limite_inferior) & (data['area_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna area_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_suavidadeMed = data['suavidade_med'].quantile(0.25)
Q3_suavidadeMed = data['suavidade_med'].quantile(0.75)
IQR = Q3_suavidadeMed - Q1_suavidadeMed
limite_inferior = Q1_suavidadeMed - 1.5 * IQR
limite_superior = Q3_suavidadeMed + 1.5 * IQR

data_outliers = data[(data['suavidade_med'] >= limite_inferior) & (data['suavidade_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna suavidade_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_compacidadeMed = data['compacidade_med'].quantile(0.25)
Q3_compacidadeMed = data['compacidade_med'].quantile(0.75)
IQR = Q3_compacidadeMed - Q1_compacidadeMed
limite_inferior = Q1_compacidadeMed - 1.5 * IQR
limite_superior = Q3_compacidadeMed + 1.5 * IQR

data_outliers = data[(data['compacidade_med'] >= limite_inferior) & (data['compacidade_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna compacidade_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_concavidadeMed = data['concavidade_med'].quantile(0.25)
Q3_concavidadeMed = data['concavidade_med'].quantile(0.75)
IQR = Q3_concavidadeMed - Q1_concavidadeMed
limite_inferior = Q1_concavidadeMed - 1.5 * IQR
limite_superior = Q3_concavidadeMed + 1.5 * IQR

data_outliers = data[(data['concavidade_med'] >= limite_inferior) & (data['concavidade_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna concavidade_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_pontosConcavosMed = data['pontos concavos_med'].quantile(0.25)
Q3_pontosConcavosMed = data['pontos concavos_med'].quantile(0.75)
IQR = Q3_pontosConcavosMed - Q1_pontosConcavosMed
limite_inferior = Q1_pontosConcavosMed - 1.5 * IQR
limite_superior = Q3_pontosConcavosMed + 1.5 * IQR

data_outliers = data[(data['pontos concavos_med'] >= limite_inferior) & (data['pontos concavos_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna pontos concavos_med: {len(data) - len(data_outliers)}")

In [None]:
Q1_simetriaMed = data['simetria_med'].quantile(0.25)
Q3_simetriaMed = data['simetria_med'].quantile(0.75)
IQR = Q3_simetriaMed - Q1_simetriaMed
limite_inferior = Q1_simetriaMed - 1.5 * IQR
limite_superior = Q3_simetriaMed + 1.5 * IQR

data_outliers = data[(data['simetria_med'] >= limite_inferior) & (data['simetria_med'] <= limite_superior)]
print(f"Quantidade de outliers removidos da coluna simetria_med: {len(data) - len(data_outliers)}")

# Identificando a escala dos dados

In [None]:
%%HTML
<h1> ID = Nominal </h1> <br>
<h2> Diagnostico = Nominal </h2> <br>
<br><br>
<table>
    <tr>
        <td>Raio_med = Racional</td>
        Textura_med = Racional<br>
        Perimetro_med = Racional<br>
        Area_med = Racional<br>
        Suavidade_med = Racional<br>
        Compacidade_med = Racional<br>
        Concavidade_med = Racional<br>
        Pontos concavos_med = Racional<br>
        Simetria_med = Racional<br>
        Dimensao fractal_med = Racional<br>
    </tr>
    <br>
    <tr>
        Raio_ep = Racional<br>
        Textura_ep = Racional<br>
        Perimetro_ep = Racional<br>
        Area_ep = Racional<br>
        Suavidade_ep = Racional<br>
        Compacidade_ep = Racional<br>
        Concavidade_ep = Racional<br>
        Pontos concavos_ep = Racional<br>
        Simetria_ep = Racional<br>
        Dimensao fractal_ep = Racional<br>
    </tr>
    <br>
    <tr>
        Raio_pior = Racional<br>
        Textura_pior = Racional<br>
        Perimetro_pior = Racional<br>
        Area_pior = Racional<br>
        Suavidade_pior = Racional<br>
        Compacidade_pior = Racional<br>
        Concavidade_pior = Racional<br>
        Pontos concavos_pior = Racional<br>
        Simetria_pior = Racional<br>
        Dimensao fractal_pior = Racional
    </tr>
</table>