# IAM - Avaliação 01
**Disciplina:** Introdução ao Aprendizado de Máquina (ENGG67)  
**Professor:** Antônio C. L. Fernandes Jr.  
**Aluno(s):** Giovane Santos de Santana, Heverton Silva dos Reis  
**Data de Entrega:** 22/04/2025

---

### Conjunto de Dados: Breast Cancer Wisconsin (Diagnostic)
[Link para o dataset](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic)

---



Antes de começar a análise, é preciso carregar o dataset, através de importação direta, como indicado pela documentação do repositório:

In [None]:
pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [None]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
breast_cancer_wisconsin_diagnostic = fetch_ucirepo(id=17)

# data (as pandas dataframes)
df = breast_cancer_wisconsin_diagnostic.data.features
dt = breast_cancer_wisconsin_diagnostic.data.targets

In [None]:
import pandas as pd

### a) O conjunto de dados é univariado ou multivariado? Descreva a quantidade de atributos preditivos e atributos alvo.

Para avaliar se o conjunto de dados em análise são **univariados** ou **multivariados** é preciso expandir suas variáveis:

In [None]:
# variable information
print(breast_cancer_wisconsin_diagnostic.variables)

                  name     role         type demographic description units  \
0                   ID       ID  Categorical        None        None  None   
1            Diagnosis   Target  Categorical        None        None  None   
2              radius1  Feature   Continuous        None        None  None   
3             texture1  Feature   Continuous        None        None  None   
4           perimeter1  Feature   Continuous        None        None  None   
5                area1  Feature   Continuous        None        None  None   
6          smoothness1  Feature   Continuous        None        None  None   
7         compactness1  Feature   Continuous        None        None  None   
8           concavity1  Feature   Continuous        None        None  None   
9      concave_points1  Feature   Continuous        None        None  None   
10           symmetry1  Feature   Continuous        None        None  None   
11  fractal_dimension1  Feature   Continuous        None        

Através dessa expansão, percebe-se que o conjunto de dados é **multivariado**, pois entre suas variáveis verificou-se a ocorrência de até **30 atributos preditivos** (identificados no dataset com o papel de *Feature*). Dentre os outros atributos, o atributo que possuiu o papel de **alvo** (*Target*) é o atributo **Diagnosis**.

### b)  Caracterize os dados quanto ao Tipo e Escala.

Para definir o **Tipo** e **Escala** dos dados, pode-se começar verificando os tipos dos **atributos preditivos** através do comando *dtypes* da biblioteca *Pandas*:

In [None]:
# Ver os tipos de dados diretamente do DataFrame
df.dtypes

Unnamed: 0,0
radius1,float64
texture1,float64
perimeter1,float64
area1,float64
smoothness1,float64
compactness1,float64
concavity1,float64
concave_points1,float64
symmetry1,float64
fractal_dimension1,float64


Logo, é possível concluir que os **atributos preditivos** são do tipo **numérico contínuo**.

Já para o **atributo alvo**, optou-se por plotar as primeiras linhas do DataFrame através do comando *head()*, que revelou que esse atributo é do tipo **categórico**.

In [None]:
# Ver os dados das primeiras linhas do DataFrame
dt.head()

Unnamed: 0,Diagnosis
0,M
1,M
2,M
3,M
4,M


Quanto a escala, para o atributo alvo, é imedato perceber que se tratam de valores **nominais**. Já para os atributos preditivos, é preciso prestar atenção ao contexto e perceber que eles fazem alusão a atributos geométricos como área, perímetro, concavidade, simetria, entre outros. Ou seja, esses atributos carregam significado absoluto, portanto tais atributos são da escala **racional**.

### c) Verifique a necessidade de balanceamento dos dados e caracterize estatisticamente os dados (calcule, para cada atributo, suas estatísticas univariadas pertinentes dentre frequência, moda, média, mediana, desvio-padrão, Q1, Q3, obliquidade e curtose).

Para verificar se o conjunto precisa de um balancemanto, pode-se começar analisando a distribuição das classes de *Diagnosis*, o **atributo alvo**.

In [None]:
# Ver distribuição das classes do diagnóstico
dt['Diagnosis'].value_counts()

Unnamed: 0_level_0,count
Diagnosis,Unnamed: 1_level_1
B,357
M,212


Tem-se que existem **357 amostras** da classe **B (Benigno)** e **212 amostras** da classe **M (Maligino)**, num **total de 569 amostras**. Ao verificar a proporção das amostras, observou-se que:
<br>
<br>
<br>
$Classe B = \frac{357}{569} \times 100 = 62.7 \%$ e $Classe A = \frac{212}{569} \times 100 = 37.3 \%$

In [None]:
# Selecionar apenas os atributos preditivos

# Estatísticas básicas
descricao = pd.DataFrame()
descricao['Média'] = df.mean()
descricao['Mediana'] = df.median()
descricao['Moda'] = df.mode().iloc[0]
descricao['Desvio Padrão'] = df.std()
descricao['Q1 (25%)'] = df.quantile(0.25)
descricao['Q3 (75%)'] = df.quantile(0.75)
descricao['Obliquidade'] = df.skew()
descricao['Curtose'] = df.kurt()

# Exibir as variáveis
descricao.head(30)

Unnamed: 0,Média,Mediana,Moda,Desvio Padrão,Q1 (25%),Q3 (75%),Obliquidade,Curtose
radius1,14.127292,13.37,12.34,3.524049,11.7,15.78,0.94238,0.845522
texture1,19.289649,18.84,14.93,4.301036,16.17,21.8,0.65045,0.758319
perimeter1,91.969033,86.24,82.61,24.298981,75.17,104.1,0.99065,0.972214
area1,654.889104,551.1,512.2,351.914129,420.3,782.7,1.645732,3.652303
smoothness1,0.09636,0.09587,0.1007,0.014064,0.08637,0.1053,0.456324,0.855975
compactness1,0.104341,0.09263,0.1147,0.052813,0.06492,0.1304,1.190123,1.65013
concavity1,0.088799,0.06154,0.0,0.07972,0.02956,0.1307,1.40118,1.998638
concave_points1,0.048919,0.0335,0.0,0.038803,0.02031,0.074,1.17118,1.066556
symmetry1,0.181162,0.1792,0.1601,0.027414,0.1619,0.1957,0.725609,1.287933
fractal_dimension1,0.062798,0.06154,0.05667,0.00706,0.0577,0.06612,1.304489,3.005892


### d) Analise os dados quanto à sua incompletude, inconsistências, redundâncias e presença de ruído

Uma estatégia que pode ser utilizada para avaliar o conjunto de dados quanto à sua **incompletude** é verificar a existência de **valores nulos** entre os atributos. Isso pode ser feito atraves do comando *isnull()* do pandas. Ao se fazer um **somatório desses valores**, se o valor for 0 para cada uma das colunas, então **não existe incompletude** para esses atributos. Começa-se com os atributos preditivos:


In [None]:
# Verificar valores nulos em cada coluna
df.isnull().sum()

Unnamed: 0,0
radius1,0
texture1,0
perimeter1,0
area1,0
smoothness1,0
compactness1,0
concavity1,0
concave_points1,0
symmetry1,0
fractal_dimension1,0


O mesmo pode ser feito para o atributo alvo:

In [None]:
# Verificar valores nulos em cada coluna
dt.isnull().sum()

Unnamed: 0,0
Diagnosis,0


Assim, pode-se concluir que não existem incompletudes entre os valores do dataset.

Já para verificar o conjunto em relação às **incosistências**, pode-se partir da análise já realizada anteriormente sobre os **Tipo** e a **Escala** dos dados. Como visto, os atributos preditivos representam valores **numéricos contínuos e absolutos**, mais especificamente, tratam de **medidas físicas** as quais **não se aplicam valores negativos** (a exemplo de área, raio, concavidade, etc.). Logo, assim como na abordagem anterior, pode-se verificar a existência desses valores e calcular seu somatório. Novamente, busca-se que o valor seja 0, para que não hajam incosistências:

In [None]:
# Verificar valores negativos dos atributos preditivos
(df < 0).sum()


Unnamed: 0,0
radius1,0
texture1,0
perimeter1,0
area1,0
smoothness1,0
compactness1,0
concavity1,0
concave_points1,0
symmetry1,0
fractal_dimension1,0


Então, tem-se que os valores dos atributos preditivos são consistentes.

Quanto a redundânicia, uma forma de avaliar isso é possível aplicar uma **matriz de correlação**, e verificar os atributos que possuem uma correlação **próxima de 1**. Essa característica estatística pode indicar atributos que trazem informações semelhantes, e, que um deles poderia ser removido, a depender da análise.

In [None]:
# Matriz de correlação
cor = df.corr().abs()

# Verificar redundância: pares com correlação alta (> 0.9)
redundantes = cor.where((cor > 0.9) & (cor < 1.0))
redundantes.dropna(how='all', axis=0).dropna(how='all', axis=1)

Unnamed: 0,radius1,texture1,perimeter1,area1,concavity1,concave_points1,radius2,perimeter2,area2,radius3,texture3,perimeter3,area3,concave_points3
radius1,,,0.997855,0.987357,,,,,,0.969539,,0.965137,0.941082,
texture1,,,,,,,,,,,0.912045,,,
perimeter1,0.997855,,,0.986507,,,,,,0.969476,,0.970387,0.94155,
area1,0.987357,,0.986507,,,,,,,0.962746,,0.95912,0.959213,
concavity1,,,,,,0.921391,,,,,,,,
concave_points1,,,,,0.921391,,,,,,,,,0.910155
radius2,,,,,,,,0.972794,0.95183,,,,,
perimeter2,,,,,,,0.972794,,0.937655,,,,,
area2,,,,,,,0.95183,0.937655,,,,,,
radius3,0.969539,,0.969476,0.962746,,,,,,,,0.993708,0.984015,


Ao fazer isso com os atributos preditivos, como esperado, verificou-se que existem correlações altas entre atributos físicos, como **área, perímetro e raio**, por exemplo. Logo, alguns desses valores poderiam ser desprezados na análise de alguns modelos, como os de regressão linear por exemplo.

### e) Calcule estatísticas multivariadas de covariância e correlação para os atributos quantitativos presentes. Interprete os valores obtidos.

In [None]:
df.corr()

Unnamed: 0,radius1,texture1,perimeter1,area1,smoothness1,compactness1,concavity1,concave_points1,symmetry1,fractal_dimension1,...,radius3,texture3,perimeter3,area3,smoothness3,compactness3,concavity3,concave_points3,symmetry3,fractal_dimension3
radius1,1.0,0.323782,0.997855,0.987357,0.170581,0.506124,0.676764,0.822529,0.147741,-0.311631,...,0.969539,0.297008,0.965137,0.941082,0.119616,0.413463,0.526911,0.744214,0.163953,0.007066
texture1,0.323782,1.0,0.329533,0.321086,-0.023389,0.236702,0.302418,0.293464,0.071401,-0.076437,...,0.352573,0.912045,0.35804,0.343546,0.077503,0.27783,0.301025,0.295316,0.105008,0.119205
perimeter1,0.997855,0.329533,1.0,0.986507,0.207278,0.556936,0.716136,0.850977,0.183027,-0.261477,...,0.969476,0.303038,0.970387,0.94155,0.150549,0.455774,0.563879,0.771241,0.189115,0.051019
area1,0.987357,0.321086,0.986507,1.0,0.177028,0.498502,0.685983,0.823269,0.151293,-0.28311,...,0.962746,0.287489,0.95912,0.959213,0.123523,0.39041,0.512606,0.722017,0.14357,0.003738
smoothness1,0.170581,-0.023389,0.207278,0.177028,1.0,0.659123,0.521984,0.553695,0.557775,0.584792,...,0.21312,0.036072,0.238853,0.206718,0.805324,0.472468,0.434926,0.503053,0.394309,0.499316
compactness1,0.506124,0.236702,0.556936,0.498502,0.659123,1.0,0.883121,0.831135,0.602641,0.565369,...,0.535315,0.248133,0.59021,0.509604,0.565541,0.865809,0.816275,0.815573,0.510223,0.687382
concavity1,0.676764,0.302418,0.716136,0.685983,0.521984,0.883121,1.0,0.921391,0.500667,0.336783,...,0.688236,0.299879,0.729565,0.675987,0.448822,0.754968,0.884103,0.861323,0.409464,0.51493
concave_points1,0.822529,0.293464,0.850977,0.823269,0.553695,0.831135,0.921391,1.0,0.462497,0.166917,...,0.830318,0.292752,0.855923,0.80963,0.452753,0.667454,0.752399,0.910155,0.375744,0.368661
symmetry1,0.147741,0.071401,0.183027,0.151293,0.557775,0.602641,0.500667,0.462497,1.0,0.479921,...,0.185728,0.090651,0.219169,0.177193,0.426675,0.4732,0.433721,0.430297,0.699826,0.438413
fractal_dimension1,-0.311631,-0.076437,-0.261477,-0.28311,0.584792,0.565369,0.336783,0.166917,0.479921,1.0,...,-0.253691,-0.051269,-0.205151,-0.231854,0.504942,0.458798,0.346234,0.175325,0.334019,0.767297
