# Projeto 2 - Classificação usando dados de Cancer de Mama
## Breast Cancer Coimbra Data Set - UCI

## Introdução

O conjunto de dados de Cancer Mama esta localizado na plataforma UCI no seguinte link - https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra. O objetivo deste conjunto de dados é classificar se um individuo possui ou não cancer de mama a partir destas variaveis obtidas através do exame de sangue.


Segue a descrição das variaveis:
- Age: idade em anos
- BMI: indice de massa corporal (kg/m2)
- Glucose: nivel de glicose no sangue (mg/dL)
- Insulin: nivel de insulina no sangue (µU/mL)
- HOMA: nivel de resistencia a insulina
- Leptin: leptina (ng/mL)
- Adiponectin: Adiponectina (µg/mL)
- Resistin: Resistina (ng/mL)
- MCP-1: nivel de proteina MCP-1 (pg/dL)
- Classification: é classificado como 1 sem cancer (grupo controle) e 2 com cancer (grupo paciente)

Para mais informações, segue o link do artigo: https://bmccancer.biomedcentral.com/articles/10.1186/s12885-017-3877-1

#### referencia: 
Patrício, M., Pereira, J., Crisóstomo, J., Matafome, P., Gomes, M., Seiça, R., & Caramelo, F. (2018). Using Resistin, glucose, age and BMI to predict the presence of breast cancer. BMC Cancer, 18(1).

# Sobre este projeto

Neste projeto treine os conhecimentos aprendidos até o momento e que entenda algumas das dificuldades que pode ter quando for aplicar os mesmos. 

Os principais pontos que serão avaliados:

- Levantamento de hipoteses
- Manipulação de dados e criação de gráficos simples com o `Pandas`
- Criar um modelo usando regressão logistica e justificar

# Preparação do ambiente

- Acessem o link - https://archive.ics.uci.edu/ml/machine-learning-databases/00451/dataR2.csv e faça o download do conjunto de dados.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data = pd.read_csv('./dataR2.csv')

In [3]:
data.head()

Unnamed: 0,Age,BMI,Glucose,Insulin,HOMA,Leptin,Adiponectin,Resistin,MCP.1,Classification
0,48,23.5,70,2.707,0.467409,8.8071,9.7024,7.99585,417.114,1
1,83,20.690495,92,3.115,0.706897,8.8438,5.429285,4.06405,468.786,1
2,82,23.12467,91,4.498,1.009651,17.9393,22.43204,9.27715,554.697,1
3,68,21.367521,77,3.226,0.612725,9.8827,7.16956,12.766,928.22,1
4,86,21.111111,92,3.549,0.805386,6.6994,4.81924,10.57635,773.92,1


In [4]:
data.tail(3)

Unnamed: 0,Age,BMI,Glucose,Insulin,HOMA,Leptin,Adiponectin,Resistin,MCP.1,Classification
113,65,32.05,97,5.73,1.370998,61.48,22.54,10.33,314.05,2
114,72,25.59,82,2.82,0.570392,24.96,33.75,3.27,392.46,2
115,86,27.18,138,19.91,6.777364,90.28,14.11,4.35,90.09,2


In [5]:
data.rename({
        'Age': 'Idade', 
        'BMI': 'IMC', 
        'Glucose': 'Glicose', 
        'Insulin': 'Insulina', 
        'HOMA': 'Res_Insulina', 
        'Leptin': 'Leptina', 
        'Adiponectin': 'Adiponectina',
        'Resistin': 'Resistina',
        'Classification': 'Classificação'
    }, axis=1, inplace=True)

In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116 entries, 0 to 115
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Idade          116 non-null    int64  
 1   IMC            116 non-null    float64
 2   Glicose        116 non-null    int64  
 3   Insulina       116 non-null    float64
 4   Res_Insulina   116 non-null    float64
 5   Leptina        116 non-null    float64
 6   Adiponectina   116 non-null    float64
 7   Resistina      116 non-null    float64
 8   MCP.1          116 non-null    float64
 9   Classificação  116 non-null    int64  
dtypes: float64(7), int64(3)
memory usage: 9.2 KB


In [7]:
data.describe()

Unnamed: 0,Idade,IMC,Glicose,Insulina,Res_Insulina,Leptina,Adiponectina,Resistina,MCP.1,Classificação
count,116.0,116.0,116.0,116.0,116.0,116.0,116.0,116.0,116.0,116.0
mean,57.301724,27.582111,97.793103,10.012086,2.694988,26.61508,10.180874,14.725966,534.647,1.551724
std,16.112766,5.020136,22.525162,10.067768,3.642043,19.183294,6.843341,12.390646,345.912663,0.499475
min,24.0,18.37,60.0,2.432,0.467409,4.311,1.65602,3.21,45.843,1.0
25%,45.0,22.973205,85.75,4.35925,0.917966,12.313675,5.474283,6.881763,269.97825,1.0
50%,56.0,27.662416,92.0,5.9245,1.380939,20.271,8.352692,10.82774,471.3225,2.0
75%,71.0,31.241442,102.0,11.18925,2.857787,37.3783,11.81597,17.755207,700.085,2.0
max,89.0,38.578759,201.0,58.46,25.050342,90.28,38.04,82.1,1698.44,2.0


# Exercicio 1. (2.0 pontos)

Escreva em até quatro frases, uma breve apresentação sobre suas ideias do conjunto de dados e adicione qualquer contexto que possa ajudar os leitores a entendê-la.

**RESPOSTA** (VALE 2.0 pontos): (responda aqui, dê dois cliques para editar. Esta célula de texto esta escrito em Markdown, para renderizar o texto execute a célula com **Shift+Enter**)

O conjunto de dados apresenta parâmetros cuja obtenção pode ser feita por um simples exame de sangue. Pesquisando sobre as variáveis, descobre-se que são parâmetros de disturbio metabólico que podem ou não ser relacionadas direta ou indiretamente à diabetes. Considerando que diabetes 

# Exercicio 2. (3.0 pontos)

Explore seu conjunto de dados e crie uma história em torno deles! Pense sobre o objetivo que deseja transmitir para seus leitores.

**RESPOSTA** (VALE 0.6 pontos): (responda aqui, dê dois cliques para editar)

Você precisa criar uma visualização explicativa, ajudando o leitor a identificar uma ou mais ideias-chave no conjunto de dados. Assim, qual visualização você acha interessante destacar?

In [8]:
#### VALE 0.6 pontos
#### CONSTRUA OS SEUS GRAFICOS ABAIXO, USE MAIS CELULAS SE NECESSARIO
data['Glicose'].describe()

count    116.000000
mean      97.793103
std       22.525162
min       60.000000
25%       85.750000
50%       92.000000
75%      102.000000
max      201.000000
Name: Glicose, dtype: float64

In [9]:
def is_diabetic(x):
    if x >= 126:
        return 2
    elif 100 <= x <= 125:
        return 1
    elif x < 100:
        return 0

In [10]:
data['diabetes'] = data['Glicose'].apply(is_diabetic)

In [11]:
data.head()

Unnamed: 0,Idade,IMC,Glicose,Insulina,Res_Insulina,Leptina,Adiponectina,Resistina,MCP.1,Classificação,diabetes
0,48,23.5,70,2.707,0.467409,8.8071,9.7024,7.99585,417.114,1,0
1,83,20.690495,92,3.115,0.706897,8.8438,5.429285,4.06405,468.786,1,0
2,82,23.12467,91,4.498,1.009651,17.9393,22.43204,9.27715,554.697,1,0
3,68,21.367521,77,3.226,0.612725,9.8827,7.16956,12.766,928.22,1,0
4,86,21.111111,92,3.549,0.805386,6.6994,4.81924,10.57635,773.92,1,0


In [12]:
pd.crosstab(data['Classificação'], data['diabetes'], margins=True)

diabetes,0,1,2,All
Classificação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,44,8,0,52
2,34,19,11,64
All,78,27,11,116


In [13]:
def classificate_imc(x):
    if x <= 18.5:  # baixo peso
        return -1  
    elif 18.5 < x < 25:  # peso normal
        return 0
    elif 25 <= x < 30:  # sobrepeso
        return 1
    elif 30 <= x < 35:  # obesidade
        return 2
    elif 35 <= x < 40:  # obesidade grave
        return 3
    elif x >= 40:  # obesidade mórbida
        return 4

In [14]:
data['imc_class'] = data['IMC'].apply(classificate_imc)

In [15]:
df = pd.crosstab(data['Classificação'], data['imc_class'], margins=True)
df

imc_class,-1,0,1,2,3,All
Classificação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,0,17,14,12,9,52
2,1,22,23,15,3,64
All,1,39,37,27,12,116


In [16]:
df.columns

Index([-1, 0, 1, 2, 3, 'All'], dtype='object', name='imc_class')

Obtenha o feedback de suas ideias e de sua(s) visualização(ões), se possivel apresente esse grafico com pelo menos uma outra pessoa e questione:

1. O que você percebe na visualização?
2. Quais perguntas você tem sobre o conjunto de dados?
3. Há algo que você não entende nas visualizações?

**RESPOSTA** (VALE 0.6 pontos): (responda aqui, dê dois cliques para editar)

Após o feedback, o que você mudaria?

**RESPOSTA** (VALE 0.6 pontos): (responda aqui, dê dois cliques para editar)

Apresente suas nova(s) visualização(ões) a partir do feedback:

In [17]:
#### VALE 0.6 pontos
#### CONSTRUA O SEU GRAFICO ABAIXO, USE MAIS CELULAS SE NECESSARIO

#.
#.
#.

# Exercicio 3. (5.0 pontos)

Construa um modelo de regressão logistica para predizer a variável **Classification** com **statsmodels.api**.

In [18]:
#### VALE 0.8 pontos
#### EXECUTE OS COMANDOS ABAIXO, USE MAIS CELULAS SE NECESSARIO

#.
#.
#.

Coloque abaixo a saida do seu modelo usando **seu_modelo.summary()**.

In [19]:
#### VALE 0.8 pontos
#### EXECUTE O COMANDO ABAIXO

#.

Faça outro modelo usando a biblioteca **sklearn** e usem o parametro **random_state** com valor 10.

In [20]:
#### VALE 0.8 pontos
#### EXECUTE OS COMANDOS ABAIXO, USE MAIS CELULAS SE NECESSARIO

#.
#.
#.

Coloque abaixo a matriz de confusão do modelo feito:

In [21]:
#### VALE 0.8 pontos
#### EXECUTE O COMANDO ABAIXO

#.

Prencha as métricas a partir da matriz de confusão obtida (lembrando que a classe negativa é 1 - sem cancer e a classe positiva é 2 - com cancer)

In [22]:
# VALE 0.8 pontos
# Substitua __ pelos valores solicitados
print('acurácia: {}'.format('__'))
print('precisão: {}'.format('__'))
print('especificidade: {}'.format('__'))
print('sensitividade: {}'.format('__'))

acurácia: __
precisão: __
especificidade: __
sensitividade: __


Observando a matriz de confusão, o seu modelo tende a obter mais erros do tipo I ou do tipo II?

**RESPOSTA** (VALE 1.0 ponto): (responda aqui, dê dois cliques para editar)