# Treinando um modelo com scikit-learn utilizando o dataset breast-cancer
![Machine learning](imagens/mammogram.png)

## Roteiro

* Relembrando o processo
* Os 4 passos para aprender com os dados
* Treinando o modelo KNN com o dataset breast-cancer


# Relembrando o processo 
![Machine learning](imagens/DataAnalise.png)

In [1]:
# Abrindo nosso dataset utilizando o pandas
import pandas as pd
cancer = pd.read_csv('breast-cancer-wisconsin-data/data.csv',
                     index_col=0)

# Preparando o dataset

### 4 requisitos chaves para garantir que os atributos e classes estejam na forma que o scikit-learn espera:

1. 	Scikit-learn espera ver apenas números nos objetos dos atributos e das classes. 

In [62]:
# Visualizando as 5 últimas linhas da coluna diagnosis
cancer.diagnosis.tail()

id
926424    M
926682    M
926954    M
927241    M
92751     B
Name: diagnosis, dtype: object

In [22]:
# Criando um dicionário, no qual a letra M corresponde ao número 0 e
# o a letra B corresponde ao número 1
diag = {'M':0, 'B':1}

In [23]:
# Substituindo as letras M pelo número 0 e as letras B pelo número 1
# na coluna diagnosis
cancer.diagnosis = [diag[item] for item in cancer.diagnosis]

In [65]:
# Visualizando as últimas 5 linhas do dataset
cancer.tail()

Unnamed: 0_level_0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
926424,0,21.56,22.39,142.0,1479.0,0.111,0.1159,0.2439,0.1389,0.1726,...,26.4,166.1,2027.0,0.141,0.2113,0.4107,0.2216,0.206,0.07115,
926682,0,20.13,28.25,131.2,1261.0,0.0978,0.1034,0.144,0.09791,0.1752,...,38.25,155.0,1731.0,0.1166,0.1922,0.3215,0.1628,0.2572,0.06637,
926954,0,16.6,28.08,108.3,858.1,0.08455,0.1023,0.09251,0.05302,0.159,...,34.12,126.7,1124.0,0.1139,0.3094,0.3403,0.1418,0.2218,0.0782,
927241,0,20.6,29.33,140.1,1265.0,0.1178,0.277,0.3514,0.152,0.2397,...,39.42,184.6,1821.0,0.165,0.8681,0.9387,0.265,0.4087,0.124,
92751,1,7.76,24.54,47.92,181.0,0.05263,0.04362,0.0,0.0,0.1587,...,30.37,59.16,268.6,0.08996,0.06444,0.0,0.0,0.2871,0.07039,


2. Scikit-learn espera que os atributos e as classes sejam passados para o modelo como objetos separados. 

In [25]:
# Separando a matriz de atributos
X = cancer.as_matrix(cancer.columns[1:31])

  


In [4]:
cancer.columns

Index(['diagnosis', 'radius_mean', 'texture_mean', 'perimeter_mean',
       'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean',
       'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean',
       'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se',
       'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se',
       'fractal_dimension_se', 'radius_worst', 'texture_worst',
       'perimeter_worst', 'area_worst', 'smoothness_worst',
       'compactness_worst', 'concavity_worst', 'concave points_worst',
       'symmetry_worst', 'fractal_dimension_worst', 'Unnamed: 32'],
      dtype='object')

In [26]:
# Separando o vetor de classes
y = cancer.as_matrix(['diagnosis'])

  


3.	Scikit-learn espera que os atributos e classes sejam armazenados como numpy arrays.

In [68]:
# Verificando se a matriz de atributos e o vetor de classes são 
# numpy arrays
print(type(X))
print(type(y))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


4. Os atributos e classes precisam estar em formatos adequados.

In [27]:
# Verificando o formato da matriz de atributos
X.shape

(569, 30)

In [28]:
# Verificando o formato do vetor de classes
y.shape

(569, 1)

### Resumindo:

* 569 instâncias, no qual cada instância representa um tecido mamário;
* 30 atributos, que são representadas pelas colunas 2 até a coluna 32;
* As classes das instâncias correspondem se o tumor é maligno ou benigno, representadas pela segunda coluna, a coluna diagnosis;
* Trata-se de um problema de classificação.

# Os 4 passos para aprender com os dados
![Machine learning](imagens/raiz3.png)

# Treinando o modelo KNN com o dataset breast-cancer

## Como nós faríamos?
![Machine learning](imagens/img.png)

## Entendendo o KNN

1. Você escolhe um valor para K, como 5, por exemplo. Que representa o parâmetro número de vizinhos a serem considerados.

2. O modelo procura as 5 instâncias nos dados de treinamento que estão mais próximos das medidas do tumor desconhecido, que é a nossa nova amostra.  

3. Entre as 5 amostras selecionadas, é contada a quantidade de cada classe, a que for mais frequente é utilizada para predizer a classe do tumor desconhecido.

In [1]:
import mglearn
mglearn.plots.plot_knn_classification(n_neighbors=5)



## 4 PASSOS PARA TREINAR E FAZER PREDIÇÕES COM UM MODELO NO SCIKITLEARN

1. importar a classe que você irá utilizar

In [7]:
from sklearn.neighbors import KNeighborsClassifier

2. Instanciar o estimador

In [8]:
knn = KNeighborsClassifier(n_neighbors = 1)

In [10]:
print(knn)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')


3.	Ajustar o modelo com o dataset

In [30]:
knn.fit(X,y)

  """Entry point for launching an IPython kernel.


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')

4.	Fazer predições com novas instâncias

In [19]:
#Criando uma nova instância com 30 atributos
X_new = [2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1]

In [20]:
#Verificando o tamanho da lista
len(X_new)

30

In [32]:
# Fazendo a predição
knn.predict([X_new])

array([1], dtype=int64)

In [33]:
# Criando uma lista com duas instâncias
X_new = [[2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1]
         ,[30,1,140,1500,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1]]

In [34]:
# Fazendo a predição
knn.predict(X_new)

array([1, 0], dtype=int64)

In [35]:
# Instanciando o modelo (utilizando k =5)
knn = KNeighborsClassifier(n_neighbors=5)

In [37]:
# Ajustando o modelo com o dataset
knn.fit(X,y)

  


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

In [38]:
#Predizendo a classe das novas observações
knn.predict(X_new)

array([1, 1], dtype=int64)

# Como aplicar esse padrão em outros modelos?

1. Importando Logistc Regression do módulo linear_model

In [39]:
from sklearn.linear_model import LogisticRegression

2. Instanciando o modelo 

In [40]:
Logreg = LogisticRegression()

3. Ajustando o modelo com o dataset

In [41]:
Logreg.fit(X,y)

  y = column_or_1d(y, warn=True)


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

4. Fazendo as predições

In [43]:
Logreg.predict(X_new)

array([0, 1], dtype=int64)

![Machine learning](imagens/raiz3.png)

# BORA TESTAR!

In [1]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()