In [None]:
# Introduction to the Machine Learning Workflow

'''
    CONCEITO: Em vez de tomar decisões com base em padrões identificados a partir de informações que já temos, podemos usar o aprendizado de máquina para fazer isso por nós.

    EXEMPLO: O pequeno conjunto de regras ou critérios que identificamos acima é essencialmente o que um modelo de aprendizado de máquina faz sem que programemos explicitamente essas regras. Treinamos o modelo para que ele aprenda a identificar esses padrões a partir dos dados por conta própria. Então, usamos o modelo para prever algo, dada uma entrada nova e não vista

    WORKFLOW:

        - Coleta de dados.
        - Exploração e organização de dados.
        - Preparação de dados (Engenharia de recursos).
        - Construindo e treinando um modelo.
        - Avaliando o desempenho do modelo.
        - Ajustando o modelo.
        - Avaliando o desempenho do modelo.
'''

In [12]:
# DATA COLLECTION AND EXPLORATION

import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer_data = load_breast_cancer(as_frame = True)
cancer_df = cancer_data.data
cancer_df['target'] = cancer_data.target

In [13]:
print(cancer_df.notnull().sum())

mean radius                569
mean texture               569
mean perimeter             569
mean area                  569
mean smoothness            569
mean compactness           569
mean concavity             569
mean concave points        569
mean symmetry              569
mean fractal dimension     569
radius error               569
texture error              569
perimeter error            569
area error                 569
smoothness error           569
compactness error          569
concavity error            569
concave points error       569
symmetry error             569
fractal dimension error    569
worst radius               569
worst texture              569
worst perimeter            569
worst area                 569
worst smoothness           569
worst compactness          569
worst concavity            569
worst concave points       569
worst symmetry             569
worst fractal dimension    569
target                     569
dtype: int64


In [14]:
# DATA PREPARATION

X = cancer_df.drop(["target"], axis=1)
y = cancer_df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, random_state = 417)

In [16]:
# BUILDING AND TRAINING A CLASSIFIER

from sklearn.svm import LinearSVC

model = LinearSVC(penalty = 'l2', loss = 'squared_hinge', C = 10, random_state = 417)
model.fit(X_train, y_train)



In [20]:
# EVALUATING THE MODEL ON TEST SET I

test_accuracy = model.score(X_test, y_test)
print(test_accuracy)

0.8255813953488372


In [None]:
# FINE-TUNING THE MODEL

model = LinearSVC(penalty = 'l2', loss = 'squared_hinge', C = 20, max_iter = 3500, random_state = 417)
model.fit(X_train, y_train)

0.872093023255814




In [25]:
# EVALUATING THE MODEL ON TEST SET II

test_accuracy = model.score(X_test, y_test)
print(test_accuracy)

0.872093023255814
