<a href="https://colab.research.google.com/github/davi-santos/LogisticRegression-CervicalCancer/blob/main/Regressao_Log%C3%ADstica_(Redes_Complexas).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Redes Complexas - Regressão Logística

Este projeto consiste em apresentar um modelo de *Machine Learning* (do inglês, aprendizado de máquina) em uma base de dados da área médica para a disciplina de Redes Complexas. Para isto, definiu-se para o modelo o classificador Regressão Logística. As etapas para obter o modelo de aprendizado de máquina estão contidas no fluxograma abaixo:

 <center><img src='https://drive.google.com/uc?id=1dTVvf0HMEEk61T_qOs8pLn83yF1YrLvR'  width="450" height="300">


### 1) Aquisição da Base de Dados

Os dados foram obtidos no repositório UCI *Machine Learning Repository* e a base de dados escolhida foi a *Cervical Cancer Behavior Risk Data Set* (Conjunto de dados de risco de comportamento de câncer cervical).

link: https://archive.ics.uci.edu/ml/datasets/Cervical+Cancer+Behavior+Risk

In [None]:
import pandas as pd

df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00537/sobar-72.csv')

print(df)
print(df.columns)

    behavior_sexualRisk  behavior_eating  ...  empowerment_desires  ca_cervix
0                    10               13  ...                    8          1
1                    10               11  ...                    4          1
2                    10               15  ...                   15          1
3                    10               11  ...                    4          1
4                     8               11  ...                    7          1
..                  ...              ...  ...                  ...        ...
67                   10               14  ...                    9          0
68                   10               12  ...                   14          0
69                   10                8  ...                   10          0
70                    9               12  ...                   15          0
71                   10               14  ...                   15          0

[72 rows x 20 columns]
Index(['behavior_sexualRisk', 'behavior_

### 2) Preprocessamento

Esta etapa consistem em tratar e preparar os dados para o classificador de aprendizado de máquina. Para isto, deve-se:


*   Verificar valores incompletos;
*   Padronizar os dados para a distribuição normal
*   Separar os dados em atributos e classe



In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

bool_series = pd.notnull(df)
print(df[bool_series].shape)

#X representa as amostras e y as classes
X = df.iloc[:, :18].values
y = df.iloc[:, 19].values

#escalar os valores de X para o padrao
scaler = StandardScaler().fit(X)
X = scaler.transform(X)

#print(X)
#print(y)

(72, 20)


### 3) Treinamento do Modelo

Deve-se lembrar que um modelo de aprendizado de máquina tem por objetivo aprender com os dados e ser capaz de classificar novos dados. Isto é, nosso modelo deve ser capaz de generalizar. O esquema abaixo ilustra as etapas de treinamento e avaliação de um modelo:

<center><img src='https://drive.google.com/uc?id=1aF3ul3NMOuHHZWmszOahIfckAhanNm4-'  width="770" height="320"></center>
</br>

Para atingir a finalidade de generalização, divide-se a base de dados em dados de treinamento e teste. A base de treinamento é a responsável por treinar o modelo a definir uma função de classificar corretamente as amostras. A fim de avaliação, utiliza-se a base de teste para verificar a capacidade de generalização para novos dados. Ao final, devemos evitar dois casos extremos: overfitting e underfitting.

<center><img src='https://drive.google.com/uc?id=130RxDCc4mXongDaIMjWRR0k5LxAfU9MH'  width="450" height="100"></center>

A figura acima mostra um exemplo de divisão da base de dados. Utilizaremos o train_test_split do sklearn para dividir os dados de treinamento e teste. 



In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.3, random_state=0)

Na fase de treinamento do modelo, utilizaremos duas abordagens para aumentar a generalização do algoritmo: validação cruzada e tunagem de parâmetros. a validação cruzada, em resumo, consiste de dividir a base de dados de treinamento em subpastas e testar diferentes divisões de treinamento e teste. A figura abaixo mostra o processo de validação cruzada.

<center><img src='https://drive.google.com/uc?id=1galS0sZk5xmjGY-sbWjmbIk12klbE74w'  width="650" height="400"></center>

A tunagem de parâmetros consiste em testar diferentes parâmetros para aumentar a precisão do modelo.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

#Validação cruzada
scores = cross_val_score(LogisticRegression(), X_train, y_train, cv=10)
print("Mean cross-validation accuracy: {}".format(np.mean(scores)))
print(scores)

Mean cross-validation accuracy: 0.9
[1.  0.5 0.5 1.  1.  1.  1.  1.  1.  1. ]




In [None]:
#GridSearch para tunagem de parâmetros
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10]}
grid = GridSearchCV(LogisticRegression(), param_grid, cv=10)
grid.fit(X_train, y_train)
print("Best cross-validation score: {:.2f}".format(grid.best_score_))
print("Best parameters: ", grid.best_params_)




Best cross-validation score: 0.90
Best parameters:  {'C': 1}


### 4) Avaliação do Modelo

In [None]:
#Usando no teste pra ver no que dá, né

print(grid.score(X_test, y_test))

0.9019607843137255
