<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="Universidade Presbiteriana Mackenzie">
</head>

<img src="http://meusite.mackenzie.br/rogerio/mackenzie_logo/UPM.2_horizontal_vermelho.jpg" width=300, align="right"></a>
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->

# **Regressão Logística**
---

## Regressão Logística

A regressão logística é um modelo estatístico utilizado para modelar a probabilidade de ocorrência de um evento ou resultado, especialmente em situações binárias, onde a variável de saída pode ter apenas dois valores possíveis.

As variáveis explicativas em um modelo de regressão logística são aquelas que são usadas para prever a variável de saída binária. Elas são chamadas de variáveis independentes ou preditoras. No contexto da regressão logística, essas variáveis podem ser numéricas ou categóricas e são utilizadas para calcular a probabilidade de ocorrência do evento de interesse.

Por exemplo, se estivermos analisando a probabilidade de um cliente comprar um produto (evento = compra), as variáveis explicativas podem incluir informações como idade, sexo, renda, histórico de compras anteriores, entre outros. Essas variáveis ajudarão a modelar como cada uma delas influencia a probabilidade de compr


Os modelos de regressão logística são particularmente úteis em problemas de classificação, onde se deseja estimar em qual categoria os dados devem ser classificados. Como possíveis aplicações pode-se citar as seguintes áreas:
<br>
<br>

**Médica:** Determinar as chances de se desenvolver uma determinada doença, baseado em caracteristicas gerais do paciente.

**Financeira:** Determinar se um emprestimo pode ser concedido a um cliente ou não.

**Social:** Estimar as chances de uma pessoa votar em um candidato ou não.

**Industrial:** Estimar as chances de falhas em processos produtivos.

**Marketing:** Estimar as chances de um cliente adquirir um determinado protudo ou pacote de serviços.










## Exemplo

Suponha que se deseja analisar as chances de um indivíduo ter problemas com pressão alta. Existem diversos fatores que influenciam este problema, mas para este exemplo vamos considerar apenas dois: idade e peso. Considere que um determinado hospital possui uma base de dados com 100 pessoas, suas idades e pesos, e também se sofrem de pressão alta ou não.

A variável dependente é a ocorrencia de pressão alta. Ter pressão alta é igual a 1 e não ter é igual a 0.

As variáveis independentes são idade e peso. Nesse exemplo, o que a regressão logistica se propõe, é a criação de um modelo logístico que possa estimar a probabilidade de um individuo ter problemas de pressão, baseado em sua idade e seu peso.
<br>

Então, suponha que se deseja estimar a probabilidade de um individuo de 50 anos e com 98Kg ter problemas de pressão alta. Ao inserir os dados no modelo, o resultado vai ser um número entre 0 e 1, representando a probabilidade daquela pessoa ter problemas de pressão.


##Chance

Com a probabilidade calculada, pode-se calcular também as chances de ocorrência de um evento.

No exemplo anterior, se o modelo preve que uma pessoa de 50 anos e 98Kg tem a probabilidade de **p= 0,8** (80%) de desenvolver problemas de pressão alta então podemos dizer que essa pessoa tem a probabilidade de **1-p = 0,2** (20%) de não ter esse problema.

A chance é definida como:
<br>
<br>
$$ Chance = p/(1-p)$$ nesse caso, $$Chance = 0,8/0,2$$ $$Chance = 4$$
<br>
O que significa uma pessoa nessas condições tem 4x mais chances de desenvolver pressão alta do que de não desenvolver.

## Modelo

$$\dfrac{p}{1-p} = e^{a_0 + a_{1} X_{1} + a_{2} X_{2} + ... + a_{n} X_{n}},$$

em que $X_1,...,X_n$ são variáveis explicativas e $a_0, a_1,...,a_n$ os coeficientes a serem estimados. Isolando P (probabilidade de ter um "sucesso") temos que:

$$P(Y=1)=P= \dfrac{e^{a_0 + a_{1} X_{1} + a_{2} X_{2} + ... + a_{n} X_{n}}}{1+e^{a_0 + a_{1} X_{1} + a_{2} X_{2} + ... + a_{n} X_{n}}}$$

Nestes modelos é estimada a probabilidade de ter um "sucesso", por exemplo, a probabilidade de uma pessoa desenvolver problemas de tensão alta.

## Comparativo

**Regressão linear**


*   Variáveis contínuas
*   Resolve problemas de regressão
*   Função é uma reta

**Regressão logistica**


*   Variável resposta categórica
*   Resolve problemas de classificação
*   Função S-Curve


## Uma regressão logística simples

Vamos começar com uma regressão simples de valores aleatórios apenas para você se familiarizar com a construção do modelo.

In [1]:
import pandas                  as pd
import numpy                   as np
import matplotlib.pyplot       as plt
import seaborn                 as sns
import statsmodels.formula.api as sm
import warnings
warnings.filterwarnings("ignore")

Gerando uma amostra de 5 valores "aleatórios" a partir de uma função linear.    

In [2]:
rng = np.random.RandomState(0)
notas = []
for nota in rng.rand(5)*10:    #gera 5 números aleatórios entre 0 e 1, e multiplica por 10
    notas.append(round(nota,1)) #arredonda o resultado para 1 casa deciamal

print(notas)

[5.5, 7.2, 6.0, 5.4, 4.2]


Vamos definir o critério de aprovação/reprovação em 6, mas o modelo **não** vai ter acesso a esse número.
Na verdade, o modelo deve ser capaz de observar os dados e entender o critério que foi adotado.

In [3]:
situacao = []
for nota in notas:
    if nota>=6.0:
        situacao.append('aprovado')
    else:
        situacao.append('reprovado')

print(situacao)

['reprovado', 'aprovado', 'aprovado', 'reprovado', 'reprovado']


In [4]:
df_notas = pd.DataFrame({'nota':notas})
df_situacao = pd.DataFrame({'situacao':situacao})

In [5]:
# import da ferramenta
from sklearn.linear_model import LogisticRegression

# Inicializar o modelo com parametros padrão
logreg = LogisticRegression()

# ajusta o modelo com as informacoes
logreg.fit(df_notas,df_situacao)


Vamos agora gerar 100 notas aleatórias, e verificar se o nosso modelo é capaz de determinar quais alunos devem ser aprovados e quais não..

In [6]:
novosAlunos = []
for item in rng.rand(100)*10:    #gera 100 números aleatórios entre 0 e 1, e multiplica por 10
    novosAlunos.append(round(item,1)) #arredonda o resultado para 1 casa deciamal


#cria um df para os novos alunos, contento inicialmente apenas as notas.
df_novosAlunos = pd.DataFrame({'nota':novosAlunos})

In [7]:
#utiliza o modelo para prever a situação dos novos alunos
y_pred=logreg.predict(df_novosAlunos)

#acrescenta uma coluna no df, para representar a situacao prevista dos novos alunos
df_novosAlunos['Previsao'] = y_pred

In [8]:
df_novosAlunos

Unnamed: 0,nota,Previsao
0,6.5,aprovado
1,4.4,reprovado
2,8.9,aprovado
3,9.6,aprovado
4,3.8,reprovado
...,...,...
95,6.8,aprovado
96,2.7,reprovado
97,7.4,aprovado
98,9.6,aprovado


Mas será que o modelo funcionou bem? Vamos contar quantas vezes ele errou..

In [9]:
# erro tipo 1
falso_positivo = len(df_novosAlunos[(df_novosAlunos['nota']<6) & (df_novosAlunos['Previsao']=='aprovado') ])

# erro tipo 2
falso_negativo = len(df_novosAlunos[(df_novosAlunos['nota']>=6) & (df_novosAlunos['Previsao']=='reprovado') ])

verdadeiro_positivo = len(df_novosAlunos[(df_novosAlunos['nota']>=6) & (df_novosAlunos['Previsao']=='aprovado') ])
verdadeiro_negativo = len(df_novosAlunos[(df_novosAlunos['nota']<6) & (df_novosAlunos['Previsao']=='reprovado') ])

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

Erros   :  2
Acertos :  98
--------
Porcentagem de acertos :  0.98


Lembre-se, tudo o que modelo tinha para tomar a decisão, eram 5 valores apenas!
<br>
<br>
Mas **Cuidado**, os modelos de regressão logística podem não ser assim tão eficientes...
No caso, utilizamos um exemplo simples onde a variável dependente ('situação') é determinada com base em uma única variável independente ('nota'), e o critério é o de que essa variável deve ser maior que um determinado valor.
Esse exemplo, além de simples, também beneficia o modelo já que este utiliza por padrão, uma equação que se encaixa perfeitamente nesse tipo de situação.

##Uma regressão logística 'menos simples'
Vamos incrementar o nosso exemplo, considerando agora as notas de duas provas, com pesos diferentes, e mais uma nota de participação (entre 0 e 1).
<br>
<br>
A fórmula da média seria:
$$média = (0,4*N1 + 0,6*N2) + Part$$
<br>
Vamos criar 105 conjuntos de dados aleatórios..

In [10]:
rng = np.random.RandomState(0)

n1 = []
for nota in rng.rand(105)*10:    #gera 105 números aleatórios entre 0 e 1, e multiplica por 10
    n1.append(round(nota,1))     #arredonda o resultado para 1 casa decimal

n2 = []
for nota in rng.rand(105)*10:
    n2.append(round(nota,1))

part = []
for nota in rng.rand(105)*1:
    part.append(round(nota,1))

Vamos verificar 'manualmente' se os alunos estão aprovados ou não. Vamos utilizar o critério da média que foi definida, mas novamente o modelo não vai ter acesso a fórmula!
O modelo deverá utilizar as notas de 5 alunos para tentar prever os outros 100.

In [11]:
situacao = []

for i in range(len(n1)):
    avg = (n1[i]*0.4 + n2[i]*0.6) + part[i]
    if avg >=6.0:
        situacao.append('aprovado')
    else:
        situacao.append('reprovado')

A próxima célula vai construir o data frame com os 105 alunos em questão. Mas Dessa vez vamos adotar um método mais 'profissional' e ao invés de utilizar 2 dataframes ('df_notas' e 'df_situacao'), um para notas e outro para situação, vamos deixar tudo em um dataframe apenas, chamado de 'df_alunos'

In [12]:
df_alunos = pd.DataFrame({'n1':n1,'n2':n2,'part':part,'situacao':situacao})
df_alunos

Unnamed: 0,n1,n2,part,situacao
0,5.5,5.8,1.0,aprovado
1,7.2,5.9,0.2,aprovado
2,6.0,5.7,0.7,aprovado
3,5.4,2.2,0.3,reprovado
4,4.2,9.5,0.0,aprovado
...,...,...,...,...
100,6.8,0.7,0.8,reprovado
101,2.7,6.8,0.1,reprovado
102,7.4,4.5,0.1,reprovado
103,9.6,5.4,0.1,aprovado


A próxima célula emprega a função 'train_test_split', que vai dividir o nosso dataframe em 4 partes, são elas:

1.   **X_train**: um df contento as notas n1, n2 e part de 5 dos 105 alunos
2.   **X_test**: um df contento as notas n1, n2 e part de 5 dos 105 alunos
<br>
<br>
3.   **y_train**: um df contento a situação de 100 dos 105 alunos
4.   **y_test**: um df contento a situacao de 100 dos 105 alunos

A ideia aqui é separar uma parte dos dados para construírmos o modelo, e outra parte para testarmos o modelo. O parâmetro **`test_size = 100`** é que está determinando a quantidade de dados que vai ser utilizada para testes.
<br>
<br>
Na prática, se utiliza uma porcentagem maior dos dados para realizar a função 'fit' e uma parte menor para realizar os teste. Aqui estamos deixando 100 valores para teste e 5 para o fit, apenas para ficar iqual ao exemplo anterior.


In [13]:
from sklearn.model_selection import train_test_split
x = df_alunos.drop('situacao',axis=1)
y = df_alunos['situacao']

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=100, random_state=101)


Agora podemos contruir o modelo..

In [14]:
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()
logreg.fit(X_train,y_train)

Agora aplicamos o modelo nos dados que foram separados para teste..

In [15]:
y_pred=logreg.predict(X_test)

Agora vamos verificar a qualidade do modelo. Dessa vez, ao invés de contar 'manualmente' a quantidade de erros dos tipos 1 e 2, vamos utilizar uma ferramenta pronta!

In [16]:
from sklearn import metrics

cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[21, 24],
       [ 0, 55]])

A célula anterior calculou e apresentou a matrix de confusão, que pode ser interpretada como:![picture](https://diegonogare.net/wp-content/uploads/2020/04/matrizConfusao-600x381.png)


In [17]:
verdadeiro_positivo = cnf_matrix[0][0]
verdadeiro_negativo = cnf_matrix[1][1]

falso_positivo = cnf_matrix[0][1] # erro tipo 1
falso_negativo = cnf_matrix[1][0] # erro tipo 2

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

Erros   :  24
Acertos :  76
--------
Porcentagem de acertos :  0.76


In [18]:
df_alunos.head(105)

Unnamed: 0,n1,n2,part,situacao
0,5.5,5.8,1.0,aprovado
1,7.2,5.9,0.2,aprovado
2,6.0,5.7,0.7,aprovado
3,5.4,2.2,0.3,reprovado
4,4.2,9.5,0.0,aprovado
...,...,...,...,...
100,6.8,0.7,0.8,reprovado
101,2.7,6.8,0.1,reprovado
102,7.4,4.5,0.1,reprovado
103,9.6,5.4,0.1,aprovado


##Probabilidade da classificação
Também podemos utilizar o modelo para consultar a probabilidade de um aluno estar 'aprovado' ou 'reprovado', utilizando `logmodel.predict_proba`.

In [19]:
y_pred_prob = logreg.predict_proba(df_alunos.drop('situacao',axis=1))

p_aprovado = []
p_reprovado = []

for linha in y_pred_prob:
    p_reprovado.append(linha[0])
    p_aprovado.append(linha[1])


df_alunos['p_aprovado'] = p_aprovado
df_alunos['p_reprovado'] = p_reprovado

In [20]:
df_alunos.head()

Unnamed: 0,n1,n2,part,situacao,p_aprovado,p_reprovado
0,5.5,5.8,1.0,aprovado,0.814798,0.185202
1,7.2,5.9,0.2,aprovado,0.686154,0.313846
2,6.0,5.7,0.7,aprovado,0.800811,0.199189
3,5.4,2.2,0.3,reprovado,0.990461,0.009539
4,4.2,9.5,0.0,aprovado,0.257489,0.742511


###**Exercício**
Repita o exemplo anterior deixanto 80% dos dados para treinamento do modelo e 20% para realização de testes. Qual a nova porcentagem de acertos do modelo?
<br>
*dica:* se o parâmetro 'test_size' for definido com um número do tipo 'float', a função entende isso como a porcentagem dos dados que devem ser utilizados para testes.

## CASO: Estimando diagnósticos de câncer de mama

Resumo: Informações sobre o resultado da analise de um exame médico realizado em mais de 500 pacientes, com informações sobre o lauso de biópsia realizada em tumores de seio.

Para descrição completa dos dados acesse https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic).



In [21]:
import pandas as pd
df = pd.read_csv('http://meusite.mackenzie.br/rogerio/TIC/breast-cancer-wisconsin.csv')

df.head()


Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst,Unnamed: 32
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,


Observem que a última coluna não traz informação nehuma. Devemos remove-la do df.

In [22]:
df = df.drop(columns='Unnamed: 32')
df.head()

Unnamed: 0,id,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


##Exercício
Como podemos construir um modelo para determinar se os resultados de uma amostra, representam um tumor maligno ou benigno?

In [23]:
#preparando os dados..
x = df.drop(columns=['id','diagnosis'])
y = df['diagnosis']
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

In [24]:
#construindo e ajustando o modelo..
logreg = LogisticRegression()
logreg.fit(X_train,y_train)

X_train, X_test, y_train, y_test = train_test_split(x,y,test_size=0.3, random_state = 1)

In [25]:
#estimando os valores de teste
y_pred=logreg.predict(X_test)

In [26]:
#avaliando o modelo
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[102,   6],
       [  6,  57]])

In [27]:
#contabilizando os erros.. (essa célula poderia virar uma função...)
verdadeiro_positivo = cnf_matrix[0][0]
verdadeiro_negativo = cnf_matrix[1][1]

falso_positivo = cnf_matrix[0][1] # erro tipo 1
falso_negativo = cnf_matrix[1][0] # erro tipo 2

acertos = verdadeiro_positivo + verdadeiro_negativo
erros = falso_positivo + falso_negativo

print('Erros   : ', erros)
print('Acertos : ',acertos)
print('--------')
print('Porcentagem de acertos : ', acertos/(acertos+erros))

#dica..teste o comando:
#accuracy_score(y_test,y_pred)

Erros   :  12
Acertos :  159
--------
Porcentagem de acertos :  0.9298245614035088


## Conclusão

1. Modelos de Regressão Logistica simples são bem definidos (determinísticos).
1. Funcionam para quaisquer dimensões.
1. Podem ser aplicados a quaisquer conjunto de dados, desde que a variável dependente seja dicotômica.
1. São muito empregados em problemas de classificação.