# Disciplina de Mineração de Dados

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

## Regressão Logística

É uma ferramenta estatística utilizada nas análises preditivas, possibilitando mensurar a **probidalide** de um evento correr.

Ela é extremamente relevante em diversas áreas, como: Maketing, Propaganda, Detecção de Fraude, Assistência Médica, Riscos Financeiros, etc.

### Categórica

O modelo de regressão é utilizando a **variável dependente é binária**, categórica ordenada ou desornada (quando não há relação entre elas).

### Tipos

| Varável Dependente | Pergunta | Opções
| --- | --- | --- |
| Binária | Você votou na última eleição? | 0 (Não); 1 (Sim) |
| Categórica Ordenada | Concorda ou descorda com a vacina? | 0 (Não); 1 (Parcialmente); 2 (Sim)
| Categórica Não Ordenada | Você torce para qual time? | 1 (Brasil); 2 (Portugal); 3 (Alemanha)

Fonte: Adaptado de Torres-Reyna ([2014](https://smolski.github.io/livroavancado/reglog.html#ref-Torres-Reyna2014)).

### Cacaterísticas importantes

- Análise é semelhante à regressão linear simples/múltipla, pois possui a relação entre a **variável dependente** e a **variável independente**;
- Possui testes estatísticos diretos, incorporando variáveis métricas e não métricas, com efeitos não lineares;
- É menos afetada pela não satisfação de normalidade dos dados, pois o termo de erro da variável discreta segue a distribuição binomial)
- Foi elaborada para que seja prevista a probabilidade de determinado evento correr.

Utiliza a curva logística para representar a relação entre a variável dependente e as variáveis independentes, fazendo com que os valores previstos permaneçam entre 0 e 1.

### De volta à probabilidade

Quando ouvimos na previsão do tempo que a probabilidade de chuva amanhã é de 20%. Essa frase reflete a nossa incerteza sobre um evento: é improvável que chova amanhã, mas não temos certeza do que acontecerá de fato.

Neste exemplo, dizemos que “chover amanhã” é um evento, de forma que podemos escrever P(chover amanhã) = 20%, onde P(A) indica a probabilidade de um evento A. Essa probabilidade pode variar entre 0% e 100%, onde 0% indica certeza de que A não ocorrerá e 100% indica certeza de que A ocorrerá. É muito comum utilizarmos, ao invés de porcentagens entre 0% e 100%, números entre 0 e 1. Nessa notação, a probabilidade de chuva seria 0,20.

### Modelo Logístico

O objetivo do modelo é encontrar um modelo de regressão que calcule a probabilidade de um dado ponto ter classificação 0 ou 1 (que chamaremos também de classificações negativa e positiva, respectivamente). Nesse momento, podemos pensar na regressão linear que vimos anteriormente. Será que podemos usar ela para estimar a probabilidade de classificação positiva? Não, pelo menos não diretamente. Observe que a regressão linear gera uma saída no intervalo (−∞, +∞), mas probabilidades estão no intervalo [0, 1]. Para resolver isso, precisamos de uma função que ligue esses dois intervalos: uma função de ligação. A função que utilizaremos é a função logit(x), que recebe um número entre 0 e 1, e retorna um número real:

![](https://miro.medium.com/max/458/1*UpaEDpDir8nG1wCPHb81Fw.png)

## Aplicando Regressão Logística no problema do Desastre do Titanic

Esse dataset tem várias informações sobre os passageiros do Titanic e o objetivo da nossa análise é aplicar a Regressão Logística e identificar quais passageiros sobreviveram. Nesse exemplo, vamos utilizar apenas as seguintes variáveis:

- Age: idade do passageiro (em anos)
- Fare: custo da passagem
- Survived: 1 se o passageiro sobreviveu, 0 caso contrário

---

Disponível em: [Titanic - Machine Learning from Disaster](https://www.kaggle.com/c/titanic)

In [1]:
import pandas as pd
import plotly.graph_objects as go

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

In [9]:
df = pd.read_csv('/content/titanic.csv')

In [10]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [12]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [13]:
df = df.dropna(subset=['Age'])

In [14]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [15]:
X = df[['Age', 'Fare']]
y = df['Survived']

In [16]:
y

0      0
1      1
2      1
3      1
4      0
      ..
885    0
886    0
887    1
889    1
890    0
Name: Survived, Length: 714, dtype: int64

In [17]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=X['Age'][y==0], y=X['Fare'][y==0], name='Não Sobreviveu', mode='markers'))
fig.add_trace(go.Scatter(x=X['Age'][y==1], y=X['Fare'][y==1], name='Sobreviveu', mode='markers'))

fig.update_layout(title='Desafio do Titanic', xaxis_title='Idade', yaxis_title='Taxa de Embarque')

fig.show()

In [18]:
model = LogisticRegression(solver='liblinear')

In [19]:
cross_val_score(model, X, y, cv=10, scoring='accuracy').mean()

0.6568661971830986

In [20]:
model.fit(X, y)

LogisticRegression(solver='liblinear')

In [21]:
passageiros = [[26, 200], [42, 150], [32, 100], [43, 150], [35, 75], [19, 35]]

In [22]:
model.predict_proba(passageiros)


X does not have valid feature names, but LogisticRegression was fitted with feature names



array([[0.0708967 , 0.9291033 ],
       [0.19376989, 0.80623011],
       [0.3220396 , 0.6779604 ],
       [0.19658536, 0.80341464],
       [0.43526945, 0.56473055],
       [0.53525495, 0.46474505]])

In [23]:
for i, passageiro in enumerate(passageiros):
    fig.add_trace(go.Scatter(x=[passageiro[0]], y=[passageiro[1]], name=f'Passageiro {i}', mode='markers'))

fig.show()

In [24]:
model.predict(passageiros)


X does not have valid feature names, but LogisticRegression was fitted with feature names



array([1, 1, 1, 1, 1, 0])

In [25]:
df['Sex'] = df['Sex'].apply(lambda row: 1 if row == 'male' else 0)

In [26]:
X = df[['Sex', 'Fare']]
y = df['Survived']

In [27]:
model = LogisticRegression(solver='liblinear')

In [28]:
cross_val_score(model, X, y, cv=10, scoring='accuracy').mean()

0.7758020344287949

In [29]:
model.fit(X, y)

LogisticRegression(solver='liblinear')

In [30]:
passageiros = [[1, 200], [0, 150], [0, 100], [0, 150], [0, 75], [0, 35]]

In [31]:
model.predict(passageiros)


X does not have valid feature names, but LogisticRegression was fitted with feature names



array([1, 1, 1, 1, 1, 1])

In [32]:
model.predict_proba(passageiros)


X does not have valid feature names, but LogisticRegression was fitted with feature names



array([[0.31526837, 0.68473163],
       [0.07987181, 0.92012819],
       [0.13843608, 0.86156392],
       [0.07987181, 0.92012819],
       [0.17939293, 0.82060707],
       [0.26349798, 0.73650202]])