<h1 align="center"><font size="5"> Regressão Logística</font></h1>


Neste notebook, você aprenderá Regressão Logística e em seguida criará um modelo para uma empresa de telecomunicações, para prever quando seus clientes partirão para um concorrente, para que eles possam tomar alguma providência para retê-los.

<a id="ref1"></a>

## Qual é a diferença entre Regressão Logística e Linear?

Embora a regressão linear seja adequada para estimar valores contínuos (por exemplo, estimar o preço da casa), não é a melhor ferramenta para prever a classe de um ponto de dados observado. Para estimar a classe de um ponto de dados, precisamos de algum tipo de orientação sobre qual seria a <b> classe mais provável </b> para esse ponto de dados. Para isso, utilizamos <b> Regressão Logística</b>.

<div class="alert alert-success alertsuccess" style="margin-top: 20px">
<font size = 3><strong>Revisão Regressão Linear:</strong></font>

Como você sabe, <b> regressão linear </b> encontra uma função que relaciona uma variável dependente contínua, <b> y</b>, a alguns preditores (variáveis independentes $ x_1$, $ x_2$, etc.). Por exemplo, a regressão linear simples assume uma função da forma:

$$
y = \theta_0 + \theta_1  x_1 + \theta_2  x_2 + \cdots
$$

e encontra os valores dos parâmetros $ \theta_0, \theta_1, \theta_2$, etc, onde o termo $ \theta_0 $ é a "interceptação". Geralmente, pode ser mostrado como:

$$
ℎ_\theta(𝑥) = \theta^TX
$$

</div>

A regressão logística é uma variação da regressão linear, útil quando a variável dependente observada, <b> y</b>, é categórica. Ele produz uma fórmula que prevê a probabilidade do rótulo da classe em função das variáveis independentes.

A regressão logística se ajusta a uma curva especial em forma de S, tomando a regressão linear e transformando a estimativa numérica em uma probabilidade com a seguinte função, que é chamada de função sigmóide $ \sigma$:

$$
ℎ_\theta(𝑥) = \sigma({\theta^TX}) =  \frac {e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +...)}}{1 + e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +\cdots)}}
$$
Ou:
$$
ProbabilityOfaClass_1 =  P(Y=1|X) = \sigma({\theta^TX}) = \frac{e^{\theta^TX}}{1+e^{\theta^TX}} 
$$

Nesta equação, ${\theta^TX} $ é o resultado da regressão (a soma das variáveis ponderadas pelos coeficientes), `exp` é a função exponencial e $ \sigma (\theta^TX) $ é o sigmóide ou [função logística](http://en.wikipedia.org/wiki/Logistic_function?cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ), também chamada de curva logística. É uma forma de "S" comum (curva sigmóide).

Portanto, resumidamente, a regressão logística passa a entrada através do logístico/sigmóide, mas trata o resultado como uma probabilidade:

<img
src="https://ibm.box.com/shared/static/kgv9alcghmjcv97op4d6onkyxevk23b1.png" width="400" align="center">

O objetivo do algoritmo de ** Regressão Logística**, é encontrar os melhores parâmetros θ, para $ ℎ_\theta(𝑥)$ = $ \sigma({\theta^TX})$, de forma que o modelo melhor prevê a classe de cada caso.


### Rotatividade de cliente com regressão logística

Uma empresa de telecomunicações está preocupada com o número de clientes que trocam seus negócios de telefonia fixa por concorrentes a cabo. Eles precisam entender quem está saindo. Imagine que você é um analista dessa empresa e precisa descobrir quem está saindo e por quê.


Vamos importar as bibliotecas que precisaremos:


In [None]:
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as opt
from sklearn import preprocessing
%matplotlib inline 
import matplotlib.pyplot as plt

<h2 id="about_dataset">Sobre o conjunto de dados</h2>
Usaremos um conjunto de dados de telecomunicações para prever a rotatividade de clientes. Este é um conjunto de dados de cliente histórico em que cada linha representa um cliente. Os dados são relativamente fáceis de entender e você pode descobrir insights que pode usar imediatamente. Normalmente é mais barato manter clientes do que adquirir novos; portanto, o foco desta análise é prever quais clientes permanecerão na empresa.

Este conjunto de dados fornece informações para ajudá-lo a prever qual comportamento o ajudará a reter clientes. Você pode analisar todos os dados relevantes do cliente e desenvolver programas de retenção de clientes focados.

O conjunto de dados inclui informações sobre:

- Clientes que saíram no último mês - a coluna é chamada Churn
- Serviços que cada cliente assinou - telefone, várias linhas, internet, segurança online, backup online, proteção de dispositivo, suporte técnico e streaming de TV e filmes
- Informações da conta do cliente - há quanto tempo ele é cliente, contrato, forma de pagamento, faturamento sem papel, cobranças mensais e cobranças totais
- Informações demográficas sobre clientes - sexo, faixa etária e se eles têm parceiros e dependentes


### Dados Telco Churn

Telco Churn é um arquivo de dados hipotético que diz respeito aos esforços de uma empresa de telecomunicações para reduzir a rotatividade de sua base de clientes. Cada caso corresponde a um cliente separado e registra várias informações demográficas e de uso do serviço.

### Carregar arquivo CSV contendo os dados


In [None]:
churn_df = pd.read_csv("datasets/churn_dataset/ChurnData.csv")
churn_df.head()

<h2 id="preprocessing">Seleção e pré processamento dos dados</h2>


Vamos selecionar alguns recursos para a modelagem. Além disso, alteramos o tipo de dados de destino para inteiro, pois é um requisito dos algoritmos do skitlearn:

In [None]:
churn_df = churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip',   'callcard', 'wireless','churn']]
churn_df['churn'] = churn_df['churn'].astype('int')
churn_df.head()

## Exercício

Quantas linhas e colunas existem neste conjunto de dados no total? Quais são os nomes das colunas?


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula



<details><summary>Clique aqui para ver a solução</summary>

```python
churn_df.shape

```

</details>

Definindo X (entradas) e y (saídas)

In [None]:
X = np.asarray(churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip']])
X[0:5]

In [None]:
y = np.asarray(churn_df['churn'])
y [0:5]

Normalização dos dados:


In [None]:
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)
X[0:5]

## Conjuntos de Treino/Teste


Dividimos nosso conjunto de dados em conjunto de treinamento e teste:


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Conjunto de treino:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

<h2 id="modeling">Modelagem</h2>


Vamos construir nosso modelo usando ** LogisticRegression** do pacote Scikit-learn. Esta função implementa regressão logística e pode usar diferentes otimizadores numéricos para encontrar parâmetros, incluindo solucionadores ‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’. Você pode encontrar muitas informações sobre os prós e os contras desses otimizadores se pesquisar na Internet.

A versão de Regressão Logística em Scikit-learn, suporta regularização. A regularização é uma técnica usada para resolver o problema de overfitting em modelos de aprendizado de máquina.
O parâmetro ** C ** indica ** inverso da força de regularização ** que deve ser uma flutuação positiva. Valores menores especificam regularização mais forte.
Agora vamos ajustar nosso modelo com o conjunto de trem:


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
LR = LogisticRegression(C=0.01, solver='liblinear').fit(X_train,y_train)
LR

Predição utilizando o conjunto de teste:


In [None]:
yhat = LR.predict(X_test)
yhat

** predict_proba ** retorna estimativas para todas as classes, ordenadas pelo rótulo das classes. Portanto, a primeira coluna é a probabilidade da classe 1, P(Y = 1 | X), e a segunda coluna é a probabilidade da classe 0, P(Y = 0 | X):

In [None]:
yhat_prob = LR.predict_proba(X_test)
yhat_prob

<h2 id="evaluation">Avaliação</h2>


### Índice jaccard

Vamos tentar o índice jaccard para avaliação da precisão. podemos definir jaccard como o tamanho da interseção dividido pelo tamanho da união de dois conjuntos de etiquetas. Se todo o conjunto de rótulos previstos para uma amostra corresponder estritamente ao conjunto verdadeiro de rótulos, a precisão do subconjunto será 1,0; caso contrário, é 0,0.


In [None]:
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_test, yhat)

### Matriz de confusão

Outra maneira de ver a precisão do classificador é examinar a ** matriz de confusão**.


In [None]:
from sklearn.metrics import classification_report, confusion_matrix
import itertools
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Matriz de confusão',
                          cmap=plt.cm.Blues):
    """
    Esta função imprime e plota a matriz de confusão.
    A normalização pode ser aplicada definindo `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Matriz de confusão normalizada")
    else:
        print('Matriz de confusão, sem normalização')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('Rótulo verdadeiro')
    plt.xlabel('Rótulo previsto')
print(confusion_matrix(y_test, yhat, labels=[1,0]))

In [None]:
# Cálculo da matriz de confusão
cnf_matrix = confusion_matrix(y_test, yhat, labels=[1,0])
np.set_printoptions(precision=2)


# Plot da matriz de confusão não normalizada
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=['churn=1','churn=0'],normalize= False,  title='Matriz de Confusão')

Veja a primeira linha. A primeira linha é para clientes cujo valor de rotatividade real no conjunto de teste é 1.
Como você pode calcular, entre 40 clientes, o valor de rotatividade de 15 deles é 1.
E desses 15, o classificador previu corretamente 6 deles como 1 e 9 deles como 0.

Isso significa que, para 6 clientes, o valor de rotatividade real era 1 no conjunto de teste, e o classificador também previu esses como 1. No entanto, enquanto o rótulo real de 9 clientes era 1, o classificador previu aqueles como 0, o que não é muito bom . Podemos considerá-lo um erro do modelo para a primeira linha.

E quanto aos clientes com valor de rotatividade 0? Vejamos a segunda linha.
Parece que havia 25 clientes cujo valor de rotatividade era 0.

O classificador previu corretamente 24 deles como 0 e um deles erroneamente como 1. Portanto, ele fez um bom trabalho ao prever os clientes com valor de rotatividade 0. Uma coisa boa sobre a matriz de confusão é que mostra a capacidade do modelo de prever corretamente ou separar as classes. No caso específico do classificador binário, como neste exemplo, podemos interpretar esses números como a contagem de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

In [None]:
print (classification_report(y_test, yhat))


Com base na contagem de cada seção, podemos calcular a precisão e a recuperação de cada rótulo:

- ** Precisão ** é uma medida da precisão, desde que um rótulo de classe tenha sido previsto. É definido por: precisão = TP / (TP + FP)

- ** Recall ** é uma taxa verdadeiramente positiva. É definido como: Recall = TP / (TP + FN)

Assim, podemos calcular a precisão e a recuperação de cada classe.

** Pontuação F1: **
Agora estamos em posição de calcular as pontuações F1 para cada rótulo com base na precisão e recuperação desse rótulo.

A pontuação F1 é a média harmônica da precisão e recuperação, onde uma pontuação F1 atinge seu melhor valor em 1 (precisão perfeita e recuperação) e pior em 0. É uma boa maneira de mostrar que um classificador tem um bom valor para ambos recall e precisão.

E, finalmente, podemos dizer que a precisão média para este classificador é a média da pontuação F1 para ambos os rótulos, que é 0,72 em nosso caso.

### log loss

Agora, vamos tentar ** log loss** para avaliação. Na regressão logística, a saída pode ser a probabilidade de rotatividade do cliente em ser positiva (ou igual a 1). Essa probabilidade é um valor entre 0 e 1.
O log loss (perda logarítmica) mede o desempenho de um classificador onde a saída prevista é um valor de probabilidade entre 0 e 1.


In [None]:
from sklearn.metrics import log_loss
log_loss(y_test, yhat_prob)

<h2 id="practice">Exercício</h2>
Tente construir o modelo de regressão logística novamente para o mesmo conjunto de dados, mas desta vez, use valores diferentes de __solver__ e __regularization__? O que é o novo valor __logLoss__?


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula


<details><summary>Clique aqui para ver a solução</summary>

```python
LR2 = LogisticRegression(C=0.01, solver='sag').fit(X_train,y_train)
yhat_prob2 = LR2.predict_proba(X_test)
print ("LogLoss: : %.2f" % log_loss(y_test, yhat_prob2))
```

</details>
