<h1 align="center"><font size="5"> Regress√£o Log√≠stica</font></h1>


Neste notebook, voc√™ aprender√° Regress√£o Log√≠stica e em seguida criar√° um modelo para uma empresa de telecomunica√ß√µes, para prever quando seus clientes partir√£o para um concorrente, para que eles possam tomar alguma provid√™ncia para ret√™-los.

<a id="ref1"></a>

## Qual √© a diferen√ßa entre Regress√£o Log√≠stica e Linear?

Embora a regress√£o linear seja adequada para estimar valores cont√≠nuos (por exemplo, estimar o pre√ßo da casa), n√£o √© a melhor ferramenta para prever a classe de um ponto de dados observado. Para estimar a classe de um ponto de dados, precisamos de algum tipo de orienta√ß√£o sobre qual seria a <b> classe mais prov√°vel </b> para esse ponto de dados. Para isso, utilizamos <b> Regress√£o Log√≠stica</b>.

<div class="alert alert-success alertsuccess" style="margin-top: 20px">
<font size = 3><strong>Revis√£o Regress√£o Linear:</strong></font>

Como voc√™ sabe, <b> regress√£o linear </b> encontra uma fun√ß√£o que relaciona uma vari√°vel dependente cont√≠nua, <b> y</b>, a alguns preditores (vari√°veis independentes $ x_1$, $ x_2$, etc.). Por exemplo, a regress√£o linear simples assume uma fun√ß√£o da forma:

$$
y = \theta_0 + \theta_1  x_1 + \theta_2  x_2 + \cdots
$$

e encontra os valores dos par√¢metros $ \theta_0, \theta_1, \theta_2$, etc, onde o termo $ \theta_0 $ √© a "intercepta√ß√£o". Geralmente, pode ser mostrado como:

$$
‚Ñé_\theta(ùë•) = \theta^TX
$$

</div>

A regress√£o log√≠stica √© uma varia√ß√£o da regress√£o linear, √∫til quando a vari√°vel dependente observada, <b> y</b>, √© categ√≥rica. Ele produz uma f√≥rmula que prev√™ a probabilidade do r√≥tulo da classe em fun√ß√£o das vari√°veis independentes.

A regress√£o log√≠stica se ajusta a uma curva especial em forma de S, tomando a regress√£o linear e transformando a estimativa num√©rica em uma probabilidade com a seguinte fun√ß√£o, que √© chamada de fun√ß√£o sigm√≥ide $ \sigma$:

$$
‚Ñé_\theta(ùë•) = \sigma({\theta^TX}) =  \frac {e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +...)}}{1 + e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +\cdots)}}
$$
Ou:
$$
ProbabilityOfaClass_1 =  P(Y=1|X) = \sigma({\theta^TX}) = \frac{e^{\theta^TX}}{1+e^{\theta^TX}} 
$$

Nesta equa√ß√£o, ${\theta^TX} $ √© o resultado da regress√£o (a soma das vari√°veis ponderadas pelos coeficientes), `exp` √© a fun√ß√£o exponencial e $ \sigma (\theta^TX) $ √© o sigm√≥ide ou [fun√ß√£o log√≠stica](http://en.wikipedia.org/wiki/Logistic_function?cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ&cm_mmc=Email_Newsletter-_-Developer_Ed%2BTech-_-WW_WW-_-SkillsNetwork-Courses-IBMDeveloperSkillsNetwork-ML0101EN-Coursera-20231514&cm_mmca1=000026UJ&cm_mmca2=10006555&cm_mmca3=M12345678&cvosrc=email.Newsletter.M12345678&cvo_campaign=000026UJ), tamb√©m chamada de curva log√≠stica. √â uma forma de "S" comum (curva sigm√≥ide).

Portanto, resumidamente, a regress√£o log√≠stica passa a entrada atrav√©s do log√≠stico/sigm√≥ide, mas trata o resultado como uma probabilidade:

<img
src="https://ibm.box.com/shared/static/kgv9alcghmjcv97op4d6onkyxevk23b1.png" width="400" align="center">

O objetivo do algoritmo de ** Regress√£o Log√≠stica**, √© encontrar os melhores par√¢metros Œ∏, para $ ‚Ñé_\theta(ùë•)$ = $ \sigma({\theta^TX})$, de forma que o modelo melhor prev√™ a classe de cada caso.


### Rotatividade de cliente com regress√£o log√≠stica

Uma empresa de telecomunica√ß√µes est√° preocupada com o n√∫mero de clientes que trocam seus neg√≥cios de telefonia fixa por concorrentes a cabo. Eles precisam entender quem est√° saindo. Imagine que voc√™ √© um analista dessa empresa e precisa descobrir quem est√° saindo e por qu√™.


Vamos importar as bibliotecas que precisaremos:


In [None]:
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as opt
from sklearn import preprocessing
%matplotlib inline 
import matplotlib.pyplot as plt

<h2 id="about_dataset">Sobre o conjunto de dados</h2>
Usaremos um conjunto de dados de telecomunica√ß√µes para prever a rotatividade de clientes. Este √© um conjunto de dados de cliente hist√≥rico em que cada linha representa um cliente. Os dados s√£o relativamente f√°ceis de entender e voc√™ pode descobrir insights que pode usar imediatamente. Normalmente √© mais barato manter clientes do que adquirir novos; portanto, o foco desta an√°lise √© prever quais clientes permanecer√£o na empresa.

Este conjunto de dados fornece informa√ß√µes para ajud√°-lo a prever qual comportamento o ajudar√° a reter clientes. Voc√™ pode analisar todos os dados relevantes do cliente e desenvolver programas de reten√ß√£o de clientes focados.

O conjunto de dados inclui informa√ß√µes sobre:

- Clientes que sa√≠ram no √∫ltimo m√™s - a coluna √© chamada Churn
- Servi√ßos que cada cliente assinou - telefone, v√°rias linhas, internet, seguran√ßa online, backup online, prote√ß√£o de dispositivo, suporte t√©cnico e streaming de TV e filmes
- Informa√ß√µes da conta do cliente - h√° quanto tempo ele √© cliente, contrato, forma de pagamento, faturamento sem papel, cobran√ßas mensais e cobran√ßas totais
- Informa√ß√µes demogr√°ficas sobre clientes - sexo, faixa et√°ria e se eles t√™m parceiros e dependentes


### Dados Telco Churn

Telco Churn √© um arquivo de dados hipot√©tico que diz respeito aos esfor√ßos de uma empresa de telecomunica√ß√µes para reduzir a rotatividade de sua base de clientes. Cada caso corresponde a um cliente separado e registra v√°rias informa√ß√µes demogr√°ficas e de uso do servi√ßo.

### Carregar arquivo CSV contendo os dados


In [None]:
churn_df = pd.read_csv("datasets/churn_dataset/ChurnData.csv")
churn_df.head()

<h2 id="preprocessing">Sele√ß√£o e pr√© processamento dos dados</h2>


Vamos selecionar alguns recursos para a modelagem. Al√©m disso, alteramos o tipo de dados de destino para inteiro, pois √© um requisito dos algoritmos do skitlearn:

In [None]:
churn_df = churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip',   'callcard', 'wireless','churn']]
churn_df['churn'] = churn_df['churn'].astype('int')
churn_df.head()

## Exerc√≠cio

Quantas linhas e colunas existem neste conjunto de dados no total? Quais s√£o os nomes das colunas?


In [None]:
# Escreva seu c√≥digo abaixo. N√£o se esque√ßa de pressionar Shift + Enter para executar a c√©lula



<details><summary>Clique aqui para ver a solu√ß√£o</summary>

```python
churn_df.shape

```

</details>

Definindo X (entradas) e y (sa√≠das)

In [None]:
X = np.asarray(churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip']])
X[0:5]

In [None]:
y = np.asarray(churn_df['churn'])
y [0:5]

Normaliza√ß√£o dos dados:


In [None]:
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)
X[0:5]

## Conjuntos de Treino/Teste


Dividimos nosso conjunto de dados em conjunto de treinamento e teste:


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Conjunto de treino:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

<h2 id="modeling">Modelagem</h2>


Vamos construir nosso modelo usando ** LogisticRegression** do pacote Scikit-learn. Esta fun√ß√£o implementa regress√£o log√≠stica e pode usar diferentes otimizadores num√©ricos para encontrar par√¢metros, incluindo solucionadores ‚Äònewton-cg‚Äô, ‚Äòlbfgs‚Äô, ‚Äòliblinear‚Äô, ‚Äòsag‚Äô, ‚Äòsaga‚Äô. Voc√™ pode encontrar muitas informa√ß√µes sobre os pr√≥s e os contras desses otimizadores se pesquisar na Internet.

A vers√£o de Regress√£o Log√≠stica em Scikit-learn, suporta regulariza√ß√£o. A regulariza√ß√£o √© uma t√©cnica usada para resolver o problema de overfitting em modelos de aprendizado de m√°quina.
O par√¢metro ** C ** indica ** inverso da for√ßa de regulariza√ß√£o ** que deve ser uma flutua√ß√£o positiva. Valores menores especificam regulariza√ß√£o mais forte.
Agora vamos ajustar nosso modelo com o conjunto de trem:


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
LR = LogisticRegression(C=0.01, solver='liblinear').fit(X_train,y_train)
LR

Predi√ß√£o utilizando o conjunto de teste:


In [None]:
yhat = LR.predict(X_test)
yhat

** predict_proba ** retorna estimativas para todas as classes, ordenadas pelo r√≥tulo das classes. Portanto, a primeira coluna √© a probabilidade da classe 1, P(Y = 1 | X), e a segunda coluna √© a probabilidade da classe 0, P(Y = 0 | X):

In [None]:
yhat_prob = LR.predict_proba(X_test)
yhat_prob

<h2 id="evaluation">Avalia√ß√£o</h2>


### √çndice jaccard

Vamos tentar o √≠ndice jaccard para avalia√ß√£o da precis√£o. podemos definir jaccard como o tamanho da interse√ß√£o dividido pelo tamanho da uni√£o de dois conjuntos de etiquetas. Se todo o conjunto de r√≥tulos previstos para uma amostra corresponder estritamente ao conjunto verdadeiro de r√≥tulos, a precis√£o do subconjunto ser√° 1,0; caso contr√°rio, √© 0,0.


In [None]:
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_test, yhat)

### Matriz de confus√£o

Outra maneira de ver a precis√£o do classificador √© examinar a ** matriz de confus√£o**.


In [None]:
from sklearn.metrics import classification_report, confusion_matrix
import itertools
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Matriz de confus√£o',
                          cmap=plt.cm.Blues):
    """
    Esta fun√ß√£o imprime e plota a matriz de confus√£o.
    A normaliza√ß√£o pode ser aplicada definindo `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Matriz de confus√£o normalizada")
    else:
        print('Matriz de confus√£o, sem normaliza√ß√£o')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('R√≥tulo verdadeiro')
    plt.xlabel('R√≥tulo previsto')
print(confusion_matrix(y_test, yhat, labels=[1,0]))

In [None]:
# C√°lculo da matriz de confus√£o
cnf_matrix = confusion_matrix(y_test, yhat, labels=[1,0])
np.set_printoptions(precision=2)


# Plot da matriz de confus√£o n√£o normalizada
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=['churn=1','churn=0'],normalize= False,  title='Matriz de Confus√£o')

Veja a primeira linha. A primeira linha √© para clientes cujo valor de rotatividade real no conjunto de teste √© 1.
Como voc√™ pode calcular, entre 40 clientes, o valor de rotatividade de 15 deles √© 1.
E desses 15, o classificador previu corretamente 6 deles como 1 e 9 deles como 0.

Isso significa que, para 6 clientes, o valor de rotatividade real era 1 no conjunto de teste, e o classificador tamb√©m previu esses como 1. No entanto, enquanto o r√≥tulo real de 9 clientes era 1, o classificador previu aqueles como 0, o que n√£o √© muito bom . Podemos consider√°-lo um erro do modelo para a primeira linha.

E quanto aos clientes com valor de rotatividade 0? Vejamos a segunda linha.
Parece que havia 25 clientes cujo valor de rotatividade era 0.

O classificador previu corretamente 24 deles como 0 e um deles erroneamente como 1. Portanto, ele fez um bom trabalho ao prever os clientes com valor de rotatividade 0. Uma coisa boa sobre a matriz de confus√£o √© que mostra a capacidade do modelo de prever corretamente ou separar as classes. No caso espec√≠fico do classificador bin√°rio, como neste exemplo, podemos interpretar esses n√∫meros como a contagem de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

In [None]:
print (classification_report(y_test, yhat))


Com base na contagem de cada se√ß√£o, podemos calcular a precis√£o e a recupera√ß√£o de cada r√≥tulo:

- ** Precis√£o ** √© uma medida da precis√£o, desde que um r√≥tulo de classe tenha sido previsto. √â definido por: precis√£o = TP / (TP + FP)

- ** Recall ** √© uma taxa verdadeiramente positiva. √â definido como: Recall = TP / (TP + FN)

Assim, podemos calcular a precis√£o e a recupera√ß√£o de cada classe.

** Pontua√ß√£o F1: **
Agora estamos em posi√ß√£o de calcular as pontua√ß√µes F1 para cada r√≥tulo com base na precis√£o e recupera√ß√£o desse r√≥tulo.

A pontua√ß√£o F1 √© a m√©dia harm√¥nica da precis√£o e recupera√ß√£o, onde uma pontua√ß√£o F1 atinge seu melhor valor em 1 (precis√£o perfeita e recupera√ß√£o) e pior em 0. √â uma boa maneira de mostrar que um classificador tem um bom valor para ambos recall e precis√£o.

E, finalmente, podemos dizer que a precis√£o m√©dia para este classificador √© a m√©dia da pontua√ß√£o F1 para ambos os r√≥tulos, que √© 0,72 em nosso caso.

### log loss

Agora, vamos tentar ** log loss** para avalia√ß√£o. Na regress√£o log√≠stica, a sa√≠da pode ser a probabilidade de rotatividade do cliente em ser positiva (ou igual a 1). Essa probabilidade √© um valor entre 0 e 1.
O log loss (perda logar√≠tmica) mede o desempenho de um classificador onde a sa√≠da prevista √© um valor de probabilidade entre 0 e 1.


In [None]:
from sklearn.metrics import log_loss
log_loss(y_test, yhat_prob)

<h2 id="practice">Exerc√≠cio</h2>
Tente construir o modelo de regress√£o log√≠stica novamente para o mesmo conjunto de dados, mas desta vez, use valores diferentes de __solver__ e __regularization__? O que √© o novo valor __logLoss__?


In [None]:
# Escreva seu c√≥digo abaixo. N√£o se esque√ßa de pressionar Shift + Enter para executar a c√©lula


<details><summary>Clique aqui para ver a solu√ß√£o</summary>

```python
LR2 = LogisticRegression(C=0.01, solver='sag').fit(X_train,y_train)
yhat_prob2 = LR2.predict_proba(X_test)
print ("LogLoss: : %.2f" % log_loss(y_test, yhat_prob2))
```

</details>
