<a href="https://www.bigdatauniversity.com"><img src = "https://ibm.box.com/shared/static/cw2c7r3o20w9zn8gkecaeyjhgw3xdgbj.png" width = 400, align = "center"></a>

<h1 align=center><font size = 5> Regress√£o log√≠stica com Python</font></h1>

Neste notebook, voc√™ aprender√° sobre regress√£o log√≠stica e, em seguida, criar√° um modelo para uma empresa de telecomunica√ß√µes, com a finalidade de prever quando seus clientes passar√£o para uma empresa concorrente, de modo que possam tomar medidas para ret√™-los.


<a id="ref1"></a>
## Qual a diferen√ßa entre a regress√£o linear e a log√≠stica?

Embora a regress√£o linear seja adequada para estimar valores cont√≠nuos (ex.: o pre√ßo de uma casa), n√£o √© a melhor ferramenta para prever a classe de um ponto de dados observado. Para estimar a classe a que um ponto de dados pertence, precisamos de algum tipo de orienta√ß√£o sobre qual seria sua **classe mais prov√°vel**. Para isso, usamos a **Regress√£o Log√≠stica**.

<div class="alert alert-success alertsuccess" style="margin-top: 20px">
<font size = 3><strong>Para recordar a regress√£o linear:</strong></font>
<br>
<br>
Como voc√™ sabe, a __regress√£o linear__ encontra uma fun√ß√£o que relaciona uma vari√°vel dependente cont√≠nua, _y_, a alguns preditores (vari√°veis independentes _x1_, _x2_, etc.). Por exemplo: a regress√£o linear simples pressup√µe uma fun√ß√£o com a seguinte forma: 
<br><br>
$$
y = ùúÉ0 + ùúÉ1 * x1 + ùúÉ2 * x2 +...
$$
<br>
e encontra os valores dos par√¢metros _Œ∏0_, _Œ∏1_, _ùúÉ2_, etc, onde o termo _ùúÉ0_ √© a ‚Äúordenada de origem‚Äù. 

Geralmente pode ser representada assim: 
<br><br>
$$
‚Ñé_Œ∏(ùë•) = ùúÉ^TX
$$
<p></p>

</div>

A regress√£o log√≠stica √© uma varia√ß√£o da regress√£o linear e √© √∫til quando a vari√°vel dependente observada, _y_, √© categ√≥rica. Produz uma f√≥rmula que prev√™ a probabilidade do r√≥tulo da classe como uma fun√ß√£o das vari√°veis independentes.

A regress√£o log√≠stica ajusta-se a uma curva especial em forma de s. Para isso, toma a regress√£o linear e transforma a estimativa num√©rica em uma probabilidade com a seguinte fun√ß√£o, denominada fun√ß√£o sigmoide ùúé:

$$
‚Ñé_Œ∏(ùë•) = ùúé({Œ∏^TX}) =  \frac {e^{(Œ∏0 + Œ∏1 * x1 + Œ∏2 * x2 +...)}}{1 + e^{(Œ∏0 + Œ∏1 * x1 + Œ∏2 * x2 +...)}}
$$
Ou:
$$
ProbabilityOfaClass_1 =  P(Y=1|X) = ùúé({Œ∏^TX}) = \frac{e^{Œ∏^TX}}{1+e^{Œ∏^TX}} 
$$

Nesta equa√ß√£o, ${Œ∏^TX}$ √© o resultado da regress√£o (a soma das vari√°veis ponderadas pelos coeficientes), `exp` √© a fun√ß√£o exponencial e $ùúé(Œ∏^TX)$ √© a fun√ß√£o sigmoide ou log√≠stica, tamb√©m chamada de [curva log√≠stica](http://en.wikipedia.org/wiki/Logistic_function). √â uma forma comum de ‚ÄúS‚Äù (curva sigmoide).

Em resumo, a regress√£o log√≠stica transforma os dados de entrada atrav√©s de uma fun√ß√£o log√≠stica ou sigmoide, mas, em seguida, trata o resultado como uma probabilidade:

<img
src="https://ibm.box.com/shared/static/kgv9alcghmjcv97op4d6onkyxevk23b1.png" width = "400" align = "center">


O objetivo do algoritmo de __regress√£o log√≠stica__ √© encontrar os melhores par√¢metros Œ∏, para ‚Ñé_Œ∏(ùë•) = ùúé({Œ∏^TX}), de tal maneira que o modelo fa√ßa a melhor previs√£o da classe a que pertence cada caso.

### Churn de clientes com regress√£o log√≠stica
Uma empresa de telecomunica√ß√µes est√° preocupada com a quantidade de clientes que cancelam seus servi√ßos de telefonia fixa e contratam empresas concorrentes que oferecem servi√ßo por cabo. Precisam saber quem s√£o os clientes que est√£o deixando a empresa. Imagine que voc√™ √© um analista que trabalha nesta empresa e precisa descobrir quem est√° cancelando o servi√ßo e por qu√™.

Vamos primeiro importar as bibliotecas necess√°rias:

In [None]:
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as opt
from sklearn import preprocessing
%matplotlib inline 
import matplotlib.pyplot as plt

### Sobre o conjunto de dados
Usaremos dados de telecomunica√ß√µes para prever a perda de clientes (churn). Trata-se de dados hist√≥ricos de clientes e cada linha representa um cliente. Os dados s√£o relativamente f√°ceis de entender e √© poss√≠vel obter insights que podem ser usados imediatamente. Geralmente, √© mais barato manter os clientes atuais do que captar novos, portanto, o foco desta an√°lise √© prever quem continuar√° sendo cliente da empresa.


Esse conjunto de dados fornece informa√ß√µes que ajudam a prever o comportamento dos clientes, com a finalidade de ret√™-los. Voc√™ pode analisar todos os dados relevantes sobre os clientes e desenvolver programas de reten√ß√£o.


O conjunto de dados inclui informa√ß√µes sobre:
- Clientes perdidos no √∫ltimo m√™s - a coluna √© denominada Churn
- Servi√ßos que os clientes contrataram - telefone, v√°rias linhas, internet, seguran√ßa on-line, backup on-line, prote√ß√£o de dispositivos, suporte t√©cnico e streaming de TV e filmes
- Informa√ß√µes das contas dos clientes - h√° quanto tempo s√£o clientes, contrato, forma de pagamento, fatura eletr√¥nica, cobran√ßas mensais e cobran√ßas totais
- Informa√ß√µes demogr√°ficas sobre os clientes - sexo, faixa et√°ria e se t√™m parceiros e dependentes



###  Carregar os dados do Telco Churn
O Telco Churn √© um arquivo de dados hipot√©ticos sobre os esfor√ßos de uma empresa de telecomunica√ß√µes para reduzir a perda de clientes. Cada caso corresponde a um cliente separado e registra v√°rias informa√ß√µes demogr√°ficas e de uso de servi√ßos. Antes de poder trabalhar com os dados, voc√™ deve usar o URL para obter o arquivo ChurnData.csv.

Utilizaremos o `!wget` para baixar os dados a partir do IBM Object Storage.

In [None]:
#Clique aqui e pressione Shift + Enter
!wget -O ChurnData.csv https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/ChurnData.csv

__Voc√™ sabia?__ Ao utilizar o aprendizado de m√°quina, √© prov√°vel que trabalhe com conjuntos de dados de grandes dimens√µes. Como empresa, onde voc√™ pode hospedar seus dados? A IBM est√° oferecendo uma oportunidade √∫nica para empresas, com 10 TB de armazenamento no IBM Cloud Object Storage: [Inscreva-se agora gratuitamente](http://cocl.us/ML0101EN-IBM-Offer-CC)

### Carregar dados a partir do arquivo CSV  

In [None]:
churn_df = pd.read_csv("ChurnData.csv")
churn_df.head()

## Pr√©-processamento e sele√ß√£o dos dados

Vamos selecionar algumas caracter√≠sticas para a modelagem. Al√©m disso, alteramos o tipo de dados de destino para inteiros, pois √© um requisito do algoritmo skitlearn:

In [None]:
churn_df = churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip',   'callcard', 'wireless','churn']]
churn_df['churn'] = churn_df['churn'].astype('int')
churn_df.head()

## Pr√°tica
Quantas linhas e colunas h√° neste conjunto de dados no total? Quais s√£o os nomes das colunas?

In [None]:
# Escreva seu c√≥digo aqui





Definimos X e y para nosso conjunto de dados:

In [None]:
X = np.asarray(churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip']])
X[0:5]

In [None]:
y = np.asarray(churn_df['churn'])
y [0:5]

Al√©m disso, normalizamos o conjunto de dados:

In [None]:
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)
X[0:5]

## Conjunto de dados de treinamento/teste

Dividimos nosso conjunto de dados em conjuntos de treinamento e de teste:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Train set:', X_train.shape,  y_train.shape)
print ('Test set:', X_test.shape,  y_test.shape)

# Modelagem (Regress√£o log√≠stica com Scikit-learn)

Vamos construir nosso modelo com a fun√ß√£o __LogisticRegression__ do pacote Scikit-learn. Essa fun√ß√£o implementa a regress√£o log√≠stica e pode usar diferentes otimizadores num√©ricos para encontrar par√¢metros, incluindo os solucionadores ‚Äònewton-cg‚Äô, ‚Äòlbfgs‚Äô, ‚Äòliblinear‚Äô, ‚Äòsag‚Äô e ‚Äòsaga‚Äô. Na internet h√° uma grande quantidade de informa√ß√µes sobre as vantagens e desvantagens desses otimizadores.

A vers√£o de regress√£o log√≠stica no Scikit-learn suporta a regulariza√ß√£o. A regulariza√ß√£o √© uma t√©cnica usada para resolver o problema de excesso de ajuste (overfitting) em modelos de aprendizado de m√°quina. O par√¢metro __C__ indica o **inverso da for√ßa de regulariza√ß√£o**, que deve ser uma flutua√ß√£o positiva. Quando menor o valor, maior √© a regulariza√ß√£o. Vamos ajustar nosso modelo com o conjunto de treinamento:

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
LR = LogisticRegression(C=0.01, solver='liblinear').fit(X_train,y_train)
LR

Agora podemos prever utilizando nosso conjunto de testes:

In [None]:
yhat = LR.predict(X_test)
yhat

__predict_proba__ retorna estimativas para todas as classes, ordenadas pelo r√≥tulo das classes. Ent√£o, a primeira coluna √© a probabilidade da classe 1, P(Y=1|X) e a segunda coluna √© a probabilidade da classe 0, P(Y=0|X):

In [None]:
yhat_prob = LR.predict_proba(X_test)
yhat_prob

## Avalia√ß√£o

### √çndice de Jaccard
Vamos avaliar a precis√£o com o √≠ndice de Jaccard. Podemos definir esse √≠ndice como o tamanho da interse√ß√£o dividido pelo tamanho da uni√£o de dois conjuntos de r√≥tulos. Se todo o conjunto de r√≥tulos previstos para uma amostra corresponder ao conjunto real de r√≥tulos, a precis√£o do subconjunto ser√° 1.0; caso contr√°rio, ser√° 0.0.


In [None]:
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_test, yhat)

### matriz de confus√£o
Outra maneira de avaliar a precis√£o do classificador √© observar a __matriz de confus√£o__.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix
import itertools
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')
print(confusion_matrix(y_test, yhat, labels=[1,0]))

In [None]:
# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test, yhat, labels=[1,0])
np.set_printoptions(precision=2)


# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=['churn=1','churn=0'],normalize= False,  title='Confusion matrix')

Observe a primeira linha. A primeira linha √© para os clientes cujo valor real de churn no conjunto de teste √© 1. Ao fazer o c√°lculo sobre um total de 40 clientes, o valor de _churn_ de 15 deles √© igual a 1. E entre esses 15, o classificador previu corretamente 6 deles como 1 e 9 deles como 0.

Isso significa que, para 6 clientes, o valor real de churn foi 1 no conjunto de teste e o classificador tamb√©m previu corretamente que seria 1. No entanto, embora o r√≥tulo real de 9 clientes tenha sido 1, o classificador previu que esses seriam 0, o que n√£o √© muito bom. Podemos consider√°-lo como erro do modelo para a primeira linha.

E quanto aos clientes com o valor de churn igual a 0? Observemos a segunda linha. Parece que houve 25 clientes cujo valor de _churn_ foi igual a 0.

O classificador previu corretamente 24 deles como 0 e um deles erroneamente como 1. Fez um bom trabalho de previs√£o de clientes com valor de _churn_ igual a 0. Uma coisa boa sobre a matriz de confus√£o √© que mostra a capacidade do modelo de prever ou separar corretamente as classes. No caso espec√≠fico do classificador bin√°rio, como este exemplo, podemos interpretar esses n√∫meros como a quantidade de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.


In [None]:
print (classification_report(y_test, yhat))


Com base na quantidade de cada se√ß√£o, podemos calcular a precis√£o (precision) e a revoca√ß√£o (recall) de cada r√≥tulo:
- A __precis√£o__ √© uma medida da exatid√£o, desde que se tenha previsto um r√≥tulo de classe. √â definida por: precis√£o = TP / (TP + FP)
- A __revoca√ß√£o__ √© a taxa de verdadeiros positivos. √â definida como: revoca√ß√£o = TP / (TP + FN)
Assim, podemos calcular a precis√£o e a revoca√ß√£o de cada classe.

__Valor F1:__ 
Agora estamos em condi√ß√µes de calcular os valores F1 para cada r√≥tulo a partir da precis√£o e da revoca√ß√£o do r√≥tulo.

O valor F1 √© a m√©dia harm√¥nica da precis√£o e da revoca√ß√£o; atinge seu melhor valor em 1 (precis√£o e revoca√ß√£o perfeitas) e o pior em 0. √â uma boa maneira de mostrar que um classificador tem bom valor tanto de revoca√ß√£o quanto de precis√£o.

E, por √∫ltimo, podemos dizer que a precis√£o m√©dia deste classificador √© a m√©dia do valor F1 de ambos os r√≥tulos, que em nosso caso √© 0,72.

### log loss
Agora, vamos tentar avaliar com __log loss__. Na regress√£o log√≠stica, a informa√ß√£o de sa√≠da pode ser a probabilidade de haver churn de cliente (ou ser igual a 1). Essa probabilidade √© um valor entre 0 e 1. Log loss (perda logar√≠tmica) mede o desempenho de um classificador em que a informa√ß√£o de sa√≠da prevista √© um valor de probabilidade entre 0 e 1.


In [None]:
from sklearn.metrics import log_loss
log_loss(y_test, yhat_prob)

## Pr√°tica
Tente construir novamente um modelo de regress√£o log√≠stica para o mesmo conjunto de dados, mas, desta vez, use valores diferentes de __solucionador [solver]__ e __regulariza√ß√£o__. Qual √© novo valor de __logLoss__?

In [None]:
# write your code here




Double-click __here__ for the solution.

<!-- Your answer is below:
    
LR2 = LogisticRegression(C=0.01, solver='sag').fit(X_train,y_train)
yhat_prob2 = LR2.predict_proba(X_test)
print ("LogLoss: : %.2f" % log_loss(y_test, yhat_prob2))

-->

## Deseja saber mais?

A IBM SPSS Modeler √© uma plataforma anal√≠tica abrangente que possui muitos algoritmos de aprendizado de m√°quina. Foi projetada para levar intelig√™ncia preditiva √†s decis√µes tomadas pelas pessoas, pelos grupos, pelos sistemas e por sua empresa como um todo. Este curso lhe permite acessar uma avalia√ß√£o gratuita, dispon√≠vel aqui: [SPSS Modeler](http://cocl.us/ML0101EN-SPSSModeler).

Tamb√©m √© poss√≠vel utilizar o Watson Studio para executar esses notebooks mais rapidamente com conjuntos de dados maiores. O Watson Studio √© a solu√ß√£o de nuvem de vanguarda da IBM para cientistas de dados, constru√≠da por cientistas de dados. Com os notebooks Jupyter, RStudio, Apache Spark e outras bibliotecas populares pr√©-empacotadas na nuvem, o Watson Studio permite que os cientistas de dados colaborem em seus projetos sem a necessidade de instalar nada. Junte-se hoje mesmo √† comunidade de usu√°rios do Watson Studio, que cresce cada dia mais, com uma conta gratuita em [Watson Studio](https://cocl.us/ML0101EN_DSX)

### Obrigado por concluir esta li√ß√£o!

Notebook criado por: <a href = "https://ca.linkedin.com/in/saeedaghabozorgi">Saeed Aghabozorgi</a>

<hr>

Copyright &copy; 2018 [Cognitive Class](https://cocl.us/DX0108EN_CC). Este notebook e seu c√≥digo-fonte s√£o divulgados de acordo com os termos da [Licen√ßa do MIT](https://bigdatauniversity.com/mit-license/).‚Äã