<h1 align="center"><font size="5"> Regress√£o Log√≠stica</font></h1>

Nesta aula, voc√™ aprender√° a Regress√£o Log√≠stica e, em seguida, criar√° um modelo para uma empresa de telecomunica√ß√µes, para prever quando os clientes sair√£o para um concorrente, sendo poss√≠vel tomar medidas para reter os clientes.

## Qual √© a diferen√ßa entre Regress√£o Linear e Regress√£o Log√≠stica?

Enquanto a Regress√£o Linear √© adequada para estimar valores cont√≠nuos (por exemplo, estimar o pre√ßo de um im√≥vel), n√£o √© a melhor ferramenta para prever a classe de um ponto de dados observado. Para estimar a classe de um determinado dado, precisamos de algum tipo de orienta√ß√£o sobre a qual seria a **classe mais prov√°vel** para esse dado. Para isso, usamos **Regress√£o Log√≠stica**.

<div class="alert alert-success alertsuccess" style="margin-top: 20px">
<font size = 3><strong>Relembrando a Regress√£o Linear:</strong></font>
<br>
<br>
    Como voc√™ sabe, a <b>regress√£o linear</b> encontra uma fun√ß√£o que relaciona uma vari√°vel dependente cont√≠nua, <b>y</b>, a alguns preditores (vari√°veis independentes $x_1$, $x_2$, etc.). Por exemplo, a regress√£o linear simples assume uma fun√ß√£o da forma:
<br><br>
$$
y = \theta_0 + \theta_1  x_1 + \theta_2  x_2 + \cdots
$$
<br>
e encontra os valores dos par√¢metros $\theta_0, \theta_1, \theta_2$, etc, onde o termo $\theta_0$ √© o "intercepto". Pode ser geralmente mostrado como:
<br><br>
$$
‚Ñé_\theta(ùë•) = \theta^TX
$$
<p></p>

</div>
A **Regress√£o Log√≠stica** √© uma varia√ß√£o da Regress√£o Linear. √â √∫til quando a vari√°vel dependente observada, <b>y</b>, √© categ√≥rica. Ela produz uma f√≥rmula que prev√™ a probabilidade do r√≥tulo da classe como uma fun√ß√£o das vari√°veis independentes.

A regress√£o log√≠stica ajusta-se a uma curva especial em forma de s tomando a regress√£o linear e transformando a estimativa num√©rica em uma probabilidade com a seguinte fun√ß√£o, denominada fun√ß√£o sigmoide ùúé:
$$
‚Ñé_\theta(ùë•) = \sigma({\theta^TX}) =  \frac {e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +...)}}{1 + e^{(\theta_0 + \theta_1  x_1 + \theta_2  x_2 +\cdots)}}
$$
Ou:
$$
ProbabilidadeDaClasse_1 =  P(Y=1|X) = \sigma({\theta^TX}) = \frac{e^{\theta^TX}}{1+e^{\theta^TX}} 
$$

Nesta equa√ß√£o, ${\theta^TX}$ √© o resultado da regress√£o (a soma das vari√°veis ponderadas pelos coeficientes), 'exp' √© a fun√ß√£o exponencial e $\sigma(\theta^TX)$ √© a fun√ß√£o sigm√≥ide ou [log√≠stica] (http: //en.wikipedia .org / wiki / Logistic_function), tamb√©m chamado de curva log√≠stica, e possui o formato de um "S" (curva sigm√≥ide).

Ent√£o, resumidamente, a regress√£o log√≠stica passa a entrada atrav√©s da fun√ß√£o log√≠stica/sigmoide, mas depois trata o resultado como uma probabilidade:

<img
src="https://ibm.box.com/shared/static/kgv9alcghmjcv97op4d6onkyxevk23b1.png" width="400" align="center">

O objetivo do algoritmo de __Regress√£o Log√≠stica__, √© encontrar os melhores par√¢metros Œ∏, para $ ‚Ñé_\theta(ùë•)$ = $\sigma({\theta^TX})$, de tal forma que o modelo prediga melhor a classe de cada caso.

### Rotatividade de clientes (_churn_) com regress√£o log√≠stica
Uma empresa de telecomunica√ß√µes est√° preocupada com o n√∫mero de clientes que abandonam seus neg√≥cios de linhas fixas e v√£o para concorrentes. Eles precisam entender quem est√° saindo. Imagine que voc√™ √© um analista nesta empresa e precisa descobrir quem est√° saindo e por qu√™.

Vamos primeiro importar os m√≥dulos necess√°rios:

In [None]:
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as opt
from sklearn import preprocessing
%matplotlib inline 
import matplotlib.pyplot as plt

###  Download dos dados
O _Telco Churn_ √© um arquivo de dados hipot√©ticos que diz respeito aos esfor√ßos de uma empresa de telecomunica√ß√µes para reduzir o volume de neg√≥cios perdidos em sua base de clientes. Cada caso corresponde a um cliente separado e registra v√°rias informa√ß√µes demogr√°ficas e de uso do servi√ßo. Antes de poder trabalhar com os dados, voc√™ deve usar o URL para obter o ChurnData.csv.

O download dos dados pode ser realizado por meio do IBM Object Storage, dispon√≠vel em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/ChurnData.csv

## Entendendo os dados
Usaremos um conjunto de dados de telecomunica√ß√µes para prever a rotatividade de clientes. Este √© um conjunto de dados hist√≥rico do cliente em que cada linha representa um cliente. Os dados s√£o relativamente f√°ceis de entender e voc√™ pode descobrir insights que voc√™ pode usar imediatamente. Normalmente, √© mais barato manter os clientes do que adquirir novos, portanto, o foco dessa an√°lise √© prever os clientes que permanecer√£o na empresa.

Esse conjunto de dados fornece informa√ß√µes para ajud√°-lo a prever o comportamento que ajudar√° voc√™ a manter os clientes. Voc√™ pode analisar todos os dados relevantes do cliente e desenvolver programas de reten√ß√£o de clientes.

O conjunto de dados inclui informa√ß√µes sobre:

- Clientes que sa√≠ram no √∫ltimo m√™s - a coluna chama-se Churn
- Servi√ßos para os quais cada cliente se inscreveu - telefone, v√°rias linhas, internet, seguran√ßa on-line, backup on-line, prote√ß√£o de dispositivos, suporte t√©cnico e transmiss√£o de TV e filmes
- Informa√ß√µes da conta do cliente - por quanto tempo eles foram cliente, contrato, forma de pagamento, faturamento digital, cobran√ßas mensais e cobran√ßas totais
- Informa√ß√µes demogr√°ficas sobre clientes - sexo, faixa et√°ria e se eles t√™m parceiros e dependentes

## Lendo os dados

In [None]:
churn_df = pd.read_csv("ChurnData.csv")
churn_df.head()

## Pr√©-processamento dos dados e sele√ß√£o

Vamos selecionar alguns recursos para a modelagem. Tamb√©m alteramos o tipo de dado de destino para que ele seja inteiro (isso √© um requisito do algoritmo skitlearn):

In [None]:
churn_df = churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip',   'callcard', 'wireless','churn']]
churn_df['churn'] = churn_df['churn'].astype('int')
churn_df.head()

## Pr√°tica
Qual o total de linhas e colunas deste conjunto de dados? Quais s√£o os nomes das colunas?

In [None]:
# Escreva seu c√≥digo aqui
churn_df.shape



Vamos definir X e y para nosso conjunto de dados:

In [None]:
X = np.asarray(churn_df[['tenure', 'age', 'address', 'income', 'ed', 'employ', 'equip']])
X[0:5]

In [None]:
y = np.asarray(churn_df['churn'])
y [0:5]

Al√©m disso, vamos normalizar o conjunto de dados:

In [None]:
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)
X[0:5]

## Conjuntos de Treinamento e Valida√ß√£o

Vamos dividir o nosso conjunto de dados em treinamento e conjunto de testes:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Dados de Treinamento:', X_train.shape,  y_train.shape)
print ('Dados de Valida√ß√£o:', X_test.shape,  y_test.shape)

## Modelagem (Regress√£o Log√≠stica com Scikit-learn)

Vamos construir nosso modelo usando __LogisticRegression__ do pacote Scikit-learn. Essa fun√ß√£o implementa a regress√£o log√≠stica e pode usar diferentes otimizadores num√©ricos para encontrar par√¢metros, incluindo os _solvers_ `newton-cg`, `lbfgs`, `liblinear`, `sag` e `saga`. Voc√™ pode encontrar informa√ß√µes detalhadas sobre os pr√≥s e contras desses otimizadores se pesquisar na Internet.

A vers√£o de Regress√£o Log√≠stica no Scikit-learn, suporta a regulariza√ß√£o. A regulariza√ß√£o √© uma t√©cnica usada para resolver o problema de overfitting em modelos de aprendizado de m√°quina.
O par√¢metro <b>C</b> indica o <b>inverso da for√ßa de regulariza√ß√£o</b> que deve ser uma flutua√ß√£o positiva. Valores menores especificam uma regulariza√ß√£o mais forte.
Agora vamos ajustar nosso modelo com o conjunto de dados de treinamento:

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
LR = LogisticRegression(C=0.01, solver='liblinear').fit(X_train,y_train)
LR

Agora podemos prever usando nosso conjunto de testes (valida√ß√£o):

In [None]:
yhat = LR.predict(X_test)
yhat

__predict_proba__ retorna estimativas para todas as classes, ordenadas pelo r√≥tulo das classes. Ent√£o, a primeira coluna √© a probabilidade da classe 1, P (Y = 1 | X), e a segunda coluna √© a probabilidade da classe 0, P (Y = 0 | X):

In [None]:
yhat_prob = LR.predict_proba(X_test)
yhat_prob

## Avalia√ß√£o

### √çndice de Jaccard
Vamos utilizar o √≠ndice de jaccard para avalia√ß√£o da precis√£o, podemos definir jaccard como o tamanho da interse√ß√£o dividida pelo tamanho da uni√£o de dois conjuntos de r√≥tulos. Se todo o conjunto de r√≥tulos previstos para uma amostra corresponder estritamente ao conjunto real de r√≥tulos, a precis√£o do subconjunto ser√° 1.0; caso contr√°rio, √© 0.0.


In [None]:
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_test, yhat)

## Matriz de Confus√£o
Outra maneira de ver a precis√£o do classificador √© olhar para __Matriz de Confus√£o__.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix
import itertools

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Matriz de Confus√£o',
                          cmap=plt.cm.Blues):
    """
    Esta fun√ß√£o imprime e plota a matriz de confus√£o.
    A normaliza√ß√£o pode ser aplicada configurando 'normalize = True'.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Matriz de confus√£o normalizada")
    else:
        print("Matriz de confus√£o, sem normaliza√ß√£o")

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('Valor Verdadeiro')
    plt.xlabel('Valor Previsto')
print(confusion_matrix(y_test, yhat, labels=[1,0]))

In [None]:
# Calcula a Matriz de Confus√£o
cnf_matrix = confusion_matrix(y_test, yhat, labels=[1,0])
np.set_printoptions(precision=2)


# Plota a Matriz de Confus√£o n√£o-normalizada
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=['churn=1','churn=0'],normalize= False,  title='Matriz de Confus√£o')

Olhe para a primeira linha. A primeira linha √© para clientes cujo valor de _churn_ (rotatividade) no conjunto de testes √© 1 (Verdadeiro). Como voc√™ pode calcular, de 40 clientes, o valor de _churn_ de 15 deles √© 1. E desses 15, o classificador previu corretamente 6 deles como 1 (Verdadeiro Positivo) e 9 deles como 0 (Falso Negativo).

Isso significa que, para 6 clientes, o valor real de churn era 1 no conjunto de testes, e o classificador tamb√©m previu corretamente aqueles como 1. No entanto, enquanto o r√≥tulo real de 9 clientes era 1, o classificador previu esses como 0, o que n√£o √© muito bom . Podemos consider√°-lo como erro do modelo para a primeira linha.

E quanto aos clientes com valor de churn 0 (Negativo)? Vamos olhar para a segunda linha. Haviam 25 clientes cujo valor de _churn_ era 0.


O classificador previu corretamente 24 deles como 0 (Verdadeiro Negativo), e um deles erroneamente como 1 (Falso Positivo). Ent√£o, ele fez um bom trabalho em predizer os clientes com o valor de churn 0. Uma coisa boa sobre a matriz de confus√£o √© que mostra a capacidade do modelo de prever corretamente ou separar as classes. No caso espec√≠fico do classificador bin√°rio, como neste exemplo, podemos interpretar esses n√∫meros como a contagem de Verdadeiros Positivos, Falsos Positivos, Verdadeiros Negativos e Falsos Negativos.

In [None]:
print (classification_report(y_test, yhat))


Com base na contagem de cada se√ß√£o, podemos calcular a __precis√£o__ e o __recall__ de cada etiqueta:


- __Precis√£o__ √© a propor√ß√£o de positivos classificados corretamente, ou seja, dos classificados como positivo, quantos s√£o realmente positivos. √â definido por: $precis√£o = \frac{TP}{TP¬†+¬†FP}$

- __Recall__ √© a propor√ß√£o de positivos identificados corretamente, ou seja, o qu√£o bom o modelo √© para detectar positivos. √â definido por: $Recall = ¬†\frac{TP}{TP¬†+¬†FN}$


Assim, podemos calcular a __Precis√£o__ e o __Recall__ de cada classe.

__F1 Score:__
Agora estamos em posi√ß√£o de calcular o F1 Score para cada classe com base na precis√£o e no recall dessa classe.

O F1 Score √© a m√©dia ponderada da precis√£o e do recall, onde o F1 Score alcan√ßa seu melhor valor em 1 (precis√£o e recall perfeitas) e pior em 0. √â uma boa maneira de mostrar que um classificador tem um bom valor para ambos recall e precis√£o.


E, finalmente, podemos dizer que a precis√£o m√©dia para este classificador √© a m√©dia do F1 Score para ambas as classes, que √© de 0,72 no nosso caso.

### Perda de log
Agora, vamos tentar __log loss__ para avalia√ß√£o. Na regress√£o log√≠stica, a sa√≠da pode ser a probabilidade de _churn_ (rotatividade do cliente) ser sim (ou igual a 1). Essa probabilidade √© um valor entre 0 e 1.
A Perda de log (perda logar√≠tmica) mede o desempenho de um classificador em que a sa√≠da prevista √© um valor de probabilidade entre 0 e 1.

In [None]:
from sklearn.metrics import log_loss
log_loss(y_test, yhat_prob)

## Pr√°tica
Tente construir o modelo de Regress√£o Log√≠stica novamente para o mesmo conjunto de dados, mas, desta vez, use valores diferentes de __solver__ e __regularization__? Qual √© o novo valor de __logLoss__?

In [None]:
# Escreva seu c√≥digo aqui



Duplo-clique __aqui__ para a solu√ß√£o.

<!-- Resposta:
    
LR2 = LogisticRegression(C=0.01, solver='sag').fit(X_train,y_train)
yhat_prob2 = LR2.predict_proba(X_test)
print ("LogLoss: : %.2f" % log_loss(y_test, yhat_prob2))

-->

Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>