In [1]:
# import de modulos pandas e numpy
import numpy as np
import pandas as pd
from pandas import Series,DataFrame

# Math
import math

# import de modulos para graficos
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
%matplotlib inline

# imports para Machine Learning 
from sklearn.linear_model import LogisticRegression
# from sklearn.cross_validation import train_test_split # modulo antigo
from sklearn.model_selection import train_test_split

# para avaliacao
from sklearn import metrics

# dataset
import statsmodels.api as sm

  import pandas.util.testing as tm


In [None]:
# Função Logistica
def logistic(t):
    return 1.0 / (1 + math.exp((-1.0)*t) )

# cria um grade de -6 a 6 ( 500 elementos, igualmente espaçados)
grade_t = np.linspace(-6,6,500)

# calcula os valores de y
p = np.array([logistic(t) for t in grade_t])

# usando exp do numpy que aceita um vetor como argumento
p = 1/(1 + np.exp(-1.0 * grade_t))

# plot
plt.plot(grade_t,p)
plt.title(' Funcao Logistica ');

In [None]:
import webbrowser

url = 'http://statsmodels.sourceforge.net/stable/datasets/generated/fair.html'

webbrowser.open_new(url)

In [None]:
df = sm.datasets.fair.load_pandas().data

In [None]:
df.sample(5)

In [None]:
df.info()

In [None]:
# Define uma coluna, indicador binário que indica se a pessoa teve um caso extra-conjugal
df['teve_affair'] = [1 if a else 0 for a in df.affairs]

In [None]:
df.sample(5)

In [None]:
# Media por cada label
df.groupby('teve_affair').mean().round(2)

In [None]:
# desvio padrão por cada label
df.groupby('teve_affair').std()

In [None]:
sns.set_context('poster')

In [None]:
df.affairs.describe(percentiles=[0, 0.9, 0.99])

In [None]:
# Countplot com idade
sns.countplot(data=df, x='age', hue='teve_affair', palette='coolwarm')
# sns.distplot(df[df.teve_affair == 0].age)
# sns.distplot(df[df.teve_affair == 1].age)

In [None]:
# Countplot com anos de casamento
sns.countplot('yrs_married',data=df,hue='teve_affair',palette='coolwarm')

In [None]:
# Countplot com quantidade de filhos
sns.countplot('children',data=df,hue='teve_affair',palette='coolwarm')

In [None]:
# Countplot com nivel de educação
sns.countplot('educ',data=df,hue='teve_affair',palette='coolwarm')

In [None]:
# considerando que a pessoa teve um caso extra-conjugal, 
# visualizacão da distribuição por boxplot
sns.boxplot(data=df[df.affairs > 0], x='age', y = 'affairs')
plt.ylim(0, 15)

In [None]:
# considerando que a pessoa teve um caso extra-conjugal, 
# visualizacão da distribuição por violinplot
sns.violinplot(data=df[(df.affairs > 0) & (df.affairs < 9)], x='age', y = 'affairs')
plt.ylim(-2, 12)

In [None]:
sns.pairplot(data=df[['affairs', 'age', 'yrs_married', 'children', 'religious']], 
        plot_kws = {'alpha':0.08, 's':180, 'edgecolor': None},)

In [None]:
df.sample(5)

In [None]:
# Cria novo DataFrame para as colunas categoricas
occ_dummies = pd.get_dummies(df['occupation'])
hus_occ_dummies = pd.get_dummies(df['occupation_husb'])

occ_dummies.head()

In [None]:
# Atribui nomes as colunas
occ_dummies.columns = ['occ1','occ2','occ3','occ4','occ5','occ6']
hus_occ_dummies.columns = ['hocc1','hocc2','hocc3','hocc4','hocc5','hocc6']

In [None]:
# Atribui X primeiramente sem as colunas categoricas 
X = df.drop(['occupation','occupation_husb','teve_affair'],axis=1)

# Concatena os dataframes dummies
dummies = pd.concat([occ_dummies,hus_occ_dummies],axis=1)

In [None]:
# Concatena o X com o dataframe dos dummies
X = pd.concat([X,dummies],axis=1)

# amostragem do X
X.sample(5)

In [None]:
# deletando uma coluna para cada coluna categorica
X = X.drop('occ1',axis=1)
X = X.drop('hocc1',axis=1)

# deletando coluna não utilizada
X = X.drop('affairs',axis=1)

# amostragem
X.sample(5)

In [None]:
# Atribui y a coluna teve_affair
y = df.teve_affair

# amostragem do y
y.head()

In [None]:
# transformando em numpy
y = y.values

# checando resultado
y

In [None]:
y.mean()

In [None]:
# Instanciando objeto
log_model = LogisticRegression()

# Treinando o modelo
log_model.fit(X, y)

# Checando acurácia
log_model.score(X, y)

In [None]:
log_model

In [None]:
y.mean()

In [None]:
coeff_df = DataFrame(log_model.coef_)

coeff_df.columns = X.columns

coeff_df = coeff_df.T

coeff_df.columns = ['coeficiente']

In [None]:
coeff_df.plot(kind='bar', figsize=(12,6))

In [None]:
from sklearn import metrics

In [None]:
metrics.confusion_matrix(y, log_model.predict(X))

In [None]:
# Segmentando a base
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 100)

# Instanciando um objeto
log_model2 = LogisticRegression()

# Treinando o modelo
log_model2.fit(X_train, y_train)

In [None]:
# Predizendo a classe das observações de teste
class_predict = log_model2.predict(X_test)

# Comparando as classes da predição e o gold, 
# ou seja, medindo a performance...
print (metrics.accuracy_score(y_test,class_predict))

In [None]:
metrics.confusion_matrix(y_test, log_model2.predict(X_test))

In [None]:
print(metrics.classification_report(y_test, log_model2.predict(X_test)))

In [None]:
log_model2.coef_

In [None]:
log_model2.intercept_

In [None]:
X_train.columns

In [None]:
y_test

In [None]:
class_predict

In [None]:
(log_model2.predict_proba(X_test)[:,1] > 0.2).astype(int)

In [None]:
# matriz de confusão
confusion_matrix = metrics.confusion_matrix(y_test, class_predict)
confusion_matrix

In [None]:
# Label gold na vertical, e label predição na horizontal
sns.heatmap(confusion_matrix, annot=True, fmt ='d')

In [None]:
print(metrics.classification_report(y_test, class_predict))

In [None]:
confusion_matrix/confusion_matrix.sum()

In [None]:
y_pred = log_model2.predict_proba(X_test)[:,1]

In [None]:
from sklearn.metrics import roc_auc_score

In [None]:
roc_auc_score(y_test, y_pred)