<a href="https://colab.research.google.com/github/niltontac/EspAnalise-EngDados/blob/master/Divorce_Predictors_Analytics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Sobre este Conjunto de Dados
# **About this Data Set:**

###### Neste conjunto de dados, a predição de divórcio foi realizada usando uma Escala de Preditores de Divócio (DPS) baseada no método Gottman de terapia de casais. Do total de 170 participantes, 84 eram divorciados e 86 casados. Os participantes preencheram o "Formulário de Informações Pessoais" da DPS.
###### A ideia da minha análise é mostrar, baseada nas respostas das pessoas, a probabilidade delas serem casadas ou divorciadas de acordo com o que foi preenchido. No final também mostro o nível de precisão de minha análise.
-----------------------------------------
###### Within the scope of this research, the divorce prediction was carried out by using the Divorce Predictors Scale (DPS) on the basis of Gottman couples therapy. Of the participants, 84 (49%) were divorced and 86 (51%) were married couples. Participants completed the “Personal Information Form” from DPS. 
###### The idea of my analysis is to show, based on people's answers, the probabilitly of them being married or divorced, according to what was filled out. At the end also show accuracy level of my analysis.
-----------------------------------------
###### Fonte | Source: https://archive.ics.uci.edu/ml/datasets/Divorce+Predictors+data+set
###### Arquivo | File: divorce.csv  
-----------------------------------------
# Analista | Analyst: Nilton Thiago de Andrade Coura
### Especialização em Análise e Engenharia de Dados - Cesar School/CInUFPE
#### Disciplina: Estatística Descritiva dos Dados
##### Professor:  Tsang Ing Ren | CIn/UFPE
###### Monitor: José Ivson Silva | CIn/UFPE


In [0]:
# Importando bibliotecas
# Importing libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.random_projection import GaussianRandomProjection

# Carregando arquivo divorce.csv que contém o conjunto de dados que será analisado
# Loading dataset file

df = pd.read_csv('https://raw.githubusercontent.com/niltontac/EspAnalise-EngDados/master/data/Divorce_Predictors_Dataset.csv', sep=';', decimal=',', thousands='.', encoding='ISO-8859-1')

In [0]:
# Visualizando uma "amostragem" do conjunto de dados

# "Atr1", "Atr2", "Atr3",..., Atr38, AtrN... são as colunas do conjunto. Cada coluna representa uma resposta de cada pergunta respondida 
# dos participantes, esses representados por cada linha do index (que começa com 0)

# "Class" é a coluna que corresponde se o participante é casado ou divorciado. Onde "1" corresponde a divorcidado e "0" a casado

# As respostas dos participantes foram classificadas assim: 
# 0 - não relevante | 1 - pouco relevante | 2 - relevante | 3 - muito relevante | 4 - extremamente relevante

# Dataset sample

# Columns Atr1, Atr2, Atr3,..., AtrN... tell answers from stakeholders

# Column "Class" corresponds to wheter the participant is married or divorced. Which "1" corresponds to divorced and "0" to married

df

In [0]:
# Dimensão do conjunto de dados - linhas x colunas

# Data set size - rows vs columns

print("rows, columns", df.shape)

In [0]:
# Após análise do dataset original, se faz necessário adequar algumas respostas 
# do questionário para que não haja influência no resultado da análise que será
# realizada, haja vista que as questões a serem analisadas são escolhidas de 
# forma aleatória

df_divorce = df

for x in range(len(df_divorce)):
  df_divorce.Atr1[x] = 4 - df_divorce.Atr1[x]
  df_divorce.Atr2[x] = 4 - df_divorce.Atr2[x]
  df_divorce.Atr3[x] = 4 - df_divorce.Atr3[x]
  df_divorce.Atr4[x] = 4 - df_divorce.Atr4[x]
  df_divorce.Atr5[x] = 4 - df_divorce.Atr5[x]
  df_divorce.Atr6[x] = 4 - df_divorce.Atr6[x]
  df_divorce.Atr7[x] = 4 - df_divorce.Atr7[x]
  df_divorce.Atr8[x] = 4 - df_divorce.Atr8[x]
  df_divorce.Atr9[x] = 4 - df_divorce.Atr9[x]
  
  df_divorce.Atr10[x] = 4 - df_divorce.Atr10[x]
  df_divorce.Atr11[x] = 4 - df_divorce.Atr11[x]
  df_divorce.Atr12[x] = 4 - df_divorce.Atr12[x]
  df_divorce.Atr13[x] = 4 - df_divorce.Atr13[x]
  df_divorce.Atr14[x] = 4 - df_divorce.Atr14[x]
  df_divorce.Atr15[x] = 4 - df_divorce.Atr15[x]
  df_divorce.Atr16[x] = 4 - df_divorce.Atr16[x]
  df_divorce.Atr17[x] = 4 - df_divorce.Atr17[x]
  df_divorce.Atr18[x] = 4 - df_divorce.Atr18[x]
  df_divorce.Atr19[x] = 4 - df_divorce.Atr19[x]
 
  df_divorce.Atr20[x] = 4 - df_divorce.Atr20[x]
  df_divorce.Atr21[x] = 4 - df_divorce.Atr21[x]
  df_divorce.Atr22[x] = 4 - df_divorce.Atr22[x]
  df_divorce.Atr23[x] = 4 - df_divorce.Atr23[x]
  df_divorce.Atr24[x] = 4 - df_divorce.Atr24[x]
  df_divorce.Atr25[x] = 4 - df_divorce.Atr25[x]
  df_divorce.Atr26[x] = 4 - df_divorce.Atr26[x]
  df_divorce.Atr27[x] = 4 - df_divorce.Atr27[x]
  df_divorce.Atr28[x] = 4 - df_divorce.Atr28[x]
  df_divorce.Atr29[x] = 4 - df_divorce.Atr29[x]
  
  df_divorce.Atr30[x] = 4 - df_divorce.Atr30[x]
  df_divorce.Atr31[x] = 4 - df_divorce.Atr31[x]
  df_divorce.Atr32[x] = 4 - df_divorce.Atr32[x]
  df_divorce.Atr33[x] = 4 - df_divorce.Atr33[x]
  df_divorce.Atr34[x] = 4 - df_divorce.Atr34[x]
  df_divorce.Atr35[x] = 4 - df_divorce.Atr35[x]
  df_divorce.Atr36[x] = 4 - df_divorce.Atr36[x]
  df_divorce.Atr37[x] = 4 - df_divorce.Atr37[x]
  df_divorce.Atr38[x] = 4 - df_divorce.Atr38[x]
  df_divorce.Atr39[x] = 4 - df_divorce.Atr39[x]
  
  df_divorce.Atr40[x] = 4 - df_divorce.Atr40[x]
  df_divorce.Atr41[x] = 4 - df_divorce.Atr41[x]
  df_divorce.Atr42[x] = 4 - df_divorce.Atr42[x]
  df_divorce.Atr43[x] = 4 - df_divorce.Atr43[x]
  df_divorce.Atr44[x] = 4 - df_divorce.Atr44[x]
  df_divorce.Atr45[x] = 4 - df_divorce.Atr45[x]
  df_divorce.Atr46[x] = 4 - df_divorce.Atr46[x]
  df_divorce.Atr47[x] = 4 - df_divorce.Atr47[x]
  df_divorce.Atr48[x] = 4 - df_divorce.Atr48[x]
  df_divorce.Atr49[x] = 4 - df_divorce.Atr49[x]
  
  df_divorce.Atr50[x] = 4 - df_divorce.Atr50[x]
  df_divorce.Atr51[x] = 4 - df_divorce.Atr51[x]
  df_divorce.Atr52[x] = 4 - df_divorce.Atr52[x]
  df_divorce.Atr53[x] = 4 - df_divorce.Atr53[x]
  df_divorce.Atr54[x] = 4 - df_divorce.Atr54[x]

df = df_divorce

In [0]:
# Visualizando o dataset com as respostas adequadas a necessidade da análise
df

In [0]:
# 54 perguntas em 54 colunas (cada pergunta é uma coluna)
# 54 questions in 54 colmns
questions_list = ['Atr1','Atr2','Atr3','Atr4','Atr5','Atr6','Atr7','Atr8','Atr9','Atr10','Atr11','Atr12','Atr13','Atr14','Atr15','Atr16','Atr17','Atr18','Atr19','Atr20','Atr21','Atr22','Atr23','Atr24','Atr25','Atr26','Atr27','Atr28','Atr29','Atr30','Atr31','Atr32','Atr33','Atr34','Atr35','Atr36','Atr37','Atr38','Atr39','Atr40','Atr41','Atr42','Atr43','Atr44','Atr45','Atr46','Atr47','Atr48','Atr49','Atr50','Atr51','Atr52','Atr53','Atr54']

# Truncando 8 colunas de onde o sistema irá selecionar as perguntas de cada coluna de forma aleatória
# Selecting 8 random questions from columns 
truncate_question = np.random.randint(low=0, high=53, size=7)

# Concatenando as colunas numa lista
# Concatenating list colmns
dataset = df.loc[:,['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6]), 'Class']]

# Imprimindo as colunas escolhidas pelo sistema de forma aleatória
# Printing random questions
print("truncate_question: ", truncate_question)

In [0]:
# Confirmando truncamento
# Confirming truncation
dataset.head()

In [0]:
# Dimensão do conjunto de dados pronto para realização de análise

# Size of the data set ready to analysis

print("rows, columns", dataset.shape)

In [0]:
# Função que mostra separadamente a quantidade dos participantes casados (valores 0 em 86 linhas) dos divorciados (valores 1 em 84 linhas) contidas na coluna "Class"

# Function to separate by class between married( values 0 | 86 rows ) and divorced(values 1 | 84 rows)

def separate_by_class(dataset):
  classes = np.unique(dataset['Class'])

  separated = []
  for cl in classes:
    separated.append(dataset[dataset['Class'] == cl])

  return separated

separated = separate_by_class(df)
print(separated)

In [0]:
# Análise de correlação utilizando o dataset após o tratamento dos dados

print(df.corr())

In [0]:
# Análise gráfica para demonstrar a correlação de algumas variáveis com as classes

fig,ax = plt.subplots(2,2)
fig.set_size_inches(12,h=9)
for s in separated:
  ax[0,0].hist(s['Atr1'])
  ax[0,1].hist(s['Atr2'])
  ax[1,0].hist(s['Atr3'])
  ax[1,1].hist(s['Atr4'])
fig.legend(['No', 'Yes'])

In [0]:
# Análise gráfica para demonstrar a correlação de algumas variáveis com as classes

fig,ax = plt.subplots(2,2)
fig.set_size_inches(12,h=9)
for s in separated:
  ax[0,0].hist(s['Atr5'])
  ax[0,1].hist(s['Atr6'])
  ax[1,0].hist(s['Atr7'])
  ax[1,1].hist(s['Atr8'])
fig.legend(['No', 'Yes'])

In [0]:
# Análise gráfica para demonstrar a correlação de tuplas de variáveis com as classes

fig,ax = plt.subplots(1,2)
fig.set_size_inches(10,h=6)
for s in separated:
  ax[0].scatter(s['Atr1'], s['Atr2'])
  ax[1].scatter(s['Atr5'], s['Atr6'])
fig.legend(['No', 'Yes'])

In [0]:
# Sumarizar para agrupar e calcular dados estatísticos de cada coluna (que contem as respostas dos participantes referentes as perguntas das colunas selecionadas aleatoriamente pelo sistema) 
# do dataset (nesse caso eliminando a coluna "Class" que é a coluna que contém o resultado probabilístico em função dos dados calculados pelas características das respostas).
# Cálculo da média, do desvio padrão e da quantidade total de participantes

# Summarize data - Calculate the mean, std and count for each column in a dataset

def summarize_dataset(dataset, eliminate_last=True):
  if eliminate_last:
    columns = dataset.columns[:-1]
  else:
    columns = dataset.columns
  summaries = [(np.mean(dataset[column]), np.std(dataset[column]), len(dataset[column])) for column in dataset.columns]
  del(summaries[-1])
  return summaries

summaries = summarize_dataset(dataset)

print(summaries)

In [0]:
# Novamente sumarizando e agrupando o dataset para calcular dados estatísticos (média, desvio padrão e a quantidade total de participantes). 
# Mas nesse caso queremos especificamente trazer apenas os resultados da coluna "Class". Os valores probabilísticos já foram calculados na função acima "def summarize_dataset", 
# e os resultados guardados na variável "summaries"

# Summarize data by class

def summarize_by_class(dataset):
  separated = separate_by_class(dataset)
  summaries = dict()
  for s in separated:
    class_value = np.array(s['Class'])
    rows = s[s.columns]
    summaries[class_value[0]] = summarize_dataset(rows, eliminate_last=False)
  return summaries

summaries_by_class = summarize_by_class(dataset)
print(summaries_by_class)

#Probabilidade Gaussiana

Gaussian Probabilitly

$
f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{(x-\mu)}{\sigma})^2}
$

In [0]:
# Definindo a função 'calculate_probabilitly' que vai calcular a probabilidade usando a distribuição Gaussiana

# Gaussian Probabilitly - f(x)=1σ2π√e−12((x−μ)σ)2

def calculate_probability(x, mean, stdev):
	exponent = np.exp(-((x-mean)**2 / (2 * stdev**2 )))
	return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent

In [0]:
# Probabilidade de distribuição por divórcio

# Podemos visualizar no gráfico a probabilidade das respostas para as perguntas 
# selecionadas

# Probabilitly distribution by Divorce

# Graph shows the trend responses to selected questions

x = np.arange(-4.5,10,0.1)
for summ in summaries:
  y = calculate_probability(x, summ[0], summ[1])
  plt.plot(x,y)

plt.legend(['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6])])

In [0]:
# Probabilidade de distribuição por classe

# No gráfico abaixo podemos visualizar a probabilidade das respostas separadas 
# por classe - Casados | Divorciados 

# Probabilitly distribution by class

n_classes = len(summaries_by_class)
fig,ax = plt.subplots(1,n_classes)
fig.set_size_inches(18, h=6)

classes_name = ['Married', 'Divorced']
for c in range(n_classes):
  for summ in summaries_by_class[c]:
    ax[c].plot(x, calculate_probability(x, summ[0], summ[1]))
  ax[c].set_title(classes_name[c])

fig.legend(['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6])])


In [0]:
# Cálculo percentual de precisão

# Calculate accuracy percentage

def accuracy_metric(actual, predicted):
	correct = 0
	for i in range(len(actual)):
		if actual[i] == predicted[i]:
			correct += 1
	return correct / float(len(actual)) * 100.0

In [0]:
# Cálculo da probabilidade de predição

# Calculate the probabilities of predicting 

def calculate_class_probabilities(summaries, row):
  total_rows = sum([summaries[label][0][2] for label in summaries])
  probabilities = dict()
  for class_value, class_summaries in summaries.items():
    probabilities[class_value] = summaries[class_value][0][2]/float(total_rows)
    for i in range(len(class_summaries)):
      mean, stdev, count = class_summaries[i]
      probabilities[class_value] *= calculate_probability(row[i], mean, stdev)
  return probabilities

In [0]:
# Predição da classe para determinada linha

# Predict the class for a given row

def predict(summaries, row):

	probabilities = calculate_class_probabilities(summaries, row)
	best_label, best_prob = None, -1
	for class_value, probability in probabilities.items():
		if best_label is None or probability > best_prob:
			best_prob = probability
			best_label = class_value
	return best_label

In [0]:
# Dividindo o dataset

# Split the dataset

def split(dataset):
  sz = dataset.shape[0]
  sh = np.arange(sz)
  np.random.shuffle(sh)
  vec = np.zeros((sz),dtype=bool)
  vec[sh[:int(sz*0.75)]] = True
  train = dataset.loc[vec]
  test = dataset.loc[~vec]

  return train, test


In [0]:
train,test = split(dataset)

#Naive Bayes

In [0]:
# Naive Bayes Algorithm
def naive_bayes(train, test):
  summarize = summarize_by_class(train)
  predictions = list()
  vec = np.zeros(test.shape[0], dtype=bool)
  for i in range(test.shape[0]):
    vec[i] = True
    row = np.array(test.loc[vec])[0]
    output = predict(summarize, row)
    predictions.append(output)
    vec[i] = False
  return(predictions)

In [0]:
predictions = naive_bayes(train,test)

print(predictions)
actual = np.array(test['Class'])
print(actual)

print('Accuracy = ', accuracy_metric(actual, predictions))

#Intervalo de Confiança

In [0]:
# Para realizar o intervalo de confiança, será gerada uma amostra aleatória de  
# 30 das 170 respostas do questionário para a questão 35, no qual tem uma forte 
# tendência de que o casal irá se separar caso a resposta seja mais próxima ou 
# igual a 4

# Questão 35 - I can insult my spouse during our discussions.

question_list = df['Atr35']
index_answers = np.random.randint(low=0, high=169, size=30)
print('index_answers: ', index_answers)

In [0]:
# Respostas da amostra selecionada

question_list[index_answers]

#Teste de hipóteses

Distribuição NORMAL

In [0]:
# Tendo em vista que o desvio padrão é conhecido, a amostra é aleatória e  
# n >= 30 (população de 170), será aplicado a Distribuição Normal para 
# calcular z0

import scipy.stats as st

def calc_z0(xm, mi, sigma, n):
  return (xm - mi)/(sigma/np.sqrt(n)) 

In [0]:
# Função da Distribuição Normal que vai decidir se uma hipótese sobre um 
# parâmetro populacional deve ou não ser rejeitada com base nos dados da amostra
# selecionada

def decision_normal(z0, alpha):
  p = st.norm.cdf(z0)

  reject = ((p < (alpha/2)) | (p > (1.0 - alpha/2)))

  if(reject):
    print('H_0 rejeitada.')
    print('Pois o valor de z0 está fora dos níveis de significância')
  else: 
    print('H_0 não rejeitada.')
    print('Pois o valor de z0 está dentro dos níveis de significância')

In [0]:
# Média das respostas para a questão 35, referente a população inteira(170)

mean_population = question_list.mean()
print(mean_population)

In [0]:
# Desvio Padrão das respostas para a questão 35, referente a população inteira(170)

std_population = question_list.std()
print(std_population)

In [0]:
# Média das respostas para a questão 35, agora referente a população da amostra
# selecionada (30)

mean_sample = question_list[index_answers].mean()
print(mean_sample)

In [0]:
# Desvio Padrão das respostas para a questão 35, agora referente a população da amostra
# selecionada (30)

std_sample = question_list[index_answers].std()
print(std_sample)

In [0]:
# Calculando z0 passando os parâmetros média e desvio padrão da população 
# inteira, média da amostra, e o tamanho da amostra

z0 = calc_z0(mean_sample, mean_population, std_population, len(question_list))
print(z0)


In [0]:
# Distribuição Normal a partir do valor de z0 e alpha igual a 
# 0.05 (nível de significância 95%)

decision_gaussiana = decision_normal(z0, 0.05)
print(decision_gaussiana)

In [0]:
# Distribuição Normal a partir do valor de z0 e alpha igual a 
# 0.01 (nível de significância 99%)

decision_gaussiana = decision_normal(z0, 0.01)
print(decision_gaussiana)

Distribuição t-STUDENT Bicaudal

In [0]:
# Função t-Student para calcular t0

def calc_t0(xm, mi, s, n):
  return (xm - mi)/(s/np.sqrt(n))

In [0]:
# Função da Distribuição t-Student que vai decidir se uma hipótese sobre um 
# parâmetro populacional deve ou não ser rejeitada com base nos dados da amostra
# selecionada
# Nesse caso a fórmula para bicaudal

def decision_tstudent_bicaudal(t0, alpha, df):
  p = st.t.cdf(t0, df)
  reject = ((p < (alpha/2)) | (p > (1.0 - alpha/2)))
  return reject


In [0]:
# Necessário gerar novamente o intervalo de confiança de forma aleatória com 35
# respostas para o questão 35

index_answers_t = np.random.randint(low=0, high=169, size=35)
print('index_answers_t: ', index_answers_t)

In [0]:
# Respostas da amostra selecionada

question_list[index_answers_t]

In [0]:
# Média das respostas para a questão 35, agora referente a população da amostra
# selecionada (35)

mean_sample_t = question_list[index_answers_t].mean()
print(mean_sample_t)

In [0]:
# Calculando t0 passando os parâmetros média e desvio padrão da amostra, média 
# da população, e o tamanho da amostra selecionada