<a href="https://colab.research.google.com/github/niltontac/EspAnalise-EngDados/blob/master/Divorce_Predictors_Analytics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Sobre este Conjunto de Dados
# **About this Data Set:**

###### Neste conjunto de dados, a predição de divórcio foi realizada usando uma Escala de Preditores de Divócio (DPS) baseada no método Gottman de terapia de casais. Do total de 170 participantes, 84 eram divorciados e 86 casados. Os participantes preencheram o "Formulário de Informações Pessoais" da DPS.
###### A ideia da minha análise é mostrar, baseada nas respostas das pessoas, a probabilidade delas serem casadas ou divorciadas de acordo com o que foi preenchido. No final também mostro o nível de precisão de minha análise.
-----------------------------------------
###### Within the scope of this research, the divorce prediction was carried out by using the Divorce Predictors Scale (DPS) on the basis of Gottman couples therapy. Of the participants, 84 (49%) were divorced and 86 (51%) were married couples. Participants completed the “Personal Information Form” from DPS. 
###### The idea of my analysis is to show, based on people's answers, the probabilitly of them being married or divorced, according to what was filled out. At the end also show accuracy level of my analysis.
-----------------------------------------
###### Fonte | Source: https://archive.ics.uci.edu/ml/datasets/Divorce+Predictors+data+set
###### Arquivo | File: divorce.csv  
-----------------------------------------
# Analista | Analyst: Nilton Thiago de Andrade Coura - Matrícula 3376
### Especialização em Análise e Engenharia de Dados - Cesar School/CInUFPE
#### Disciplina: Estatística Descritiva dos Dados
##### Professor:  Tsang Ing Ren | CIn/UFPE
###### Monitor: José Ivson Silva | CIn/UFPE


In [0]:
# Importando bibliotecas
# Importing libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.random_projection import GaussianRandomProjection

# Carregando arquivo divorce.csv que contém o conjunto de dados que será analisado
# Loading dataset file

df = pd.read_csv('https://raw.githubusercontent.com/niltontac/EspAnalise-EngDados/master/data/Divorce_Predictors_Dataset.csv', sep=';', decimal=',', thousands='.', encoding='ISO-8859-1')

In [0]:
# Visualizando uma "amostragem" do conjunto de dados

# "Atr1", "Atr2", "Atr3",..., Atr38, AtrN... são as colunas do conjunto. Cada coluna representa uma resposta de cada pergunta respondida 
# dos participantes, esses representados por cada linha do index (que começa com 0)

# "Class" é a coluna que corresponde se o participante é casado ou divorciado. Onde "1" corresponde a divorcidado e "0" a casado

# As respostas dos participantes foram classificadas assim: 
# 0 - não relevante | 1 - pouco relevante | 2 - relevante | 3 - muito relevante | 4 - extremamente relevante

# Dataset sample

# Columns Atr1, Atr2, Atr3,..., AtrN... tell answers from stakeholders

# Column "Class" corresponds to wheter the participant is married or divorced. Which "1" corresponds to divorced and "0" to married

df.head()

In [0]:
# Dimensão do conjunto de dados - linhas x colunas

# Data set size - rows vs columns

print("rows, columns", df.shape)

In [0]:
# 54 perguntas em 54 colunas (cada pergunta é uma coluna)
# 54 questions in 54 colmns
questions_list = ['Atr1','Atr2','Atr3','Atr4','Atr5','Atr6','Atr7','Atr8','Atr9','Atr10','Atr11','Atr12','Atr13','Atr14','Atr15','Atr16','Atr17','Atr18','Atr19','Atr20','Atr21','Atr22','Atr23','Atr24','Atr25','Atr26','Atr27','Atr28','Atr29','Atr30','Atr31','Atr32','Atr33','Atr34','Atr35','Atr36','Atr37','Atr38','Atr39','Atr40','Atr41','Atr42','Atr43','Atr44','Atr45','Atr46','Atr47','Atr48','Atr49','Atr50','Atr51','Atr52','Atr53','Atr54']

# Truncando 8 colunas de onde o sistema irá selecionar as perguntas de cada coluna de forma aleatória
# Selecting 8 random questions from columns 
truncate_question = np.random.randint(low=0, high=53, size=7)

# Concatenando as colunas numa lista
# Concatenating list colmns
dataset = df.loc[:,['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6]), 'Class']]

# Imprimindo as colunas escolhidas pelo sistema de forma aleatória
# Printing random questions
print("truncate_question: ", truncate_question)

In [0]:
# Confirmando truncamento
# Confirming truncation
dataset.head()

In [0]:
# Dimensão do conjunto de dados pronto para realização de análise

# Size of the data set ready to analysis

print("rows, columns", dataset.shape)

In [0]:
# Função que mostra separadamente a quantidade dos participantes casados (valores 0 em 86 linhas) dos divorciados (valores 1 em 84 linhas) contidas na coluna "Class"

# Function to separate by class between married( values 0 | 86 rows ) and divorced(values 1 | 84 rows)

def separate_by_class(dataset):
  classes = np.unique(dataset['Class'])

  separated = []
  for cl in classes:
    separated.append(dataset[dataset['Class'] == cl])

  return separated

separated = separate_by_class(dataset)
print(separated)

In [0]:
# Sumarizar para agrupar e calcular dados estatísticos de cada coluna (que contem as respostas dos participantes referentes as perguntas das colunas selecionadas aleatoriamente pelo sistema) 
# do dataset (nesse caso eliminando a coluna "Class" que é a coluna que contém o resultado probabilístico em função dos dados calculados pelas características das respostas).
# Cálculo da média, do desvio padrão e da quantidade total de participantes

# Summarize data - Calculate the mean, std and count for each column in a dataset

def summarize_dataset(dataset, eliminate_last=True):
  if eliminate_last:
    columns = dataset.columns[:-1]
  else:
    columns = dataset.columns
  summaries = [(np.mean(dataset[column]), np.std(dataset[column]), len(dataset[column])) for column in dataset.columns]
  del(summaries[-1])
  return summaries

summaries = summarize_dataset(dataset)

print(summaries)

In [0]:
# Novamente sumarizando e agrupando o dataset para calcular dados estatísticos (média, desvio padrão e a quantidade total de participantes). 
# Mas nesse caso queremos especificamente trazer apenas os resultados da coluna "Class". Os valores probabilísticos já foram calculados na função acima "def summarize_dataset", 
# e os resultados guardados na variável "summaries"

# Summarize data by class

def summarize_by_class(dataset):
  separated = separate_by_class(dataset)
  summaries = dict()
  for s in separated:
    class_value = np.array(s['Class'])
    rows = s[s.columns]
    summaries[class_value[0]] = summarize_dataset(rows, eliminate_last=False)
  return summaries

summaries_by_class = summarize_by_class(dataset)
print(summaries_by_class)

#Probabilidade Gaussiana

Gaussian Probabilitly

$
f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}(\frac{(x-\mu)}{\sigma})^2}
$

In [0]:
# Definindo a função 'calculate_probabilitly' que vai calcular a probabilidade usando a distribuição Gaussiana

# Gaussian Probabilitly - f(x)=1σ2π√e−12((x−μ)σ)2

def calculate_probability(x, mean, stdev):
	exponent = np.exp(-((x-mean)**2 / (2 * stdev**2 )))
	return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent

In [0]:
# Probabilidade de distribuição por divórcio

# Probabilitly distribution by Divorce

x = np.arange(-4.5,10,0.1)
for summ in summaries:
  y = calculate_probability(x, summ[0], summ[1])
  plt.plot(x,y)

plt.legend(['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6])])

In [0]:
# Probabilidade de distribuição por classe

# Probabilitly distribution by class

n_classes = len(summaries_by_class)
fig,ax = plt.subplots(1,n_classes)
fig.set_size_inches(18, h=6)

classes_name = ['Married', 'Divorced']
for c in range(n_classes):
  for summ in summaries_by_class[c]:
    ax[c].plot(x, calculate_probability(x, summ[0], summ[1]))
  ax[c].set_title(classes_name[c])

fig.legend(['Atr'+str(truncate_question[0]), 'Atr'+str(truncate_question[1]), 'Atr'+str(truncate_question[2]), 'Atr'+str(truncate_question[3]), 'Atr'+str(truncate_question[4]), 'Atr'+str(truncate_question[5]), 'Atr'+str(truncate_question[6])])


In [0]:
# Cálculo percentual de precisão

# Calculate accuracy percentage

def accuracy_metric(actual, predicted):
	correct = 0
	for i in range(len(actual)):
		if actual[i] == predicted[i]:
			correct += 1
	return correct / float(len(actual)) * 100.0

In [0]:
# Cálculo da probabilidade de predição

# Calculate the probabilities of predicting 

def calculate_class_probabilities(summaries, row):
  total_rows = sum([summaries[label][0][2] for label in summaries])
  probabilities = dict()
  for class_value, class_summaries in summaries.items():
    probabilities[class_value] = summaries[class_value][0][2]/float(total_rows)
    for i in range(len(class_summaries)):
      mean, stdev, count = class_summaries[i]
      probabilities[class_value] *= calculate_probability(row[i], mean, stdev)
  return probabilities

In [0]:
# Predição da classe para determinada linha

# Predict the class for a given row

def predict(summaries, row):

	probabilities = calculate_class_probabilities(summaries, row)
	best_label, best_prob = None, -1
	for class_value, probability in probabilities.items():
		if best_label is None or probability > best_prob:
			best_prob = probability
			best_label = class_value
	return best_label

In [0]:
# Dividindo o dataset

# Split the dataset

def split(dataset):
  sz = dataset.shape[0]
  sh = np.arange(sz)
  np.random.shuffle(sh)
  vec = np.zeros((sz),dtype=bool)
  vec[sh[:int(sz*0.75)]] = True
  train = dataset.loc[vec]
  test = dataset.loc[~vec]

  return train, test


In [0]:
train,test = split(dataset)

#Naive Bayes

In [0]:
# Naive Bayes Algorithm
def naive_bayes(train, test):
  summarize = summarize_by_class(train)
  predictions = list()
  vec = np.zeros(test.shape[0], dtype=bool)
  for i in range(test.shape[0]):
    vec[i] = True
    row = np.array(test.loc[vec])[0]
    output = predict(summarize, row)
    predictions.append(output)
    vec[i] = False
  return(predictions)

In [0]:
predictions = naive_bayes(train,test)

print(predictions)
actual = np.array(test['Class'])
print(actual)

print('Accuracy ', accuracy_metric(actual, predictions))