## Load packages & data

### Packages

In [39]:
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
import seaborn as sns
import tkinter
import matplotlib
import matplotlib.pyplot as plt
matplotlib.use('TkAgg')

### Data

In [2]:
path1 = "~/Documents/jupyter-workplace/data-mining-assignment/c_reformed_data.csv"
data_adult = pd.read_csv(path1, index_col=0)

path2 = "~/Documents/jupyter-workplace/data-mining-assignment/c_reformed_data_adolescency.csv"
data_ad = pd.read_csv(path2, index_col=0)

path3 = "~/Documents/jupyter-workplace/data-mining-assignment/c_reformed_all_data.csv"
data = pd.read_csv(path3, index_col=0)

path_cbo = "~/Documents/jupyter-workplace/data-mining-assignment/CBO2002.csv"
cbo = pd.read_csv(path_cbo, index_col=0, encoding = 'unicode_escape', engine ='python')

In [None]:
data.head(n = 10)

## Variables profile report

In [None]:
profile_variables = ProfileReport(data, title="Pandas Profiling Report - Variables description", minimal=True)

profile_variables.to_file("profile_variables.html")

In [None]:
# separar por etnia

# parda, preto, branco, indigena, amarelo

data_branco = data[data['RACACOR'] == 'Branca']
profile_variables = ProfileReport(data_branco, title="Pandas Profiling Report - Gestantes brancas", minimal=True)
profile_variables.to_file("gestantes-brancas.html")

data_preto = data[data['RACACOR'] == 'Preta']
profile_variables = ProfileReport(data_preto, title="Pandas Profiling Report - Gestantes pretas", minimal=True)
profile_variables.to_file("gestantes-pretas.html")

data_pardo = data[data['RACACOR'] == 'Parda']
profile_variables = ProfileReport(data_pardo, title="Pandas Profiling Report - Gestantes pardas", minimal=True)
profile_variables.to_file("gestantes-pardas.html")

data_ind = data[data['RACACOR'] == 'Indigina']
profile_variables = ProfileReport(data_ind, title="Pandas Profiling Report - Gestantes indigenas", minimal=True)
profile_variables.to_file("gestantes-indigenas.html")

data_ama = data[data['RACACOR'] == 'Amarela']
profile_variables = ProfileReport(data_ama, title="Pandas Profiling Report - Gestantes amarelas", minimal=True)
profile_variables.to_file("gestantes-amarelas.html")

In [None]:
# separar por escolaridade + etnia

# (branca + 12 a mais) (parda - 12 a mais) (preta - 12 a mais)

data_branco = data[(data['RACACOR'] == 'Branca') & (data['ESCMAE'] == '12 e mais')]
profile_variables = ProfileReport(data_branco, title="Pandas Profiling Report - Gestantes brancas e escolarizadas", minimal=True)
profile_variables.to_file("gestantes-brancas-esc.html")

data_preto = data[(data['RACACOR'] == 'Preta') & (data['ESCMAE'] != '12 e mais') & (data['ESCMAE'] != '8 a 11 anos')]
profile_variables = ProfileReport(data_preto, title="Pandas Profiling Report - Gestantes pretas e não escolarizadas", minimal=True)
profile_variables.to_file("gestantes-pretas-esc.html")

data_pardo = data[(data['RACACOR'] == 'Parda') & (data['ESCMAE'] != '12 e mais') & (data['ESCMAE'] != '8 a 11 anos')]
profile_variables = ProfileReport(data_pardo, title="Pandas Profiling Report - Gestantes pardas e não escolarizadas", minimal=True)
profile_variables.to_file("gestantes-pardas-esc.html")

In [None]:
# separar por anomalia == sim

data_anom = data[data['IDANOMAL'] == 'Sim']
profile_variables = ProfileReport(data_anom, title="Pandas Profiling Report - Anomaly", minimal=True)
profile_variables.to_file("gestantes-anomaly.html")

In [None]:
# gravidez na adolescencia
profile_variables_ad = ProfileReport(data_ad, title="Pandas Profiling Report - Gravidez na Adolescencia", minimal=True)
profile_variables_ad.to_file("profile_variables_adolescency.html")

In [None]:
# desfecho negativo

data_desf = data[(data['parto_prematuro'] != 'Normal') & 
                 (data['APGAR'] != 'Normal')]

profile_variables_ad = ProfileReport(data_desf, title="Pandas Profiling Report - Desfecho negativo", minimal=True)
profile_variables_ad.to_file("profile_negative_outcome.html")

## Explorative Analysis

In [46]:
# stratification

data_branca = data[(data['RACACOR'] == 'Branca')]
data_preta = data[(data['RACACOR'] == 'Preta')]
data_pardo = data[(data['RACACOR'] == 'Parda')]

esc_branca = data[(data['RACACOR'] == 'Branca') & (data['ESCMAE'] == '12 e mais')]
esc_preta = data[(data['RACACOR'] == 'Preta') & (data['ESCMAE'] != '12 e mais')]
esc_pardo = data[(data['RACACOR'] == 'Parda') & (data['ESCMAE'] != '12 e mais')]

### Descreptive analysis
Geral / Por etinia / Por escolaridade

**Perfil da gestante**
- Perfil de ocupação
- Perfil de escolaridade
- Perfil de estado civil

**Perfil do desfecho ao nascimento**
- APGAR
- Prematuridade


---------------------------
obs.
**ADICIONAR PORCENTAGEM EM RELAÇÃO TOTAL!**

In [69]:
# geral
most_frequent = data['CODOCUPMAE'].value_counts()
temp = most_frequent.head(n = 20)

titulos = list(temp.index)
counts = list(temp)
percent = list(temp/sum(most_frequent)*100)
zipped = list(zip(titulos,counts,percent))

df_ocupation = pd.DataFrame(data = zipped, columns= ["Titulo","Count","Porcentagem (%)"])

In [70]:
sns.set_theme(style="darkgrid")

ax = sns.catplot(y="Titulo", x = "Porcentagem (%)", kind="bar", data=df_ocupation)

plt.show()

  self._figure.tight_layout(*args, **kwargs)


In [71]:
# Gestante branca
most_frequent = data_branca['CODOCUPMAE'].value_counts()
temp = most_frequent.head(n = 20)

titulos = list(temp.index)
counts = list(temp)
percent = list(temp/sum(most_frequent)*100)
zipped = list(zip(titulos,counts,percent))

df_ocupation = pd.DataFrame(data = zipped, columns= ["Titulo","Count","Porcentagem (%)"])

In [72]:
sns.set_theme(style="darkgrid")

ax = sns.catplot(y="Titulo", x = "Porcentagem (%)", kind="bar", data=df_ocupation)

plt.show()

  self._figure.tight_layout(*args, **kwargs)


In [73]:
# Gestante preta e parda
frames = [data_pardo,data_preta]
data_pp =  pd.concat(frames)

most_frequent = data_pp['CODOCUPMAE'].value_counts()
temp = most_frequent.head(n = 20)

titulos = list(temp.index)
counts = list(temp)
percent = list(temp/sum(most_frequent)*100)
zipped = list(zip(titulos,counts,percent))

df_ocupation = pd.DataFrame(data = zipped, columns= ["Titulo","Count","Porcentagem (%)"])

In [74]:
sns.set_theme(style="darkgrid")

ax = sns.catplot(y="Titulo", x = "Porcentagem (%)", kind="bar", data=df_ocupation)

plt.show()

  self._figure.tight_layout(*args, **kwargs)


### Clustering

***há agrupamentos nos dados de perfil materno?***

***há agrupamento nos dados de desfecho?***

In [None]:
# qual algoritmo de clustering utilizar? o numero de amostras é absurdo

# perfil materno
perfil_materno = ['ESTCIVMAE','ESCMAE','RACACOR']

# perfil prenatal
perfil_prenatal = ['CONSULTAS','MESPRENAT']

# desfecho
desfecho = ['APGAR','PESO','GESTACAO','parto_prematuro']

In [None]:
# Dissimilarity matrix for categorical variables (1 - Overlap) 
import Categorical_similarity_measures as sim
def sim_to_dist(x):
    return 1-x

test = data.sample(n = 200) # sampling

#dropna
test.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

#similarity and dissimilarity
similarity = sim.Overlap(test[perfil_materno])
similarity_df = pd.DataFrame(similarity)

distance_df = pd.DataFrame(similarity)
distance_df = distance_df.apply(sim_to_dist)
# diagonal = 0
distance_df = np.array(distance_df)
np.fill_diagonal(distance_df, 0)
distance_df = pd.DataFrame(distance_df)

In [None]:
# representação da amostragem por MDS (Multidimension Scaling)
# https://stackabuse.com/guide-to-multidimensional-scaling-in-python-with-scikit-learn/
from sklearn.manifold import MDS

X = np.array([[0, 0, 0], [0, 0, 1], [1, 1, 1], [0, 1, 0], [0, 1, 1]])
mds = MDS(random_state=0)
X_transform = mds.fit_transform(X)

mds = MDS(dissimilarity='precomputed', random_state=0)

X_transform_L1 = mds.fit_transform(distance_df)

In [None]:
# plot
import tkinter
import matplotlib.pyplot as plt
matplotlib.use('TkAgg')

plt.scatter(x= pd.DataFrame(X_transform_L1)[0], y=pd.DataFrame(X_transform_L1)[1])
plt.show()

In [None]:
# clusterização
# KNN