In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from pathlib import Path
import numpy as np

## Lendo principais dados dos pares de gêmeos

In [2]:
twins_data_path = Path("../data/original/twin_pairs_X_3years_samesex.csv")

In [3]:
twins_data_df = pd.read_csv(twins_data_path)

In [4]:
twins_data_df.head().T

Unnamed: 0,0,1,2,3,4
Unnamed: 0.1,0.0,1.0,2.0,3.0,4.0
Unnamed: 0,0.0,1.0,2.0,3.0,4.0
pldel,1.0,1.0,1.0,1.0,1.0
birattnd,1.0,1.0,1.0,1.0,1.0
brstate,1.0,1.0,1.0,1.0,1.0
stoccfipb,1.0,1.0,1.0,1.0,1.0
mager8,3.0,3.0,5.0,4.0,5.0
ormoth,0.0,0.0,0.0,0.0,0.0
mrace,1.0,2.0,1.0,2.0,2.0
meduc6,,3.0,5.0,1.0,4.0


## Dados gerais

Quantidade de pares de irmãos gêmeos:

In [5]:
len(twins_data_df)

71345

## Quantidade de nulos

In [6]:
twins_data_df.isna().sum()

Unnamed: 0.1         0
Unnamed: 0           0
pldel               24
birattnd           114
brstate              0
stoccfipb            0
mager8               0
ormoth            2026
mrace                0
meduc6            4339
dmar                 0
mplbir             108
mpre5             1627
adequacy          3169
orfath           11822
frace            10260
birmon               0
gestat10             0
csex                 0
anemia            4240
cardiac           4240
lung              4240
diabetes          4240
herpes           10566
hydra             7086
hemo              7086
chyper            4240
phyper            4240
eclamp            4240
incervix          7086
pre4000           7086
preterm           7086
renal             4240
rh                5015
uterine           7720
othermr           4240
tobacco          19254
alcohol          17923
cigar6           19716
drink5           18319
crace                0
data_year            0
nprevistq         2350
dfageq     

O máximo de nulos é na coluna cigar6 com 19716 nulos, cerca de 27% das entradas

Apesar de os nomes das colunas serem estranhos, elas tem uma explicação no arquivo ../data/original/covar_desc.txt:

In [7]:
col_desc = {'adequacy': 'adequacy of care',
 'alcohol': 'risk factor, alcohol use',
 'anemia': 'risk factor, Anemia',
 'birattnd': 'medical person attending birth',
 'birmon': 'birth month Jan-Dec',
 'bord_0': 'birth order of lighter twin',
 'bord_1': 'birth order of heavier twin',
 'brstate': 'state of residence NCHS',
 'brstate_reg': 'US census region of brstate',
 'cardiac': 'risk factor, Cardiac',
 'chyper': 'risk factor, Hypertension, chronic',
 'cigar6': 'num of cigarettes /day, quantiled',
 'crace': 'race of child',
 'csex': 'sex of child',
 'data_year': 'year: 1989, 1990 or 1991',
 'dfageq': 'octile age of father',
 'diabetes': 'risk factor, Diabetes',
 'dlivord_min': 'number of live births before twins',
 'dmar': 'married',
 'drink5': 'num of drinks /week, quantiled',
 'dtotord_min': 'total number of births before twins',
 'eclamp': 'risk factor, Eclampsia',
 'feduc6': 'education category',
 'frace': 'dad race',
 'gestat10': 'gestation 10 categories',
 'hemo': 'risk factor Hemoglobinopathy',
 'herpes': 'risk factor, Herpes',
 'hydra': 'risk factor Hvdramnios/Oliqohvdramnios',
 'incervix': 'risk factor, Incompetent cervix',
 'infant_id_0': 'infant id of lighter twin in original df',
 'infant_id_1': 'infant id of heavier twin in original df',
 'lung': 'risk factor, Lung',
 'mager8': 'mom age',
 'meduc6': 'mom education',
 'mplbir': 'mom place of birth',
 'mplbir_reg': 'US census region of mplbir',
 'mpre5': 'trimester prenatal care begun, 4 is none',
 'mrace': 'mom race',
 'nprevistq': 'quintile number of prenatal visits',
 'orfath': 'dad hispanic',
 'ormoth': 'mom hispanic',
 'othermr': 'risk factor, Other Medical Risk Factors',
 'phyper': 'risk factor, Hypertension, preqnancy-associated',
 'pldel': 'place of delivery',
 'pre4000': 'risk factor, Previous infant 4000+ grams',
 'preterm': 'risk factor, Previos pre-term or small',
 'renal': 'risk factor, Renal disease',
 'rh': 'risk factor, RH sensitization',
 'stoccfipb': 'state of occurence FIPB',
 'stoccfipb_reg': 'US census region of stoccfipb',
 'tobacco': 'risk factor, tobacco use',
 'uterine': 'risk factor, Uterine bleeding'}

# Separando as linhas

## Sobre as features dos bebês

Essa parte se refere ao arquivo que contém features sobre os bebês. Esse arquivo é o que já foi aberto acima.

### Sobre as colunas

O DataFrame original possui colunas comuns a ambos os bebês e outras específicas. Essas últimas têm o sufixo '_0' ou '_1'. O sufixo "_0" significa que a coluna é se refere ao bebê mais leve entre os dois e "_1" o contrário. Isso pode vir a ser uma coluna também.

In [8]:
twins_data_df.columns

Index(['Unnamed: 0.1', 'Unnamed: 0', 'pldel', 'birattnd', 'brstate',
       'stoccfipb', 'mager8', 'ormoth', 'mrace', 'meduc6', 'dmar', 'mplbir',
       'mpre5', 'adequacy', 'orfath', 'frace', 'birmon', 'gestat10', 'csex',
       'anemia', 'cardiac', 'lung', 'diabetes', 'herpes', 'hydra', 'hemo',
       'chyper', 'phyper', 'eclamp', 'incervix', 'pre4000', 'preterm', 'renal',
       'rh', 'uterine', 'othermr', 'tobacco', 'alcohol', 'cigar6', 'drink5',
       'crace', 'data_year', 'nprevistq', 'dfageq', 'feduc6', 'infant_id_0',
       'infant_id_1', 'dlivord_min', 'dtotord_min', 'bord_0', 'bord_1',
       'brstate_reg', 'stoccfipb_reg', 'mplbir_reg'],
      dtype='object')

Dessa forma, as colunas em comum são:

In [9]:
shared_cols = {col for col in twins_data_df.columns.values if col[-2:] not in ("_0", "_1")}

In [10]:
shared_cols

{'Unnamed: 0',
 'Unnamed: 0.1',
 'adequacy',
 'alcohol',
 'anemia',
 'birattnd',
 'birmon',
 'brstate',
 'brstate_reg',
 'cardiac',
 'chyper',
 'cigar6',
 'crace',
 'csex',
 'data_year',
 'dfageq',
 'diabetes',
 'dlivord_min',
 'dmar',
 'drink5',
 'dtotord_min',
 'eclamp',
 'feduc6',
 'frace',
 'gestat10',
 'hemo',
 'herpes',
 'hydra',
 'incervix',
 'lung',
 'mager8',
 'meduc6',
 'mplbir',
 'mplbir_reg',
 'mpre5',
 'mrace',
 'nprevistq',
 'orfath',
 'ormoth',
 'othermr',
 'phyper',
 'pldel',
 'pre4000',
 'preterm',
 'renal',
 'rh',
 'stoccfipb',
 'stoccfipb_reg',
 'tobacco',
 'uterine'}

Já as colunas específicas são:

In [11]:
spec_cols = {col for col in twins_data_df.columns.values if col[-2:] in ("_0", "_1")}

In [12]:
spec_cols

{'bord_0', 'bord_1', 'infant_id_0', 'infant_id_1'}

De acordo com o significado das colunas, bord indica se a criança nasceu antes ou depois do seu irmão gêmeo.

In [13]:
twins_data_df['bord_0'].unique()

array([nan,  2.,  1.])

Ou seja, esses valores são 1, 2 ou NaN

## Sobre os pesos dos bebês

Essa parte se refere ao arquivo que contém informação sobre os pesos dos bebês em gramas.

In [14]:
twins_weights_path = Path("../data/original/twin_pairs_T_3years_samesex.csv")

In [15]:
twins_weights_df = pd.read_csv(twins_weights_path)

In [16]:
twins_weights_df.head()

Unnamed: 0.1,Unnamed: 0,dbirwt_0,dbirwt_1
0,0,2268.0,2296.0
1,1,2610.0,2650.0
2,2,1985.0,2098.0
3,3,2410.0,2420.0
4,4,2013.0,2637.0


In [17]:
twins_weights_df.drop("Unnamed: 0", inplace=True, axis=1)

In [18]:
len(twins_weights_df)

71345

In [19]:
twins_weights_df.isna().sum()

dbirwt_0    0
dbirwt_1    0
dtype: int64

Esse arquivo possui uma entrada para cada par de bebês e não tem nenhum dado faltando.

## Sobre a mortalidade dos bebês

Essa parte é sobre a identificação se o bebê morreu ou não.

In [20]:
twins_died_path = Path("../data/original/twin_pairs_Y_3years_samesex.csv")

In [21]:
twins_died_df = pd.read_csv(twins_died_path)

In [22]:
twins_died_df.head()

Unnamed: 0.1,Unnamed: 0,mort_0,mort_1
0,0,0.0,0.0
1,1,0.0,0.0
2,2,0.0,0.0
3,3,0.0,0.0
4,4,0.0,0.0


In [23]:
twins_died_df.drop("Unnamed: 0", inplace=True, axis=1)

In [24]:
len(twins_died_df)

71345

In [25]:
twins_died_df.isna().sum()

mort_0    0
mort_1    0
dtype: int64

Esse arquivo também possui uma entrada para cada par e não falta nenhum dado.

### Populando o novo DF

In [26]:
twins_sep_df = pd.DataFrame()

In [29]:
def remove_unwanted_cols_pre_treatment(df):
    return df.drop(['Unnamed: 0', 'Unnamed: 0.1'], axis=1)

def remove_unwanted_cols_pos_treatment(df):
    unwanted_cols = ['bord_0', 'bord_1', 'infant_id_0', 'infant_id_1', 
                    'mort_0', 'mort_1', 'dbirwt_0', 'dbirwt_1']
    return df.drop(unwanted_cols, axis=1)

def duplicate_every_row(df):
    return pd.DataFrame(np.repeat(df.values, 2, axis=0), columns=df.columns)

def create_new_columns(df):
    df['lighter'] = 0
    df['first'] = 0
    df['id'] = 0
    df['weight'] = 0
    df['died'] = 0
    df['has_missing'] = False
    
    return df

def define_lighter_col(row):
    row['lighter'] = 1 if int(row.name) % 2 == 0 else 0
    return row

def define_first_col(row):
    born_order = 0
    if pd.isnull(row['bord_0']):
        row['first'] = np.NaN
        return row
    
    if row['lighter'] == 1:
        born_order = row['bord_0']
    else:
        born_order = row['bord_1']
    
    #born_order tem os valores {1, 2}
    row['first'] = 1 if born_order == 1 else 0
    
    return row

def define_baby_id(row):
    if row['lighter'] == 1:
        row['id'] = row['infant_id_0']
    else:
        row['id'] = row['infant_id_1']
    
    return row

def define_baby_died(row):
    if row['lighter'] == 1:
        row['died'] = row['mort_0']
    else:
        row['died'] = row['mort_1']
    
    return row

def define_baby_weight(row):
    if row['lighter'] == 1:
        row['weight'] = row['dbirwt_0']
    else:
        row['weight'] = row['dbirwt_1']
    
    return row

def define_has_missing(row):
    if row.isnull().values.any():
        row['has_missing'] = True
    
    return row

def complete_with_most_common(df):
    missing_count = df.isna().sum()
    missing_cols_names = missing_count.loc[missing_count > 0].index.to_list()
    most_common_per_col = dict()
    for col in missing_cols_names:
        most_common_per_col[col] = df[col].value_counts().idxmax()
    
    df.fillna(most_common_per_col, inplace=True)
    return df

twins_sep_df = pd.concat([twins_data_df, twins_died_df, twins_weights_df], axis=1)
twins_sep_df = remove_unwanted_cols_pre_treatment(twins_sep_df)
twins_sep_df = duplicate_every_row(twins_sep_df)
twins_sep_df = create_new_columns(twins_sep_df)
twins_sep_df = twins_sep_df.apply(define_lighter_col, axis=1)
twins_sep_df = twins_sep_df.apply(define_first_col, axis=1)
twins_sep_df = twins_sep_df.apply(define_baby_id, axis=1)
twins_sep_df = twins_sep_df.apply(define_baby_died, axis=1)
twins_sep_df = twins_sep_df.apply(define_baby_weight, axis=1)
twins_sep_df = twins_sep_df.apply(define_has_missing, axis=1)
twins_sep_df = complete_with_most_common(twins_sep_df)
twins_sep_df = remove_unwanted_cols_pos_treatment(twins_sep_df)

In [30]:
twins_sep_df.isna().sum()

pldel            0
birattnd         0
brstate          0
stoccfipb        0
mager8           0
ormoth           0
mrace            0
meduc6           0
dmar             0
mplbir           0
mpre5            0
adequacy         0
orfath           0
frace            0
birmon           0
gestat10         0
csex             0
anemia           0
cardiac          0
lung             0
diabetes         0
herpes           0
hydra            0
hemo             0
chyper           0
phyper           0
eclamp           0
incervix         0
pre4000          0
preterm          0
renal            0
rh               0
uterine          0
othermr          0
tobacco          0
alcohol          0
cigar6           0
drink5           0
crace            0
data_year        0
nprevistq        0
dfageq           0
feduc6           0
dlivord_min      0
dtotord_min      0
brstate_reg      0
stoccfipb_reg    0
mplbir_reg       0
lighter          0
first            0
id               0
weight           0
died        

In [31]:
twins_sep_df.head()

Unnamed: 0,pldel,birattnd,brstate,stoccfipb,mager8,ormoth,mrace,meduc6,dmar,mplbir,...,dtotord_min,brstate_reg,stoccfipb_reg,mplbir_reg,lighter,first,id,weight,died,has_missing
0,1.0,1.0,1.0,1.0,3.0,0.0,1.0,3.0,1.0,31.0,...,1.0,5.0,5.0,1.0,1,0.0,1.0,2268.0,0.0,True
1,1.0,1.0,1.0,1.0,3.0,0.0,1.0,3.0,1.0,31.0,...,1.0,5.0,5.0,1.0,0,0.0,0.0,2296.0,0.0,True
2,1.0,1.0,1.0,1.0,3.0,0.0,2.0,3.0,0.0,1.0,...,3.0,5.0,5.0,5.0,1,0.0,7.0,2610.0,0.0,True
3,1.0,1.0,1.0,1.0,3.0,0.0,2.0,3.0,0.0,1.0,...,3.0,5.0,5.0,5.0,0,1.0,6.0,2650.0,0.0,True
4,1.0,1.0,1.0,1.0,5.0,0.0,1.0,5.0,1.0,59.0,...,1.0,5.0,5.0,1.0,1,0.0,11.0,1985.0,0.0,True


In [32]:
twins_sep_df['has_missing'].value_counts()

True     78450
False    64240
Name: has_missing, dtype: int64

In [33]:
len(twins_sep_df)

142690

A quantidade de linhas no df final dobrou, já que cada linha agora é relativa a apenas um dos bebês. Além disso, as colunas específicas de cada bebê por linha no df original foram substituídas pelas colunas 'lighter' (indicando se é o bebê mais leve entre os irmãos), 'first' (indicando se foi o primeiro bebê a nascer) e 'id'.

Também foi possível juntar as informações que estavam contidas nos outros arquivos gerando, então, as colunas 'weight' (indicando o peso que o bebê possuía quando nasceu em gramas) e 'died' (Se o bebê veio a óbito).

# Salvando os dados tratados

In [34]:
twins_sep_path = Path("../data/treated/twins_data.csv")

In [35]:
twins_sep_df.to_csv(twins_sep_path, index=False)