# <font color='green' style='font-size: 30px;'>Bibliotecas usadas</font>
<hr style='border: 2px solid green;'>

In [147]:
import pandas as pd
import numpy as np

# <font color='green' style='font-size: 30px;'>Problema</font>
<hr style='border: 2px solid green;'>

### Descrição do problema

Você é um funcionário da OMS que deve avaliar os níveis de contaminação de um vírus em um determinado país. As pessoas dentro de uma sociedade podem estar conectadas de alguma maneira (familia, amizade ou trabalho) e cada pessoa possui um conjunto de atributos.

### Comportamento do vírus

<b>Este vírus afeta esta sociedade como descrito a seguir: </b>

● a taxa de contaminação varia de pessoa para pessoa;

● a taxa de contaminação de uma pessoa A para B é diferente de B para A e depende
das características de ambas as pessoas (A e B);

● a contaminação só passa através de indivíduos conectados;

● não existe cura para essa doença;

### Desafio

Foram coletados os dados de contaminação (ou seja, as taxas de contaminação) para metade desta sociedade. Neste problema, você deverá estimar a taxa para o restante dessa sociedade
e decidir políticas de saúde com base nos resultados obtidos.

### Observação

Para determinar as taxas de contaminação, devem ser levados em consideração tanto as características dos infectados quanto dos infectantes.

# <font color='green' style='font-size: 30px;'>Analisando dataset conexões</font>
<hr style='border: 2px solid green;'>

In [10]:
df_conexoes = pd.read_csv('data/conexoes_espec.csv', sep=';')
df_conexoes.head()

Unnamed: 0,V1,V2,grau,proximidade,prob_V1_V2
0,1,2,trabalho,visita_frequente,0.589462
1,1,3,trabalho,visita_rara,0.708465
2,2,4,trabalho,visita_casual,
3,2,5,trabalho,visita_rara,0.638842
4,3,6,amigos,mora_junto,


In [11]:
df_conexoes.shape

(999999, 5)

In [12]:
#Verificando se há valores nulos no dataframe
print ('Quantidade de dados nulos \n', df_conexoes.isna().sum())

Quantidade de dados nulos 
 V1                  0
V2                  0
grau                0
proximidade         0
prob_V1_V2     500000
dtype: int64


# <font color='green' style='font-size: 30px;'>Preenchendo os dados faltantes pela média correspondente dos valores dos atributos grau e proximidade</font>
<hr style='border: 2px solid green;'>

In [125]:
def preenchendo_dados_faltantes_prob_V1_V2(df_conexoes):
    df_conexoes['prob_V1_V2'] = df_conexoes['prob_V1_V2'].fillna(df_conexoes.groupby(['grau', 'proximidade'])['prob_V1_V2'].transform('mean'))
    
    return df_conexoes

# <font color='green' style='font-size: 30px;'>Analisando dataset individuos</font>
<hr style='border: 2px solid green;'>

In [156]:
df_individuos = pd.read_csv('data/individuos_espec.csv', sep=';')
df_individuos.head(17)

Unnamed: 0,name,idade,estado_civil,qt_filhos,estuda,trabalha,pratica_esportes,transporte_mais_utilizado,IMC
0,1,44.0,divorciado,1.0,1.0,0.0,1.0,publico,22.200956
1,2,24.0,casado,0.0,0.0,0.0,1.0,publico,25.37872
2,3,35.0,solteiro,1.0,0.0,0.0,1.0,particular,19.952393
3,4,50.0,casado,1.0,1.0,1.0,0.0,publico,26.732053
4,5,30.0,solteiro,2.0,1.0,0.0,1.0,publico,15.295668
5,6,20.0,,1.0,0.0,1.0,0.0,publico,20.412942
6,7,55.0,solteiro,1.0,1.0,1.0,1.0,particular,
7,8,50.0,divorciado,0.0,1.0,0.0,,publico,21.445628
8,9,42.0,divorciado,1.0,0.0,1.0,,publico,40.793339
9,10,24.0,divorciado,0.0,0.0,0.0,1.0,publico,26.866953


In [157]:
df_individuos.shape

(1000000, 9)

In [158]:
#Verificando se há valores nulos no dataframe
print ('Quantidade de dados nulos \n', df_individuos.isna().sum())

Quantidade de dados nulos 
 name                              0
idade                         95937
estado_civil                  50073
qt_filhos                     28867
estuda                        40130
trabalha                       6353
pratica_esportes             149124
transporte_mais_utilizado     43033
IMC                          113870
dtype: int64


# <font color='green' style='font-size: 30px;'>Preenchendo dos dados faltantes</font>
<hr style='border: 2px solid green;'>

# <font color='gray' style='font-size: 20px;'>Preenchendo dos dados faltantes do tipo categorico como 'Desconhecido'</font>

In [159]:
def preenchendo_dados_categoricos(df_individuos, colunas):
    for coluna in colunas:
        df_individuos[coluna] = df_individuos[coluna].fillna('Desconhecido')
    
    return df_individuos

In [160]:
colunas_categoricas = ['estado_civil', 'estuda', 'trabalha', 'pratica_esportes', 'transporte_mais_utilizado']

# <font color='gray' style='font-size: 20px;'>Preenchendo os dados faltantes da idade pela média correspondente do valor da idade por estado_civil</font>

In [161]:
def preenchendo_dados_faltantes_idade(df_individuos):
    df_individuos['idade'] = df_individuos['idade'].fillna(df_individuos.groupby('estado_civil')['idade'].transform('mean')).astype(int)
    
    return df_individuos

# <font color='gray' style='font-size: 20px;'>Preenchendo os dados faltantes do IMC pela média correspondente se a pessoa é sendetario ou não</font>

In [162]:
def preenchendo_dados_faltantes_IMC(df_individuos):
    df_individuos['IMC'] = df_individuos['IMC'].fillna(df_individuos.groupby('pratica_esportes')['IMC'].transform('mean'))
    
    return df_individuos

# <font color='gray' style='font-size: 20px;'>Preenchendo os dados faltantes da quantidade de filhos pela média de filhos pelo atributo estado_civil</font>

In [163]:
def preenchendo_dados_faltantes_qt_filhos(df_individuos):
    df_individuos['qt_filhos'] = df_individuos['qt_filhos'].fillna(df_individuos.groupby('estado_civil')['qt_filhos'].transform('mean')).astype(int)
    
    return df_individuos

# <font color='green' style='font-size: 30px;'>Verificando dados duplicados</font>
<hr style='border: 2px solid green;'>

In [165]:
#Limpando dados duplicado do dataset conexoes, deixando apenas a primeira ocorrência
def verificando_removendo_duplicados(df):
    df.drop_duplicates(keep='first', inplace=True) 

# <font color='green' style='font-size: 30px;'>Verificando outliers</font>
<hr style='border: 2px solid green;'>

In [178]:
#Os demais atributos são dados categóricos
verificar_outliers_conexoes = ['prob_V1_V2']
verificar_outliers_individuos = ['idade', 'qt_filhos', 'IMC']

In [179]:
#A abordagem de intervalo interquartil IQR (intervalo interquartil) para encontrar valores discrepantes é a abordagem mais comumente usada e mais confiável usada no campo de pesquisa.
#Detectando e eliminando outliers por métodos estatísticos
def verificando_removendo_outliers(df, colunas):
    for atributo in colunas:
        print("Limpeza do atributo {}".format(atributo))
        Q1 = np.percentile(df[atributo], 25,
                           interpolation = 'midpoint')

        Q3 = np.percentile(df[atributo], 75,
                           interpolation = 'midpoint')
        IQR = Q3 - Q1

        print("velho formato: ", df.shape)

        # Upper bound
        upper = np.where(df[atributo] >= (Q3+1.5*IQR))
        # Lower bound
        lower = np.where(df[atributo] <= (Q1-1.5*IQR))

        #Removendo as outliers
        df.drop(upper[0], inplace = True, errors='ignore')
        df.drop(lower[0], inplace = True, errors='ignore')

        print("Novo formato: ", df.shape)
        print("\n")