In [None]:
from matplotlib import pyplot as plt
from dateutil.parser import parse
import pandas as pd

### Visualização de Dados Faltosos

In [None]:
def visualizarQntFaltosos(covidData):
    faltantes = covidData.isnull().sum()
    faltantes_percentual = (covidData.isnull().sum() / len(covidData['source_id'])) * 100
    return faltantes_percentual
    
def plotarQntFaltosos(dados):
    nomes = dados.index
    valores = dados.values
    plt.barh(nomes, valores)
    plt.show

### Pré-processamento -- Classificação Final

```Descartado, Confirmado [Laboratorial, Clínico-Epidemiológico, Critério Clínico] e  Síndrome Gripal Não Especificada```

In [None]:
# Remover os dados faltosos da coluna ClassificacaoFinal
def __classFinRemoverFaltos__(covidData, classificacao):
    atributosVazios = covidData.loc[covidData[classificacao].isnull()]
    covidData = covidData.drop(atributosVazios.index)
    return covidData

# Agrupar as instâncias confirmadas
def __classFinAgruparConfirmados__(covidData, classificacao):
    covidData.loc[covidData[classificacao].str.contains(pat = 'Confirmado'), [classificacao]] = 'Confirmado';
    return covidData

# Remover os dados diferentes de confirmados
def __classFinRemoverOutliers__(covidData, classificacao):
    dadosNaoConfirmados = covidData.loc[((covidData[classificacao] != 'Confirmado'))]
    covidData = covidData.drop(dadosNaoConfirmados.index)
    return covidData

In [None]:
# Pré-processamento Geral
def classFinPreprocessamento(covidData, alvo):
    covidData = __classFinRemoverFaltos__(covidData, alvo)
    covidData = __classFinAgruparConfirmados__(covidData, alvo)
    covidData = __classFinRemoverOutliers__(covidData, alvo)
    return covidData

### Pré-processamento -- Evolução

``` Pode conter (Cancelado, Cura, Ignorado, Em tratamento domiciliar, Óbito, Internado, Internado em UTI ```

In [None]:
# Remover os dados faltosos da coluna Evolução
def __evolucaoRemoverFaltosos__(covidData, evolucao):
    atributosVazios = covidData.loc[covidData[evolucao].isnull()]
    covidData = covidData.drop(atributosVazios.index)
    return covidData

# Remover instâncias com valores Cancelado ou Ignorado
def __evolucaoRemoverCanceladoIgnorado__(covidData, evolucao):
    dadosIgnoradosCancelados = covidData.loc[((covidData[evolucao] == 'Ignorado') | 
                                              (covidData[evolucao] == 'Cancelado'))]
    covidData = covidData.drop(dadosIgnoradosCancelados.index)
    return covidData

# Agrupar as instâncias de Internação
def __evolucaoAgruparInternados__(covidData, evolucao):
    covidData.loc[covidData[evolucao] == 'Internado em UTI', [evolucao]] = 'Internado';
    return covidData

# Agrupar as instâncias Curadas
def __evolucaoAgruparCurados__(covidData, evolucao):
    covidData.loc[covidData[evolucao] == 'Em tratamento domiciliar', [evolucao]] = 'Cura';
    return covidData

In [None]:
# Pré-processamento Geral - Evolução
def evolucaoPreprocessamento(covidData, alvo):
    covidData = __evolucaoRemoverFaltosos__(covidData, alvo)
    covidData = __evolucaoRemoverCanceladoIgnorado__(covidData, alvo)
    covidData = __evolucaoAgruparInternados__(covidData, alvo)
    covidData = __evolucaoAgruparCurados__(covidData, alvo)
    return covidData

### Pré-processamento -- Sintomas

``` Pode conter - Assintomático, Febre, Dor de Garganta, Dispneia, Tosse,  Coriza, Dor de Cabeça, Distúrbios gustatórios, Distúrbios olfativos ```

In [None]:
descricaoSintomas = {"assintomatico": 'Assintomático', 
                     "febre": 'Febre', 
                     "dorDeGarganta": 'Dor de Garganta', 
                     "dispneia": 'Dispneia', 
                     "tosse": 'Tosse', 
                     "coriza": 'Coriza', 
                     "dorDeCabeca": 'Dor de Cabeça', 
                     "disturbiosGustatorios": 'Distúrbios gustatórios', 
                     "disturbiosOlfativos": 'Distúrbios olfativos'}

def __sintomasRemoverFaltosos__(covidData, sintomas):
    atributosVazios = covidData.loc[covidData[sintomas].isnull()]
    covidData = covidData.drop(atributosVazios.index)
    return covidData

def __sintomasConverterTipos__(covidData, sintomas):
    for chave in descricaoSintomas.keys():
        covidData[chave] = covidData[sintomas].apply(lambda x: 1 if descricaoSintomas[chave] in x else 0)
    return covidData    

In [None]:
def sintomasQntValores(covidData):
    for chave in descricaoSintomas.keys():
        qnt = covidData[chave].value_counts()
        print(chave)
        print('P (%d) \t N (%d)' % (1 in qnt.index and qnt[1] or 0, 0 in qnt.index and qnt[0] or 0))
        print('=====================================')

In [None]:
# Pré-processamento Geral - Sintomas
def sintomasPreprocessamento(covidData, sintomas):
    covidData = __sintomasRemoverFaltosos__(covidData, sintomas)
    covidData = __sintomasConverterTipos__(covidData, sintomas)
    return covidData  

### Pré-processamento -- Condições

```Diabetes, Obesidade, Doenças renais crônicas em estágio avançado, Doenças respiratórias crônicas descompensadas, Imunossupressão, Portador de doenças cromossômicas ou estado de fragilidade imunológica, Gestante, Doenças cardíacas crônicas, Puérpera (até 45 dias do parto) ```

In [None]:
descricaoComorbidades = {"diabetes": 'Diabetes', 
                "obesidade": 'Obesidade', 
                "renal": 'Doenças renais crônicas em estágio avançado',
                "respiratoria": 'Doenças respiratórias crônicas descompensadas',
                "imunossupressao": 'Imunossupressão',
                "fragilidadeImuno": 'Portador de doenças cromossômicas ou estado de fragilidade imunológica',
                "gestante": 'Gestante',
                "cardiaca": 'Doenças cardíacas crônicas',
                "puerpera": 'Puérpera'}


def __condicoesConverterTipos__(covidData, condicoes):
    covidData[condicoes] = covidData[condicoes].fillna('Faltoso')
    for chave in descricaoComorbidades.keys():
        covidData[chave] = covidData[condicoes].apply(lambda x: 1 if descricaoComorbidades[chave] in x else 0)
        covidData.loc[(covidData[condicoes].str.contains(pat = 'Faltoso')), chave] = 'F'
    return covidData

In [None]:
def condicoesQntValores(covidData):
    for chave in descricaoComorbidades.keys():
        qnt = covidData[chave].value_counts()
        print(chave)
        print('P (%d) \t N (%d)' % (1 in qnt.index and qnt[1] or 0, 0 in qnt.index and qnt[0] or 0))
        print('=====================================')
        
def condicoesQntValoresComAusentes(covidData):
    for chave in descricaoComorbidades.keys():
        qnt = covidData[chave].value_counts()
        print(chave)
        print('P (%d) \t N (%d) \t A (%d)' % (1 in qnt.index and qnt[1] or 0, 
                                              0 in qnt.index and qnt[0] or 0, 
                                              'F' in qnt.index and qnt['F'] or 0))
        print('=====================================')
        
        
def condicoesFormatarValores(covidData):
    for chave in descricaoComorbidades.keys():        
        covidData[chave] = covidData[chave].replace([0, 1, 'F'], [0, 1, 0])
    return covidData

In [None]:
# Pré-processamento Geral - Condições
def condicoesPreprocessamento(covidData, condicoes):
    covidData = __condicoesConverterTipos__(covidData, condicoes)
    return covidData  

### Pré-processamento -- Vacinas

In [1]:
def __stringVazia__(myString):
    if myString and myString.strip():
        return False
    return True

def __dataValida__(string, fuzzy=False):
    if isBlank(string):
        return False
    try: 
        parse(string, fuzzy=fuzzy)
        return True

    except ValueError:
        return False

In [None]:
"""
covidData.loc[((covidData['dataPrimeiraDose'].isnull()) & 
               (covidData['dataSegundaDose'].isnull())) , 'qntVacinas'] = 0

covidData.loc[((covidData['dataPrimeiraDose'].isnull() == False) & 
               (covidData['dataSegundaDose'].isnull())) , 'qntVacinas'] = 1

covidData.loc[((covidData['dataPrimeiraDose'].isnull() == False) & 
               (covidData['dataSegundaDose'].isnull() == False)) , 'qntVacinas'] = 2

covidData.loc[((covidData['dataPrimeiraDose'].isnull()) & 
               (covidData['dataSegundaDose'].isnull() == False)) , 'qntVacinas'] = 3

covidData[['dataPrimeiraDose', 'dataSegundaDose', 'qntVacinas']].head(100)

covidData['qntVacinas'].value_counts()
"""

### Pré-processamento -- Idade

In [None]:
def __idadeRemoverFaltosos__(covidData, idade):
    idadeAusentes = covidData.loc[covidData[idade].isnull()]
    covidData = covidData.drop(idadeAusentes.index)
    return covidData

def __idadeRemoverOutliers__(covidData, idade):
    idadeOutliers = covidData.loc[((covidData[idade] >= 110) | (covidData[idade] < 0))]
    covidData = covidData.drop(idadeOutliers.index)
    return covidData

def __idadeConverterFaixaEtaria__(covidData, idade, faixaetaria):
    covidData.loc[((covidData[idade] >= 0) & (covidData[idade] <= 11)), faixaetaria] = 0
    covidData.loc[((covidData[idade] >= 12) & (covidData[idade] <= 17)), faixaetaria] = 1
    covidData.loc[((covidData[idade] >= 18) & (covidData[idade] <= 29)), faixaetaria] = 2
    covidData.loc[((covidData[idade] >= 30) & (covidData[idade] <= 44)), faixaetaria] = 3
    covidData.loc[((covidData[idade] >= 45) & (covidData[idade] <= 59)), faixaetaria] = 4
    covidData.loc[((covidData[idade] >= 60) & (covidData[idade] <= 74)), faixaetaria] = 5
    covidData.loc[((covidData[idade] >= 75) & (covidData[idade] <= 89)), faixaetaria] = 6
    covidData.loc[((covidData[idade] >= 90)), faixaetaria] = 7
    return covidData

In [None]:
# Pré-processamento Geral - Idade
def idadePreprocessamento(covidData, idade, faixaetaria):
    covidData = __idadeRemoverFaltosos__(covidData, idade)
    covidData = __idadeRemoverOutliers__(covidData, idade)
    covidData = __idadeConverterFaixaEtaria__(covidData, idade, faixaetaria)
    return covidData  

### Pré-processamento -- Raça

In [None]:
def __racaRemoverFaltosos__(covidData, raca):
    racaAusentes = covidData.loc[covidData[raca].isnull()]
    covidData = covidData.drop(racaAusentes.index)
    return covidData

def __racaRemoverOutliers__(covidData, raca):    
    racaOutliers = covidData.loc[((covidData[raca] != 'Branca') & (covidData[raca] != 'Preta') & 
                                 (covidData[raca] != 'Amarela') & (covidData[raca] != 'Parda') &
                                 (covidData[raca] != 'Indigena'))]
    covidData = covidData.drop(racaOutliers.index)
    return covidData

In [None]:
# Pré-processamento Geral - Raça
def racaPreprocessamento(covidData, raca):
    covidData = __racaRemoverFaltosos__(covidData, raca)
    covidData = __racaRemoverOutliers__(covidData, raca)
    return covidData  

### Pré-processamento -- Sexo

In [None]:
def __sexoRemoverFaltosos__(covidData, sexo):
    sexoAusentes = covidData.loc[covidData[sexo].isnull()]
    covidData = covidData.drop(sexoAusentes.index)
    return covidData

def __sexoRemoverOutliers__(covidData, sexo):
    sexoOutliers = covidData.loc[((covidData[sexo] != 'Feminino') & (covidData[sexo] != 'Masculino'))]
    covidData = covidData.drop(sexoOutliers.index)
    return covidData

In [None]:
# Pré-processamento Geral - Raça
def sexoPreprocessamento(covidData, sexo):
    covidData = __sexoRemoverFaltosos__(covidData, sexo)
    covidData = __sexoRemoverOutliers__(covidData, sexo)
    return covidData  

### Pré-processamento -- Removendo Colunas

In [None]:
# Pré-processamento Geral - Remoção de Colunas
def removerColunas(covidData, colunasRemovidas):
    covidData = covidData.drop(columns = colunasRemovidas)
    return covidData  

### Pré-processamento -- Formatando Colunas

In [None]:
def __formatarRaca__(covidData):
    raca = 'racaCor'
    covidData[raca] = covidData[raca].replace(['Branca', 'Preta', 'Amarela', 'Parda', 'Indigena'], 
                                              [0, 1, 2, 3, 4])
    return covidData

def __formatarSexo__(covidData):
    sexo = 'sexo'
    covidData[sexo]= covidData[sexo].replace(['Feminino', 'Masculino'], [0, 1])
    return covidData

def __formatarEvolucao__(covidData):
    evolucao = 'evolucaoCaso'
    covidData[evolucao]= covidData[evolucao].replace(['Óbito', 'Cura'], [0, 1])
    return covidData

In [None]:
# Pré-processamento Geral - Formatação de Colunas
def formatarColunas(covidData):
    covidData = __formatarRaca__(covidData)
    covidData = __formatarSexo__(covidData)
    covidData = __formatarEvolucao__(covidData)
    return covidData  

### Pré-processamento -- Balanceamento

In [None]:
def __balanceamentoJuntarBases__(base_1, base_2):
    covidBalanced = pd.merge(base_1, base_2, how = 'outer')
    covidBalanced.reset_index(inplace=True, drop = True)
    return covidBalanced
    

In [None]:
def balanceamento(covidData, coluna, valor_1, porcentagem, valor_2):
    dadosObitosAmostra = covidData.loc[((covidData[coluna] == valor_1))]
    dadosCura = covidData.loc[((covidData[coluna] == valor_2))]

    qntObitos = len(dadosObitosAmostra)
    qntCurados = int((qntObitos * 100) / porcentagem)

    dadosCuraAmostra = dadosCura.sample(qntCurados)
    return __balanceamentoJuntarBases__(dadosObitosAmostra, dadosCuraAmostra)

### Pré-Processamento -- Salvando Dados

In [None]:
def salvarBaseDeDados(covidData, arquivo):
    write = pd.ExcelWriter(arquivo)
    covidData.to_excel(write, 'dados', index = False)
    write.save()