In [13]:
import pandas as pd
import numpy as np

import import_ipynb
import preprocessamentofuncoes as pp

### Definindo as Funções Auxiliares

In [2]:
# Excluindo os dias vazios
def removerAtributosFaltosos(covidData, atributo):
    instanciasVazias = covidData.loc[covidData[atributo].isnull()]
    covidData = covidData.drop(instanciasVazias.index)
    return covidData

In [3]:
def converterDiasSintomas(covidData, diasSintomas, novaColuna):
    covidData.loc[((covidData[diasSintomas] >= 0) & (covidData[diasSintomas] <= 3)), novaColuna] = 0
    covidData.loc[((covidData[diasSintomas] >= 4) & (covidData[diasSintomas] <= 6)), novaColuna] = 1
    covidData.loc[((covidData[diasSintomas] >= 7) & (covidData[diasSintomas] <= 9)), novaColuna] = 2
    covidData.loc[((covidData[diasSintomas] >= 10) & (covidData[diasSintomas] <= 12)), novaColuna] = 3
    covidData.loc[((covidData[diasSintomas] >= 13) & (covidData[diasSintomas] <= 15)), novaColuna] = 4
    covidData.loc[((covidData[diasSintomas] >= 16) & (covidData[diasSintomas] <= 18)), novaColuna] = 5
    covidData.loc[((covidData[diasSintomas] > 18)), novaColuna] = 6
    return covidData

In [4]:
def salvarDataframeEmPlanilha(covidDataBalanced, url):
    write = pd.ExcelWriter(url)
    covidDataBalanced.to_excel(write, 'dados', index = False)
    write.save()

In [19]:
def balanceandoDados(urlBase, colunasRemovidas, uf):
    print("Iniciando - Base ", uf)
    covidData = pd.read_excel(urlBase)
    
    # Removendo as colunas destacadas
    #covidData = covidData.drop(columns = colunasRemovidas)
    
    # Excluindo os dias vazios
    covidData = removerAtributosFaltosos(covidData, 'diasSintomas')
    
    # Removendo os dias outliers
    diasSintomasOutliers = covidData.loc[((covidData['diasSintomas'] > 30))]
    covidData = covidData.drop(diasSintomasOutliers.index)
    
    # Converter os dias de sintomas em faixas
    covidData = converterDiasSintomas(covidData, 'diasSintomas', 'faixaDiasSintomas')
    
    # Removendo o atributo Dias de Sintomas 
    covidData = covidData.drop(columns = 'diasSintomas')
    
    print("Base Total: \n", covidData['evolucaoCaso'].value_counts(), "\n====================")
    
    # Balanceamento - OC 60/40
    covidDataBalanced = pp.balanceamento(covidData, 'evolucaoCaso', 0, 40, 1)
    covidDataBalanced = removerAtributosFaltosos(covidDataBalanced, 'faixaDiasSintomas')
    salvarDataframeEmPlanilha(covidDataBalanced, 'PreProcessamento/balanceadas/OC/ba-oc-6040-' + uf + '.xlsx')
    print('OC 6040 - ', covidDataBalanced.shape)
    
    # Balanceamento - OC 70/30
    covidDataBalanced = pp.balanceamento(covidData, 'evolucaoCaso', 0, 30, 1)
    covidDataBalanced = removerAtributosFaltosos(covidDataBalanced, 'faixaDiasSintomas')
    salvarDataframeEmPlanilha(covidDataBalanced, 'PreProcessamento/balanceadas/OC/ba-oc-7030-' + uf + '.xlsx')
    print('OC 7030 - ', covidDataBalanced.shape)

    # Balanceamento - IC 60/40
    covidDataBalanced = pp.balanceamento(covidData, 'evolucaoCaso', 2, 40, 1)
    covidDataBalanced = removerAtributosFaltosos(covidDataBalanced, 'faixaDiasSintomas')
    salvarDataframeEmPlanilha(covidDataBalanced, 'PreProcessamento/balanceadas/IC/ba-ic-6040-' + uf + '.xlsx')
    print('IC 6040 - ', covidDataBalanced.shape)

    # Balanceamento - IC 70/30
    covidDataBalanced = pp.balanceamento(covidData, 'evolucaoCaso', 2, 30, 1)
    covidDataBalanced = removerAtributosFaltosos(covidDataBalanced, 'faixaDiasSintomas')
    salvarDataframeEmPlanilha(covidDataBalanced, 'PreProcessamento/balanceadas/IC/ba-ic-7030-' + uf + '.xlsx')
    print('IC 7030 - ', covidDataBalanced.shape)
    print("=====================================")
  
    

### Definindo as Colunas Removidas e as Bases Utilizadas

In [6]:

colunasRemovidas = ['source_id', 'dataInicioSintomas', 'dataNotificacao', 'idade',
                    'sintomas', 'outrosSintomas', 'condicoes', 'outrasCondicoes',
                    'dataPrimeiraDose', 'dataSegundaDose', 'classificacaoFinal', 
                    'outrosSintomas', 'outrasCondicoes']

In [14]:
bases = ['sus-ac-pp.xlsx', 'sus-al-pp.xlsx', 'sus-am-pp.xlsx', 'sus-ap-pp.xlsx', 
         'sus-ba-pp.xlsx', 'sus-ce-pp.xlsx', 'sus-df-pp.xlsx', 
         'sus-go-pp.xlsx', 'sus-ma-pp.xlsx', 'sus-mg-pp.xlsx', 'sus-ms-pp.xlsx', 
         'sus-mt-pp.xlsx', 'sus-pa-pp.xlsx', 'sus-pb-pp.xlsx', 'sus-pe-pp.xlsx', 
         'sus-pi-pp.xlsx',  'sus-rj-pp.xlsx', 'sus-rn-pp.xlsx', 
         'sus-ro-pp.xlsx', 'sus-rr-pp.xlsx', 'sus-rs-pp.xlsx', 'sus-sc-pp.xlsx', 
         'sus-se-pp.xlsx', 'sus-to-pp.xlsx']


ufs = ['ac', 'al', 'am', 'ap', 'ba', 'ce', 'df',  
      'go', 'ma', 'mg', 'ms', 'mt', 'pa', 'pb', 'pe',
      'pi', 'rj', 'rn', 'ro', 'rr', 'rs', 'sc', 
       'se', 'to']

### Percorrendo as bases e realizando o balanceamento

In [20]:
for i in range(0, len(bases)):
    url = urlPadrao + bases[i]
    balanceandoDados(url, colunasRemovidas, ufs[i])

Iniciando - Base  ac
Base Total: 
 1    20819
0       86
2       17
Name: evolucaoCaso, dtype: int64 
OC 6040 -  (301, 49)
OC 7030 -  (372, 49)
IC 6040 -  (59, 49)
IC 7030 -  (73, 49)
Iniciando - Base  al
Base Total: 
 1    24532
0      139
2       26
Name: evolucaoCaso, dtype: int64 
OC 6040 -  (486, 49)
OC 7030 -  (602, 49)
IC 6040 -  (91, 49)
IC 7030 -  (112, 49)
Iniciando - Base  am
Base Total: 
 1    63468
0       71
2       47
Name: evolucaoCaso, dtype: int64 
OC 6040 -  (248, 49)
OC 7030 -  (307, 49)
IC 6040 -  (164, 49)
IC 7030 -  (203, 49)
Iniciando - Base  ap
Base Total: 
 1    10037
0      152
2       27
Name: evolucaoCaso, dtype: int64 
OC 6040 -  (532, 49)
OC 7030 -  (658, 49)
IC 6040 -  (94, 49)
IC 7030 -  (117, 49)
Iniciando - Base  ba


KeyboardInterrupt: 

In [None]:
# balanceandoDados(urlBase, colunasRemovidas, uf)


### Salvando as características das bases

In [16]:
dfMetricas = pd.DataFrame()
for i in range(0, len(bases)):
    print('base ', ufs[i])
    row = {}
    url = urlPadrao + bases[i]
    covidData = pd.read_excel(url)
    evolucao = covidData['evolucaoCaso'].value_counts()
    print(evolucao)

    row['UF'] = ufs[i].upper()
    row['Instâncias'] = covidData.shape[0]
    row['Curado'] = evolucao[1]
    row['Interado'] = evolucao[2]
    row['Óbito'] = evolucao[0]

    dfMetricas = pd.concat([dfMetricas, pd.DataFrame([row])])
    print("=================================")

base  ac
1    23760
0       92
2       18
Name: evolucaoCaso, dtype: int64
base  al
1    27138
0      161
2       28
Name: evolucaoCaso, dtype: int64
base  am
1    71535
0      138
2       62
Name: evolucaoCaso, dtype: int64
base  ap
1    12622
0      186
2       33
Name: evolucaoCaso, dtype: int64
base  ba
1    136890
0      1133
2       426
Name: evolucaoCaso, dtype: int64
base  ce


KeyboardInterrupt: 

In [None]:
salvarDataframeEmPlanilha(dfMetricas, 'metricas.xlsx')