# Importação

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [12]:
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Projetos Portfólio/Base de dados/dadosabertos.csv', sep=';', encoding='latin-1')

# Tratamento dos dados

In [13]:
from IPython.core.display import HTML
def mostrar(head, text):
  display(HTML(f'<h2>head</h2>'))
  display(HTML(f"""{text}"""))

In [14]:
nome_colunas = df.columns
nome_colunas

Index(['Unnamed: 0', 'Data de atendimento no Serviço', 'IDADE', 'SEXO',
       'MUNICÍPIO DE RESIDÊNCIA',
       'CLASSIFICAÇÃO (Confirmado, suspeito, descartado, óbito, curado)',
       'Comorbidades',
       'Situação do paciente confirmado (UTI, isolamento domiciliar, enfermaria) ?',
       'Data do Óbito (Caso haja)', 'Data de Confirmação do Exame'],
      dtype='object')

1. Alterar o nome das colunas
2. Deletar a coluna de index.

In [15]:
df.drop('Unnamed: 0',axis=1, inplace=True)
colunas = ['data_servico','idade','sexo','cidade','classificacao','comorbidades','situacao_confirmada','data_ob','data_ex']
df.columns= colunas
df

Unnamed: 0,data_servico,idade,sexo,cidade,classificacao,comorbidades,situacao_confirmada,data_ob,data_ex
0,26/03/20,1,F,MACEIÓ,CONFIRMADO,SEM COMORBIDADE,RECUPERADO,,13/04/20
1,23/03/20,38,M,MACEIÓ,CONFIRMADO,DOENÇA PULMONAR CRÔNICA,RECUPERADO,,14/04/20
2,06/04/20,35,M,MACEIÓ,CONFIRMADO,,RECUPERADO,,14/04/20
3,11/04/20,57,M,MACEIÓ,CONFIRMADO,,RECUPERADO,,14/04/20
4,27/04/20,60,M,MACEIÓ,CONFIRMADO,,RECUPERADO,,14/04/20
...,...,...,...,...,...,...,...,...,...
300039,12/06/22,53,F,MACEIÓ,CONFIRMADO,,ISOLAMENTO DOMICILIAR,,12/06/22
300040,12/06/22,5,F,MACEIÓ,CONFIRMADO,,ISOLAMENTO DOMICILIAR,,12/06/22
300041,12/06/22,13,M,MACEIÓ,CONFIRMADO,,ISOLAMENTO DOMICILIAR,,12/06/22
300042,12/06/22,37,M,MACEIÓ,CONFIRMADO,,ISOLAMENTO DOMICILIAR,,12/06/22


**Análise individual dos dados**
1. Classificação

In [16]:
np.unique(df.classificacao, return_counts=True)

(array(['CONFIRMADO'], dtype=object), array([300044]))

Modelo apresenta somente dados confirmados, com isso pode ser descartado.

In [17]:
df.drop('classificacao', axis=1 ,inplace=True)

2. Avaliar a feature situação

In [18]:
np.unique(df.situacao_confirmada, return_counts=True)

(array(['HOSPITALIZADO', 'Hospitalizado', 'ISOLAMENTO DOMICILIAR',
        'RECUPERADO', 'ÓBITO', 'ÓBITO POR OUTRAS CAUSAS', 'óbITO'],
       dtype=object),
 array([  8386,      2, 170368, 114320,   6935,     32,      1]))

In [19]:
np.unique(df.situacao_confirmada.str.lower(), return_counts=True)

(array(['hospitalizado', 'isolamento domiciliar', 'recuperado', 'óbito',
        'óbito por outras causas'], dtype=object),
 array([  8388, 170368, 114320,   6936,     32]))

In [20]:
df.situacao_confirmada = df.situacao_confirmada.str.lower()

In [21]:
df.isnull().sum()

data_servico                0
idade                       0
sexo                        0
cidade                      0
comorbidades           292392
situacao_confirmada         0
data_ob                293108
data_ex                     0
dtype: int64

<h1>ETAPAS</h1>

- Tratar e separar os dados
- Arrumar a ortografia



In [22]:
def novo_df():
  df_te = df['comorbidades'].copy()
  df_te = df_te.str.replace(' e ','/')
  df_te = df_te.fillna('SEM INFORMAÇÃO')
  df_te = df_te.str.lower()
  return df_te
  
df_teste = novo_df()
df_teste = df_teste.str.split('/',10, expand=False)
novo = list()


for n,i in enumerate(df_teste):
  unidade = []
  for ii in i:
    entrada = ii.strip()
    novo.append(entrada)
    unidade.append(entrada)
  df_teste[n] = unidade
df_teste

0                 [sem comorbidade]
1         [doença pulmonar crônica]
2                  [sem informação]
3                  [sem informação]
4                  [sem informação]
                    ...            
300039             [sem informação]
300040             [sem informação]
300041             [sem informação]
300042             [sem informação]
300043             [sem informação]
Name: comorbidades, Length: 300044, dtype: object

In [23]:
texto_tratar = pd.DataFrame(np.unique(novo))
texto_tratar.to_csv('/content/drive/MyDrive/Colab Notebooks/Projetos Portfólio/Covid_19_alagoas/texto_tratar.xlsx', index=False)

In [24]:
texto = """ Eu tentei diversos modelos e formas para poder concertar a ortografia pelo python, apliquei diversas bibliotecas e criei diversas funções, mas a solução mais prática e 
rápida foi baixar o texto unitário e exportalo para o word, onde o programa pode fazer a arrumação correta rapidamente e então posso retorna-lo até o python""" 
mostrar('Explicações',texto)

In [25]:
texto_formatado = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/Projetos Portfólio/Covid_19_alagoas/texto_formatado.xlsx', header=None)

In [26]:
texto_formatado.columns=['antiga','nova']

In [27]:
def normalizar(texto, df):
  for i in range(len(texto)):
    entrada = texto.iloc[i,0]
    saida = texto.iloc[i,1]
    df = df.str.replace(entrada,saida)

  return df



df_teste = novo_df()
saida = normalizar(texto_formatado, df_teste)

In [28]:
df_tratar = saida.str.split('/',9,expand=False)

for n,i in enumerate(df_tratar):
  temp = []
  for ii in i:
    entr = ii.strip()
    temp.append(entr)
  if len(temp) > 1:
    io = '/'.join(temp)
    df_tratar[n] = io
  else:
    for k in temp:
      df_tratar[n] = k


In [29]:
df_co = df_tratar.str.get_dummies(sep='/')

In [30]:
df = df.drop('comorbidades',axis=1)

In [31]:
df_final = pd.concat([df, df_co], axis=1)
df_final

Unnamed: 0,data_servico,idade,sexo,cidade,situacao_confirmada,data_ob,data_ex,acidente vascular encefálico,alzheimer,anemia,...,sequela avc,sequela ave,síndrome de down,síndrome de west,tabagista,tabagista e doença respiratória crônica,transplantado,trombose,trombose arterial,tuberculose
0,26/03/20,1,F,MACEIÓ,recuperado,,13/04/20,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,23/03/20,38,M,MACEIÓ,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,06/04/20,35,M,MACEIÓ,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,11/04/20,57,M,MACEIÓ,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,27/04/20,60,M,MACEIÓ,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
300039,12/06/22,53,F,MACEIÓ,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,0,0,0
300040,12/06/22,5,F,MACEIÓ,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,0,0,0
300041,12/06/22,13,M,MACEIÓ,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,0,0,0
300042,12/06/22,37,M,MACEIÓ,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [32]:
np.sort(df_final['cidade'].unique())

array(['ANADIA', 'ARAPIRACA', 'ATALAIA', 'BARRA DE SANTO ANTÔNIO',
       'BARRA DE SÃO MIGUEL', 'BATALHA', 'BELO MONTE', 'BELÉM',
       'BOCA DA MATA', 'BRANQUINHA', 'Barra de São Miguel', 'CACIMBINHAS',
       'CAJUEIRO', 'CAMPESTRE', 'CAMPO ALEGRE', 'CAMPO GRANDE', 'CANAPI',
       'CAPELA', 'CARNEIROS', 'CHÃ PRETA', 'COITÉ DO NÓIA',
       'COLÔNIA LEOPOLDINA', 'COQUEIRO SECO', 'CORURIPE', 'CRAÍBAS',
       'Coité do Nóia', 'DELMIRO GOUVEIA', 'DOIS RIACHOS',
       'ESTRELA DE ALAGOAS', 'FEIRA GRANDE', 'FELIZ DESERTO', 'FLEXEIRAS',
       'GIRAU DO PONCIANO', 'Girau do Ponciano', 'IBATEGUARA', 'IGACI',
       'IGREJA NOVA', 'INHAPI', 'JACARÉ DOS HOMENS', 'JACUÍPE',
       'JAPARATINGA', 'JARAMATAIA', 'JEQUIÁ DA PRAIA', 'JOAQUIM GOMES',
       'JUNDIÁ', 'JUNQUEIRO', 'Junqueiro', 'LAGOA DA CANOA',
       'LIMOEIRO DE ANADIA', 'Limoeiro de Anadia', 'MACEIÓ',
       'MAJOR ISIDORO', 'MAR VERMELHO', 'MARAGOGI', 'MARAVILHA',
       'MARECHAL DEODORO', 'MARIBONDO', 'MATA GRANDE',
       

In [33]:
df_final['cidade'] = df_final['cidade'].apply(lambda x: x.capitalize())

In [34]:
df_final['sexo'].unique()

array(['F', 'M', ' F', 'f'], dtype=object)

In [35]:
df_final['sexo'] = df_final['sexo'].apply(lambda x: 'Mulher' if x.strip().upper() == 'F' else 'Homem')

In [36]:
df_final['situacao_confirmada'].unique()

array(['recuperado', 'óbito', 'hospitalizado', 'óbito por outras causas',
       'isolamento domiciliar'], dtype=object)

## Adicionando Informações
- Para ajudar a responder o plano de análise é necessário extrair informações do dataset

In [37]:
# ----------
# Separar os indices de dados confirmados de comorbidade dos outros dados.
series_new_col = df_final[df_co.columns].drop(['sem informação','sem comorbidade','em investigação'], axis=1).sum(axis=1)
row_si = df_final.loc[(df_final['sem informação'] == 1) | (df_final['em investigação'] == 1)].index
row_sc = df_final.loc[df_final['sem comorbidade'] == 1].index
series_new_col[row_si] = 'Sem informação'
series_new_col[row_sc] = 'Sem comorbidade'
row_cc = list(set(series_new_col.index) - set(row_si) - set(row_sc))
# Criar uma copia para criação de outra tabela
series_new_col_1 = series_new_col.copy()
series_new_col[row_cc] = 'Com comorbidade'
df_final['comorbidade'] = series_new_col

# -------- 
# Separar em quantidades de comorbidades

df_final['n comorbidade'] = series_new_col_1 = series_new_col_1.apply(lambda x: f' {x} comorbidade(s)' if str(x).isnumeric() else x)

# -------- 
# Separar em capital e interior
df_final['Ocorrencia'] = df_final['cidade'].apply(lambda x: 'Capital' if x == 'Maceió' else 'Interior')


In [38]:
df_final

Unnamed: 0,data_servico,idade,sexo,cidade,situacao_confirmada,data_ob,data_ex,acidente vascular encefálico,alzheimer,anemia,...,síndrome de west,tabagista,tabagista e doença respiratória crônica,transplantado,trombose,trombose arterial,tuberculose,comorbidade,n comorbidade,Ocorrencia
0,26/03/20,1,Mulher,Maceió,recuperado,,13/04/20,0,0,0,...,0,0,0,0,0,0,0,Sem comorbidade,Sem comorbidade,Capital
1,23/03/20,38,Homem,Maceió,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,Com comorbidade,1 comorbidade(s),Capital
2,06/04/20,35,Homem,Maceió,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
3,11/04/20,57,Homem,Maceió,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
4,27/04/20,60,Homem,Maceió,recuperado,,14/04/20,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
300039,12/06/22,53,Mulher,Maceió,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
300040,12/06/22,5,Mulher,Maceió,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
300041,12/06/22,13,Homem,Maceió,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital
300042,12/06/22,37,Homem,Maceió,isolamento domiciliar,,12/06/22,0,0,0,...,0,0,0,0,0,0,0,Sem informação,Sem informação,Capital


In [39]:
df_final.to_csv('/content/drive/MyDrive/Colab Notebooks/Projetos Portfólio/Covid_19_alagoas/dataset_tratado', index=False)