Análise Exploratória e Visualização de Dados

O objetivo deste projeto é a análise dos dados da COVID-19 disponibilizados pela Prefeitura de Manaus no desenvolvimento de uma análise exploratória e visualização de dados.

Base de Dados

O conjunto de dados encontra-se disponível em <https://covid19.manaus.
am.gov.br/wp-content/uploads/Manaus.csv>. Um arquivo de 25 MB de informações
textuais no formato CSV (Comma-Separated Values) e codificação ISO 8859-1 em virtude dos acentos nas nomeclaturas dos bairros.  

Visão Geral dos Casos Confirmados

A importação da base de dados apresenta os casos com classificações distintas. Tendo o intuito de manter apenas os casos classificados como confirmados, realiza-se a exclusão dos registros com casos distintos.  

In [60]:
import pandas as pd

csv = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

df = csv[csv._classificacao == 'Confirmado']

df.to_csv(r"C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv", index=False)


Criou-se uma nova base de dados mantendo apenas os casos confirmados da coluna classificação. Para fins de comparação de registros de entre a base original e a nova base de dados. Confirma-se que a base de dados original apresentava 107221 registros, a nova base de dados mantendo apenas os casos confirmados apresenta 36671 registros.

In [50]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

print('Base de dados original apresenta %s registros' % old.shape[0])
print('Base de dados apenas com casos confirmados apresenta %s registros' % new.shape[0])

Base de dados original apresenta 107221 registros
Base de dados apenas com casos confirmados apresenta 36671 registros


Tendo em vista um visão mais ampla do conjunto de dados contendo somente os casos confirmados realiza-se as seguintes perguntas:

1. Quantos atributos descrevem cada exemplo? Quais são eles?

In [91]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

print('%s atributos descrevem cada exemplo\n' % df.columns.size)
print('Sendo os atributos:\n')

for atributo in df.columns.values:
    print(atributo)

36 atributos descrevem cada exemplo

Sendo os atributos:

_idade
_faixa etária
_sexo
_bairro
_classificacao
_comorb_renal
_comorb_diabetes
_comorb_imuno
_comorb_cardio
_conclusao
_dt_notificacao
_taxa
_dt_evolucao
_raca
_dt_sintomas
_criterio
_tipo_teste
_sintoma_garganta
_sintoma_dispneia
_sintoma_febre
_sintoma_tosse
_sintoma_outros
_etnia
_profiss_saude
_srag
_se_notificacao
_distrito
_bairro_mapa
_comorb_respiratoria
_comorb_cromossomica
_comorb_hepatica
_comorb_neurologica
_comorb_hemato
_comorb_obessidade
_origem
_evolução


2. Quantos casos confirmados há em Manaus, cumulativamente?

Abordagem 1: Utilizando groupby() para verificação de casos confirmados.

In [44]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

casos_distintos = old.groupby(by='_classificacao').size()

casos_confirmados = new.groupby(by='_classificacao').size()

print('Casos distintos %s' % casos_distintos, end='\n\n')
print('Casos confirmados %s' % casos_confirmados)


Casos distintos _classificacao
Confirmado    36671
Descartado    53359
Em análise    17191
dtype: int64

Casos confirmados _classificacao
Confirmado    36671
dtype: int64


Abordagem 2: Utilizando query() e count() para verificação de casos confirmados.

In [57]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

casos = old['_classificacao'].unique()

for caso in casos:
    consulta = old.query('_classificacao == "{0}"'.format(caso))['_classificacao'].count()
    print('Casos {0}: {1}'.format(caso, consulta))

consulta = new.query('_classificacao == "Confirmado"')['_classificacao'].count()
print('\nCasos Confirmado: %s' % consulta)

Casos Confirmado: 36671
Casos Em análise: 17191
Casos Descartado: 53359

Casos Confirmado: 36671


Abordagem 3: Utilizando size para verificação de casos confirmados.

In [65]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

casos = old['_classificacao'].unique()

for caso in casos:
    df = old[old['_classificacao'] == caso]
    print('Caso {0}: {1}'.format(caso, df['_classificacao'].size))

df = new[new['_classificacao'] == "Confirmado"]
print('\nCaso Confirmado: %s' % df['_classificacao'].size)


Caso Confirmado: 36671
Caso Em análise: 17191
Caso Descartado: 53359

Caso Confirmado: 36671


In [None]:
Conclusão

Em Manaus há cumulativamente 36671 casos confirmados, os casos em análise somam 17191 e um total de 53359 casos descartados.

Análise Exploratória dos dados

Considerando o contexto deste projeto é realizada a exclusão de todos os atributos relativos às comorbidades, sintomas, etnia, profissão, outras datas que não a de notificação, origem e outros atributos que não estiverem envolvidos no contexto desta análise.



In [144]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_casos_confirmados.csv")

comorbidades = df.filter(regex=("_comorb.*"))

df.drop([comorbidade for comorbidade in comorbidades], axis=1, inplace=True)

sintomas = df.filter(regex=("_sintoma.*"))

df.drop([sintoma for sintoma in sintomas], axis=1, inplace=True)

df.drop('_etnia', axis=1, inplace=True)

profissao = df.filter(regex='_prof.*')

df.drop(profissao, axis=1, inplace=True)

datas = df.filter(regex=('dt'))

datas.drop('_dt_notificacao', axis=1, inplace=True)

df.drop(datas, axis=1, inplace=True)

df.drop('_origem', axis=1, inplace=True)


print('Total de valores nulos por atributos')
print(df.isnull().sum())

#Excluindo todas as linhas em que há dados faltantes para os atributos remanescentes.
df.dropna(axis=0, inplace=True)

print('\nTotal de valores nulos por atributos após a exclusão de dados faltantes')
print(df.isnull().sum())

df.to_csv(r"C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_exclusao_atributos_dados_faltantes.csv", index=False)

Total de valores nulos por atributos
_idade                54
_faixa etária          0
_sexo                167
_bairro              584
_classificacao         0
_conclusao         23371
_dt_notificacao        4
_taxa               1811
_raca               9510
_criterio          31686
_tipo_teste         8091
_srag              31441
_se_notificacao        4
_distrito           1811
_bairro_mapa        1811
_evolução          31247
dtype: int64

Total de valores nulos por atributos após a exclusão de dados faltantes
_idade             0
_faixa etária      0
_sexo              0
_bairro            0
_classificacao     0
_conclusao         0
_dt_notificacao    0
_taxa              0
_raca              0
_criterio          0
_tipo_teste        0
_srag              0
_se_notificacao    0
_distrito          0
_bairro_mapa       0
_evolução          0
dtype: int64


Iniciando a análise exploratória dos dados posterior a limpeza da base de dados.

1. Quantos exemplos e atributos há na base de dados após a limpeza e organização?

In [None]:
Abordagem 1: Utilizando o método shape

In [161]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos %s' % df.shape[0])
print('Quantidade de atributos %s' % df.shape[1])

Quantidade de exemplos 533
Quantidade de atributos 16


Abordagem 2: Utilizando o método count

In [175]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos por atributo')
print(df.count())

Quantidade de exemplos por atributo
_idade             533
_faixa etária      533
_sexo              533
_bairro            533
_classificacao     533
_conclusao         533
_dt_notificacao    533
_taxa              533
_raca              533
_criterio          533
_tipo_teste        533
_srag              533
_se_notificacao    533
_distrito          533
_bairro_mapa       533
_evolução          533
dtype: int64


_faixa etária      1
_classificacao     1
_raca              1
_sexo              1
_distrito          1
_srag              1
_conclusao         1
_dt_notificacao    1
_tipo_teste        1
_idade             1
_bairro_mapa       1
_bairro            1
_se_notificacao    1
_criterio          1
_taxa              1
_evolução          1
dtype: int64

In [None]:
Abordagem 3: Utilizando o método size

In [169]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/virtualenvs/python/notebooks/Analise-COVID19-PP1-RNA2020.1/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos: %s' % df.index.size)
print('Quantidade de atributos: %s' % df.columns.size)

Quantidade de exemplos: 533
Quantidade de atributos: 16
