Análise Exploratória e Visualização de Dados

O objetivo deste projeto é a análise dos dados da COVID-19 disponibilizados pela Prefeitura de Manaus no desenvolvimento de uma análise exploratória e visualização de dados.

Base de Dados

O conjunto de dados encontra-se disponível em <https://covid19.manaus.
am.gov.br/wp-content/uploads/Manaus.csv>. Um arquivo de 25 MB de informações
textuais no formato CSV (Comma-Separated Values) e codificação ISO 8859-1 em virtude dos acentos nas nomeclaturas dos bairros.  

Visão Geral dos Casos Confirmados

A importação da base de dados apresenta os casos com classificações distintas. Tendo o intuito de manter apenas os casos classificados como confirmados, realiza-se a exclusão dos registros com casos distintos.  

In [81]:
import pandas as pd

csv = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

df = csv[csv._classificacao == 'Confirmado']

df.to_csv(r"C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv", index=False)


Criou-se uma nova base de dados mantendo apenas os casos confirmados da coluna classificação. Para fins de comparação de registros de entre a base original e a nova base de dados. Confirma-se que a base de dados original apresentava 107221 registros, a nova base de dados mantendo apenas os casos confirmados apresenta 36671 registros.

In [80]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv")

print('Base de dados original apresenta %s registros' % old.shape[0])
print('Base de dados apenas com casos confirmados apresenta %s registros' % new.shape[0])

Base de dados original apresenta 107221 registros
Base de dados apenas com casos confirmados apresenta 36671 registros


Tendo em vista um visão mais ampla do conjunto de dados contendo somente os casos confirmados realiza-se as seguintes perguntas:

1. Quantos atributos descrevem cada exemplo? Quais são eles?

In [82]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv")

print('%s atributos descrevem cada exemplo\n' % df.columns.size)
print('Sendo os atributos:\n')

for atributo in df.columns.values:
    print(atributo[1:])

36 atributos descrevem cada exemplo

Sendo os atributos:

idade
faixa etária
sexo
bairro
classificacao
comorb_renal
comorb_diabetes
comorb_imuno
comorb_cardio
conclusao
dt_notificacao
taxa
dt_evolucao
raca
dt_sintomas
criterio
tipo_teste
sintoma_garganta
sintoma_dispneia
sintoma_febre
sintoma_tosse
sintoma_outros
etnia
profiss_saude
srag
se_notificacao
distrito
bairro_mapa
comorb_respiratoria
comorb_cromossomica
comorb_hepatica
comorb_neurologica
comorb_hemato
comorb_obessidade
origem
evolução


2. Quantos casos confirmados há em Manaus, cumulativamente?

Abordagem 1: Utilizando groupby() para verificação de casos confirmados.

In [83]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";", dtype='unicode')

new = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv")

casos_distintos = old.groupby(by='_classificacao').size()

casos_confirmados = new.groupby(by='_classificacao').size()

print('Casos distintos %s' % casos_distintos, end='\n\n')
print('Casos confirmados %s' % casos_confirmados)


Casos distintos _classificacao
Confirmado    36671
Descartado    53359
Em análise    17191
dtype: int64

Casos confirmados _classificacao
Confirmado    36671
dtype: int64


Abordagem 2: Utilizando query() e count() para verificação de casos confirmados.

In [84]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv")

casos = old['_classificacao'].unique()

for caso in casos:
    consulta = old.query('_classificacao == "{0}"'.format(caso))['_classificacao'].count()
    print('Casos {0}: {1}'.format(caso, consulta))

consulta = new.query('_classificacao == "Confirmado"')['_classificacao'].count()
print('\nCasos Confirmado: %s' % consulta)

Casos Confirmado: 36671
Casos Em análise: 17191
Casos Descartado: 53359

Casos Confirmado: 36671


Abordagem 3: Utilizando size para verificação de casos confirmados.

In [86]:
import pandas as pd

old = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_covid19_manaus.csv", encoding="ISO-8859-1", sep=";")

new = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv")

casos = old['_classificacao'].unique()

for caso in casos:
    df = old[old['_classificacao'] == caso]
    print('Caso {0}: {1}'.format(caso, df['_classificacao'].size))

df = new[new['_classificacao'] == "Confirmado"]
print('\nCaso Confirmado: %s' % df['_classificacao'].size)


Caso Confirmado: 36671
Caso Em análise: 17191
Caso Descartado: 53359

Caso Confirmado: 36671


Conclusão

Em Manaus há cumulativamente 36671 casos confirmados, os casos em análise somam 17191 e um total de 53359 casos descartados.

Análise Exploratória dos dados

Considerando o contexto deste projeto é realizada a exclusão de todos os atributos relativos às comorbidades, sintomas, etnia, profissão, outras datas que não a de notificação, origem e outros atributos que não estiverem envolvidos no contexto desta análise.



In [94]:
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_casos_confirmados.csv", dtype='unicode')

comorbidades = df.filter(regex=("_comorb.*"))
df.drop([comorbidade for comorbidade in comorbidades], axis=1, inplace=True)

sintomas = df.filter(regex=("_sintoma.*"))
df.drop([sintoma for sintoma in sintomas], axis=1, inplace=True)

df.drop('_etnia', axis=1, inplace=True)

profissao = df.filter(regex='_prof.*')
df.drop(profissao, axis=1, inplace=True)

datas = df.filter(regex=('dt'))
datas.drop('_dt_notificacao', axis=1, inplace=True)
df.drop(datas, axis=1, inplace=True)

df.drop('_origem', axis=1, inplace=True)

print('Total de valores nulos por atributos')
print(df.isnull().sum())

#Excluindo todas as linhas em que há dados faltantes para os atributos remanescentes.
df.dropna(axis=0, inplace=True)

print('\nTotal de valores nulos por atributos após a exclusão de dados faltantes')
print(df.isnull().sum())

df.to_csv(r"C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_exclusao_atributos_dados_faltantes.csv", index=False)

Total de valores nulos por atributos
_idade                54
_faixa etária          0
_sexo                167
_bairro              584
_classificacao         0
_conclusao         23371
_dt_notificacao        4
_taxa               1811
_raca               9510
_criterio          31686
_tipo_teste         8091
_srag              31441
_se_notificacao        4
_distrito           1811
_bairro_mapa        1811
_evolução          31247
dtype: int64

Total de valores nulos por atributos após a exclusão de dados faltantes
_idade             0
_faixa etária      0
_sexo              0
_bairro            0
_classificacao     0
_conclusao         0
_dt_notificacao    0
_taxa              0
_raca              0
_criterio          0
_tipo_teste        0
_srag              0
_se_notificacao    0
_distrito          0
_bairro_mapa       0
_evolução          0
dtype: int64


Iniciando a análise exploratória dos dados posterior a limpeza da base de dados.

 1.Quantos exemplos e atributos há na base de dados após a limpeza e organização?

Abordagem 1: Utilizando o método shape

In [95]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos %s' % df.shape[0])
print('Quantidade de atributos %s' % df.shape[1])

Quantidade de exemplos 533
Quantidade de atributos 16


Abordagem 2: Utilizando o método count

In [96]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos por atributo')
print(df.count())

Quantidade de exemplos por atributo
_idade             533
_faixa etária      533
_sexo              533
_bairro            533
_classificacao     533
_conclusao         533
_dt_notificacao    533
_taxa              533
_raca              533
_criterio          533
_tipo_teste        533
_srag              533
_se_notificacao    533
_distrito          533
_bairro_mapa       533
_evolução          533
dtype: int64


Abordagem 3: Utilizando o método size

In [97]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_exclusao_atributos_dados_faltantes.csv")

print('Quantidade de exemplos: %s' % df.index.size)
print('Quantidade de atributos: %s' % df.columns.size)

Quantidade de exemplos: 533
Quantidade de atributos: 16


2.Qual a porcentagem de indivíduos recuperados em relação ao todo?

In [54]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

todo = df['conclusao'].count()
recuperados = df[df.conclusao == 'Recuperado'].count()['conclusao']
porcentagem = ((recuperados/todo)*100.0)

print('{0:.2f} % de recuperados'.format(porcentagem))
print('Um total de casos de {0} com {1} casos recuperados' .format(todo, recuperados), end=' ')

obitos = df[df.conclusao == 'Óbito'].count()['conclusao']
print('e %s óbitos' % obitos)

99.80 % de recuperados
Um total de casos de 6360 com 6347 casos recuperados e 13 óbitos


3.Os casos acometeram mais indivíduos do sexo masculino ou feminino?

In [71]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

f = df[df['sexo'] == 'F'].count()['sexo']
m = df[df['sexo'] == 'M'].count()['sexo']

print('O Sexo Feminino foi o mais acometido com {0} casos em comparação ao Sexo Masculino com {1} casos'.format(f,m))

O Sexo Feminino foi o mais acometido com 3605 casos em comparação ao Sexo Masculino com 2755 casos


4.Qual a média e desvio padrão de idade dos indivíduos que contraíram COVID-19? Qual o
indivíduo mais jovem e o mais idoso a contraírem tal enfermidade?

Abordagem 1: Utizando o método mean

In [115]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

media = df.idade.mean()
#ou
#media = df['idade'].mean()

desvio = df.idade.std()
print('Média de idade: {0:.0f}\nDesvio Padrão: {1:.2f}'.format(media, desvio))

mais_jovem = df.idade.min()
mais_idoso = df.idade.max()

print('Mais jovem com idade: %s' % mais_jovem)
print('Mais idoso com idade: %s' % mais_idoso)

Média de idade: 41
Desvio Padrão: 14.10
Mais jovem com idade: 0
Mais idoso com idade: 99


Abordagem 2: Utilizando os métodos count e sum

In [116]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

total = df['idade'].count()
soma = df['idade'].sum()

media = soma/total

desvio = df['idade'].std()
print('Média de idade: {0:.0f}\nDesvio Padrão: {1:.2f}'.format(media, desvio))

mais_jovem = df['idade'].min()
mais_idoso = df['idade'].max()

print('Mais jovem com idade: %s' % mais_jovem)
print('Mais idoso com idade: %s' % mais_idoso)

Média de idade: 41
Desvio Padrão: 14.10
Mais jovem com idade: 0
Mais idoso com idade: 99


Abordagem 3: Utilizando método describe

In [124]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

media = df['idade'].describe()['mean']

desvio = df['idade'].describe()['std']
print('Média de idade: {0:.0f}\nDesvio Padrão: {1:.2f}'.format(media, desvio))

mais_jovem = df['idade'].describe()['min']
mais_idoso = df['idade'].describe()['max']

print('Mais jovem com idade: {0}'.format(int(mais_jovem)))
print('Mais idoso com idade: {0}'.format(int(mais_idoso)))

Média de idade: 41
Desvio Padrão: 14.10
Mais jovem com idade: 0
Mais idoso com idade: 99


5.Qual o bairro com maior incidência de casos?

In [None]:
Abordagem 1: Utilizando Força Bruta

In [170]:
import pandas as pd

df = pd.read_csv("C:/Users/hiago/git/Analise-COVID19-PP1-RNA2020.1/dataset/dataset_limpo_covid19_manaus.csv")

lista_bairros = df['bairro'].unique()

maximo = 0
nome_bairro = ''

for bairro in lista_bairros:
    valor = df[df.bairro == bairro].shape[0]
    if valor > maximo:
        maximo = valor
        nome_bairro = bairro

print('A maior incidência de casos é no bairro {0} que apresenta {1} incidências'.format(nome_bairro, maximo))


A maior incidência de casos é no bairro CIDADE NOVA que apresenta 296 incidências
