# Visão Geral dos Casos Confirmados

## Importando bibliotecas e a Base de Dados '05/08/2020'

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('dataframe/Manaus.csv', sep=';', low_memory=False)

## Realizando o filtro na coluna '_classificacao' onde seja Confirmado

In [3]:
df = df[df['_classificacao'].isin(['Confirmado'])]

#### 1. Quantos atributos descrevem cada exemplo? Quais são eles?

In [4]:
print("Total de ",df.shape[1]," atributos que descrevem cada exemplo, sendo eles:")
df_columns = df.columns.to_numpy()
for i in df_columns:
    print(i)

Total de  36  atributos que descrevem cada exemplo, sendo eles:
_idade
_faixa etária
_sexo
_bairro
_classificacao
_comorb_renal
_comorb_diabetes
_comorb_imuno
_comorb_cardio
_conclusao
_dt_notificacao
_taxa
_dt_evolucao
_raca
_dt_sintomas
_criterio
_tipo_teste
_sintoma_garganta
_sintoma_dispneia
_sintoma_febre
_sintoma_tosse
_sintoma_outros
_etnia
_profiss_saude
_srag
_se_notificacao
_distrito
_bairro_mapa
_comorb_respiratoria
_comorb_cromossomica
_comorb_hepatica
_comorb_neurologica
_comorb_hemato
_comorb_obessidade
_origem
_evolução


#### 2. Quantos casos confirmados há em Manaus, cumulativamente?

In [5]:
print("Total de {} casos confirmados em Manaus.".format(df.shape[0]))

Total de 36671 casos confirmados em Manaus.


#### 3. A qual período de tempo a base de dados se refere, isto é, qual o registro mais antigo e qual o mais recente? Leve em conta a data de notificação.

In [6]:
df['_dt_notificacao'] = pd.to_datetime(df['_dt_notificacao'], format="%d/%m/%Y")
array_dates = np.sort(df['_dt_notificacao'].dropna().dt.strftime("%m/%d/%Y"))
first_date = pd.to_datetime(array_dates[0]).strftime("%d/%m/%y")
last_date = pd.to_datetime(array_dates[-1]).strftime("%d/%m/%y")
print("O registro mais antigo eh de {} e o mais recente de {}.".format(first_date, last_date))

O registro mais antigo eh de 30/01/20 e o mais recente de 05/08/20.


## Para fins da análise considerada no escopo deste projeto, vamos excluir todos os atributos relativos às comorbidades, sintomas, etnia, profissão, outras datas que não a de notificação, origem e outros que não estiverem envolvidos no contexto do trabalho solicitado. Estes atributos serão considerados irrelevantes para fins de simplificação. Exclua todas as linhas em que houver dados faltantes para os atributos remanescentes. Visando efetuar uma análise exploratória dos dados, respondam, pelo menos, às seguintes questões:

In [7]:
df = df.drop(['_comorb_renal', '_comorb_diabetes', '_comorb_imuno', '_comorb_cardio', '_comorb_respiratoria', '_comorb_cromossomica', '_comorb_hepatica', '_comorb_neurologica', '_comorb_hemato', '_comorb_obessidade', '_sintoma_garganta', '_sintoma_dispneia', '_sintoma_febre', '_sintoma_tosse', '_sintoma_outros', '_etnia', '_profiss_saude', '_dt_evolucao', '_dt_sintomas', '_raca', '_srag', '_origem', '_evolução', '_criterio', '_se_notificacao','_bairro_mapa'], axis=1).dropna()

#### 1. Quantos exemplos e atributos há na base de dados após a  limpeza e organização ?

In [8]:
print("Total de Atributos: ", df.shape[1])
print("Total de Exemplos: ", df.shape[0])

Total de Atributos:  10
Total de Exemplos:  6145


#### 2. Qual a porcentagem de indivíduos recuperados em relação ao todo?

In [9]:
df_cases_recovered = df[df['_conclusao'].isin(['Recuperado'])]

amount_recovered = int(df_cases_recovered.shape[0])
amount_total = int(df.shape[0])

print("Total de casos: {}\nTotal recuperado: {} = %{:.2f}".format(amount_total, amount_recovered, ((amount_recovered*100)/amount_total)))

Total de casos: 6145
Total recuperado: 6132 = %99.79


#### 3. Os casos acometeram mais indivíduos do sexo masculino ou feminino?

In [10]:
amount_male = int(df[df['_sexo'].isin(['M'])].shape[0])
amount_female = int(df[df['_sexo'].isin(['F'])].shape[0])

if (amount_male > amount_female):
    print("Masculino, com {} casos.".format(amount_male))
else:
    print("Feminino, com {} casos.".format(amount_female))

Feminino, com 3463 casos.


#### 4. Qual a média e desvio padrão de idade dos indivíduos que contraíram COVID-19? Qual o indivíduo mais jovem e o mais idoso a contraírem tal enfermidade?

In [11]:
df['_idade'] = df['_idade'].to_frame().query('_idade < 120')['_idade']

df_average_age = df['_idade'].mean()
df_standard_deviation = df['_idade'].std() 

df_the_oldest = int(df['_idade'].max())
df_the_youngest = int(df['_idade'].min())

print('Média de idade: {:.2f}\nDesvio Padrão: {:.2f}\nO mais jovem tem {} anos e o mais idoso tem {} anos'.format(df_average_age,df_standard_deviation,df_the_youngest,df_the_oldest))


Média de idade: 41.49
Desvio Padrão: 14.11
O mais jovem tem 0 anos e o mais idoso tem 99 anos


#### 5. Qual o bairro com maior incidência de casos?

In [12]:
neighborhood_highest_incidence = df.groupby(by ='_bairro').size().idxmax()
number_of_cases = df.groupby(by ='_bairro').size().max()

print ('O bairro com maior incidência de casos foi {} com {} casos.'.format(neighborhood_highest_incidence,number_of_cases))

O bairro com maior incidência de casos foi CIDADE NOVA com 296 casos.


#### 6. Quais os três bairros com maior incidência de casos recuperados?

In [13]:
neighborhoods_highest_recovered_incidence = df[df['_conclusao'].isin(['Recuperado'])].groupby(by ='_bairro').size().sort_values(ascending=False).head(3)

print ("Os três bairros com maior incidência de casos recuperados foram:\n")

for i in range(len(neighborhoods_highest_recovered_incidence)):
    print((i+1),"-",neighborhoods_highest_recovered_incidence.index[i],"com",neighborhoods_highest_recovered_incidence[i],"casos recuperados")


Os três bairros com maior incidência de casos recuperados foram:

1 - CIDADE NOVA com 296 casos recuperados
2 - FLORES com 262 casos recuperados
3 - TARUMA com 225 casos recuperados


#### 7. Quais os tipos de testes efetuados, segundo os dados? Indique os dados de maneira quantitativa e percentual.

In [14]:
performed_tests = df.groupby(by ='_tipo_teste', as_index = False).mean()
performed_tests_cont = df.groupby(by ='_tipo_teste').size()
performed_tests_total = df.groupby(by ='_tipo_teste').size().sum()
performed_tests_type = []

print ('Segundo os dados, os testes efetuados foram:')
for i in performed_tests['_tipo_teste']:
    print (i)

# for i in performed_tests_cont:
#     print(performed_tests_cont.index)

print (performed_tests_cont)
print(performed_tests_total)

# print(performed_tests_type)

# print(performed_tests)

Segundo os dados, os testes efetuados foram:
ECLIA IgG
ELISA IgM
RT-PCR
TESTE RÁPIDO - ANTICORPO
TESTE RÁPIDO - ANTÍGENO
_tipo_teste
ECLIA IgG                      4
ELISA IgM                      3
RT-PCR                      1486
TESTE RÁPIDO - ANTICORPO    3553
TESTE RÁPIDO - ANTÍGENO     1099
dtype: int64
6145


#### 8. Qual taxa de letalidade pode ser calculada a partir do conjunto de dados? Para calcular esta taxa, considere a fração do total de óbitos pelo total de casos;

In [15]:
#consideramos o dataframe inicial para uma nova filtragem
df_ = pd.read_csv('dataframe/Manaus.csv', sep=';', low_memory=False)
df_cases_confirmed_ = df_[df_['_classificacao'].isin(['Confirmado'])]
#restringimos o número de atributos utilizados,retirando o "_tipo_teste"
df_cases_confirmed_with_or_without_tests = df_cases_confirmed_.drop(['_comorb_renal', '_comorb_diabetes', '_comorb_imuno', '_comorb_cardio', '_comorb_respiratoria', '_comorb_cromossomica', '_comorb_hepatica', '_comorb_neurologica', '_comorb_hemato', '_comorb_obessidade', '_sintoma_garganta', '_sintoma_dispneia', '_sintoma_febre', '_sintoma_tosse', '_sintoma_outros', '_etnia', '_profiss_saude', '_dt_evolucao', '_dt_sintomas', '_raca', '_srag', '_origem', '_evolução', '_criterio','_tipo_teste'], axis=1).dropna()
#análises
amount_deceased = int(df_cases_confirmed_with_or_without_tests[df_cases_confirmed_with_or_without_tests['_conclusao'].isin(['Óbito'])].shape[0])
amount_total = int(df_cases_confirmed_with_or_without_tests.shape[0])
print("Considerando o nº total de casos igual a {}. A taxa de letalidade  equivale a {:.2f}%. ".format(amount_total, ((amount_deceased*100)/amount_total)) )


Considerando o nº total de casos igual a 12586. A taxa de letalidade  equivale a 16.17%. 


#### 9. Qual o tipo de correlação, mediante coeficiente de correlação de Pearson, entre a idade e o número de casos? Para responder a esta pergunte, agrupe o número de casos por idade e efetue o cálculo de tal coeficiente. Indique, a partir do resultado, a natureza desta correlação, se é positiva ou negativa, e qual sua intensidade.

In [16]:
age = df.groupby(by ='_idade', as_index = False).mean() 
number_of_cases_by_age = df.groupby(by ='_idade').size() 

ages=[]
cases=[]

for i in age['_idade']: # .isin(['Confirmado'])
    ages.append(i)

for i in number_of_cases_by_age: 
    cases.append(i)

# calculo Pearson's correlation
from scipy.stats import pearsonr
corr, _ = pearsonr(ages,cases)
print('O valor da correlação de Pearson foi igual %.3f' %corr, ", indicando assim, que a natureza dessa correlação é negativa e de baixa intensidade.")

DataError: No numeric types to aggregate

### Exportando DataFrames

In [17]:
%store df
%store ages
%store cases

Stored 'df' (DataFrame)
UsageError: Unknown variable 'ages'
