# A1 INE5405 - Probabilidade e Estatística
## Análise de Dados da COVID-19 no Brasil

- (a) Escolher um tema de sua área, ou de sua preferência.
- (b) Selecionar, no mínimo, seis variáveis de interesse (que englobem variáveis qualitativas e
quantitativas – pelo menos duas de cada), que devem ser descritas e classificadas na Seção
“Materiais e Métodos”. É requerido um conjunto de dados com no mínimo 30 linhas. O conjunto de
dados será escolhido pelo grupo, com acesso público (sugestão Portal Brasileiro de Dados Abertos
https://dados.gov.br/)
- (c) Definir claramente as variáveis em estudo: fazer uma breve descrição dos dados, com qual
finalidade estas variáveis foram escolhidas e classificá-las corretamente.
- (d) Construir tabelas de frequência para as variáveis de interesse e realizar discussões acerca das
mesmas.
- (e) Apresentar gráficos adequados para cada uma das variáveis, discutindo-os.
- (f) Calcular, apresentar e discutir as medidas de resumo das variáveis em questão.
- (g) Relacionar as variáveis duas a duas utilizando tabelas ou gráficos, discutindo-os.

<a href="https://colab.research.google.com/github/vishmaria/Estatistica-com-Python/blob/main/A1_estatistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [15]:
# Importar bibliotecas necessárias
import numpy as np
import pandas as pd
import seaborn as sns

# Configurar pandas
pd.set_option('display.max_rows', 100)

# Análise exploratória

In [19]:
df_20201 = pd.read_csv('data/HIST_PAINEL_COVIDBR_14set2024/HIST_PAINEL_COVIDBR_2024_Parte1_14set2024.csv',sep = ';')
df_20202 = pd.read_csv('data/HIST_PAINEL_COVIDBR_14set2024/HIST_PAINEL_COVIDBR_2024_Parte2_14set2024.csv',sep = ';')
df_2020 = pd.concat([df_20201, df_20202])

<class 'pandas.core.frame.DataFrame'>
Index: 1449702 entries, 0 to 427043
Data columns (total 17 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   regiao                  1449702 non-null  object 
 1   estado                  1449444 non-null  object 
 2   municipio               1437060 non-null  object 
 3   coduf                   1449702 non-null  int64  
 4   codmun                  1442478 non-null  float64
 5   codRegiaoSaude          1437060 non-null  float64
 6   nomeRegiaoSaude         1437060 non-null  object 
 7   data                    1449702 non-null  object 
 8   semanaEpi               1449702 non-null  int64  
 9   populacaoTCU2019        1444284 non-null  float64
 10  casosAcumulado          1449702 non-null  int64  
 11  casosNovos              1449702 non-null  int64  
 12  obitosAcumulado         1449702 non-null  int64  
 13  obitosNovos             1449702 non-null  int64  
 14  Recupera

In [None]:
df_2024 = 

In [None]:
df.describe()

In [None]:
df.head(10)

In [None]:
df.tail(15)

In [None]:
df.dtypes

In [None]:
df.columns

# Selecionando Dados

In [None]:
# Selecionando as linhas do índice 0 ao 2, o último índice é exclusivo, ou seja, a linha do índice 3 não é mostrada
df[0:3]

In [None]:
# Selecionando as linhas do índice 5 ao 9
df[5:10]

In [None]:
# Selecionando uma coluna
df['regiao']

In [None]:
# Selecionando mais de uma coluna
df[['regiao','casosNovos']]

In [None]:
# Selecionando todas as linhas e as colunas estado e municipio
df.loc[:,['estado',"municipio"]]

In [None]:
# Selecionando as linhas dos índices 1 a 9 e todas as colunas
df.iloc[1:10]

In [None]:
#selecionando todas as linhas e algumas colunas pelas suas posições de 3 ao 10 (exclusivo)
df.iloc[:,3:10]

In [None]:
# Selecionando somente as linhas em que não há Nan para o municipio
df[df.municipio.isnull()==False]

# Indexação Booleana

In [None]:
# Seleciona as linhas quando o codigo da uf é maior que 22 e menor que 51 (caso verdadeiro)
df[(df['coduf'] > 22) & (df['coduf'] < 51)]

In [None]:
# Selecionando as linhas das regiões Nordeste ou Sudeste
df[(df['regiao'] == "Nordeste") | (df['regiao'] == "Sudeste")]

# Operações

In [None]:
# Quantidade de entradas por estado
dados = df['estado'].value_counts()
pd.DataFrame(dados)

#Ex: DataFrame de vendas em que cada linha é uma venda
# dados = df['vendedor'].value_counts()

In [None]:
# Media de casos por região
df[['casosNovos','regiao']].groupby(['regiao']).mean()

In [None]:
df[['casosNovos','regiao']].groupby(['regiao']).sum()

In [None]:
df1 = df[['regiao','casosNovos','estado']].groupby(['regiao','estado']).agg(['mean', 'std','count','median']) # agg = aggregation

# Agregação

In [None]:
# Concatenação (empilhando os dados)
df1 = pd.DataFrame(
    {
      "Luciano": ["A0", "A1", "A2", "A3"],
      "Maria": ["B0", "B1", "B2", "B3"],
      "Benjamim": ["C0", "C1", "C2", "C3"],
      "Celle": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)

df2 = pd.DataFrame(
    {
      "Luciano": ["A4", "A5", "A6", "A7"],
      "Maria": ["B4", "B5", "B6", "B7"],
      "Benjamim": ["C4", "C5", "C6", "C7"],
      "Celle": ["D4", "D5", "D6", "D7"],
   },
    index=[4, 5, 6, 7],
)

df3 = pd.DataFrame(
    {
      "Luciano": ["A8", "A9", "A10", "A11"],
      "Maria": ["B8", "B9", "B10", "B11"],
      "Benjamim": ["C8", "C9", "C10", "C11"],
      "Celle": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11]
)
# frames = [df1, df2, df3]
# result = pd.concat(frames)
# result
result1 = pd.concat([df1, df2,df3])
result1

In [None]:
#Merge - guenta um pouco mais que ja vamos ver!
# Conceito de chave, possuo dois conjuntos de dados e eles compartilham uma coluna, que nesse caso é o código de município, por exemplo.

# Tratando os dados na prática

In [None]:
# Carregando os dados da tabela município
munic = pd.read_csv('/content/municipios.csv')
munic

In [None]:
# axis = 0 - linha que quero excluir, axis = 1 quero excluir as colunas
df = df.drop(['municipio','codmun','codRegiaoSaude','nomeRegiaoSaude','semanaEpi','interior/metropolitana', 'emAcompanhamentoNovos'], axis = 1)

In [None]:
df

In [None]:
# Conferindo se existe null values na coluna estado
df.estado.isnull()

In [None]:
df_covid = df[(df['estado'] == 'DF') | (df['estado'] == 'RR') | (df['estado'] == 'AP') | (df['estado'] == 'AC') & (df.estado.isnull() == False)]
df_covid

In [None]:
df_covid = pd.merge(df_covid,munic, left_on= 'coduf', right_on= 'codigo_uf')
df_covid

In [None]:
# Renomeando as colunas do dataframe
df_covid.rename(columns = {'populacaoTCU2019': 'populacao', 'casosAcumulado': 'casos_acumulados', 'casosNovos': 'casos_novos', 'obitosAcumulado': 'obitos_acumulados','obitosNovos': 'obitos_novos','Recuperadosnovos':'recuperados novos'}, inplace = True)


In [None]:
df_covid

In [None]:
# Media de casos por estado
df_covid[['casos_novos','estado']].groupby(['estado']).mean()

In [None]:
df_covid[['casos_novos','data']].groupby(['data']).sum()

In [None]:
df_covid[['casos_acumulados','obitos_acumulados','data']].groupby(['data']).sum()

In [None]:
casos_estado = df_covid[['casos_acumulados','obitos_acumulados','estado']].groupby(['estado']).sum()
casos_estado

In [None]:
casos_estado['casos - obitos'] = casos_estado['casos_acumulados'] - casos_estado['obitos_acumulados']
casos_estado['casos - obitos (%)'] = casos_estado['obitos_acumulados']/casos_estado['casos_acumulados']
casos_estado

In [None]:
# Exportar csv
casos_estado.to_csv("casos_por_estado.csv")

# Gráficos

In [None]:
df_covid[['casos_novos','estado']].groupby(['estado']).sum().plot(kind='bar')