# **Python para Análise de Dados ( PANDAS )**

Iremos trabalhar com base nos dados do corona vírus, através de um arquivo CSV que obtive no site: https://covid.saude.gov.br/


In [1]:
# Importando o Pandas
import pandas as pd

In [2]:
arquivo = '/Users/bruno/HIST_PAINEL_COVIDBR_27out2020.csv'
dataset = pd.read_csv(arquivo, sep=';', header=0 )

In [None]:
# Imprimindo o tipo da variável dataset
# Dataframe é uma estrutura de dados onde linhas podem podem ter colunas de diferentes tipos.
type(dataset)

In [None]:
# Método head() imprime as 5 primeiras linhas do Dataframe.
dataset.head()

In [None]:
# O parâmetro index_col informa a coluna na qual o DataFrame será indexado, que nesse caso é a coluna 'data'.
dataset = pd.read_csv(arquivo, sep=';',index_col = 'data')

In [3]:
# O parâmetro usecols é utilizado para filtrarmos apenas as colunas que vamos trabalhar em nossa análise de dados
dataset = pd.read_csv(arquivo, sep=';', usecols = ['data','estado','semanaEpi','casosAcumulado','casosNovos','obitosAcumulado','obitosNovos','Recuperadosnovos','emAcompanhamentoNovos'])

In [None]:
# No método head() podemos informar o número de linhas que queremos imprimir, caso não seja informado, a quantidade padrão é de 5 linhas como mostrado anteriormente.
dataset.head(10)

In [None]:
# Informa as colunas do dataset
dataset.columns

In [None]:
# O método count() retorna a quantidade de linhas de todas as colunas.
dataset.count()

In [None]:
# O método describe() exibe informações estatísticas da base de dados.
# Informações importates que pode ajudar na análise dos dados como, desvio padrão, média, valor mínimo e valor máximo das colunas.
dataset.describe()

In [None]:
# Imprime por padrão as 5 últimas linhas do dataset, caso queira outra quantidade é só colocar no parâmetro, dataset.tail(10) por exemplo.
dataset.tail(15)

In [None]:
# Imprime uma amostra aleatória do dataset.
dataset.sample(50)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset.
dataset.shape

In [None]:
# Imprime informações sobre as colunas e uso de memória.
dataset.info()

# Consultando um dataFrame

In [None]:
#Conta a quantidade de valores únicos
pd.value_counts(dataset['estado'])

In [None]:
#O método loc() é usado para visualizar informações do dataset
dataset.loc[dataset['estado']=='PE']

In [None]:
# Utilizando o método loc() com o operador &
dataset.loc[(dataset['estado']=='PE') & (dataset['obitosNovos']>100)]

In [None]:
# O método sort_values() ordena um dataset pela coluna desejada
dataset.sort_values(by='data', ascending=False)

In [None]:
# O método count() é usado para contar o número de linhas de uma query.
dataset[dataset['estado']=='PE'].count()

# Alterando Dataframe

In [None]:
dataset.info()

In [None]:
# Alterando o tipo de object para DateTime
dataset['data'] =  pd.to_datetime(dataset['data'])

In [None]:
# Adicionando uma nova coluna coluna ao dataset
dataset['mes'] = dataset['data'].dt.month

In [None]:
# Visualizando o conteúdo da coluna criada
dataset['mes'].head()

In [None]:
# Visualizando a nova coluna criada
dataset['mes']

In [None]:
#Criando uma funcão para processamento de dados
def mes(i):
    if i == 1:
        return 'Janeiro'
    elif i == 2:
        return 'Fevereiro'
    elif i == 3:
        return 'Março'
    elif i == 4:
        return 'Abril'
    elif i == 5:
        return 'Maio'
    elif i == 6:
        return 'Junho'
    elif i == 7:
        return 'Julho'
    elif i == 8:
        return 'Agosto'
    elif i == 9:
        return 'Setembro'
    elif i == 10:
        return 'outubro'
    elif i == 11:
        return 'Novembro'
    elif i == 12:
        return 'Dezembro'

In [None]:
#Criando uma nova coluna a partir do processamento realizado
dataset['descricao_mes'] = dataset['mes'].apply(mes)

In [None]:
#Visualizando a nova coluna criada.
dataset['descricao_mes'].head()

In [None]:
# Ver a distribuição da coluna com o método value_counts. 
pd.value_counts(dataset['descricao_mes'])

In [None]:
# O método drop é usado para excluir dados do dataframe.
# A opção axis=1 define que queremos excluir uma coluna e não uma linha.
# O parâmetro inplace define que a alteração irá modificar o objeto em memória.
dataset.drop(['mes'], axis=1, inplace=True)

In [None]:
# Apagando linhas baseado em condições lógicas!
dataset.drop(dataset[dataset.descricao_mes == 'Agosto'].index , inplace=True)

In [None]:
dataset.head()

# Percorrendo linhas em um dataframe

-Método iterrows() permite percorrer por todas as linhas de um dataframe


In [11]:
type(dataset.iterrows())

generator

In [12]:
# Imprime a primeira linha do objeto iterator
next(dataset.iterrows())

(0,
 estado                          NaN
 data                     2020-02-25
 semanaEpi                         9
 casosAcumulado                    0
 casosNovos                        0
 obitosAcumulado                   0
 obitosNovos                       0
 Recuperadosnovos                NaN
 emAcompanhamentoNovos           NaN
 Name: 0, dtype: object)

In [14]:
# Percorrendo o dataframe e imprimindo o indice e cada linha
for indice, linha in dataset.head(10).iterrows():
    print(indice,linha)

0 estado                          NaN
data                     2020-02-25
semanaEpi                         9
casosAcumulado                    0
casosNovos                        0
obitosAcumulado                   0
obitosNovos                       0
Recuperadosnovos                NaN
emAcompanhamentoNovos           NaN
Name: 0, dtype: object
1 estado                          NaN
data                     2020-02-26
semanaEpi                         9
casosAcumulado                    1
casosNovos                        1
obitosAcumulado                   0
obitosNovos                       0
Recuperadosnovos                NaN
emAcompanhamentoNovos           NaN
Name: 1, dtype: object
2 estado                          NaN
data                     2020-02-27
semanaEpi                         9
casosAcumulado                    1
casosNovos                        0
obitosAcumulado                   0
obitosNovos                       0
Recuperadosnovos                NaN
emAcompanham

In [15]:
dataset=dataset.loc[dataset['estado']=='SP']

In [16]:
# Percorrendo o dataframe e imprimindo o indice de cada linha
for indice, linha in dataset.head(20).iterrows():
    print(indice,linha['estado'],linha['data'],linha['casosNovos'])

4920 SP 2020-02-25 0
4921 SP 2020-02-26 1
4922 SP 2020-02-27 0
4923 SP 2020-02-28 0
4924 SP 2020-02-29 1
4925 SP 2020-03-01 0
4926 SP 2020-03-02 0
4927 SP 2020-03-03 0
4928 SP 2020-03-04 1
4929 SP 2020-03-05 3
4930 SP 2020-03-06 4
4931 SP 2020-03-07 3
4932 SP 2020-03-08 3
4933 SP 2020-03-09 0
4934 SP 2020-03-10 3
4935 SP 2020-03-11 11
4936 SP 2020-03-12 12
4937 SP 2020-03-13 14
4938 SP 2020-03-14 9
4939 SP 2020-03-15 71


In [17]:
dataset.semanaEpi.head(10)

4920     9
4921     9
4922     9
4923     9
4924     9
4925    10
4926    10
4927    10
4928    10
4929    10
Name: semanaEpi, dtype: int64

In [18]:
# Percorrendo o dataframe e atualizando linhas de um dataframe
# Atualiza o valor da coluna semanaEpi somando seu valor a 1
# É preciso usar o método at para atualizar o dataframe
for indice, linha in dataset.head(10).iterrows():
      dataset.at[indice, 'semanaEpi'] = linha['semanaEpi'] + 1

In [19]:
dataset.semanaEpi.head(10)

4920    10
4921    10
4922    10
4923    10
4924    10
4925    11
4926    11
4927    11
4928    11
4929    11
Name: semanaEpi, dtype: int64

# Método itertuples() percorre as linhas e índices em formato de tuplas

Costuma ser mais rápido que o iterrows()

In [20]:
for linha in dataset.head(10).itertuples():
    print(linha)

Pandas(Index=4920, estado='SP', data='2020-02-25', semanaEpi=10, casosAcumulado=0, casosNovos=0, obitosAcumulado=0, obitosNovos=0, Recuperadosnovos=nan, emAcompanhamentoNovos=nan)
Pandas(Index=4921, estado='SP', data='2020-02-26', semanaEpi=10, casosAcumulado=1, casosNovos=1, obitosAcumulado=0, obitosNovos=0, Recuperadosnovos=nan, emAcompanhamentoNovos=nan)
Pandas(Index=4922, estado='SP', data='2020-02-27', semanaEpi=10, casosAcumulado=1, casosNovos=0, obitosAcumulado=0, obitosNovos=0, Recuperadosnovos=nan, emAcompanhamentoNovos=nan)
Pandas(Index=4923, estado='SP', data='2020-02-28', semanaEpi=10, casosAcumulado=1, casosNovos=0, obitosAcumulado=0, obitosNovos=0, Recuperadosnovos=nan, emAcompanhamentoNovos=nan)
Pandas(Index=4924, estado='SP', data='2020-02-29', semanaEpi=10, casosAcumulado=2, casosNovos=1, obitosAcumulado=0, obitosNovos=0, Recuperadosnovos=nan, emAcompanhamentoNovos=nan)
Pandas(Index=4925, estado='SP', data='2020-03-01', semanaEpi=11, casosAcumulado=2, casosNovos=0, obi

In [21]:
for linha in dataset.head(10).itertuples():
    print(linha.estado,linha.data,linha.casosNovos)

SP 2020-02-25 0
SP 2020-02-26 1
SP 2020-02-27 0
SP 2020-02-28 0
SP 2020-02-29 1
SP 2020-03-01 0
SP 2020-03-02 0
SP 2020-03-03 0
SP 2020-03-04 1
SP 2020-03-05 3
