# Pandas Básico

É uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy. O pacote pandas possui estruturas de dados bastante interessantes para manipulação de dados e por isso é muito utilizado.

## Estruturas de Dados

### Series

São arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de index. A forma básica de criação de uma Series é a seguinte:
``` 
s = pd.Series(dados, index = index)
```
O argumento dados pode ser um dicionário, uma lista, um array Numpy ou uma constante.

### DataFrames

DataFrame é uma estrutura de dados tabular bidimencional com rótulos nas linhas e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.
```
df = pd.DataFrame(dados, index = index, columns = columns)
```
O argumento dados pode ser um dicionário, uma lista, um array Numpy ou uma constante.

## Trabalhando

### Criando uma Series a partir de uma lista

In [16]:
import pandas as pd

In [17]:
carros = ['Jetta Variant', 'Passat', 'Crossfox']
carros

['Jetta Variant', 'Passat', 'Crossfox']

In [18]:
pd.Series(carros)

0    Jetta Variant
1           Passat
2         Crossfox
dtype: object

### Criando um DataFrame a partir de uma lista de dicionários

In [19]:
dados = [
    {'Nome': 'Jetta Variant', 'Motor': 'Motor 4.0 Turbo', 'Ano': 2003, 'Quilometragem': 44410.0, 'Zero_km': False, 'Valor': 88078.64},
    {'Nome': 'Passat', 'Motor': 'Motor Diesel', 'Ano': 1991, 'Quilometragem': 5712.0, 'Zero_km': False, 'Valor': 106161.94},
    {'Nome': 'Crossfox', 'Motor': 'Motor Diesel V8', 'Ano': 1990, 'Quilometragem': 37123.0, 'Zero_km': False, 'Valor': 72832.16}
]

In [20]:
dataset = pd.DataFrame(dados)

In [21]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


Alterando ordem das colunas:

In [22]:
dataset[['Nome', 'Ano', 'Motor', 'Quilometragem', 'Zero_km', 'Valor']]

Unnamed: 0,Nome,Ano,Motor,Quilometragem,Zero_km,Valor
0,Jetta Variant,2003,Motor 4.0 Turbo,44410.0,False,88078.64
1,Passat,1991,Motor Diesel,5712.0,False,106161.94
2,Crossfox,1990,Motor Diesel V8,37123.0,False,72832.16


### Criando um DataFrame a partir de um dicionário

In [23]:
dados = {
    'Nome': ['Jetta Variant', 'Passat', 'Crossfox'],
    'Motor': ['Motor 4.0 Turbo', 'Motor Diesel', 'Motor Diesel V8'],
    'Ano': [2003, 1991, 1990],
    'Quilometragrem': [44410.0, 5712.0, 37123.0],
    'Zero_km': [False, False, False],
    'Valor': [88078.64, 106161.94, 72832.16]
}

In [24]:
dataset = pd.DataFrame(dados)

In [25]:
dataset

Unnamed: 0,Nome,Motor,Ano,Quilometragrem,Zero_km,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,88078.64
1,Passat,Motor Diesel,1991,5712.0,False,106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,72832.16


### Criando um DataFrame a partir de um arquivo externo

In [27]:
dataset = pd.read_csv('./data_covid/arquivo_geral.csv', sep = ';')

In [28]:
dataset

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0
...,...,...,...,...,...,...,...
2344,Centro-Oeste,DF,2020-04-21,9,881,0,24
2345,Centro-Oeste,DF,2020-04-22,65,946,1,25
2346,Centro-Oeste,DF,2020-04-23,17,963,0,25
2347,Centro-Oeste,DF,2020-04-24,26,989,1,26


### Seleções com DataFrames

In [29]:
dataset.head() # mostra os 5 primeiros 

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0


#### Seleção de colunas

In [30]:
dataset['obitosNovos']

0       0
1       0
2       0
3       0
4       0
       ..
2344    0
2345    1
2346    0
2347    1
2348    0
Name: obitosNovos, Length: 2349, dtype: int64

In [32]:
type(dataset['obitosNovos'])

pandas.core.series.Series

In [33]:
dataset[['obitosNovos']]

Unnamed: 0,obitosNovos
0,0
1,0
2,0
3,0
4,0
...,...
2344,0
2345,1
2346,0
2347,1


In [31]:
type(dataset[['obitosNovos']])

pandas.core.frame.DataFrame

#### Seleção de linhas [i:j]

In [34]:
dataset[0:3]

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0


#### Utilizando .loc para seleções

In [36]:
dataset.loc[1]

regiao                   Norte
estado                      RO
data                2020-01-31
casosNovos                   0
casosAcumulados              0
obitosNovos                  0
obitosAcumulados             0
Name: 1, dtype: object

In [45]:
dataset.loc[[1,80]] # apenas as linhas selecionadas

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
1,Norte,RO,2020-01-31,0,0,0,0
80,Norte,RO,2020-04-19,18,128,1,4


In [46]:
dataset.loc[[1,80], ['estado', 'data', 'casosNovos', 'obitosNovos']] # apenas linhas e colunas selecionadas

Unnamed: 0,estado,data,casosNovos,obitosNovos
1,RO,2020-01-31,0,0
80,RO,2020-04-19,18,1


In [48]:
dataset.loc[:, ['estado', 'data', 'casosNovos', 'obitosNovos']] # apenas colunas selecionadas

Unnamed: 0,estado,data,casosNovos,obitosNovos
0,RO,2020-01-30,0,0
1,RO,2020-01-31,0,0
2,RO,2020-02-01,0,0
3,RO,2020-02-02,0,0
4,RO,2020-02-03,0,0
...,...,...,...,...
2344,DF,2020-04-21,9,0
2345,DF,2020-04-22,65,1
2346,DF,2020-04-23,17,0
2347,DF,2020-04-24,26,1


#### Utilizando .iloc para seleções

In [49]:
dataset.iloc[[1]]

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
1,Norte,RO,2020-01-31,0,0,0,0


In [50]:
dataset.iloc[1:4]

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0


In [51]:
dataset.iloc[1:4, [0, 5, 2]]

Unnamed: 0,regiao,obitosNovos,data
1,Norte,0,2020-01-31
2,Norte,0,2020-02-01
3,Norte,0,2020-02-02


In [52]:
dataset.iloc[[1, 42, 22], [0, 5, 2]]

Unnamed: 0,regiao,obitosNovos,data
1,Norte,0,2020-01-31
42,Norte,0,2020-03-12
22,Norte,0,2020-02-21


In [53]:
dataset.iloc[:, [0, 5, 2]]

Unnamed: 0,regiao,obitosNovos,data
0,Norte,0,2020-01-30
1,Norte,0,2020-01-31
2,Norte,0,2020-02-01
3,Norte,0,2020-02-02
4,Norte,0,2020-02-03
...,...,...,...
2344,Centro-Oeste,0,2020-04-21
2345,Centro-Oeste,1,2020-04-22
2346,Centro-Oeste,0,2020-04-23
2347,Centro-Oeste,1,2020-04-24


### Queries com DataFrames

In [54]:
dataset.head()

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0


In [55]:
dataset.data

0       2020-01-30
1       2020-01-31
2       2020-02-01
3       2020-02-02
4       2020-02-03
           ...    
2344    2020-04-21
2345    2020-04-22
2346    2020-04-23
2347    2020-04-24
2348    2020-04-25
Name: data, Length: 2349, dtype: object

In [61]:
dataset.data == '2020-04-23'

0       False
1       False
2       False
3       False
4       False
        ...  
2344    False
2345    False
2346     True
2347    False
2348    False
Name: data, Length: 2349, dtype: bool

In [62]:
select = dataset.data == '2020-04-23'

In [63]:
type(select)

pandas.core.series.Series

In [65]:
dataset[select] # dataFrame com todos os dados do dia 23/04/2020 sobre a covid em todos os estados

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
84,Norte,RO,2020-04-23,27,250,0,5
171,Norte,AC,2020-04-23,13,227,2,10
258,Norte,AM,2020-04-23,409,2888,27,234
345,Norte,RR,2020-04-23,17,297,0,3
432,Norte,PA,2020-04-23,72,1267,10,53
519,Norte,AP,2020-04-23,69,548,2,16
606,Norte,TO,2020-04-23,0,37,1,2
693,Nordeste,MA,2020-04-23,153,1757,10,76
780,Nordeste,PI,2020-04-23,11,217,0,15
867,Nordeste,CE,2020-04-23,688,4598,33,266


In [68]:
dataset[(dataset.data == '2020-04-23') & (dataset.obitosAcumulados >= 100)]
# dados dos estados q tiveram mais de 100 obitos registrados do dia 01/04/2020 ao dia 23/04/2020

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
258,Norte,AM,2020-04-23,409,2888,27,234
867,Nordeste,CE,2020-04-23,688,4598,33,266
1128,Nordeste,PE,2020-04-23,221,3519,30,312
1650,Sudeste,RJ,2020-04-23,620,6172,40,530
1737,Sudeste,SP,2020-04-23,826,16740,211,1345


In [69]:
(dataset.data == '2020-04-23') & (dataset.obitosAcumulados >= 100)

0       False
1       False
2       False
3       False
4       False
        ...  
2344    False
2345    False
2346    False
2347    False
2348    False
Length: 2349, dtype: bool

#### Utilizando o método query

In [71]:
dataset.query('data == "2020-04-23" and obitosAcumulados >= 100')
# dados dos estados q tiveram mais de 100 obitos registrados do dia 01/04/2020 ao dia 23/04/2020

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
258,Norte,AM,2020-04-23,409,2888,27,234
867,Nordeste,CE,2020-04-23,688,4598,33,266
1128,Nordeste,PE,2020-04-23,221,3519,30,312
1650,Sudeste,RJ,2020-04-23,620,6172,40,530
1737,Sudeste,SP,2020-04-23,826,16740,211,1345


### Iterando com DataFrames

In [72]:
dataset.head()

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0


In [75]:
for dado in dataset:
    print(dado)

regiao
estado
data
casosNovos
casosAcumulados
obitosNovos
obitosAcumulados


In [77]:
list(dataset.iterrows())

[(0,
  regiao                   Norte
  estado                      RO
  data                2020-01-30
  casosNovos                   0
  casosAcumulados              0
  obitosNovos                  0
  obitosAcumulados             0
  Name: 0, dtype: object),
 (1,
  regiao                   Norte
  estado                      RO
  data                2020-01-31
  casosNovos                   0
  casosAcumulados              0
  obitosNovos                  0
  obitosAcumulados             0
  Name: 1, dtype: object),
 (2,
  regiao                   Norte
  estado                      RO
  data                2020-02-01
  casosNovos                   0
  casosAcumulados              0
  obitosNovos                  0
  obitosAcumulados             0
  Name: 2, dtype: object),
 (3,
  regiao                   Norte
  estado                      RO
  data                2020-02-02
  casosNovos                   0
  casosAcumulados              0
  obitosNovos                  0
  obitos

### Tratamento de dados

In [103]:
dataset.head()

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0


In [104]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2349 entries, 0 to 2348
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   regiao            2349 non-null   object
 1   estado            2349 non-null   object
 2   data              2349 non-null   object
 3   casosNovos        2349 non-null   int64 
 4   casosAcumulados   2349 non-null   int64 
 5   obitosNovos       2349 non-null   int64 
 6   obitosAcumulados  2349 non-null   int64 
dtypes: int64(4), object(3)
memory usage: 128.6+ KB


In [106]:
dataset.regiao.isna() # retorna true se p valor for nulo

0       False
1       False
2       False
3       False
4       False
        ...  
2344    False
2345    False
2346    False
2347    False
2348    False
Name: regiao, Length: 2349, dtype: bool

In [108]:
dataset[dataset.regiao.isna()] # mostra os dados q possuem nulo na coluna selecionada

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados


In [109]:
dataset.fillna(0, inplace = True) # transforma os valores nulos no atributo passado no metodo

In [111]:
dataset.dropna(subset = ['estado'], inplace = True) # apaga a linha q tiver valor nulo na coluna selecionada