# INEFE-Instituto de Estudos e de Formação Especializada  

## Professor: Orlando Oliveira dos Santos, MsC.
orlandosantos@gmail.com
(61) 99646 6151


#  PROGRAMA PYTHON ANALYTICS e DATA SCIENCE

# Manipulação de dados com Pandas 

## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [None]:
import numpy as np
import pandas as pd

### Série 
- Serie é uma matriz rotulada unidimensional capaz de conter qualquer tipo de dados (inteiros, strings, números de ponto flutuante, objetos Python, etc.). 
- Os rótulos dos eixos são chamados coletivamente de índice.
- O método básico para criar uma série é chamar:

``` 
s = pd.Series(data, index=index)

```

- data pode ser dicionário, ndarray, valor escalar.
- index deve ser lista de rótulos de eixo. 
- Se data for um ndarray, o índice deve ter o mesmo comprimento dos dados . 
- Se nenhum índice for passado, um será criado com valores de 0 até len(data)-1 


### Criar série a partir de um array

In [None]:
import string
data = [x for x in string.ascii_lowercase]

s = pd.Series(data)
print(s)
s.index

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


RangeIndex(start=0, stop=26, step=1)

In [None]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

s = pd.Series(data, index=index)
print(s)
s.index

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
            17, 18, 19, 20, 21, 22, 23, 24, 25],
           dtype='int64')

In [None]:
index = [x for x in string.ascii_lowercase]
data = list(range(0,len(index)))

s = pd.Series(data, index=index)
print(s)
s.index

a     0
b     1
c     2
d     3
e     4
f     5
g     6
h     7
i     8
j     9
k    10
l    11
m    12
n    13
o    14
p    15
q    16
r    17
s    18
t    19
u    20
v    21
w    22
x    23
y    24
z    25
dtype: int64


Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
       'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'],
      dtype='object')

- Pode se ter indices duplicados, mas isso pode levar erros em funcões que exigem indices exclusivos.

In [None]:
s = pd.Series(np.random.randint(10, size=10), index=['a', 'b', 'c', 'd', 'e','a', 'b', 'c', 'd', 'e'])
print(s)
print(s['a'])
s.index

a    6
b    8
c    1
d    7
e    2
a    5
b    1
c    0
d    8
e    1
dtype: int64
a    6
a    5
dtype: int64


Index(['a', 'b', 'c', 'd',
       'e', 'a', 'b', 'c',
       'd', 'e'],
      dtype='object')

### Criar série a partir de um  dict

In [None]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

dict1 =  { x : y for x, y in zip(index,data)}
print(dict1)


{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j', 10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o', 15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't', 20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y', 25: 'z'}


In [None]:

s = pd.Series(dict1)
print(s)

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


In [None]:
s = pd.Series(dict1, index=[1,3,5,7])
print(s)

1    b
3    d
5    f
7    h
dtype: object


- Se um índice for passado, os dados serão obtidos no dicionário usando o valores do indice como chave, e a ordenação será a adotada no indice.  Se a chave não for encontrada do valor será NaN (não um número) é o marcador padrão de dados vazios usado nos pandas

In [None]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

dict1 =  { x : y for x, y in zip(index,data)}
print(dict1)

novo_index = sorted(index,reverse=True)

novo_index = novo_index +  list(range(26,50,1))



{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j', 10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o', 15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't', 20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y', 25: 'z'}


In [None]:
novo_index

[25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49]

In [None]:
s = pd.Series(dict1, index=novo_index)
print(s)

25      z
24      y
23      x
22      w
21      v
20      u
19      t
18      s
17      r
16      q
15      p
14      o
13      n
12      m
11      l
10      k
9       j
8       i
7       h
6       g
5       f
4       e
3       d
2       c
1       b
0       a
26    NaN
27    NaN
28    NaN
29    NaN
30    NaN
31    NaN
32    NaN
33    NaN
34    NaN
35    NaN
36    NaN
37    NaN
38    NaN
39    NaN
40    NaN
41    NaN
42    NaN
43    NaN
44    NaN
45    NaN
46    NaN
47    NaN
48    NaN
49    NaN
dtype: object


### Criar série a partir de um  valor escalar

Se datafor um valor escalar, um índice deve ser fornecido. O valor será repetido para corresponder ao comprimento do índice .

In [None]:
import string
index = [x for x in string.ascii_lowercase[0:10]]
valor = 10.5
s = pd.Series(valor, index=index)
print(s)



a    10.5
b    10.5
c    10.5
d    10.5
e    10.5
f    10.5
g    10.5
h    10.5
i    10.5
j    10.5
dtype: float64


In [None]:
import string
index = list(range(0,10))
valor = 'Alberto'
s = pd.Series(valor, index=index)
print(s)

0    Alberto
1    Alberto
2    Alberto
3    Alberto
4    Alberto
5    Alberto
6    Alberto
7    Alberto
8    Alberto
9    Alberto
dtype: object


### Série é semelhante a um ndarray (Indexação, Fatiamento, Funções)

In [None]:
s = pd.Series(np.random.randint(70,100, 10))
print(s)
s.index

0    70
1    97
2    75
3    74
4    83
5    79
6    72
7    88
8    85
9    87
dtype: int64


RangeIndex(start=0, stop=10, step=1)

In [None]:
print(s[0])

70


In [None]:
print(s[:3])

0    70
1    97
2    75
dtype: int64


In [None]:
s.median()

81.0

In [None]:
filtro = s > s.median()
print(filtro)
print(s[filtro])

0    False
1     True
2    False
3    False
4     True
5    False
6    False
7     True
8     True
9     True
dtype: bool
1    97
4    83
7    88
8    85
9    87
dtype: int64


In [None]:
print(s[s > s.median()])

1    97
4    83
7    88
8    85
9    87
dtype: int64


In [None]:
print(s)
print(s[[4, 3, 1]])

0    70
1    97
2    75
3    74
4    83
5    79
6    72
7    88
8    85
9    87
dtype: int64
4    83
3    74
1    97
dtype: int64


In [None]:
print(np.sqrt(s))

In [None]:
print(np.power(s,2))

In [None]:
print(s.dtype)

int64


In [None]:
print(s.array)

<PandasArray>
[70, 97, 75, 74, 83, 79, 72,
 88, 85, 87]
Length: 10, dtype: int64


In [None]:
s.to_numpy()

array([70, 97, 75, 74, 83, 79, 72, 88, 85, 87])

### Series.array é  um ExtensionArray invólucro fino em torno de um numpy.ndarray.
- Embora Series seja semelhante ao ndarray, se você precisar de um ndarray real , use Series.to_numpy().

In [None]:
s.to_numpy()

array([70, 97, 75, 74, 83, 79, 72, 88, 85, 87])

### A série é semelhante a um  dicionário de tamanho fixo em que se pode obter e definir valores por rótulo de índice:

In [None]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s = pd.Series(data, index=index)
print(s)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64


In [None]:
s['a']

0

In [None]:
s['e'] = 12
s

a     0
b     1
c     2
d     3
e    12
f     5
g     6
h     7
i     8
j     9
dtype: int64

In [None]:
'e' in s

True

In [None]:
'm' in s

False

In [None]:
s['f']

5

In [None]:
s.get('m')

In [None]:
s.get('f')

5

In [None]:
s.get('m', np.nan)

nan

### Operações vetorizadas com Série 
- Ao trabalhar com séries não é necessário fazer um loop de valor por valor.
- A série também pode ser passada para a maioria dos métodos NumPy que esperam um ndarray.

In [None]:
data = list(range(0,10))
s = pd.Series(data)
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [None]:
s + s

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

In [None]:
s * 2

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

In [None]:
np.sum(s)

45

In [None]:
s2 = s.astype(str)
print(s2)
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: object
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [None]:
s + s2.astype(int)

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

### A diferença fundamental entre Series e ndarray é que as operações entre as séries alinham automaticamente os dados com base no rótulo. 
- Se uma chave não for encontrada em ambas, o resultado será marcado como vazio (NaN)
- Isso promove liberdade e flexibilidade na análise de dados interativos é é um dos grandes diferenciais do Pandas.

In [None]:
vendas = pd.Series([100, 200, 300], index=['Willian','João','Alexandre'])
print(vendas)

Willian      100
João         200
Alexandre    300
dtype: int64


In [None]:
percentualcomissao = pd.Series([.05, .05, .5], index=['João','Alexandre','Willian'])
print(percentualcomissao)

João         0.05
Alexandre    0.05
Willian      0.50
dtype: float64


In [None]:
vendas * percentualcomissao

Alexandre    15.0
João         10.0
Willian      50.0
dtype: float64

In [None]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s1 = pd.Series(data, index=index)

index2= [x for x in string.ascii_lowercase[3:10]]
data2 = list(range(0,len(index2)))
s2 = pd.Series(data2, index=index2)

print(s1)
print(s2)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64
d    0
e    1
f    2
g    3
h    4
i    5
j    6
dtype: int64


In [None]:
s1 + s2

a     NaN
b     NaN
c     NaN
d     3.0
e     5.0
f     7.0
g     9.0
h    11.0
i    13.0
j    15.0
dtype: float64

In [None]:
s1 * s2

a     NaN
b     NaN
c     NaN
d     0.0
e     4.0
f    10.0
g    18.0
h    28.0
i    40.0
j    54.0
dtype: float64

In [None]:
s1 - s2

a    NaN
b    NaN
c    NaN
d    3.0
e    3.0
f    3.0
g    3.0
h    3.0
i    3.0
j    3.0
dtype: float64

In [None]:
s1 ** s2

a         NaN
b         1.0
c         NaN
d         1.0
e         4.0
f        25.0
g       216.0
h      2401.0
i     32768.0
j    531441.0
dtype: float64

## O atributo de nome da Série

In [None]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s1 = pd.Series(data, index=index, name='Minha Serie')
s1.name

'Minha Serie'

In [None]:
s2 = s.rename("Minha nova série")
s2.name

'Minha nova série'

## DataFrame 
- DataFrame é uma estrutura de dados rotulada bidimensional com colunas de tipos potencialmente diferentes. 
- Objeto pandas é o mais comumente usado.
- Aceita muitos tipos diferentes de entrada na sua criação: Dict de 1D ndarrays, listas, dicts ou Series, 2-D numpy.ndarray, Outro DataFrame.
- Opcionalmente pode receber como argumentos de índice (rótulos de linha) e colunas (rótulos de coluna). 
- Se não passar rótulos serão gerados automaticamente.


### Criando dataframe a partir de dict de Série ou dicts 
- O índice resultante será a união dos índices das várias Séries.
- Se houver dicts aninhados, eles serão primeiro convertidos em Series. 
- Se nenhuma coluna for passada, as colunas serão a lista ordenada de chaves de dicionário.

In [None]:
d = {'col1': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'col2': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(d)
df = pd.DataFrame(d)
print (df.index )
print (df.columns)
df

{'col1': a    1.0
b    2.0
c    3.0
dtype: float64, 'col2': a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64}
Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['col1', 'col2'], dtype='object')


Unnamed: 0,col1,col2
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [None]:
d = {'col1': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'col2': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(d)
df = pd.DataFrame(d, index=['d', 'b', 'a'])
print (df.index )
print (df.columns)
df

{'col1': a    1.0
b    2.0
c    3.0
dtype: float64, 'col2': a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64}
Index(['d', 'b', 'a'], dtype='object')
Index(['col1', 'col2'], dtype='object')


Unnamed: 0,col1,col2
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [None]:
d = {'col1': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'col2': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(d)
df = pd.DataFrame(d, index=['d', 'b', 'a'], columns=['col1', 'col2'])
print (df.index )
print (df.columns)
df


{'col1': a    1.0
b    2.0
c    3.0
dtype: float64, 'col2': a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64}
Index(['d', 'b', 'a'], dtype='object')
Index(['col1', 'col2'], dtype='object')


Unnamed: 0,col1,col2
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [None]:

d = {'col1': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'col2': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
print(d)
df = pd.DataFrame(d, index=['d', 'b', 'a', 'm'], columns=['col1', 'col3'])
print (df.index )
print (df.columns)
df

{'col1': a    1.0
b    2.0
c    3.0
dtype: float64, 'col2': a    1.0
b    2.0
c    3.0
d    4.0
dtype: float64}
Index(['d', 'b', 'a', 'm'], dtype='object')
Index(['col1', 'col3'], dtype='object')


Unnamed: 0,col1,col3
d,,
b,2.0,
a,1.0,
m,,


In [None]:
dados = {'percentualcomissao' : pd.Series([.05, .05, .5], index=['João','Alexandre','Willian']),
          'vendas' : pd.Series([100, 200, 300], index=['Willian','João','Alexandre']) }

In [None]:
dfcomissoes = pd.DataFrame(dados)
dfcomissoes

Unnamed: 0,percentualcomissao,vendas
Alexandre,0.05,300
João,0.05,200
Willian,0.5,100


In [None]:
dfcomissoes['Comissao'] = dfcomissoes['percentualcomissao']  * dfcomissoes['vendas']
dfcomissoes

Unnamed: 0,percentualcomissao,vendas,Comissao
Alexandre,0.05,300,15.0
João,0.05,200,10.0
Willian,0.5,100,50.0


### Criando dataframe a partir de dict de ndarrays / listas 
- Os ndarrays / listas devem ter todos o mesmo comprimento. 
- Se um índice for passado, ele deve ter o mesmo comprimento dos arrays. 
- Se nenhum índice for passado, o resultado será range(n), onde né o comprimento do array.

In [None]:
d = {'col1': [1., 2., 3., 4.],
'col2': [4., 3., 2., 1.]}

df = pd.DataFrame(d)

print (df.index )
print (df.columns)
df 



RangeIndex(start=0, stop=4, step=1)
Index(['col1', 'col2'], dtype='object')


Unnamed: 0,col1,col2
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [None]:
d = {'col1': [1., 2., 3., 4.],
'col2': [4., 3., 2., 1.]}

df = pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

print (df.index )
print (df.columns)
df 


Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['col1', 'col2'], dtype='object')


Unnamed: 0,col1,col2
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


### Criando dataframe a partir de matriz estruturada ou de registro 
- Similar ao procedimento com dicionário de matrizes.
- O DataFrame tem simnilaridades, mas não foi projetado para funcionar exatamente como um ndarray NumPy bidimensional

In [None]:
data = np.zeros((2, ), dtype=[('col1', 'i4'), ('col2', 'f4'), ('col3', 'U10')])
data[:] = [(1, 2., 'João'), (2, 3., "Sebastião")]
data

array([(1, 2., 'João'), (2, 3., 'Sebastião')],
      dtype=[('col1', '<i4'), ('col2', '<f4'), ('col3', '<U10')])

In [None]:
df = pd.DataFrame(data)

print (df.index )
print (df.columns)
df 

RangeIndex(start=0, stop=2, step=1)
Index(['col1', 'col2',
       'col3'],
      dtype='object')


Unnamed: 0,col1,col2,col3
0,1,2.0,João
1,2,3.0,Sebastião


In [None]:
df = pd.DataFrame(data, index=['a', 'b'])
print (df.index )
print (df.columns)
df 

Index(['a', 'b'], dtype='object')
Index(['col1', 'col2',
       'col3'],
      dtype='object')


Unnamed: 0,col1,col2,col3
a,1,2.0,João
b,2,3.0,Sebastião


In [None]:
df = pd.DataFrame(data, columns=['col1' , 'col2', 'col3'])
print (df.index )
print (df.columns)
df 

RangeIndex(start=0, stop=2, step=1)
Index(['col1', 'col2',
       'col3'],
      dtype='object')


Unnamed: 0,col1,col2,col3
0,1,2.0,João
1,2,3.0,Sebastião


In [None]:
df = pd.DataFrame(data, columns=['col1' , 'col2', 'col4'])
print (df.index )
print (df.columns)
df 

RangeIndex(start=0, stop=2, step=1)
Index(['col1', 'col2',
       'col4'],
      dtype='object')


Unnamed: 0,col1,col2,col4
0,1,2.0,
1,2,3.0,


### Criando dataframe a partir de uma lista de dicts 

In [None]:
data2 = [{'col1': 1, 'col2': 2}, 
         {'col1': 5, 'col2': 10, 'col3': 20}]
df = pd.DataFrame(data2)
print (df.index )
print (df.columns)
df 

RangeIndex(start=0, stop=2, step=1)
Index(['col1', 'col2',
       'col3'],
      dtype='object')


Unnamed: 0,col1,col2,col3
0,1,2,
1,5,10,20.0


In [None]:
data2 = [{'col1': 1, 'col2': 2}, 
         {'col1': 5, 'col2': 10, 'col3': 20}]
df = pd.DataFrame(data2, index=[3, 4])
print (df.index )
print (df.columns)
df 

Int64Index([3, 4], dtype='int64')
Index(['col1', 'col2',
       'col3'],
      dtype='object')


Unnamed: 0,col1,col2,col3
3,1,2,
4,5,10,20.0


In [None]:
data2 = [{'col1': 1, 'col2': 2}, 
         {'col1': 5, 'col2': 10, 'col3': 20}]
df = pd.DataFrame(data2, columns=['col1' , 'col2', 'col4'])
print (df.index )
print (df.columns)
df 

RangeIndex(start=0, stop=2, step=1)
Index(['col1', 'col2',
       'col4'],
      dtype='object')


Unnamed: 0,col1,col2,col4
0,1,2,
1,5,10,


In [None]:
estadoslista = [{"id":11,"sigla":"RO","nome":"Rondônia","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":12,"sigla":"AC","nome":"Acre","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":13,"sigla":"AM","nome":"Amazonas","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":14,"sigla":"RR","nome":"Roraima","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":15,"sigla":"PA","nome":"Pará","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":16,"sigla":"AP","nome":"Amapá","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":17,"sigla":"TO","nome":"Tocantins","regiao":{"id":1,"sigla":"N","nome":"Norte"}},{"id":21,"sigla":"MA","nome":"Maranhão","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":22,"sigla":"PI","nome":"Piauí","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":23,"sigla":"CE","nome":"Ceará","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":24,"sigla":"RN","nome":"Rio Grande do Norte","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":25,"sigla":"PB","nome":"Paraíba","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":26,"sigla":"PE","nome":"Pernambuco","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":27,"sigla":"AL","nome":"Alagoas","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":28,"sigla":"SE","nome":"Sergipe","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":29,"sigla":"BA","nome":"Bahia","regiao":{"id":2,"sigla":"NE","nome":"Nordeste"}},{"id":31,"sigla":"MG","nome":"Minas Gerais","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}},{"id":32,"sigla":"ES","nome":"Espírito Santo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}},{"id":33,"sigla":"RJ","nome":"Rio de Janeiro","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}},{"id":35,"sigla":"SP","nome":"São Paulo","regiao":{"id":3,"sigla":"SE","nome":"Sudeste"}},{"id":41,"sigla":"PR","nome":"Paraná","regiao":{"id":4,"sigla":"S","nome":"Sul"}},{"id":42,"sigla":"SC","nome":"Santa Catarina","regiao":{"id":4,"sigla":"S","nome":"Sul"}},{"id":43,"sigla":"RS","nome":"Rio Grande do Sul","regiao":{"id":4,"sigla":"S","nome":"Sul"}},{"id":50,"sigla":"MS","nome":"Mato Grosso do Sul","regiao":{"id":5,"sigla":"CO","nome":"Centro-Oeste"}},{"id":51,"sigla":"MT","nome":"Mato Grosso","regiao":{"id":5,"sigla":"CO","nome":"Centro-Oeste"}},{"id":52,"sigla":"GO","nome":"Goiás","regiao":{"id":5,"sigla":"CO","nome":"Centro-Oeste"}},{"id":53,"sigla":"DF","nome":"Distrito Federal","regiao":{"id":5,"sigla":"CO","nome":"Centro-Oeste"}}]

In [None]:
dfestados = pd.DataFrame(estadoslista)
dfestados

Unnamed: 0,id,sigla,nome,regiao
0,11,RO,Rondônia,"{'id': 1, 'sigla..."
1,12,AC,Acre,"{'id': 1, 'sigla..."
2,13,AM,Amazonas,"{'id': 1, 'sigla..."
3,14,RR,Roraima,"{'id': 1, 'sigla..."
4,15,PA,Pará,"{'id': 1, 'sigla..."
5,16,AP,Amapá,"{'id': 1, 'sigla..."
6,17,TO,Tocantins,"{'id': 1, 'sigla..."
7,21,MA,Maranhão,"{'id': 2, 'sigla..."
8,22,PI,Piauí,"{'id': 2, 'sigla..."
9,23,CE,Ceará,"{'id': 2, 'sigla..."


In [None]:
dfestados = pd.DataFrame(estadoslista, columns=['sigla', 'nome'])
dfestados 

Unnamed: 0,sigla,nome
0,RO,Rondônia
1,AC,Acre
2,AM,Amazonas
3,RR,Roraima
4,PA,Pará
5,AP,Amapá
6,TO,Tocantins
7,MA,Maranhão
8,PI,Piauí
9,CE,Ceará


### Criando dataframe a partir de um dicionário de tuplas 
Pode-se criar automaticamente um dataframe Multindexado passando um dicionário de tuplas.

In [None]:
import pandas as pd
df = pd.DataFrame({
        ('1BIM', 'JAN'): {
                    ('SE', 'São Paulo'): 45645, 
                    ('SE', 'Rio de Janeiro'): 4564, 
                    ('CO', 'Goiás'): 4564, 
                    ('CO', 'Mato Grosso'): 4564,        
                    },
        ('1BIM', 'FEV'): {
                    ('SE', 'São Paulo'): 45645, 
                    ('SE', 'Rio de Janeiro'): 4564, 
                    ('CO', 'Goiás'): 456456, 
                    ('CO', 'Mato Grosso'): 45645,       
                    },
        ('2BIM', 'MAR'): {
                    ('SE', 'São Paulo'): 4564, 
                    ('SE', 'Rio de Janeiro'): 456, 
                    ('CO', 'Goiás'): 45645, 
                    ('CO', 'Mato Grosso'): 3345,       
                    },
        ('2BIM', 'ABR'): {
                    ('SE', 'São Paulo'): 123132, 
                    ('SE', 'Rio de Janeiro'): 123123, 
                    ('CO', 'Goiás'): 12312, 
                    ('CO', 'Mato Grosso'): 1123,       
                    },
        })
print (df.index )
print (df.columns)
df 

MultiIndex([('SE', ...),
            ('SE', ...),
            ('CO', ...),
            ('CO', ...)],
           )
MultiIndex([('1BIM', 'JAN'),
            ('1BIM', 'FEV'),
            ('2BIM', 'MAR'),
            ('2BIM', 'ABR')],
           )


Unnamed: 0_level_0,Unnamed: 1_level_0,1BIM,1BIM,2BIM,2BIM
Unnamed: 0_level_1,Unnamed: 1_level_1,JAN,FEV,MAR,ABR
SE,São Paulo,45645,45645,4564,123132
SE,Rio de Janeiro,4564,4564,456,123123
CO,Goiás,4564,456456,45645,12312
CO,Mato Grosso,4564,45645,3345,1123


In [None]:
df['1BIM']

Unnamed: 0,Unnamed: 1,JAN,FEV
SE,São Paulo,45645,45645
SE,Rio de Janeiro,4564,4564
CO,Goiás,4564,456456
CO,Mato Grosso,4564,45645


In [None]:
df['1BIM']['JAN']

SE  São Paulo         45645
    Rio de Janeiro     4564
CO  Goiás              4564
    Mato Grosso        4564
Name: JAN, dtype: int64

In [None]:
df['1BIM']['JAN']['SE']

São Paulo         45645
Rio de Janeiro     4564
Name: JAN, dtype: int64

In [None]:
df['1BIM']['JAN']['SE']['São Paulo']

45645

### Criando Dataframe a partir uma série
- O resultado será um DataFrame com o mesmo índice da série de entrada e com uma coluna cujo nome é o nome original da série (somente se nenhum outro nome de coluna for fornecido).

In [None]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

dict1 =  { x : y for x, y in zip(index,data)}
print(dict1)

s = pd.Series(dict1)


s.name = 'coluna 01'
print(s)

{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j', 10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o', 15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't', 20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y', 25: 'z'}
0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
Name: coluna 01, dtype: object


In [None]:
import pandas as pd
df = pd.DataFrame(s)

print (df.index )
print (df.columns)
df 

Int64Index([ 0,  1,  2,  3,
             4,  5,  6,  7,
             8,  9, 10, 11,
            12, 13, 14, 15,
            16, 17, 18, 19,
            20, 21, 22, 23,
            24, 25],
           dtype='int64')
Index(['coluna 01'], dtype='object')


Unnamed: 0,coluna 01
0,a
1,b
2,c
3,d
4,e
5,f
6,g
7,h
8,i
9,j


## Criando a partir de dicionários usando DataFrame.from_dict

DataFrame.from_dict utiliza um dict de dicts ou um dict de sequências do tipo array e retorna um DataFrame.

In [None]:
df =  pd.DataFrame.from_dict(dict([('A', [1, 2, 3]), ('B', [4, 5, 6])]))
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Se você passar orient='index', as chaves serão os rótulos das linhas. Nesse caso, você também pode passar os nomes das colunas desejadas:

In [None]:
df = pd.DataFrame.from_dict(dict([('A', [1, 2, 3]), ('B', [4, 5, 6])]),
                    orient='index', columns=['primeiro', 'segundo', 'terceiro'])
df

Unnamed: 0,primeiro,segundo,terceiro
A,1,2,3
B,4,5,6


In [None]:
df['quatro'] = df['primeiro'] * df['segundo']

In [None]:
df['flag'] = df['primeiro'] > 2

In [None]:
df

Unnamed: 0,primeiro,segundo,terceiro,quatro,flag
A,1,2,3,2,False
B,4,5,6,20,True


As colunas podem ser excluídas ou pop-pop como com um dicionario:

In [None]:
del df['segundo']
df

Unnamed: 0,primeiro,terceiro,quatro,flag
A,1,3,2,False
B,4,6,20,True


In [None]:
col1 = df.pop('primeiro')
df

Unnamed: 0,terceiro,quatro,flag
A,3,2,False
B,6,20,True


In [None]:
col1

A    1
B    4
Name: primeiro, dtype: int64

Ao inserir um valor escalar, ele será naturalmente propagado para preencher a coluna:

In [None]:
df['quatro'] = 4
df

Unnamed: 0,terceiro,quatro,flag
A,3,4,False
B,6,4,True


Ao inserir uma Série que não possui o mesmo índice do DataFrame, ela será conformada ao índice do DataFrame:

In [None]:
df['terceiro']['B']

6

In [None]:
df['quinta'] = pd.Series([3,4] ,index=['B','C'])
df

Unnamed: 0,terceiro,quatro,flag,quinta
A,10,4,False,
B,6,4,True,3.0


Você pode inserir ndarrays brutos, mas seu comprimento deve corresponder ao comprimento do índice do DataFrame.

In [None]:
import numpy as np
df['arr'] = np.array([5,6])
df

Unnamed: 0,terceiro,quatro,flag,quinta,arr
A,10,4,False,,5
B,6,4,True,3.0,6


In [None]:
df.at['A', 'quatro'] = 8
df

In [None]:
df.at['A', 'quatro'] = 8
df

Unnamed: 0,terceiro,copia1,quatro,flag,quinta,arr
A,10,10,8,False,,5
B,6,6,4,True,3.0,6


Por padrão, as colunas são inseridas no final. A insertfunção está disponível para inserir em um local específico nas colunas:

In [None]:
df.insert(1, 'copia1', df['terceiro'])
df

Unnamed: 0,terceiro,copia1,quatro,flag,quinta,arr
A,10,10,4,False,,5
B,6,6,4,True,3.0,6


Atribuindo novas colunas em cadeias de métodos 
Inspirado no mutate verbo de dplyr, DataFrame tem um método assign()  que permite criar facilmente novas colunas que são potencialmente derivadas de colunas existentes.

In [None]:
estados = pd.read_csv('totaisestados_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
estados.head()

Unnamed: 0,UF,CASOS,OBITOS
0,DF,221526,3845
1,GO,269857,6107
2,MS,89654,1699
3,MT,152968,4009
4,AL,92951,2304


In [None]:
estados['taxaletalidade'] = estados['OBITOS'] / estados['CASOS']  * 100
estados

Unnamed: 0,UF,CASOS,OBITOS,taxaletalidade
0,DF,221526,3845,1.735688
1,GO,269857,6107,2.26305
2,MS,89654,1699,1.895063
3,MT,152968,4009,2.62081
4,AL,92951,2304,2.478725
5,BA,377445,8013,2.122958
6,CE,288122,9461,3.283678
7,MA,190321,4203,2.208374
8,PB,140355,3223,2.29632
9,PE,172716,8873,5.137335


In [None]:
estados = estados.assign(taxaletalidade= estados['OBITOS'] / estados['CASOS']*100)
estados.head()

Unnamed: 0,UF,CASOS,OBITOS,taxaletalidade
0,DF,221526,3845,1.735688
1,GO,269857,6107,2.26305
2,MS,89654,1699,1.895063
3,MT,152968,4009,2.62081
4,AL,92951,2304,2.478725


No exemplo acima, inserimos um valor pré-calculado. Também podemos passar uma função de um argumento a ser avaliado no DataFrame que está sendo atribuído.

In [None]:
estados =  estados.assign(
    taxaletalidade=lambda x: (x['OBITOS'] / x['CASOS']*100),
    obtitosmil = lambda x : x['OBITOS']/1000,
    casosmil =  lambda x : x['CASOS']/1000,
    )

estados.head()

Unnamed: 0,UF,CASOS,OBITOS,taxaletalidade,obtitosmil,casosmil
0,DF,221526,3845,1.735688,3.845,221.526
1,GO,269857,6107,2.26305,6.107,269.857
2,MS,89654,1699,1.895063,1.699,89.654
3,MT,152968,4009,2.62081,4.009,152.968
4,AL,92951,2304,2.478725,2.304,92.951


## Indexação / seleção 
Os princípios básicos da indexação são os seguintes:

- Selecione a coluna: df[col]
- Selecione linha por etiqueta: df.loc[label]
- Selecione linha por localização de inteiro: df.iloc[loc]
- Fatia de linhas: df[5:10]
- Selecione as linhas por vetor booleano: df[bool_vec]

In [None]:
df = pd.read_csv('totaisestados_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
df.head()

Unnamed: 0,UF,CASOS,OBITOS
0,DF,221526,3845
1,GO,269857,6107
2,MS,89654,1699
3,MT,152968,4009
4,AL,92951,2304


## seleção de linha

In [None]:
df.loc[1]

UF            GO
CASOS     269857
OBITOS      6107
Name: 1, dtype: object

In [None]:
df.iloc[2]

UF           MS
CASOS     89654
OBITOS     1699
Name: 2, dtype: object

In [None]:
df[5:9]

Unnamed: 0,UF,CASOS,OBITOS
5,BA,377445,8013
6,CE,288122,9461
7,MA,190321,4203
8,PB,140355,3223


In [None]:
filtro  = df['CASOS'] > 200000
filtro
df[filtro] 


Unnamed: 0,UF,CASOS,OBITOS
0,DF,221526,3845
1,GO,269857,6107
5,BA,377445,8013
6,CE,288122,9461
16,PA,263155,6844
21,MG,387751,9605
22,RJ,332396,21698
23,SP,1184496,40927
24,PR,246169,5793
25,RS,287204,6356


In [None]:
df[ df['CASOS'] > 200000]

Unnamed: 0,UF,CASOS,OBITOS
0,DF,221526,3845
1,GO,269857,6107
5,BA,377445,8013
6,CE,288122,9461
16,PA,263155,6844
21,MG,387751,9605
22,RJ,332396,21698
23,SP,1184496,40927
24,PR,246169,5793
25,RS,287204,6356


In [None]:
df['CASOS'][df['CASOS'] > 300000]

5      377445
21     387751
22     332396
23    1184496
26     306788
Name: CASOS, dtype: int64

In [None]:
df[ df['CASOS'] > 200000] ['CASOS']

0      221526
1      269857
5      377445
6      288122
16     263155
21     387751
22     332396
23    1184496
24     246169
25     287204
26     306788
Name: CASOS, dtype: int64

In [None]:
df.columns

Index(['UF', 'CASOS', 'OBITOS'], dtype='object')

In [None]:
df2 =  df[['UF', 'OBITOS', 'CASOS']]
df2

Unnamed: 0,UF,OBITOS,CASOS
0,DF,3845,221526
1,GO,6107,269857
2,MS,1699,89654
3,MT,4009,152968
4,AL,2304,92951
5,BA,8013,377445
6,CE,9461,288122
7,MA,4203,190321
8,PB,3223,140355
9,PE,8873,172716


In [None]:
df3 = df.sort_values(by='CASOS', ascending=False)
df3.reset_index(inplace=True, drop=True)

In [None]:
df3

Unnamed: 0,UF,CASOS,OBITOS
0,SP,1184496,40927
1,MG,387751,9605
2,BA,377445,8013
3,RJ,332396,21698
4,SC,306788,3384
5,CE,288122,9461
6,RS,287204,6356
7,GO,269857,6107
8,PA,263155,6844
9,PR,246169,5793


## Alinhamento de dados e aritmética 
O alinhamento de dados entre objetos DataFrame é alinhado automaticamente nas colunas e no índice (rótulos de linha) . Novamente, o objeto resultante terá a união dos rótulos de coluna e linha.

In [None]:
dados = {'percentualcomissao' : pd.Series([.05, .05, .5], index=['João','Alexandre','Willian']),
          'vendas' : pd.Series([100, 200, 300], index=['Willian','João','Alexandre']) }
dfcomissoes_janeiro = pd.DataFrame(dados)
dfcomissoes_janeiro

Unnamed: 0,percentualcomissao,vendas
Alexandre,0.05,300
João,0.05,200
Willian,0.5,100


In [None]:
dados = {'percentualcomissao' : pd.Series([.05, .05, .5], index=['João','Alexandre','Willian']),
          'vendas' : pd.Series([300, 400, 100], index=['Willian','João','Alexandre']) }
dfcomissoes_fevereiro = pd.DataFrame(dados)
dfcomissoes_fevereiro

Unnamed: 0,percentualcomissao,vendas
Alexandre,0.05,100
João,0.05,400
Willian,0.5,300


In [None]:
dfcomissoes_fevereiro + dfcomissoes_janeiro

Unnamed: 0,percentualcomissao,vendas
Alexandre,0.1,400
João,0.1,600
Willian,1.0,400


In [None]:
import numpy as np

df = pd.DataFrame(np.random.randn(10, 4), columns=['A', 'B', 'C', 'D'])

df2 = pd.DataFrame(np.random.randn(7, 3), columns=['A', 'B', 'C'])

df + df2

Unnamed: 0,A,B,C,D
0,0.368771,0.474327,2.092394,
1,0.318402,-0.761955,-0.283829,
2,1.265431,0.632527,-1.116881,
3,-1.462294,1.160344,-1.810941,
4,1.507142,-1.799388,-0.018257,
5,-1.115003,-0.057731,-0.872458,
6,-1.223292,1.553935,4.227538,
7,,,,
8,,,,
9,,,,


Ao fazer uma operação entre DataFrame e Series, o comportamento padrão é alinhar o índice Series nas colunas DataFrame , transmitindo assim por linha.

In [None]:
df = pd.read_csv('totaisestados_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
df = df[['CASOS','OBITOS'] ]
df.head()

Unnamed: 0,CASOS,OBITOS
0,221526,3845
1,269857,6107
2,89654,1699
3,152968,4009
4,92951,2304


In [None]:
media = df.mean()

In [None]:
df.iloc[0]

CASOS     221526
OBITOS      3845
Name: 0, dtype: int64

In [None]:
(df - media).head()

Unnamed: 0,CASOS,OBITOS
0,1309.37037,-2357.037037
1,49640.37037,-95.037037
2,-130562.62963,-4503.037037
3,-67248.62963,-2193.037037
4,-127265.62963,-3898.037037


In [None]:
df.sub(df['CASOS'], axis=0)

Unnamed: 0,CASOS,OBITOS
0,0,-217681
1,0,-263750
2,0,-87955
3,0,-148959
4,0,-90647
5,0,-369432
6,0,-278661
7,0,-186118
8,0,-137132
9,0,-163843


## operações com escalares

In [None]:
(df / 1000).head()

Unnamed: 0,CASOS,OBITOS
0,221.526,3.845
1,269.857,6.107
2,89.654,1.699
3,152.968,4.009
4,92.951,2.304


In [None]:
(df ** 2).head()

Unnamed: 0,CASOS,OBITOS
0,49073768676,14784025
1,72822800449,37295449
2,8037839716,2886601
3,23399209024,16072081
4,8639888401,5308416


Os operadores booleanos também funcionam:

In [None]:
df1 = pd.DataFrame({'a': [1, 0, 1], 'b': [0, 1, 1]}, dtype=bool)
df1.head()

Unnamed: 0,a,b
0,True,False
1,False,True
2,True,True


In [None]:
df2 = pd.DataFrame({'a': [0, 1, 1], 'b': [1, 1, 0]}, dtype=bool)
df2.head()

Unnamed: 0,a,b
0,False,True
1,True,True
2,True,False


In [None]:
df1 & df2

Unnamed: 0,a,b
0,False,False
1,False,True
2,True,False


In [None]:
df1 | df2

Unnamed: 0,a,b
0,True,True
1,True,True
2,True,True


In [None]:
df1

Unnamed: 0,a,b
0,True,False
1,False,True
2,True,True


In [None]:
-df1

Unnamed: 0,a,b
0,False,True
1,True,False
2,False,False


## Transpondo  o Dataframe
Para transpor, acesse o atributo T ou a função transpose

In [None]:
df = pd.read_csv('totaisestados_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
df.head()

Unnamed: 0,UF,CASOS,OBITOS
0,DF,221526,3845
1,GO,269857,6107
2,MS,89654,1699
3,MT,152968,4009
4,AL,92951,2304


In [None]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26
UF,DF,GO,MS,MT,AL,BA,CE,MA,PB,PE,PI,RN,SE,AC,AM,AP,PA,RO,RR,TO,ES,MG,RJ,SP,PR,RS,SC
CASOS,221526,269857,89654,152968,92951,377445,288122,190321,140355,172716,120913,84381,86361,33725,171161,55652,263155,76019,61001,78618,174144,387751,332396,1184496,246169,287204,306788
OBITOS,3845,6107,1699,4009,2304,8013,9461,4203,3223,8873,2554,2649,2266,709,4728,783,6844,1511,709,1144,4058,9605,21698,40927,5793,6356,3384


In [None]:
df.index =  df['UF']
df =  df[['CASOS', 'OBITOS']]
df.T

UF,DF,GO,MS,MT,AL,BA,CE,MA,PB,PE,PI,RN,SE,AC,AM,AP,PA,RO,RR,TO,ES,MG,RJ,SP,PR,RS,SC
CASOS,221526,269857,89654,152968,92951,377445,288122,190321,140355,172716,120913,84381,86361,33725,171161,55652,263155,76019,61001,78618,174144,387751,332396,1184496,246169,287204,306788
OBITOS,3845,6107,1699,4009,2304,8013,9461,4203,3223,8873,2554,2649,2266,709,4728,783,6844,1511,709,1144,4058,9605,21698,40927,5793,6356,3384


In [None]:
df.T.T

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
DF,221526,3845
GO,269857,6107
MS,89654,1699
MT,152968,4009
AL,92951,2304
BA,377445,8013
CE,288122,9461
MA,190321,4203
PB,140355,3223
PE,172716,8873


## Interoperabilidade de DataFrame com funções NumPy 
Ufuncs NumPy (log, exp, sqrt, ...) e várias outras funções NumPy podem ser usados sem problemas em Series e DataFrame, assumindo que os dados são numéricos

In [None]:
df[:]

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
DF,221526,3845
GO,269857,6107
MS,89654,1699
MT,152968,4009
AL,92951,2304
BA,377445,8013
CE,288122,9461
MA,190321,4203
PB,140355,3223
PE,172716,8873


In [None]:
np.sum(df[['CASOS','OBITOS']])

CASOS     5945849
OBITOS     167455
dtype: int64

In [None]:
np.cumsum(df[['CASOS','OBITOS']]).tail()

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
RJ,3921192,110995
SP,5105688,151922
PR,5351857,157715
RS,5639061,164071
SC,5945849,167455


In [None]:
np.asarray(df)

array([[ 221526,    3845],
       [ 269857,    6107],
       [  89654,    1699],
       [ 152968,    4009],
       [  92951,    2304],
       [ 377445,    8013],
       [ 288122,    9461],
       [ 190321,    4203],
       [ 140355,    3223],
       [ 172716,    8873],
       [ 120913,    2554],
       [  84381,    2649],
       [  86361,    2266],
       [  33725,     709],
       [ 171161,    4728],
       [  55652,     783],
       [ 263155,    6844],
       [  76019,    1511],
       [  61001,     709],
       [  78618,    1144],
       [ 174144,    4058],
       [ 387751,    9605],
       [ 332396,   21698],
       [1184496,   40927],
       [ 246169,    5793],
       [ 287204,    6356],
       [ 306788,    3384]])

Em alguns casos o pandas irá alinhar automaticamente as entradas rotuladas como parte de um ufunc com várias entradas.

In [None]:
ser1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser2 = pd.Series([1, 3, 5], index=['b', 'a', 'c'])
np.remainder(ser1, ser2)

a    1
b    0
c    3
dtype: int64

In [None]:
ser3 = pd.Series([2, 4, 6], index=['b', 'c', 'd'])
np.remainder(ser1, ser3)

a    NaN
b    0.0
c    3.0
d    NaN
dtype: float64

## Lidando com DataFraes muito grandes 
DataFrames muito grandes serão truncados para exibi-los no console. 
Pode obter um resumo usando info().

In [None]:
df = pd.read_csv('totaisregioes_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
df

Unnamed: 0,UF,CASOS,OBITOS
0,Centro-Oeste,734005,15660
1,Nordeste,1553565,43546
2,Norte,739331,16428
3,Sudeste,2078787,76288
4,Sul,840161,15533


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   UF      5 non-null      object
 1   CASOS   5 non-null      int64 
 2   OBITOS  5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


## usando  to_string 
- retornará uma representação de string do DataFrame em formato tabular

In [None]:
print(df.T.to_string())

                   0         1       2        3       4
UF      Centro-Oeste  Nordeste   Norte  Sudeste     Sul
CASOS         734005   1553565  739331  2078787  840161
OBITOS         15660     43546   16428    76288   15533


### Alterar o quanto imprimir em uma única linha, definindo a display.width opção:

In [None]:
pd.set_option('display.width', 4)


In [None]:
print(df.T.to_string())

                   0         1       2        3       4
UF      Centro-Oeste  Nordeste   Norte  Sudeste     Sul
CASOS         734005   1553565  739331  2078787  840161
OBITOS         15660     43546   16428    76288   15533


In [None]:
pd.set_option('display.max_colwidth', 20)

In [None]:

print(df.T.to_string())

                   0         1       2        3       4
UF      Centro-Oeste  Nordeste   Norte  Sudeste     Sul
CASOS         734005   1553565  739331  2078787  840161
OBITOS         15660     43546   16428    76288   15533


## Funcionalidades básicas

#### Cabeça e cauda 

In [None]:
df = pd.read_csv('totaisregioes_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])

In [None]:
df.head(2)

Unnamed: 0,UF,CASOS,OBITOS
0,Centro-Oeste,734005,15660
1,Nordeste,1553565,43546


In [None]:
df.tail(3)

Unnamed: 0,UF,CASOS,OBITOS
2,Norte,739331,16428
3,Sudeste,2078787,76288
4,Sul,840161,15533


In [None]:
df[2:4]

Unnamed: 0,UF,CASOS,OBITOS
2,Norte,739331,16428
3,Sudeste,2078787,76288


### Nome de colunas

In [None]:
df.columns

Index(['UF',
       'CASOS',
       'OBITOS'],
      dtype='object')

In [None]:
df.columns = [x.lower() for x in df.columns]
df.columns

Index(['uf',
       'casos',
       'obitos'],
      dtype='object')

In [None]:
df

Unnamed: 0,uf,casos,obitos
0,Centro-Oeste,734005,15660
1,Nordeste,1553565,43546
2,Norte,739331,16428
3,Sudeste,2078787,76288
4,Sul,840161,15533


In [None]:
df.columns =  ['ESTADO',  'QUANTIDADE DE CASOS', 'QUANTIDADE DE OBITOS']
df

Unnamed: 0,ESTADO,QUANTIDADE DE CASOS,QUANTIDADE DE OBITOS
0,Centro-Oeste,734005,15660
1,Nordeste,1553565,43546
2,Norte,739331,16428
3,Sudeste,2078787,76288
4,Sul,840161,15533


In [None]:
df.ESTADO

0    Centro-Oeste
1        Nordeste
2           Norte
3         Sudeste
4             Sul
Name: ESTADO, dtype: object

In [None]:
df['QUANTIDADE DE CASOS']

0     734005
1    1553565
2     739331
3    2078787
4     840161
Name: QUANTIDADE DE CASOS, dtype: int64

### Obtendo um array NumPy
- usar to_numpy() ou numpy.asarray().

In [None]:
df.to_numpy()

array([['Centro-Oeste', 734005, 15660],
       ['Nordeste', 1553565, 43546],
       ['Norte', 739331, 16428],
       ['Sudeste', 2078787, 76288],
       ['Sul', 840161, 15533]], dtype=object)

In [None]:
np.asarray(df)

array([['Centro-Oeste', 734005, 15660],
       ['Nordeste', 1553565, 43546],
       ['Norte', 739331, 16428],
       ['Sudeste', 2078787, 76288],
       ['Sul', 840161, 15533]], dtype=object)

### Dados ausentes nos cálculos.

O DataFrame tem os métodos add(), sub(), mul(), div()

In [None]:
df = pd.DataFrame({
'primeiro': pd.Series(np.random.randint(1,10,3), index=['a', 'b', 'c']),
'segundo': pd.Series(np.random.randint(1,10,4), index=['a', 'b', 'c', 'd']),
'col1': pd.Series(np.random.randint(1,10,3), index=['b', 'c', 'd'])})
df

Unnamed: 0,primeiro,segundo,col1
a,7.0,3,
b,1.0,1,7.0
c,3.0,8,3.0
d,,4,2.0


In [None]:
row = df.iloc[1]
row

primeiro    1.0
segundo     1.0
col1        7.0
Name: b, dtype: float64

In [None]:
column = df['segundo']
column

a    3
b    1
c    8
d    4
Name: segundo, dtype: int64

In [None]:
df.sub(row, axis=1)

Unnamed: 0,primeiro,segundo,col1
a,6.0,2.0,
b,0.0,0.0,0.0
c,2.0,7.0,-4.0
d,,3.0,-5.0


In [None]:
df.sub(column, axis='index')

Unnamed: 0,primeiro,segundo,col1
a,4.0,0,
b,0.0,0,6.0
c,-5.0,0,-5.0
d,,0,-2.0


In [None]:
df.sub(column, axis=0)

Unnamed: 0,primeiro,segundo,col1
a,4.0,0,
b,0.0,0,6.0
c,-5.0,0,-5.0
d,,0,-2.0


In [None]:
df

In [None]:
div, rem = divmod(df['primeiro'], 3)

In [None]:
div

a    2.0
b    0.0
c    1.0
d    NaN
Name: primeiro, dtype: float64

In [None]:
rem

### Operações com dados ausentes com valores de preenchimento 
Em Series e DataFrame, as funções aritméticas têm a opção de inserir um fill_value
Pode substituir posteriormente NaN por algum outro valor usando, fillna se desejar.

In [None]:
df1 = pd.DataFrame({
'primeiro': pd.Series(np.random.randint(1,10,3), index=['a', 'b', 'c'])})
df1

Unnamed: 0,primeiro
a,1
b,5
c,2


In [None]:
df2 = pd.DataFrame({
    'primeiro': pd.Series(np.random.randint(1,10,4), index=['a', 'b', 'c', 'd'])})
df2

Unnamed: 0,primeiro
a,8
b,7
c,6
d,3


In [None]:
df1 + df2

Unnamed: 0,primeiro
a,9.0
b,12.0
c,8.0
d,


In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,primeiro
a,9.0
b,12.0
c,8.0
d,3.0


### Comparações flexíveis 
Série e DataFrame tem os métodos de comparação de binário eq, ne, lt, gt, le, e ge cujo comportamento é análogo ao das operações aritméticas binárias.

Essas operações produzem um objeto pandas do mesmo tipo que a entrada do lado esquerdo que é do tipo d bool. Esses booleanobjetos podem ser usados ​​em operações de indexação

In [None]:
df1.gt(df2)

Unnamed: 0,primeiro
a,False
b,False
c,False
d,False


In [None]:
df2.ne(df1)

Unnamed: 0,primeiro
a,True
b,True
c,True
d,True


## Reduções booleanas 
#### Você pode aplicar as reduções: empty, any(), all(), e bool() para fornecer uma maneira de resumir um resultado boolean.

In [None]:
df > 0

Unnamed: 0,primeiro,segundo,col1
a,True,True,False
b,True,True,True
c,True,True,True
d,False,True,True


In [None]:
(df > 0).all()

primeiro    False
segundo      True
col1        False
dtype: bool

In [None]:
(df['primeiro'] > 0).all()

False

In [None]:
(df > 0).any()

primeiro    True
segundo     True
col1        True
dtype: bool

#### Você pode reduzir a um valor booleano final.

In [None]:
(df > 0).all().any()

True

#### Você pode testar se um objeto pandas está vazio, por meio da emptypropriedade.

In [None]:
df.empty

False

In [None]:
df = pd.DataFrame(columns=list('ABC'))
if df.empty:
  print('Data frame vazio')
else:
  df.head()

Data frame vazio


In [None]:
df = pd.DataFrame({ 'a' : [1,2,3], 'b':[3,4,5]})
if df.empty:
  print('Data frame vazio')
else:
  print(df.head())

   a  b
0  1  3
1  2  4
2  3  5


## Comparando se os objetos são equivalentes 

In [None]:
df

Unnamed: 0,a,b
0,1,3
1,2,4
2,3,5


In [None]:
df + df == df * 2

Unnamed: 0,a,b
0,True,True
1,True,True
2,True,True


In [None]:
(df + df == df * 2).all()

a    True
b    True
dtype: bool

#### Series e DataFrames têm um equals()método para testar a igualdade, com NaNs em locais correspondentes tratados como iguais.

In [None]:
(df + df).equals(df * 2)

### Comparando objetos semelhantes a array 
Você pode realizar comparações de elementos de forma conveniente ao comparar uma estrutura de dados do pandas com um valor escalar

In [None]:
import pandas as pd
pd.Series(['01', '02', '03']) == '01'

0     True
1    False
2    False
dtype: bool

In [None]:
pd.Index(['01', '02', '03']) == '04'

array([False, False, False])

pd.Index(['01', '02', '03']) == '01'

### O Pandas também lida com comparações de elementos entre diferentes objetos semelhantes a matrizes do mesmo comprimento:

In [None]:
pd.Series(['01', '02', '03']) == pd.Index(['01', '02', '04'])

0     True
1     True
2    False
dtype: bool

In [None]:
pd.Series(['01', '02', '03']) == np.array(['01', '02', '04'])

0     True
1     True
2    False
dtype: bool

## Combinando conjuntos de dados sobrepostos com combine_first():

In [None]:
df1 = pd.DataFrame({'A': [1., np.nan, 3., 5., np.nan],
                    'B': [np.nan, 2., 3., np.nan, 6.]})
df1

Unnamed: 0,A,B
0,1.0,
1,,2.0
2,3.0,3.0
3,5.0,
4,,6.0


In [None]:
df2 = pd.DataFrame({'A': [5., 2., 4., np.nan, 3., 7.],
                              'B': [np.nan, np.nan, 3., 4., 6., 8.]})
df2

Unnamed: 0,A,B
0,5.0,
1,2.0,
2,4.0,3.0
3,,4.0
4,3.0,6.0
5,7.0,8.0


In [None]:
df1.combine_first(df2)

Unnamed: 0,A,B
0,1.0,
1,2.0,2.0
2,3.0,3.0
3,5.0,4.0
4,3.0,6.0
5,7.0,8.0


### Combinação de DataFrame Generico
O DataFrame.combine() pega outro DataFrame e uma função combinadora, alinha o DataFrame de entrada e então passa os pares de função combinadora de Series (isto é, colunas cujos nomes são iguais).

In [None]:
def combiner(x, y):
    return np.where(pd.isna(x), y, x)

df1.combine(df2,func = combiner , fill_value =0)

Unnamed: 0,A,B
0,1.0,0.0
1,0.0,2.0
2,3.0,3.0
3,5.0,0.0
4,0.0,6.0
5,0.0,0.0


## Estatísticas descritivas 
Existe um grande número de métodos para calcular estatísticas descritivas como sum(), mean()e quantile(),  cumsum()e cumprod()

In [None]:
df = pd.read_csv('totaisregioes_arr.csv', sep=';',names =['UF','CASOS','OBITOS'], index_col='UF')
df

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,734005,15660
Nordeste,1553565,43546
Norte,739331,16428
Sudeste,2078787,76288
Sul,840161,15533


In [None]:
df.mean(0)

CASOS     1189169.8
OBITOS      33491.0
dtype: float64

In [None]:
df2 = df.T
df2

UF,Centro-Oeste,Nordeste,Norte,Sudeste,Sul
CASOS,734005,1553565,739331,2078787,840161
OBITOS,15660,43546,16428,76288,15533


In [None]:
df2.mean(1)

CASOS     1189169.8
OBITOS      33491.0
dtype: float64

Todos esses métodos têm uma skipna opção sinalizando se deve excluir dados ausentes ( True por padrão):

In [None]:
df.sum(0, skipna=False)

CASOS     5945849
OBITOS     167455
dtype: int64

In [None]:
df.sum(axis=0, skipna=True)

CASOS     5945849
OBITOS     167455
dtype: int64

## Combinado com o comportamento aritmético / de transmissão

In [None]:
desvio = (df - df.mean()) 
desvio

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,-455164.8,-17831.0
Nordeste,364395.2,10055.0
Norte,-449838.8,-17063.0
Sudeste,889617.2,42797.0
Sul,-349008.8,-17958.0


In [None]:
df.cumsum()

Unnamed: 0_level_0,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,734005,15660
Nordeste,2287570,59206
Norte,3026901,75634
Sudeste,5105688,151922
Sul,5945849,167455


### Função Comuns

- count: Número de observações não NA
- sum : Soma de valores
- mean : Média dos valores
- mad: Desvio médio absoluto
- median: Mediana aritmética de valores
- min: Mínimo
- max: Máximo
- mode: Modo
- abs: Valor absoluto
- prod ;Produto de valores
- std: Desvio padrão da amostra corrigido por Bessel
- var: Variância imparcial
- sem: Erro padrão da média
- skew: Amostra de assimetria (3º momento)
- kurt: Curtose de amostra (4º momento)
- quantile: Quantil de amostra (valor em%)
- cumsum: Soma cumulativa
- cumprod: Produto cumulativo
- cummax: Máximo cumulativo
- cummin: Mínimo cumulativo

### Series.nunique() 
retornará o número de valores não NA exclusivos em uma série:

In [None]:
series = pd.Series(np.random.randint(100,150,10))
print(series)
series.unique()
print(series.nunique())

0    141
1    126
2    107
3    139
4    103
5    128
6    149
7    121
8    122
9    123
dtype: int64
10


## Resumindo os dados com :describe() 
Describe() função conveniente que calcula uma variedade de estatísticas resumidas sobre uma série ou colunas de um DataFrame (excluindo NAs):

In [None]:
series = pd.Series(np.random.randn(10))
series[::2]

0    2.309337
2    0.801579
4   -1.416337
6   -2.255608
8    0.601708
dtype: float64

In [None]:
series[::2] = np.nan
series

0         NaN
1    1.202894
2         NaN
3    0.720500
4         NaN
5   -0.282745
6         NaN
7    0.661782
8         NaN
9   -1.577292
dtype: float64

In [None]:
series.describe()

count    5.000000
mean     0.145028
std      1.103025
min     -1.577292
25%     -0.282745
50%      0.661782
75%      0.720500
max      1.202894
dtype: float64

In [None]:
df = pd.DataFrame(np.random.randn(10, 5), columns=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,a,b,c,d,e
0,-0.418457,0.601517,1.313904,-0.670203,-1.50493
1,-0.359676,0.67235,-0.816637,0.52072,1.324948
2,0.245987,0.062451,-0.250562,0.441589,0.246606
3,-2.606032,1.011472,1.867808,-0.956715,-0.937939
4,0.29411,1.020628,3.554236,-0.577629,-0.17473
5,-0.473589,-0.472543,0.205101,0.097901,-1.136324
6,1.665513,1.568989,0.63168,-1.188402,-0.542693
7,0.480341,-1.015704,0.428564,-1.171341,0.07374
8,1.021459,-1.976911,1.641225,-0.023195,0.174332
9,0.70765,1.953732,1.8815,-1.048677,-0.693292


In [None]:
df.iloc[::2] = np.nan
df

Unnamed: 0,a,b,c,d,e
0,,,,,
1,-0.359676,0.67235,-0.816637,0.52072,1.324948
2,,,,,
3,-2.606032,1.011472,1.867808,-0.956715,-0.937939
4,,,,,
5,-0.473589,-0.472543,0.205101,0.097901,-1.136324
6,,,,,
7,0.480341,-1.015704,0.428564,-1.171341,0.07374
8,,,,,
9,0.70765,1.953732,1.8815,-1.048677,-0.693292


In [None]:
df.describe()

Unnamed: 0,a,b,c,d,e
count,5.0,5.0,5.0,5.0,5.0
mean,-0.450261,0.429862,0.713267,-0.511622,-0.273773
std,1.309855,1.185669,1.159486,0.767954,1.004711
min,-2.606032,-1.015704,-0.816637,-1.171341,-1.136324
25%,-0.473589,-0.472543,0.205101,-1.048677,-0.937939
50%,-0.359676,0.67235,0.428564,-0.956715,-0.693292
75%,0.480341,1.011472,1.867808,0.097901,0.07374
max,0.70765,1.953732,1.8815,0.52072,1.324948


#### Você pode selecionar percentis específicos para incluir na saída:

In [None]:
series.describe(percentiles=[.05, .25, .75, .95])

count    5.000000
mean     0.145028
std      1.103025
min     -1.577292
5%      -1.318383
25%     -0.282745
50%      0.661782
75%      0.720500
95%      1.106416
max      1.202894
dtype: float64

Para um objeto Series não numérico, describe()fornecerá um resumo simples do número de valores exclusivos e valores de ocorrência mais frequente:

In [None]:
s = pd.Series(['a', 'a', 'b', 'b', 'a', 'a', np.nan, 'c', 'd', 'a'])
s.describe()

count     9
unique    4
top       a
freq      5
dtype: object

Em DataFrame de tipo misto,o describe() restringirá o resumo para incluir apenas colunas numéricas ou, se nenhuma for, apenas colunas categóricas:

In [None]:
df = pd.DataFrame({'a': ['joão', 'jose', 'joaquim', 'maria'], 'b': range(4)})
df.describe()

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


### Este comportamento pode ser controlado fornecendo uma lista de tipos como include/ exclude argumentos. O valor especial alltambém pode ser usado:

In [None]:
df.describe(include=['object'])

Unnamed: 0,a
count,4
unique,4
top,jose
freq,1


In [None]:
df.describe(include=['number'])

Unnamed: 0,b
count,4.0
mean,1.5
std,1.290994
min,0.0
25%,0.75
50%,1.5
75%,2.25
max,3.0


In [None]:
df.describe(include='all')

Unnamed: 0,a,b
count,4,4.0
unique,4,
top,jose,
freq,1,
mean,,1.5
std,,1.290994
min,,0.0
25%,,0.75
50%,,1.5
75%,,2.25


## Agregações de dados com groupby

In [None]:
import pandas as pd
df = pd.read_csv('/content/totaisestadoscomregiao_arr.csv', sep=';',names =['REGIAO','UF','CASOS','OBITOS'])
df

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,221526,3845
1,Centro-Oeste,GO,269857,6107
2,Centro-Oeste,MS,89654,1699
3,Centro-Oeste,MT,152968,4009
4,Nordeste,AL,92951,2304
5,Nordeste,BA,377445,8013
6,Nordeste,CE,288122,9461
7,Nordeste,MA,190321,4203
8,Nordeste,PB,140355,3223
9,Nordeste,PE,172716,8873


In [None]:
df.describe()

Unnamed: 0,CASOS,OBITOS
count,27.0,27.0
mean,220216.6,6202.037037
std,218640.0,8160.224075
min,33725.0,709.0
25%,88007.5,2285.0
50%,172716.0,4009.0
75%,278530.5,6600.0
max,1184496.0,40927.0


In [None]:
df.groupby(['REGIAO']).mean()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,183501.25,3915.0
Nordeste,172618.333333,4838.444444
Norte,105618.714286,2346.857143
Sudeste,519696.75,19072.0
Sul,280053.666667,5177.666667


In [None]:
df.groupby(['REGIAO']).sum()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,734005,15660
Nordeste,1553565,43546
Norte,739331,16428
Sudeste,2078787,76288
Sul,840161,15533


In [None]:
df.groupby(['REGIAO']).max()

Unnamed: 0_level_0,UF,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,MT,269857,6107
Nordeste,SE,377445,9461
Norte,TO,263155,6844
Sudeste,SP,1184496,40927
Sul,SC,306788,6356


In [None]:
df.groupby(by=["REGIAO"]).count()

Unnamed: 0_level_0,UF,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,4,4,4
Nordeste,9,9,9
Norte,7,7,7
Sudeste,4,4,4
Sul,3,3,3


In [None]:
df.groupby(by=["REGIAO"])[['OBITOS', 'CASOS']].count()

Unnamed: 0_level_0,OBITOS,CASOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,4,4
Nordeste,9,9
Norte,7,7
Sudeste,4,4
Sul,3,3


## API de agregação  com DataFrame.aggregate(), ou o alias DataFrame.agg()
A API de agregação permite expressar, possivelmente, várias operações de agregação de uma forma única e concisa.

In [None]:
df.sum()

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                               5945849
OBITOS                                               167455
dtype: object

In [None]:
import numpy as np
df.agg(np.sum)

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                               5945849
OBITOS                                               167455
dtype: object

In [None]:
df.agg('sum')

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                               5945849
OBITOS                                               167455
dtype: object

# Equivalente ao ``.sum()`` 

In [None]:
df.sum()

REGIAO    Centro-OesteCentro-OesteCentro-OesteCentro-Oes...
UF        DFGOMSMTALBACEMAPBPEPIRNSEACAMAPPARORRTOESMGRJ...
CASOS                                               5945849
OBITOS                                               167455
dtype: object

Agregações únicas em um Series retornarão um valor escalar:

In [None]:
df['CASOS'].sum()

5945849

In [None]:
df['CASOS'].agg('sum')

5945849

### Agregando com múltiplas funções 
Pode-se passar vários argumentos de agregação como uma lista. 

Os resultados de cada uma das funções passadas formarão uma linha no resultado DataFrame. 

As colunas receberão os nomes das fuções de agregação.

In [None]:
df[['CASOS', 'OBITOS']].sum()

CASOS     5945849
OBITOS     167455
dtype: int64

In [None]:
df[['CASOS', 'OBITOS']].agg(['sum'])

Unnamed: 0,CASOS,OBITOS
sum,5945849,167455


In [None]:
df[['CASOS', 'OBITOS']].agg(['sum', 'mean', 'max', 'min', 'std'])

Unnamed: 0,CASOS,OBITOS
sum,5945849.0,167455.0
mean,220216.6,6202.037037
max,1184496.0,40927.0
min,33725.0,709.0
std,218640.0,8160.224075


Em a Series, várias funções retornam a Series, indexado pelos nomes das funções:

In [None]:
df['OBITOS'].agg(['sum', 'mean', 'max', 'min', 'std'])

sum     167455.000000
mean      6202.037037
max      40927.000000
min        709.000000
std       8160.224075
Name: OBITOS, dtype: float64

In [None]:
df['OBITOS'].agg(['sum', lambda x: x.sum()])

sum         167455
<lambda>    167455
Name: OBITOS, dtype: int64

Passar uma função nomeada produzirá esse nome para a linha:

In [None]:
def media(x):
    return x.mean()

In [None]:
df['OBITOS'].agg(['sum', media])

sum      167455.000000
media      6202.037037
Name: OBITOS, dtype: float64

### Agregando com um dict 
DataFrame.agg permite que você personalize quais funções são aplicadas a quais colunas por meio de um dicionário.

In [None]:
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,221526,3845
1,Centro-Oeste,GO,269857,6107
2,Centro-Oeste,MS,89654,1699
3,Centro-Oeste,MT,152968,4009
4,Nordeste,AL,92951,2304


In [None]:
df.agg({'OBITOS': 'mean', 'CASOS': 'sum'})

OBITOS    6.202037e+03
CASOS     5.945849e+06
dtype: float64

Passar por uma lista irá gerar uma DataFramesaída. Você obterá uma saída tipo matriz de todos os agregadores. A saída consistirá em todas as funções exclusivas. Aqueles que não são indicados para uma coluna específica serão NaN:

In [None]:
df.agg({'OBITOS': ['sum', 'mean', 'max', 'min', 'std'], 'CASOS': 'sum'})

Unnamed: 0,OBITOS,CASOS
max,40927.0,
mean,6202.037037,
min,709.0,
std,8160.224075,
sum,167455.0,5945849.0


# Tipos de dados mistos 
Quando apresentado com dtypes mistos que não podem agregar, .agg só aceitará as agregações válidas. 

In [None]:
df.dtypes

REGIAO    object
UF        object
CASOS      int64
OBITOS     int64
dtype: object

In [None]:
df[['CASOS', 'OBITOS']].agg(['min', 'sum', 'mean'])

Unnamed: 0,CASOS,OBITOS
min,33725.0,709.0
sum,5945849.0,167455.0
mean,220216.6,6202.037037


## Descrição personalizada 
Com .agg() ele é possível criar facilmente uma função personalizada.

In [None]:
df['CASOS'].quantile(q=.75)

278530.5

In [None]:
np.quantile(df['CASOS'] ,  q=.75)

278530.5

In [None]:
q_75 = partial(pd.Series.quantile, q=0.75)
q_75.__name__ = '25%'
q_75(df['CASOS'])

278530.5

In [None]:
from functools import partial
q_25 = partial(pd.Series.quantile, q=0.25)
q_25.__name__ = '25%'
q_75 = partial(pd.Series.quantile, q=0.75)
q_75.__name__ = '75%'
df.agg(['count', 'mean', 'std', 'min', q_25, 'median', q_75, 'max'])

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
count,27,27,27.0,27.0
min,Centro-Oeste,AC,33725.0,709.0
max,Sul,TO,1184496.0,40927.0
mean,,,220216.6,6202.037037
std,,,218640.0,8160.224075
25%,,,88007.5,2285.0
median,,,172716.0,4009.0
75%,,,278530.5,6600.0


In [None]:
df.groupby(by=["REGIAO"]).mean()

Unnamed: 0_level_0,CASOS,OBITOS
REGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,183501.25,3915.0
Nordeste,172618.333333,4838.444444
Norte,105618.714286,2346.857143
Sudeste,519696.75,19072.0
Sul,280053.666667,5177.666667


In [None]:
df.groupby(by=["REGIAO"]).agg(['count', 'mean', 'std', 'min', q_25, 'median', q_75, 'max'])

Unnamed: 0_level_0,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,CASOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS,OBITOS
Unnamed: 0_level_1,count,mean,std,min,25%,median,75%,max,count,mean,std,min,25%,median,75%,max
REGIAO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Centro-Oeste,4,183501.25,78830.583868,89654,137139.5,187247.0,233608.75,269857,4,3915.0,1800.856833,1699,3308.5,3927.0,4533.5,6107
Nordeste,9,172618.333333,100558.351877,84381,92951.0,140355.0,190321.0,377445,9,4838.444444,3037.065694,2266,2554.0,3223.0,8013.0,9461
Norte,7,105618.714286,82031.267727,33725,58326.5,76019.0,124889.5,263155,7,2346.857143,2444.396956,709,746.0,1144.0,3119.5,6844
Sudeste,4,519696.75,452347.947833,174144,292833.0,360073.5,586937.25,1184496,4,19072.0,16325.656556,4058,8218.25,15651.5,26505.25,40927
Sul,3,280053.666667,30935.59827,246169,266686.5,287204.0,296996.0,306788,3,5177.666667,1578.661564,3384,4588.5,5793.0,6074.5,6356


# Aplicando os conceitos aprendidos

In [None]:
import zipfile
nome_arquivo_compactado = '/content/HIST_PAINEL_COVIDBR_03dez2020.zip'
with zipfile.ZipFile( nome_arquivo_compactado, 'r') as zip_ref:
    zip_ref.extractall('/content/')

In [None]:
import pandas as pd
dfcovid = pd.read_csv('/content/HIST_PAINEL_COVIDBR_03dez2020.csv', sep=';')
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0,0,0,0,,,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1,1,0,0,,,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1,0,0,0,,,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1,0,0,0,,,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2,1,0,0,,,


In [None]:
dfcovid.columns

Index(['regiao', 'estado', 'municipio', 'coduf', 'codmun', 'codRegiaoSaude',
       'nomeRegiaoSaude', 'data', 'semanaEpi', 'populacaoTCU2019',
       'casosAcumulado', 'casosNovos', 'obitosAcumulado', 'obitosNovos',
       'Recuperadosnovos', 'emAcompanhamentoNovos', 'interior/metropolitana'],
      dtype='object')

In [None]:
colunasselecionadas = ['regiao', 'estado', 'municipio', 'coduf', 'codmun', 'codRegiaoSaude',
       'nomeRegiaoSaude', 'data', 'semanaEpi', 'populacaoTCU2019', 'casosNovos',  'obitosNovos',
      ]

In [None]:
dfcovid = dfcovid [colunasselecionadas]

In [1]:
filtro = dfcovid['estado'].isna() == False
filtro.tail()

NameError: ignored

In [None]:
dfcovid[filtro].head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
283,Norte,RO,,11,,,,2020-02-25,9,1777225.0,0,0
284,Norte,RO,,11,,,,2020-02-26,9,1777225.0,0,0
285,Norte,RO,,11,,,,2020-02-27,9,1777225.0,0,0
286,Norte,RO,,11,,,,2020-02-28,9,1777225.0,0,0
287,Norte,RO,,11,,,,2020-02-29,9,1777225.0,0,0


In [None]:
 dfcovid = dfcovid[ dfcovid['estado'].isna() == False ]

In [None]:
 dfcovid.head()


Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
283,Norte,RO,,11,,,,2020-02-25,9,1777225.0,0,0
284,Norte,RO,,11,,,,2020-02-26,9,1777225.0,0,0
285,Norte,RO,,11,,,,2020-02-27,9,1777225.0,0,0
286,Norte,RO,,11,,,,2020-02-28,9,1777225.0,0,0
287,Norte,RO,,11,,,,2020-02-29,9,1777225.0,0,0


In [None]:
dfcovid.tail()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
1416851,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-11-29,49,3015268.0,627,5
1416852,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-11-30,49,3015268.0,444,5
1416853,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-01,49,3015268.0,976,9
1416854,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-02,49,3015268.0,783,16
1416855,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,2020-12-03,49,3015268.0,521,7


In [None]:
dfcovid = dfcovid[ dfcovid['codmun'].isna() ]
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
283,Norte,RO,,11,,,,2020-02-25,9,1777225.0,0,0
284,Norte,RO,,11,,,,2020-02-26,9,1777225.0,0,0
285,Norte,RO,,11,,,,2020-02-27,9,1777225.0,0,0
286,Norte,RO,,11,,,,2020-02-28,9,1777225.0,0,0
287,Norte,RO,,11,,,,2020-02-29,9,1777225.0,0,0


In [None]:
dfcovid.tail()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
7919,Centro-Oeste,DF,,53,,,,2020-11-29,49,3015268.0,627,5
7920,Centro-Oeste,DF,,53,,,,2020-11-30,49,3015268.0,444,5
7921,Centro-Oeste,DF,,53,,,,2020-12-01,49,3015268.0,976,9
7922,Centro-Oeste,DF,,53,,,,2020-12-02,49,3015268.0,783,16
7923,Centro-Oeste,DF,,53,,,,2020-12-03,49,3015268.0,521,7


In [None]:
dfcovid.columns

Index(['regiao', 'estado', 'municipio', 'coduf', 'codmun', 'codRegiaoSaude',
       'nomeRegiaoSaude', 'data', 'semanaEpi', 'populacaoTCU2019',
       'casosNovos', 'obitosNovos'],
      dtype='object')

In [None]:
colunasselecionadas = ['regiao', 'estado',   'data', 'semanaEpi', 'populacaoTCU2019',
       'casosNovos', 'obitosNovos']
dfcovid = dfcovid[colunasselecionadas]
dfcovid.head()

Unnamed: 0,regiao,estado,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
283,Norte,RO,2020-02-25,9,1777225.0,0,0
284,Norte,RO,2020-02-26,9,1777225.0,0,0
285,Norte,RO,2020-02-27,9,1777225.0,0,0
286,Norte,RO,2020-02-28,9,1777225.0,0,0
287,Norte,RO,2020-02-29,9,1777225.0,0,0


In [None]:
dfcovid[['casosNovos',	'obitosNovos']].describe()

Unnamed: 0,casosNovos,obitosNovos
count,7641.0,7641.0
mean,848.983641,22.938097
std,1482.703202,45.403245
min,-7926.0,-75.0
25%,73.0,1.0
50%,384.0,8.0
75%,1043.0,24.0
max,30913.0,713.0


In [None]:
dfcovid[['regiao',	'estado']].describe()

Unnamed: 0,regiao,estado
count,7641,7641
unique,5,27
top,Nordeste,CE
freq,2547,283


In [None]:
dfcovid[ (dfcovid.casosNovos < 0) | (dfcovid.obitosNovos < 0)]

Unnamed: 0,regiao,estado,data,semanaEpi,populacaoTCU2019,casosNovos,obitosNovos
995,Norte,AM,2020-07-20,30,4144597.0,476,-3
1015,Norte,AM,2020-08-09,33,4144597.0,522,-5
1251,Norte,RR,2020-06-23,26,605761.0,2152,-1
1569,Norte,PA,2020-07-28,31,8602865.0,1362,-13
1570,Norte,PA,2020-07-29,31,8602865.0,1664,-22
1628,Norte,PA,2020-09-25,39,8602865.0,1240,-75
3023,Nordeste,CE,2020-09-05,36,9132078.0,-7926,10
3086,Nordeste,CE,2020-11-07,45,9132078.0,698,-2
3101,Nordeste,CE,2020-11-22,48,9132078.0,658,-2
3282,Nordeste,RN,2020-08-12,33,3506853.0,-1349,16


## Qual total de casos e óbitos do Brasil?

In [None]:
totalbrasil = dfcovid[['casosNovos','obitosNovos']].sum()

In [None]:
totalbrasil = dfcovid[['casosNovos','obitosNovos']].agg('sum')

## Qual o total por região?


In [None]:
totalregioes = dfcovid.groupby('regiao')[['casosNovos','obitosNovos']].sum()
totalregioes

Unnamed: 0_level_0,casosNovos,obitosNovos
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,777780,16275
Nordeste,1657797,44766
Norte,779816,16912
Sudeste,2257142,80062
Sul,1014549,17255


In [None]:
totalregioes = dfcovid.groupby('regiao', sort=True)[['casosNovos','obitosNovos']].agg('sum')
totalregioes

Unnamed: 0_level_0,casosNovos,obitosNovos
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Centro-Oeste,777780,16275
Nordeste,1657797,44766
Norte,779816,16912
Sudeste,2257142,80062
Sul,1014549,17255


In [None]:
totalregioes.sort_values(by= 'obitosNovos', ascending=False)

Unnamed: 0_level_0,casosNovos,obitosNovos
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1
Sudeste,2257142,80062
Nordeste,1657797,44766
Sul,1014549,17255
Norte,779816,16912
Centro-Oeste,777780,16275


Qual o total por estados

In [None]:
totalestados = dfcovid.groupby(['regiao','estado'])[['casosNovos','obitosNovos']].agg('sum')
totalestados.head(3)


Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,231426,3962
Centro-Oeste,GO,283834,6401
Centro-Oeste,MS,102236,1804


In [None]:
totalestados = dfcovid.groupby(['regiao','estado'])[['casosNovos','obitosNovos']].sum()
totalestados.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,231426,3962
Centro-Oeste,GO,283834,6401
Centro-Oeste,MS,102236,1804


In [None]:
totalestados.sort_values(by=['regiao','obitosNovos']).head()


Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,MS,102236,1804
Centro-Oeste,DF,231426,3962
Centro-Oeste,MT,160284,4108
Centro-Oeste,GO,283834,6401
Nordeste,SE,91718,2320


In [None]:
totalestadoeregiao = totalestados

In [None]:
totalestadoeregiao.columns = ['casosNovosUF', 'obitosNovosUF']
totalestadoeregiao.reset_index(inplace=True)

In [None]:
novoestadoregiao = pd.merge(totalestadoeregiao, totalregioes, on='regiao')
novoestadoregiao.head()

Unnamed: 0,regiao,estado,casosNovosUF,obitosNovosUF,casosNovos,obitosNovos
0,Centro-Oeste,DF,231426,3962,777780,16275
1,Centro-Oeste,GO,283834,6401,777780,16275
2,Centro-Oeste,MS,102236,1804,777780,16275
3,Centro-Oeste,MT,160284,4108,777780,16275
4,Nordeste,AL,95643,2346,1657797,44766


In [None]:
novoestadoregiao = novoestadoregiao.sort_values(by=['obitosNovos','regiao' ,'obitosNovosUF' ] , ascending=False)\
                  [['regiao',	'estado','casosNovosUF',	'obitosNovosUF']]
             

In [None]:
novoestadoregiao.head()

Unnamed: 0,regiao,estado,casosNovosUF,obitosNovosUF
23,Sudeste,SP,1267912,42637
22,Sudeste,RJ,365185,22891
21,Sudeste,MG,428790,10187
20,Sudeste,ES,195255,4347
6,Nordeste,CE,303168,9657


In [None]:
novoestadoregiao.groupby(['regiao',	'estado']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovosUF,obitosNovosUF
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,231426,3962
Centro-Oeste,GO,283834,6401
Centro-Oeste,MS,102236,1804
Centro-Oeste,MT,160284,4108
Nordeste,AL,95643,2346
Nordeste,BA,412685,8336
Nordeste,CE,303168,9657
Nordeste,MA,194320,4322
Nordeste,PB,147274,3326
Nordeste,PE,187038,9098


## Leituras Adicionais e Referências:

- Python Tutorial at W3Schools: https://www.w3schools.com/python/
- Python official documentation: https://docs.python.org/3/tutorial/index.html
- Pandas  official documentation: https://pandas.pydata.org/pandas-docs/stable/index.html

# Exercícios de Fixação
***
- Utilizando o conteúdo abaixo, extraído do portal do IBGE (https://www.ibge.gov.br/cidades-e-estados), atribua-o a uma variável chamada estados do Brasil

## Entrega dos Exercícios:
Os notebooks devem ser postados no ambiente virtual https://inefeonline.com.br/ no tópico da respectiva aula para avaliação.

# Agradecimentos

## Muito obrigado a todos os presentes e até a próxima aula.


