# 04 - Pandas - Processamento e Análise de Dados
## Aula 11 - 01 - Pandas - Criando e Manipulando Séries

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)


#  PROGRAMA PYTHON ANALYTICS e DATA SCIENCE

#  Pandas - Criando e Manipulando Séries

## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [1]:
import numpy as np
import pandas as pd

### Série 
- Serie é uma matriz rotulada unidimensional capaz de conter qualquer tipo de dados (inteiros, strings, números de ponto flutuante, objetos Python, etc.). 
- Os rótulos dos eixos são chamados coletivamente de índice.
- O método básico para criar uma série é chamar:

``` 
s = pd.Series(data, index=index)

```

- data pode ser dicionário, ndarray, valor escalar.
- index deve ser lista de rótulos de eixo. 
- Se data for um ndarray, o índice deve ter o mesmo comprimento dos dados . 
- Se nenhum índice for passado, um será criado com valores de 0 até len(data)-1 


### Criar série a partir de um array

In [2]:
import string
data = [x for x in string.ascii_lowercase]

s = pd.Series(data)
print(s)
s.index

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


RangeIndex(start=0, stop=26, step=1)

In [3]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

s = pd.Series(data, index=index)
print(s)
s.index

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
            17, 18, 19, 20, 21, 22, 23, 24, 25],
           dtype='int64')

In [4]:
index = [x for x in string.ascii_lowercase]
data = list(range(0,len(index)))

s = pd.Series(data, index=index)
print(s)
s.index

a     0
b     1
c     2
d     3
e     4
f     5
g     6
h     7
i     8
j     9
k    10
l    11
m    12
n    13
o    14
p    15
q    16
r    17
s    18
t    19
u    20
v    21
w    22
x    23
y    24
z    25
dtype: int64


Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
       'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z'],
      dtype='object')

- Pode se ter indices duplicados, mas isso pode levar erros em funcões que exigem indices exclusivos.

In [5]:
s = pd.Series(np.random.randint(10, size=10), index=['a', 'b', 'c', 'd', 'e','a', 'b', 'c', 'd', 'e'])
print(s)
print(s['a'])
s.index

a    5
b    5
c    9
d    3
e    0
a    6
b    3
c    5
d    9
e    3
dtype: int32
a    5
a    6
dtype: int32


Index(['a', 'b', 'c', 'd', 'e', 'a', 'b', 'c', 'd', 'e'], dtype='object')

### Criar série a partir de um  dict

In [6]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

dict1 =  { x : y for x, y in zip(index,data)}
print(dict1)


{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j', 10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o', 15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't', 20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y', 25: 'z'}


In [7]:

s = pd.Series(dict1)
print(s)

0     a
1     b
2     c
3     d
4     e
5     f
6     g
7     h
8     i
9     j
10    k
11    l
12    m
13    n
14    o
15    p
16    q
17    r
18    s
19    t
20    u
21    v
22    w
23    x
24    y
25    z
dtype: object


In [8]:
s = pd.Series(dict1, index=[1,3,5,7])
print(s)

1    b
3    d
5    f
7    h
dtype: object


- Se um índice for passado, os dados serão obtidos no dicionário usando o valores do indice como chave, e a ordenação será a adotada no indice.  Se a chave não for encontrada do valor será NaN (não um número) é o marcador padrão de dados vazios usado nos pandas

In [9]:
import string
data = [x for x in string.ascii_lowercase]
index = list(range(0,len(data)))

dict1 =  { x : y for x, y in zip(index,data)}
print(dict1)

novo_index = sorted(index,reverse=True)

novo_index = novo_index +  list(range(26,50,1))



{0: 'a', 1: 'b', 2: 'c', 3: 'd', 4: 'e', 5: 'f', 6: 'g', 7: 'h', 8: 'i', 9: 'j', 10: 'k', 11: 'l', 12: 'm', 13: 'n', 14: 'o', 15: 'p', 16: 'q', 17: 'r', 18: 's', 19: 't', 20: 'u', 21: 'v', 22: 'w', 23: 'x', 24: 'y', 25: 'z'}


In [10]:
novo_index

[25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49]

In [11]:
s = pd.Series(dict1, index=novo_index)
print(s)

25      z
24      y
23      x
22      w
21      v
20      u
19      t
18      s
17      r
16      q
15      p
14      o
13      n
12      m
11      l
10      k
9       j
8       i
7       h
6       g
5       f
4       e
3       d
2       c
1       b
0       a
26    NaN
27    NaN
28    NaN
29    NaN
30    NaN
31    NaN
32    NaN
33    NaN
34    NaN
35    NaN
36    NaN
37    NaN
38    NaN
39    NaN
40    NaN
41    NaN
42    NaN
43    NaN
44    NaN
45    NaN
46    NaN
47    NaN
48    NaN
49    NaN
dtype: object


### Criar série a partir de um  valor escalar

Se datafor um valor escalar, um índice deve ser fornecido. O valor será repetido para corresponder ao comprimento do índice .

In [12]:
import string
index = [x for x in string.ascii_lowercase[0:10]]
valor = 10.5
s = pd.Series(valor, index=index)
print(s)



a    10.5
b    10.5
c    10.5
d    10.5
e    10.5
f    10.5
g    10.5
h    10.5
i    10.5
j    10.5
dtype: float64


In [13]:
import string
index = list(range(0,10))
valor = 'Alberto'
s = pd.Series(valor, index=index)
print(s)

0    Alberto
1    Alberto
2    Alberto
3    Alberto
4    Alberto
5    Alberto
6    Alberto
7    Alberto
8    Alberto
9    Alberto
dtype: object


### Série é semelhante a um ndarray (Indexação, Fatiamento, Funções)

In [14]:
s = pd.Series(np.random.randint(70,100, 10))
print(s)
s.index

0    77
1    73
2    88
3    91
4    73
5    88
6    94
7    70
8    84
9    83
dtype: int32


RangeIndex(start=0, stop=10, step=1)

In [15]:
print(s[0])

77


In [16]:
print(s[:3])

0    77
1    73
2    88
dtype: int32


In [17]:
s.median()

83.5

In [18]:
filtro = s > s.median()
print(filtro)
print(s[filtro])

0    False
1    False
2     True
3     True
4    False
5     True
6     True
7    False
8     True
9    False
dtype: bool
2    88
3    91
5    88
6    94
8    84
dtype: int32


In [19]:
print(s[s > s.median()])

2    88
3    91
5    88
6    94
8    84
dtype: int32


In [20]:
print(s)
print(s[[4, 3, 1]])

0    77
1    73
2    88
3    91
4    73
5    88
6    94
7    70
8    84
9    83
dtype: int32
4    73
3    91
1    73
dtype: int32


In [21]:
print(np.sqrt(s))

0    8.774964
1    8.544004
2    9.380832
3    9.539392
4    8.544004
5    9.380832
6    9.695360
7    8.366600
8    9.165151
9    9.110434
dtype: float64


In [22]:
print(np.power(s,2))

0    5929
1    5329
2    7744
3    8281
4    5329
5    7744
6    8836
7    4900
8    7056
9    6889
dtype: int32


In [23]:
print(s.dtype)

int32


In [24]:
print(s.array)

<PandasArray>
[77, 73, 88, 91, 73, 88, 94, 70, 84, 83]
Length: 10, dtype: int32


In [25]:
s.to_numpy()

array([77, 73, 88, 91, 73, 88, 94, 70, 84, 83])

### Series.array é  um ExtensionArray invólucro fino em torno de um numpy.ndarray.
- Embora Series seja semelhante ao ndarray, se você precisar de um ndarray real , use Series.to_numpy().

In [26]:
s.to_numpy()

array([77, 73, 88, 91, 73, 88, 94, 70, 84, 83])

### A série é semelhante a um  dicionário de tamanho fixo em que se pode obter e definir valores por rótulo de índice:

In [27]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s = pd.Series(data, index=index)
print(s)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64


In [28]:
s['a']

0

In [29]:
s['e'] = 12
s

a     0
b     1
c     2
d     3
e    12
f     5
g     6
h     7
i     8
j     9
dtype: int64

In [30]:
'e' in s

True

In [31]:
'm' in s

False

In [32]:
s['f']

5

In [33]:
s.get('m')

In [34]:
s.get('f')

5

In [35]:
s.get('m', np.nan)

nan

### Operações vetorizadas com Série 
- Ao trabalhar com séries não é necessário fazer um loop de valor por valor.
- A série também pode ser passada para a maioria dos métodos NumPy que esperam um ndarray.

In [36]:
data = list(range(0,10))
s = pd.Series(data)
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [37]:
s + s

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

In [38]:
s * 2

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

In [39]:
np.sum(s)

45

In [40]:
s2 = s.astype(str)
print(s2)
print(s)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: object
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [41]:
s + s2.astype(int)

0     0
1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
dtype: int64

### A diferença fundamental entre Series e ndarray é que as operações entre as séries alinham automaticamente os dados com base no rótulo. 
- Se uma chave não for encontrada em ambas, o resultado será marcado como vazio (NaN)
- Isso promove liberdade e flexibilidade na análise de dados interativos é é um dos grandes diferenciais do Pandas.

In [42]:
vendas = pd.Series([100, 200, 300], index=['Willian','João','Alexandre'])
print(vendas)

Willian      100
João         200
Alexandre    300
dtype: int64


In [43]:
percentualcomissao = pd.Series([.05, .05, .5], index=['João','Alexandre','Willian'])
print(percentualcomissao)

João         0.05
Alexandre    0.05
Willian      0.50
dtype: float64


In [44]:
vendas * percentualcomissao

Alexandre    15.0
João         10.0
Willian      50.0
dtype: float64

In [45]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s1 = pd.Series(data, index=index)

index2= [x for x in string.ascii_lowercase[3:10]]
data2 = list(range(0,len(index2)))
s2 = pd.Series(data2, index=index2)

print(s1)
print(s2)

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64
d    0
e    1
f    2
g    3
h    4
i    5
j    6
dtype: int64


In [46]:
s1 + s2

a     NaN
b     NaN
c     NaN
d     3.0
e     5.0
f     7.0
g     9.0
h    11.0
i    13.0
j    15.0
dtype: float64

In [47]:
s1 * s2

a     NaN
b     NaN
c     NaN
d     0.0
e     4.0
f    10.0
g    18.0
h    28.0
i    40.0
j    54.0
dtype: float64

In [48]:
s1 - s2

a    NaN
b    NaN
c    NaN
d    3.0
e    3.0
f    3.0
g    3.0
h    3.0
i    3.0
j    3.0
dtype: float64

In [49]:
s1 ** s2

a         NaN
b         1.0
c         NaN
d         1.0
e         4.0
f        25.0
g       216.0
h      2401.0
i     32768.0
j    531441.0
dtype: float64

## O atributo de nome da Série

In [50]:
import string
index= [x for x in string.ascii_lowercase[:10]]
data = list(range(0,len(index)))
s1 = pd.Series(data, index=index, name='Minha Serie')
s1.name

'Minha Serie'

In [51]:
s2 = s.rename("Minha nova série")
s2.name

'Minha nova série'