## Introdução à manipulação de dados com o Pandas(pt1)

In [3]:
import numpy as np
import pandas as pd

#### Pandas Series

In [11]:
numeros = range(50,70,2)
numeros_serie =pd.Series(numeros)

print(numeros_serie)

0    50
1    52
2    54
3    56
4    58
5    60
6    62
7    64
8    66
9    68
dtype: int64


In [10]:
print(numeros_serie.index)

RangeIndex(start=0, stop=10, step=1)


In [12]:
print(numeros_serie.values)

[50 52 54 56 58 60 62 64 66 68]


In [16]:
# Personalizando os indices do array
indices_por_extenso = ['1º','2º','3º','4º','5º','6º','7º','8º','9º','10º']
numeros_serie2 = pd.Series(numeros, index = indices_por_extenso)

# print(numeros_serie2)
print(numeros_serie2["1º"])

50


#### Data Frames

In [20]:
dt = pd.DataFrame(numeros_serie2)
dt

Unnamed: 0,0
1º,50
2º,52
3º,54
4º,56
5º,58
6º,60
7º,62
8º,64
9º,66
10º,68


In [23]:
# exemplo 2
xadez_64 = np.arange(1,65).reshape(8,8)

xadrez_df = pd.DataFrame(
    xadez_64,
    columns = range(1,9),
    index = ['A','B','C','D','E','F','G','H']
)

xadrez_df

Unnamed: 0,1,2,3,4,5,6,7,8
A,1,2,3,4,5,6,7,8
B,9,10,11,12,13,14,15,16
C,17,18,19,20,21,22,23,24
D,25,26,27,28,29,30,31,32
E,33,34,35,36,37,38,39,40
F,41,42,43,44,45,46,47,48
G,49,50,51,52,53,54,55,56
H,57,58,59,60,61,62,63,64


Selecionando uma Serie

In [26]:
# atraves do índice 

numeros_serie2['5º']
numeros_serie2.loc['5º']

# localizando serie apenas com o indices numericos
numeros_serie2.iloc[5]


60

Selecionando um Data Frame

In [31]:
xadrez_df.index

Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'], dtype='object')

In [30]:
xadrez_df.columns

RangeIndex(start=1, stop=9, step=1)

In [32]:
xadrez_df.values

array([[ 1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16],
       [17, 18, 19, 20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29, 30, 31, 32],
       [33, 34, 35, 36, 37, 38, 39, 40],
       [41, 42, 43, 44, 45, 46, 47, 48],
       [49, 50, 51, 52, 53, 54, 55, 56],
       [57, 58, 59, 60, 61, 62, 63, 64]])

In [33]:
# selecionando coluna

xadrez_df[1]

A     1
B     9
C    17
D    25
E    33
F    41
G    49
H    57
Name: 1, dtype: int32

In [34]:
# seleciona a 4º linha
xadrez_df.values[3]

array([25, 26, 27, 28, 29, 30, 31, 32])

In [37]:
# seleciona a linha H
xadrez_df.loc['H']

1    57
2    58
3    59
4    60
5    61
6    62
7    63
8    64
Name: H, dtype: int32

#### Transposição

In [41]:
# linha -> coluna coluna -> linha
xadrez_df.T

Unnamed: 0,A,B,C,D,E,F,G,H
1,1,9,17,25,33,41,49,57
2,2,10,18,26,34,42,50,58
3,3,11,19,27,35,43,51,59
4,4,12,20,28,36,44,52,60
5,5,13,21,29,37,45,53,61
6,6,14,22,30,38,46,54,62
7,7,15,23,31,39,47,55,63
8,8,16,24,32,40,48,56,64


Operações com data frames

In [51]:
# multiplicando todos os itens do data frame por 2
xadrez_df * 2

Unnamed: 0,1,2,3,4,5,6,7,8
A,2,4,6,8,10,12,14,16
B,18,20,22,24,26,28,30,32
C,34,36,38,40,42,44,46,48
D,50,52,54,56,58,60,62,64
E,66,68,70,72,74,76,78,80
F,82,84,86,88,90,92,94,96
G,98,100,102,104,106,108,110,112
H,114,116,118,120,122,124,126,128


In [65]:
numeros_serie3 = numeros_serie2 + 1

# é possivel somar as series desde que o indice seja o mesmo
print(numeros_serie3 + numeros_serie2)
print(numeros_serie2.add(numeros_serie3))

# caso o indice não seja o mesmo, o valor será "NaN"
porcao2 = numeros_serie2[4:7]
porcao3 = numeros_serie3[5:8]

print(porcao2 + porcao3)

1º     101
2º     105
3º     109
4º     113
5º     117
6º     121
7º     125
8º     129
9º     133
10º    137
dtype: int64
1º     101
2º     105
3º     109
4º     113
5º     117
6º     121
7º     125
8º     129
9º     133
10º    137
dtype: int64
5º      NaN
6º    121.0
7º    125.0
8º      NaN
dtype: float64


In [67]:
porcao2.add(porcao3, fill_value = 0) 

5º     58.0
6º    121.0
7º    125.0
8º     65.0
dtype: float64

Trabalhando com valores NaN

In [75]:
numeros_nan = porcao2 + porcao3

# Retorna True onde os valores forem null
print(numeros_nan.isnull())

# transforma null em 0
print(numeros_nan.fillna(0))

# Elimina registros onde o valor indicado é nulo
print(numeros_nan.dropna())

5º     True
6º    False
7º    False
8º     True
dtype: bool
5º      0.0
6º    121.0
7º    125.0
8º      0.0
dtype: float64
6º    121.0
7º    125.0
dtype: float64
