In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [5, np.nan, np.nan],
    'C': [1, 2, 3]
})

In [3]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [4]:
df.dropna()
# remove elementos NAN, ou seja, devolve um dataframe com os elementos que possuem valores

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [5]:
df.dropna(axis=1)
# remove elmento das linhas que possuem NAN

Unnamed: 0,C
0,1
1,2
2,3


In [6]:
df.dropna(axis=1, thresh=2)
# thesh permite remove elementos quando tive dois ou mais elementos do tipo NAN

Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [7]:
df.fillna(10)
# fill - preencher valores vazios

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,10.0,2
2,10.0,10.0,3


In [8]:
df["A"].mean()

1.5

In [10]:
df[["A"]].fillna(value = df["A"].mean())

Unnamed: 0,A
0,1.0
1,2.0
2,1.5


In [11]:
df.ffill()
# ffill - preencher os valores faltantes a partir do último elemento obervado

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,2.0,5.0,3


In [12]:
df.bfill()
# back fill - preencher os valores faltantes a partir do último elemento obervado

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [14]:
data = {'Classe': ['Júnior', 'Júnior', 'Pleno', 'Pleno', 'Sênior','Sênior'],
        'Nome': ['Jorge', 'Carlos', 'Roberta', 'Patrícia', 'Bruno', 'Vera'],
        'Venda': [200, 120, 340, 124, 243, 350]}

In [15]:
df = pd.DataFrame(data)
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [17]:
group = df.groupby('Classe')

In [18]:
group.mean()

Unnamed: 0_level_0,Venda
Classe,Unnamed: 1_level_1
Júnior,160.0
Pleno,232.0
Sênior,296.5


In [19]:
group.min()

Unnamed: 0_level_0,Nome,Venda
Classe,Unnamed: 1_level_1,Unnamed: 2_level_1
Júnior,Carlos,120
Pleno,Patrícia,124
Sênior,Bruno,243


In [20]:
group.max()

Unnamed: 0_level_0,Nome,Venda
Classe,Unnamed: 1_level_1,Unnamed: 2_level_1
Júnior,Jorge,200
Pleno,Roberta,340
Sênior,Vera,350


In [21]:
df.groupby('Classe').mean()

Unnamed: 0_level_0,Venda
Classe,Unnamed: 1_level_1
Júnior,160.0
Pleno,232.0
Sênior,296.5


In [33]:
df2 = df.copy()

In [34]:
df2['Venda'] = [100, 150, 500, 600, 300, 140]

In [35]:
df2

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,100
1,Júnior,Carlos,150
2,Pleno,Roberta,500
3,Pleno,Patrícia,600
4,Sênior,Bruno,300
5,Sênior,Vera,140


In [36]:

df3 = pd.concat([df, df2])
df3

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350
0,Júnior,Jorge,100
1,Júnior,Carlos,150
2,Pleno,Roberta,500
3,Pleno,Patrícia,600


In [37]:
df3.groupby(['Classe', 'Nome']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Venda
Classe,Nome,Unnamed: 2_level_1
Júnior,Carlos,270
Júnior,Jorge,300
Pleno,Patrícia,724
Pleno,Roberta,840
Sênior,Bruno,543
Sênior,Vera,490


#### Merge, join e concat

In [38]:
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']},
    index = [0, 1, 2, 3])

In [39]:
df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']},
    index = [4, 5, 6, 7])

In [40]:
df3 = pd.DataFrame({
    'A': ['A8', 'A9', 'A10', 'A11'],
    'B': ['B8', 'B9', 'B10', 'B11'],
    'C': ['C8', 'C9', 'C10', 'C11'],
    'D': ['D8', 'D9', 'D10', 'D11']},
    index = [8, 9, 10, 11])

In [41]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [42]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [43]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [47]:
pd.concat([df1, df2, df3],axis = 1)
# axis = 0  compartilham do mesmo indice

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [48]:
esquerda = pd.DataFrame({
    'Key': ['k0', 'k1', 'k2', 'k3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']})

In [49]:
direita = pd.DataFrame({
    'Key': ['k0', 'k1', 'k2', 'k3'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']})

In [50]:
esquerda

Unnamed: 0,Key,A,B
0,k0,A0,B0
1,k1,A1,B1
2,k2,A2,B2
3,k3,A3,B3


In [51]:
direita

Unnamed: 0,Key,C,D
0,k0,C4,D4
1,k1,C5,D5
2,k2,C6,D6
3,k3,C7,D7


In [52]:
pd.merge(esquerda, direita, on='Key')

Unnamed: 0,Key,A,B,C,D
0,k0,A0,B0,C4,D4
1,k1,A1,B1,C5,D5
2,k2,A2,B2,C6,D6
3,k3,A3,B3,C7,D7


In [53]:
esquerda = pd.DataFrame({
    'Key1': ['k0', 'k0', 'k1', 'k2'],
    'Key2': ['k0', 'k1', 'k0', 'k1'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']})

In [58]:
direita = pd.DataFrame({
    'Key1': ['k0', 'k1', 'k1', 'k2'],
    'Key2': ['k0', 'k0', 'k0', 'k0'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']})

In [56]:
esquerda

Unnamed: 0,Key1,Key2,A,B
0,k0,k0,A0,B0
1,k0,k1,A1,B1
2,k1,k0,A2,B2
3,k2,k1,A3,B3


In [59]:
direita

Unnamed: 0,Key1,Key2,C,D
0,k0,k0,C0,D0
1,k1,k0,C1,D1
2,k1,k0,C2,D2
3,k2,k0,C3,D3


In [60]:
pd.merge(esquerda, direita, on= ['Key1', 'Key2'])
# vai selecionar elementos que possuem key1 e key2 iguais
# podendo ocorrer uma sobreposição

Unnamed: 0,Key1,Key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k1,k0,A2,B2,C1,D1
2,k1,k0,A2,B2,C2,D2


In [61]:
pd.merge(esquerda, direita, how='outer', on= ['Key1', 'Key2'])
# vai dar um jeito de encaixar todo mundo, ou seja, valores com jeys iguais
# caso contrário, ele irá colocar NAN

Unnamed: 0,Key1,Key2,A,B,C,D
0,k0,k0,A0,B0,C0,D0
1,k0,k1,A1,B1,,
2,k1,k0,A2,B2,C1,D1
3,k1,k0,A2,B2,C2,D2
4,k2,k1,A3,B3,,
5,k2,k0,,,C3,D3


In [62]:
esquerda = pd.DataFrame({
    'A': ['A0', 'A1', 'A2'],
    'B': ['B0', 'B1', 'B2']},
    index = ['k0', 'k1', 'k2'])

In [63]:
direita = pd.DataFrame({
    'C': ['C0', 'C2', 'C3'],
    'D': ['D0', 'D2', 'D3']},
    index = ['k0', 'k2', 'k3'])

In [66]:
esquerda

Unnamed: 0,A,B
k0,A0,B0
k1,A1,B1
k2,A2,B2


In [67]:
direita

Unnamed: 0,C,D
k0,C0,D0
k2,C2,D2
k3,C3,D3


In [71]:
esquerda.join(direita, how='inner')
# how = 'outer', 'left', 'rigth', 'inner'
# na esquerda possui um k1, mas na direita não tem, logo, C e D recebem NaN

# Da mesma forma, k3 está na direita, mas não está na esquerda, logo, A e B recebem NaN

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C2,D2
