## Hierarquia de índices e índices múltiplos

In [1]:
import pandas as pd
import numpy as np
from numpy.random import randn

In [2]:
#niveis de índices
outside = ['g1','g1','g1','g2','g2','g2',]
inside = [1,2,3, 1,2,3]

hier_index = list(zip(outside,inside))

In [3]:
hier_index

[('g1', 1), ('g1', 2), ('g1', 3), ('g2', 1), ('g2', 2), ('g2', 3)]

In [4]:
hier_index = pd.MultiIndex.from_tuples(hier_index)

In [5]:
hier_index

MultiIndex([('g1', 1),
            ('g1', 2),
            ('g1', 3),
            ('g2', 1),
            ('g2', 2),
            ('g2', 3)],
           )

In [6]:
df = pd.DataFrame(randn(6,2), index=hier_index, columns=['A','B'])

In [7]:
df
#por default ele agrupa os valores de g1, e g2

Unnamed: 0,Unnamed: 1,A,B
g1,1,0.701221,-0.559583
g1,2,-1.186691,-0.952596
g1,3,0.419375,-0.186858
g2,1,0.085344,-1.253614
g2,2,0.067536,0.463997
g2,3,0.152872,-1.571721


In [8]:
#definindo nome do dataframe para os index
df.index.names = ["grupo","números"]

In [9]:
df.index.names

FrozenList(['grupo', 'números'])

In [10]:
#aqui estou selecionando a coluna números e trazendo todos resultados de 1
df.xs(1, level="números")

Unnamed: 0_level_0,A,B
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
g1,0.701221,-0.559583
g2,0.085344,-1.253614


# manipulação de dados ausentes

In [11]:
dados = pd.DataFrame ({'A': [1,2,np.nan],
                       'B':[5,np.nan,np.nan],
                       'C':[1,2,3]})

In [12]:
dados

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [13]:
#joga fora dados que estão com valores ausentes
dados.dropna(axis=0)

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [14]:
#costes na coluna
dados.dropna(axis=1)

Unnamed: 0,C
0,1
1,2
2,3


In [15]:
#tresh = limite de numeros ausentes para exclusão dos dados ausentes, no caso abaixo se ele encontra dois ou mais valores ausentes ele descarta
dados.dropna(axis=1, thresh=2)

Unnamed: 0,A,C
0,1.0,1
1,2.0,2
2,,3


In [16]:
#prenchendo dados vazios, com outras, str, int, float..., com outros dados no geral
dados.fillna(0)

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,0.0,2
2,0.0,0.0,3


In [17]:
dados.fillna("sem dados")

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,sem dados,2
2,sem dados,sem dados,3


In [18]:
#média aritmética
dados["A"].mean()

1.5

In [19]:
#aplicando média aritmética para os dados que estão vazios
dados.fillna(value=df["A"].mean())

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,0.039943,2
2,0.039943,0.039943,3


In [20]:
#preenchendo os valores vazios com último valor, ótimo para séries temporais
dados.ffill()

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,5.0,2
2,2.0,5.0,3


## Groupby

In [21]:
data = {'Classe':['Júnior','Júnior','Pleno','Pleno','Sênior','Sênior'],
        'Nome':['Jorge','Carlos','Roberta','Patrícia','Bruno','Vera'],
        'Venda':[200,120,340,124,243,350]}

In [22]:
df = pd.DataFrame(data)

In [23]:
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [24]:
group = df.groupby("Classe")

#OBS: pandas alerta de que futuramente vai ser necessaria passar numeric_only=True dentro do parâmetro, mas por enquanto funciona normal mesmo sem passar isso.
group.mean(numeric_only=True)

Unnamed: 0_level_0,Venda
Classe,Unnamed: 1_level_1
Júnior,160.0
Pleno,232.0
Sênior,296.5


In [25]:
#minimos, vendeu menos
df.groupby("Classe").min(numeric_only=True)

Unnamed: 0_level_0,Venda
Classe,Unnamed: 1_level_1
Júnior,120
Pleno,124
Sênior,243


In [26]:
#maximo, vendeu mais
df.groupby("Classe").max(numeric_only=True)

Unnamed: 0_level_0,Venda
Classe,Unnamed: 1_level_1
Júnior,200
Pleno,340
Sênior,350


In [27]:
df2 = df.copy()

In [28]:
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [29]:
df2["Venda"] = [150,432,190,230,410,155]

In [30]:
df

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,200
1,Júnior,Carlos,120
2,Pleno,Roberta,340
3,Pleno,Patrícia,124
4,Sênior,Bruno,243
5,Sênior,Vera,350


In [31]:
df2

Unnamed: 0,Classe,Nome,Venda
0,Júnior,Jorge,150
1,Júnior,Carlos,432
2,Pleno,Roberta,190
3,Pleno,Patrícia,230
4,Sênior,Bruno,410
5,Sênior,Vera,155


In [32]:
#juntando duas tabelas
df3 = pd.concat([df, df2])

In [33]:
#groupby com duas dimensões ou mais
df3.groupby(["Classe","Nome"]).sum(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,Venda
Classe,Nome,Unnamed: 2_level_1
Júnior,Carlos,552
Júnior,Jorge,350
Pleno,Patrícia,354
Pleno,Roberta,530
Sênior,Bruno,653
Sênior,Vera,505
