In [3]:
import pandas as pd
import numpy as np

### Índices multiníveis

Níveis de índices

In [33]:
outside = ["G1","G1","G1","G2","G2","G2"]
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside,inside))
hier_index = pd.MultiIndex.from_tuples(hier_index)

zip: pegar as listas outside and inside                                                     
zip: pega duas listas como input e transforma em uma tupla rodando elemento por elemento.          
hier_index: criar uma lista de tuplas associando cada valor de de uma lista ao valor da outra lista   
MultiIndex.from_tuples(): cria um indice multinivel

Vamos criar um DF usando esses indices de multiniveis

In [34]:
dfs = pd.DataFrame(np.random.randn(6,2), index=hier_index, columns=["A","B"])

In [35]:
dfs

Unnamed: 0,Unnamed: 1,A,B
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Acesar os elementos de G1.

In [36]:
dfs.loc["G1"]

Unnamed: 0,A,B
1,0.302665,1.693723
2,-1.706086,-1.159119
3,-0.134841,0.390528


E aqui acessar os elemento da linha 2 do G1

In [37]:
dfs.loc["G1"].loc[2]

A   -1.706086
B   -1.159119
Name: 2, dtype: float64

Vamos atribuir nomes para os indices:

In [38]:
dfs.index.names = ["Grupo", "Numero"]

In [39]:
dfs

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
Grupo,Numero,Unnamed: 2_level_1,Unnamed: 3_level_1
G1,1,0.302665,1.693723
G1,2,-1.706086,-1.159119
G1,3,-0.134841,0.390528
G2,1,0.166905,0.184502
G2,2,0.807706,0.07296
G2,3,0.638787,0.329646


Uma outra forma de selecionar elementos em uma DF que possuem indices de multiníveis e usar o xs.
Vantagem: Podemos selecionar elementos do indice interno sem tem que passar pelo indice externo.

In [40]:
dfs.xs(1,level="Numero")

Unnamed: 0_level_0,A,B
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1
G1,0.302665,1.693723
G2,0.166905,0.184502


### Dados Ausentes

Vamos criar um DF com alguns dados ausentes.

In [58]:
d = {"A":[1,2,np.nan],"B":[5,np.nan,np.nan],"C":[np.nan,np.nan,np.nan],"D": [7,8,9]}
dd = pd.DataFrame(d)
dd

Unnamed: 0,A,B,C,D
0,1.0,5.0,,7
1,2.0,,,8
2,,,,9


o dropna() ele nos traz apenas as linhas sem valores ausentes. (podemos usar o axis=1 para trazer as colunas)

In [65]:
dd.dropna(axis=1)

Unnamed: 0,D
0,7
1,8
2,9


o metodo fillna() substitui os valos ausentes por algum outro valor.

In [66]:
dd.fillna("Fill na")

Unnamed: 0,A,B,C,D
0,1,5,Fill na,7
1,2,Fill na,Fill na,8
2,Fill na,Fill na,Fill na,9


Vamos substituir um valor ausente pela media dos outros valores da coluna.

In [68]:
dd["A"].fillna(dd["A"].mean())

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

ou podemos substituir com o valor anterior passando como paramentro o (method="ffill")

In [70]:
dd.fillna(method="ffill")

Unnamed: 0,A,B,C,D
0,1.0,5.0,,7
1,2.0,5.0,,8
2,2.0,5.0,,9


### Groupby

In [79]:
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}

In [80]:
DF = pd.DataFrame(data)

In [81]:
DF

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


Vamos agrupar pela empresa

In [86]:
group = DF.groupby("Empresa")

Ver o total vendido por empresa usamos o metodo sum() ou a media mean().

In [88]:
group.sum()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,593
GOOG,320
MSFT,464


In [89]:
group.mean()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


Para ter uma descrição geral do DF usamos o describe()

In [90]:
group.describe()

Unnamed: 0_level_0,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0
