# Dataframes II

In [1]:
from pandas import DataFrame
import numpy as np

## Dados ausentes

In [3]:
# Dados Smarthome
dic = {'Temperatura':[31, 29, np.nan, 32], 'Umidade':[70, 69, 71, np.nan]}; dic

{'Temperatura': [31, 29, nan, 32], 'Umidade': [70, 69, 71, nan]}

In [4]:
df = DataFrame(dic); df

Unnamed: 0,Temperatura,Umidade
0,31.0,70.0
1,29.0,69.0
2,,71.0
3,32.0,


In [5]:
# Encontrar valores nulos
df.isnull()

Unnamed: 0,Temperatura,Umidade
0,False,False
1,False,False
2,True,False
3,False,True


In [6]:
# 1ª estratégia - Excluir as linhas com Dropna (Perde valores)
df.dropna()

Unnamed: 0,Temperatura,Umidade
0,31.0,70.0
1,29.0,69.0


In [7]:
# 2ª Estratégia - Só deleta as linhas que possuem a quantidade de NaNs passada por parametro (2)
df.dropna(thresh=2)

Unnamed: 0,Temperatura,Umidade
0,31.0,70.0
1,29.0,69.0


In [8]:
# 3ª Estratégia - Fillna(substitui os valores pelos que o profissional decidir)
df.fillna(value='-')

Unnamed: 0,Temperatura,Umidade
0,31,70
1,29,69
2,-,71
3,32,-


In [9]:
# 4ª Estratégia - Substitui os valores pela média, mediana(quantitativos) ou que possui maior quantidade(qualitativos)
media_t = np.mean(df['Temperatura']); media_t

30.666666666666668

In [10]:
df['Temperatura'].fillna(value=media_t)

0    31.000000
1    29.000000
2    30.666667
3    32.000000
Name: Temperatura, dtype: float64

In [11]:
# Forma direta - sem variavel para media
df['Temperatura'].fillna(value=np.mean(df['Temperatura']))

0    31.000000
1    29.000000
2    30.666667
3    32.000000
Name: Temperatura, dtype: float64

Lembrando que para a operação ser executada é necessário o inplace=True<br>
df.dropna(thresh=2, inplance=True)

In [12]:
# 5ª Estratégia - preenche com valores dos anteriores
df.fillna(method='ffill')

Unnamed: 0,Temperatura,Umidade
0,31.0,70.0
1,29.0,69.0
2,29.0,71.0
3,32.0,71.0


## Índices Multiníveis

In [40]:
# Exportação de produtos agrícolas
lista = [['BRASIL', 'BRASIL', 'BRASIL', 'ARGENTINA', 'ARGENTINA', 'ARGENTINA'], [2017, 2018, 2019, 2017, 2018, 2019]]

In [41]:
tuplas = zip(*lista); tuplas

<zip at 0x7ff3948f50a0>

In [43]:
tuplas = list(tuplas); tuplas

[('BRASIL', 2017),
 ('BRASIL', 2018),
 ('BRASIL', 2019),
 ('ARGENTINA', 2017),
 ('ARGENTINA', 2018),
 ('ARGENTINA', 2019)]

In [44]:
from pandas import MultiIndex
multi = MultiIndex.from_tuples(tuplas); multi

MultiIndex([(   'BRASIL', 2017),
            (   'BRASIL', 2018),
            (   'BRASIL', 2019),
            ('ARGENTINA', 2017),
            ('ARGENTINA', 2018),
            ('ARGENTINA', 2019)],
           )

In [45]:
df1 = DataFrame(data = np.random.randn(6, 2), index = multi, columns = ['EXP TRIGO', 'EXP ARROZ']); df1

Unnamed: 0,Unnamed: 1,EXP TRIGO,EXP ARROZ
BRASIL,2017,-0.756257,-1.688388
BRASIL,2018,0.374331,0.535036
BRASIL,2019,0.359718,-0.01103
ARGENTINA,2017,0.494339,1.297479
ARGENTINA,2018,0.648623,0.14003
ARGENTINA,2019,-0.66203,-1.090979


In [46]:
# Nomeando os indices
df1.index.names = ['PAÍS', 'ANO']; df1

Unnamed: 0_level_0,Unnamed: 1_level_0,EXP TRIGO,EXP ARROZ
PAÍS,ANO,Unnamed: 2_level_1,Unnamed: 3_level_1
BRASIL,2017,-0.756257,-1.688388
BRASIL,2018,0.374331,0.535036
BRASIL,2019,0.359718,-0.01103
ARGENTINA,2017,0.494339,1.297479
ARGENTINA,2018,0.648623,0.14003
ARGENTINA,2019,-0.66203,-1.090979


In [47]:
# Encontrando valores - Nivel produto
df1['EXP ARROZ']

PAÍS       ANO 
BRASIL     2017   -1.688388
           2018    0.535036
           2019   -0.011030
ARGENTINA  2017    1.297479
           2018    0.140030
           2019   -1.090979
Name: EXP ARROZ, dtype: float64

In [48]:
# Nivel pais
df1.loc['BRASIL']

Unnamed: 0_level_0,EXP TRIGO,EXP ARROZ
ANO,Unnamed: 1_level_1,Unnamed: 2_level_1
2017,-0.756257,-1.688388
2018,0.374331,0.535036
2019,0.359718,-0.01103


In [56]:
# Nivel ano - função xs, parametro level
df1.xs(2017, level=1)

Unnamed: 0_level_0,EXP TRIGO,EXP ARROZ
PAÍS,Unnamed: 1_level_1,Unnamed: 2_level_1
BRASIL,-0.756257,-1.688388
ARGENTINA,0.494339,1.297479


In [57]:
# Notação :
df1[:2]

Unnamed: 0_level_0,Unnamed: 1_level_0,EXP TRIGO,EXP ARROZ
PAÍS,ANO,Unnamed: 2_level_1,Unnamed: 3_level_1
BRASIL,2017,-0.756257,-1.688388
BRASIL,2018,0.374331,0.535036


In [58]:
# Colunas
df1[['EXP TRIGO', 'EXP ARROZ']]

Unnamed: 0_level_0,Unnamed: 1_level_0,EXP TRIGO,EXP ARROZ
PAÍS,ANO,Unnamed: 2_level_1,Unnamed: 3_level_1
BRASIL,2017,-0.756257,-1.688388
BRASIL,2018,0.374331,0.535036
BRASIL,2019,0.359718,-0.01103
ARGENTINA,2017,0.494339,1.297479
ARGENTINA,2018,0.648623,0.14003
ARGENTINA,2019,-0.66203,-1.090979


In [59]:
# Melhorando visualização - unstack
df1.unstack()

Unnamed: 0_level_0,EXP TRIGO,EXP TRIGO,EXP TRIGO,EXP ARROZ,EXP ARROZ,EXP ARROZ
ANO,2017,2018,2019,2017,2018,2019
PAÍS,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
ARGENTINA,0.494339,0.648623,-0.66203,1.297479,0.14003,-1.090979
BRASIL,-0.756257,0.374331,0.359718,-1.688388,0.535036,-0.01103


In [60]:
df2 = df1.unstack(); df2

Unnamed: 0_level_0,EXP TRIGO,EXP TRIGO,EXP TRIGO,EXP ARROZ,EXP ARROZ,EXP ARROZ
ANO,2017,2018,2019,2017,2018,2019
PAÍS,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
ARGENTINA,0.494339,0.648623,-0.66203,1.297479,0.14003,-1.090979
BRASIL,-0.756257,0.374331,0.359718,-1.688388,0.535036,-0.01103


In [62]:
# Busca normalmente
df2['EXP TRIGO']

ANO,2017,2018,2019
PAÍS,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ARGENTINA,0.494339,0.648623,-0.66203
BRASIL,-0.756257,0.374331,0.359718


In [63]:
df2.xs(2017, axis=1, level=1)

Unnamed: 0_level_0,EXP TRIGO,EXP ARROZ
PAÍS,Unnamed: 1_level_1,Unnamed: 2_level_1
ARGENTINA,0.494339,1.297479
BRASIL,-0.756257,-1.688388


## Concatenar, Juntar, Mesclar

In [3]:
# Concatenate - Une na vertical (as linhas) - Colunas com nomes iguais
df1 = DataFrame({'Produto': ['Pendrive', 'Carregador', 'SSD', 'Tablet'],
                   'Preço':['30', '20', '359', '699'],
                   'Categoria':['Eletronicos', 'Eletronicos', 'Informatica', 'Mobile'],
                   'Quantidade':['100', '50', '39', '40']},
                  index=[1, 2, 3, 4])

df2 = DataFrame({'Produto': ['SmartV', 'Alexa', 'Camera', 'Smartphone'],
                   'Preço':['1900', '999', '460', '899'],
                   'Categoria':['Eletronicos', 'IoT', 'Informatica', 'Mobile'],
                   'Quantidade':['10', '40', '50', '60']},
                  index=[5, 6, 7, 8])

In [4]:
df1

Unnamed: 0,Produto,Preço,Categoria,Quantidade
1,Pendrive,30,Eletronicos,100
2,Carregador,20,Eletronicos,50
3,SSD,359,Informatica,39
4,Tablet,699,Mobile,40


In [4]:
df2

Unnamed: 0,Produto,Preço,Categoria,Quantidade
5,SmartV,1900,Eletronicos,10
6,Alexa,999,IoT,40
7,Camera,460,Informatica,50
8,Smartphone,899,Mobile,60


In [5]:
# Concatenando - Basta separar por vírgulas. Tem que ter o mesmo tamanho
from pandas import concat
concat([df1, df2])

Unnamed: 0,Produto,Preço,Categoria,Quantidade
1,Pendrive,30,Eletronicos,100
2,Carregador,20,Eletronicos,50
3,SSD,359,Informatica,39
4,Tablet,699,Mobile,40
5,SmartV,1900,Eletronicos,10
6,Alexa,999,IoT,40
7,Camera,460,Informatica,50
8,Smartphone,899,Mobile,60


In [36]:
# Veja que não é bom para horizontal
concat([df1, df2], axis=1)

Unnamed: 0,Produto,Preço,Categoria,Quantidade,Produto.1,Preço.1,Categoria.1,Quantidade.1
1,Pendrive,30.0,Eletronicos,100.0,,,,
2,Carregador,20.0,Eletronicos,50.0,,,,
3,SSD,359.0,Informatica,39.0,,,,
4,Tablet,699.0,Mobile,40.0,,,,
5,,,,,SmartV,1900.0,Eletronicos,10.0
6,,,,,Alexa,999.0,IoT,40.0
7,,,,,Camera,460.0,Informatica,50.0
8,,,,,Smartphone,899.0,Mobile,60.0


### Horizontal - Merge / Join (How)
Left, Right, Inner, Outer

### Merge

In [7]:
from pandas import merge

In [21]:
# Dados de clientes e produtos que comprou
df_vendas =  DataFrame({'IdCliente': [1, 5, 8, 10],
                   'Produto':['Smartphone', 'Tablet', 'Xbox', 'Roteador']},
                  index=[1, 2, 3, 4])

df_cliente =  DataFrame({'IdCliente': [1, 8, 10, 15],
                   'Nome':['João', 'Elena', 'Patrícia', 'Lucia']},
                  index=[1, 2, 3, 4])

In [34]:
# Inner é o padrão
merge(df_vendas, df_cliente)

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,8,Xbox,Elena
2,10,Roteador,Patrícia


In [16]:
# Left - Indices (Todos da esquerda)
merge(df_vendas, df_cliente, how='left')

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,5,Tablet,
2,8,Xbox,Elena
3,10,Roteador,Patrícia


In [17]:
# Right - Indices (Todos da direita)
merge(df_vendas, df_cliente, how='right')

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,8,Xbox,Elena
2,10,Roteador,Patrícia
3,15,,Lucia


In [18]:
# Outer - Indices (Todos os registros)
merge(df_vendas, df_cliente, how='outer')

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,5,Tablet,
2,8,Xbox,Elena
3,10,Roteador,Patrícia
4,15,,Lucia


In [20]:
# Inner - Indices (Apenas registros que têm correspondencia dos 2 DataFrames)
merge(df_vendas, df_cliente, how='inner')

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,8,Xbox,Elena
2,10,Roteador,Patrícia


In [39]:
# Ou especifica o Index explicitamente
merge(df_vendas, df_cliente, how='inner', on='IdCliente')

Unnamed: 0,IdCliente,Produto,Nome
0,1,Smartphone,João
1,8,Xbox,Elena
2,10,Roteador,Patrícia


In [15]:
# Mais complicado
df_vendas = DataFrame({'IdVenda': [1, 2, 3, 4],
                     'IdCliente': ['K0', 'K1', 'K0', 'K1'],
                        'Produto': ['Fone', 'Monitor', 'Cadeira Gamer', 'Processador'],
                        'Preço': ['299', '799', '1299', '899']})
    
df_cliente = DataFrame({'IdVenda': [9, 7, 7, 9],
                               'IdCliente': ['K0', 'K0', 'K0', 'K0'],
                                  'Nome': ['João', 'João', 'Lucio', 'Lucio'],
                                  'Idade': [20, 20, 30, 30]})

In [21]:
# Junta a partir de 2 índices
merge(df_vendas, df_cliente, how='outer', on=['IdVenda','IdCliente'])

Unnamed: 0,IdVenda,IdCliente,Produto,Preço,Nome,Idade
0,1,K0,Fone,299.0,,
1,2,K1,Monitor,799.0,,
2,3,K0,Cadeira Gamer,1299.0,,
3,4,K1,Processador,899.0,,
4,9,K0,,,João,20.0
5,9,K0,,,Lucio,30.0
6,7,K0,,,João,20.0
7,7,K0,,,Lucio,30.0


### Join

In [26]:
# Mais usado para univer Indice com indice
df_vendas.join(df_cliente, lsuffix='_x', rsuffix='_y')

Unnamed: 0,IdCliente_x,Produto,IdCliente_y,Nome
1,1,Smartphone,1,João
2,5,Tablet,8,Elena
3,8,Xbox,10,Patrícia
4,10,Roteador,15,Lucia


In [32]:
dic1 = {'NOME':['Lucio','Marilia','Claudia','Lucas','Gabriel'],
              'CIDADE':['Brasília','Águas Claras','Taguatinga','Santa Maria','Gama']}

dic2 = {'FUNÇÃO':['Técnico','Operador','Diretor','Estagiário','Analista']}

df1 = DataFrame(data=dic1)
df2 = DataFrame(data=dic2)

In [33]:
df1.join(df2)

Unnamed: 0,NOME,CIDADE,FUNÇÃO
0,Lucio,Brasília,Técnico
1,Marilia,Águas Claras,Operador
2,Claudia,Taguatinga,Diretor
3,Lucas,Santa Maria,Estagiário
4,Gabriel,Gama,Analista


## Group By

In [63]:
dados = {'Produto':['Moto Kawasaki', 'Carro Cruze', 'Moto R1', 'Carro Range Rover', 'Carro Cruze', 'Carro Hilux', 'Carro BMW'],
        'Vendedor':['Lucas', 'Juliana', 'Marcos', 'Vanessa', 'Sarah', 'Jota', 'Marcos'],
        'Vendas':[10, 15, 25, 12, 9, 16, 20]}

In [64]:
df = DataFrame(dados); df

Unnamed: 0,Produto,Vendedor,Vendas
0,Moto Kawasaki,Lucas,10
1,Carro Cruze,Juliana,15
2,Moto R1,Marcos,25
3,Carro Range Rover,Vanessa,12
4,Carro Cruze,Sarah,9
5,Carro Hilux,Jota,16
6,Carro BMW,Marcos,20


In [54]:
# Agrupar
df.groupby('Produto')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f0f1d34ab10>

In [55]:
# Salvando em variavel
produtos = df.groupby('Produto')

In [56]:
# Grupos criados
produtos.groups

{'Carro BMW': [6], 'Carro Cruze': [1, 4], 'Carro Hilux': [5], 'Carro Range Rover': [3], 'Moto Kawasaki': [0], 'Moto R1': [2]}

In [94]:
# Total de vendas por produto
produtos.sum()

Unnamed: 0_level_0,Vendas
Produto,Unnamed: 1_level_1
Carro BMW,20
Carro Cruze,24
Carro Hilux,16
Carro Range Rover,12
Moto Kawasaki,10
Moto R1,25


In [95]:
# Média de vendas
produtos.mean()

Unnamed: 0_level_0,Vendas
Produto,Unnamed: 1_level_1
Carro BMW,20
Carro Cruze,12
Carro Hilux,16
Carro Range Rover,12
Moto Kawasaki,10
Moto R1,25


In [96]:
produtos.describe()

Unnamed: 0_level_0,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas,Vendas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Produto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Carro BMW,1.0,20.0,,20.0,20.0,20.0,20.0,20.0
Carro Cruze,2.0,12.0,4.242641,9.0,10.5,12.0,13.5,15.0
Carro Hilux,1.0,16.0,,16.0,16.0,16.0,16.0,16.0
Carro Range Rover,1.0,12.0,,12.0,12.0,12.0,12.0,12.0
Moto Kawasaki,1.0,10.0,,10.0,10.0,10.0,10.0,10.0
Moto R1,1.0,25.0,,25.0,25.0,25.0,25.0,25.0


In [97]:
# Contagem
produtos.count()

Unnamed: 0_level_0,Vendedor,Vendas
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
Carro BMW,1,1
Carro Cruze,2,2
Carro Hilux,1,1
Carro Range Rover,1,1
Moto Kawasaki,1,1
Moto R1,1,1


In [98]:
# Máximo
produtos.max()

Unnamed: 0_level_0,Vendedor,Vendas
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
Carro BMW,Marcos,20
Carro Cruze,Sarah,15
Carro Hilux,Jota,16
Carro Range Rover,Vanessa,12
Moto Kawasaki,Lucas,10
Moto R1,Marcos,25


In [99]:
# Mínimo
produtos.min()

Unnamed: 0_level_0,Vendedor,Vendas
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
Carro BMW,Marcos,20
Carro Cruze,Juliana,9
Carro Hilux,Jota,16
Carro Range Rover,Vanessa,12
Moto Kawasaki,Lucas,10
Moto R1,Marcos,25


In [104]:
# Total de vendas de um produto
produtos.sum().loc['Moto R1']

Vendas    25
Name: Moto R1, dtype: int64

In [105]:
# Mostra os que são unicos
produtos['Vendas'].unique()

Produto
Carro BMW               [20]
Carro Cruze          [15, 9]
Carro Hilux             [16]
Carro Range Rover       [12]
Moto Kawasaki           [10]
Moto R1                 [25]
Name: Vendas, dtype: object

In [68]:
# Usando level
by_produto = df.groupby('Produtos', level=0)

In [69]:
by_produto.mean()

Unnamed: 0,Vendas
0,10
1,15
2,25
3,12
4,9
5,16
6,20


## Funcionalidades e Mais recursos

In [69]:
# Dicionário com produto, valor e quantidade
dados = {'Produto': ['Smartphone', 'Óculos3D', 'SmartTV', 'Raspberry', 'Impressora3D', 'Câmera'], 
        'Preços': [1990, 299, 1900, 239, 1399, 799],
        'Quantidade': [10, 70, 68, 63, 36, 42]}
df = DataFrame(dados); df

Unnamed: 0,Produto,Preços,Quantidade
0,Smartphone,1990,10
1,Óculos3D,299,70
2,SmartTV,1900,68
3,Raspberry,239,63
4,Impressora3D,1399,36
5,Câmera,799,42


In [67]:
# Função
def vezes2(x):
    return x*2

In [70]:
df['Quantidade'].apply(vezes2)

0     20
1    140
2    136
3    126
4     72
5     84
Name: Quantidade, dtype: int64

In [72]:
# Com lambda
df['Quantidade'].apply(lambda x:x*x)

0     100
1    4900
2    4624
3    3969
4    1296
5    1764
Name: Quantidade, dtype: int64

In [75]:
# Ordenar Dataframe - Order by do SQL
df.sort_values(by='Produto', inplace=True); df

Unnamed: 0,Produto,Preços
5,Câmera,799
4,Impressora3D,1399
3,Raspberry,239
2,SmartTV,1900
0,Smartphone,1990
1,Óculos3D,299


In [78]:
data = {'Produto':['TV','Carro','TV','TV','Carro','Carro'],
     'Ano':[2020,2020, 2021, 2021,2020,2021],
       'Categoria':['Eletronicos','Veiculos','Eletronicos','Eletronicos','Veiculos','Veiculos'],
       'Quantidade':[1,3,2,5,4,1]}

In [79]:
df = DataFrame(data)

In [80]:
# Reajustar o dataframe
df.pivot_table(values='Quantidade',index=['Produto', 'Ano'],columns=['Categoria'])

Unnamed: 0_level_0,Categoria,Eletronicos,Veiculos
Produto,Ano,Unnamed: 2_level_1,Unnamed: 3_level_1
Carro,2020,,3.5
Carro,2021,,1.0
TV,2020,1.0,
TV,2021,3.5,


# Fim