### Manipulando Dados em Dataframe do Pandas

In [72]:
import pandas as pd

In [73]:
pd.__version__

'1.2.4'

In [74]:
# Cria um dicionário
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [75]:
print(dados)

{'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 'Ano': [2004, 2005, 2006, 2007, 2008], 'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}


In [76]:
# Importar a função Dataframe do Pandas
from pandas import DataFrame

In [77]:
# Converte o dicionário em um Dataframe
df = DataFrame(dados)

In [78]:
# Visualiza as 3 primeiras linhas do Dataframe
df.head(3)

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6


In [79]:
type(df)

pandas.core.frame.DataFrame

In [80]:
# Reorganizando as colunas
DataFrame(dados, columns = ['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [81]:
# Criando outro dataframe com os mesmos dados anteriores, mas adicionando uma coluna
df2 = DataFrame(dados, 
                columns = ['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['estado1', 'estado2', 'estado3', 'estado4', 'estado5'])

In [82]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [83]:
# NaN => ausência de informação (não necessariamente a ausência de dados).
# O valor ausente pode vir direto da fonte. Ou o analista de dados pode acabar gerando esse valor durante 
# o processo de manipulação dos dados.

In [84]:
# Retorna os valores do Dataframe
df2.values

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [85]:
# Retorna o tipo de dado de cada coluna
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [86]:
# Listar as colunas
# O retonno será uma lista de strings
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [87]:
# Retornar apenas a coluna 'Estado'
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [88]:
# Linguagem Python é case sensitive
# Retorna um KeyError

# df2['estado']

In [89]:
# Filtrar por 2 colunas
df2[ ['Taxa Desemprego', 'Ano'] ]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [90]:
# Filtrar pelo index
df2.index

Index(['estado1', 'estado2', 'estado3', 'estado4', 'estado5'], dtype='object')

In [91]:
df2.filter(items=['estado3'], axis=0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006


#### Usando NumPy e Pandas Para Manipulação de Dados

In [92]:
# Resumo estatístico do Dataframe (faz o resumo somente de valores numéricos)
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [93]:
# Retorna True para valores ausentes e False quando não há valor ausente
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [94]:
df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [95]:
# Importando NumPy
import numpy as np

In [96]:
# Usar o NumPy para preencher a coluna 'Taxa Crescimento'
df2['Taxa Crescimento'] = np.arange(5.)


In [97]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [98]:
# Agora não há mais valores NaN
df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [99]:
# Agora a coluna Taxa Crescimento entra no resumo estatístico
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


#### Slicing de Dataframe do Pandas

In [100]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [101]:
# Retorna as linhas que estão entre o índice estado2 e estado4
# No Pandas o índice estado4 entra no resultado
df2['estado2':'estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007


In [102]:
# Retorna os valores da coluna Taxa Desemprego que são menores que 2
df2[ df2['Taxa Desemprego'] < 2 ]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006


In [103]:
df2 [['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
estado1,Santa Catarina,0.0
estado2,Rio de Janeiro,1.0
estado3,Tocantins,2.0
estado4,Bahia,3.0
estado5,Minas Gerais,4.0


#### Preenchendo Valores Ausentes em Dataframes do Pandas
Para este exemplo, usaremos a moda para preencher os valores ausentes. Moda é a estatística que representa o valor que aparece mais vezes em uma variável.

In [104]:
# Importando um  dataset
dsa_df = pd.read_csv('dataset.csv')

In [105]:
# Imprimir as 5 primeiras linhas do dataframe
dsa_df.head(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [106]:
# Somar os valores ausentes do Dataframe por coluna
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [107]:
# Mostrar o valor que aparece mais vezes (calcular a moda) da coluna 'Quatidade'
# value_counts() => traz a lista de valores e quantas vezes este apareceu
# index[0] => retorna o primero valor da lista, que é o que mais aparececeu
moda = dsa_df['Quantidade'].value_counts().index[0]
print(moda)

3.0


In [108]:
# Preenchemos o valor NaN com o valor etornado na moda
# inplace = True => funviona como um 'salve'. Faz com a alteração seja aplicada diretamente no Dataframe, e não em uma cópia
dsa_df['Quantidade'].fillna(value = moda, inplace = True)

In [109]:
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

#### Query de Dados no Dataframe Pandas

In [110]:
# Checar os valores mínimo e máximo da coluna 'Valor_Venda'
dsa_df.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valor_Venda) é de 0.44 a 22638. Abaixo, vamos fazer uma consulta e retornar todas as vendas dentro de um range de valores.

In [111]:
# Gerar um novo Dataframe apenas com os valores entre 229 e 10000
df3 = dsa_df.query('229 < Valor_Venda < 10000')

In [112]:
df3.Valor_Venda.describe()

count    2357.000000
mean      766.679142
std       856.315136
min       229.544000
25%       323.100000
50%       490.320000
75%       859.200000
max      9892.740000
Name: Valor_Venda, dtype: float64

In [113]:
df4 = df3.query('Valor_Venda > 766')
df4.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
11,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002033,Technology,Konftel 250 Conference phone - Charcoal black,911.424,4.0
24,CA-2015-106320,2015-09-25,EB-13870,Consumer,United States,West,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,1044.63,3.0


#### Verificando a Ocorrência de Diversos Valores em Uma Coluna
Precisamos saber em quais vendas foram vendidos a quantidade de 5, 7, 9, ou 11 itens.


In [114]:
# Retornar número de linhas e número de colunas
dsa_df.shape

(9994, 11)

In [115]:
# Aplicar o filtro
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.8600,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9000,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.1840,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5.0
...,...,...,...,...,...,...,...,...,...,...,...
9974,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-AR-10004752,Office Supplies,Blackstonian Pencils,18.6900,7.0
9977,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-FA-10003467,Office Supplies,"Alliance Big Bands Rubber Bands, 12/Pack",13.8600,7.0
9981,CA-2017-163566,2017-08-03,TB-21055,Consumer,United States,East,OFF-LA-10004484,Office Supplies,Avery 476,16.5200,5.0
9982,US-2016-157728,2016-09-22,RC-19960,Consumer,United States,Central,OFF-PA-10002195,Office Supplies,"RSVP Cards & Envelopes, Blank White, 8-1/2"" X ...",35.5600,7.0


In [116]:
# Aplicar o filtro + shape
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])].shape

(2128, 11)

In [117]:
# Visualizar somente as 10 primeiras linhas => [:10]
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])][:10]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


#### Agrupamento de Dados em Dataframes com Group By

In [118]:
# Selecionar somente 3 colunas. Agrupá-las por Segmento e Regiao. Retornar a média de Valor_Venda por este agrupamento
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


#### Agregação Múltipla com Group By
No exemplo abaixo uniremos a função groupby() com a função agg() para realizar agregação múltipla.

In [119]:
# std => desvio padrão
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502
