## Maninpulação com Pandas

In [1]:
import pandas as pd

In [2]:
pd.__version__

'2.2.2'

###Manipulando dados em Dataframes do Pandas

In [3]:
# Cria um dicionário
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', "Minas Gerais"],
         'Ano': [2004, 2005, 2006, 2007, 2008],
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [2]:
#Importa a função Dataframe do Pandas
from pandas import DataFrame

In [6]:
# Converte o dicionário em um dataframe
df = DataFrame(dados)

In [7]:
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [8]:
type(df)

pandas.core.frame.DataFrame

In [9]:
# Reorganizando as colunas
DataFrame(dados, columns=['Estado', 'Taxa Desemprego', 'Ano'])

Unnamed: 0,Estado,Taxa Desemprego,Ano
0,Santa Catarina,1.5,2004
1,Rio de Janeiro,1.7,2005
2,Tocantins,1.6,2006
3,Bahia,2.4,2007
4,Minas Gerais,2.7,2008


In [10]:
# Criando outro dataframe com os mesmos dados anteriores, mas adicionando uma coluna
df2 = DataFrame(dados, 
                columns=['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'],
                index = ['Estado1', 'Estado2', 'Estado3', 'Estado4', 'Estado5'])

In [11]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado1,Santa Catarina,1.5,,2004
Estado2,Rio de Janeiro,1.7,,2005
Estado3,Tocantins,1.6,,2006
Estado4,Bahia,2.4,,2007
Estado5,Minas Gerais,2.7,,2008


In [12]:
df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [13]:
# Imprimindo apenas uma coluna do Dataframe
df2['Estado']

Estado1    Santa Catarina
Estado2    Rio de Janeiro
Estado3         Tocantins
Estado4             Bahia
Estado5      Minas Gerais
Name: Estado, dtype: object

In [15]:
# Imprimindo apenas duas colunad do Dataframe
df2[['Taxa Desemprego', 'Ano']]

Unnamed: 0,Taxa Desemprego,Ano
Estado1,1.5,2004
Estado2,1.7,2005
Estado3,1.6,2006
Estado4,2.4,2007
Estado5,2.7,2008


In [16]:
df2.index

Index(['Estado1', 'Estado2', 'Estado3', 'Estado4', 'Estado5'], dtype='object')

In [17]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [18]:
# Filtrando pelo índice
df2.filter(items=['Estado3'], axis=0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado3,Tocantins,1.6,,2006


###Usando NumPy e Pandas para manipulação de Dados

In [1]:
import numpy as np

In [20]:
df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado1,False,False,True,False
Estado2,False,False,True,False
Estado3,False,False,True,False
Estado4,False,False,True,False
Estado5,False,False,True,False


In [22]:
df2['Taxa Crescimento'].isna()

Estado1    True
Estado2    True
Estado3    True
Estado4    True
Estado5    True
Name: Taxa Crescimento, dtype: bool

In [21]:
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [23]:
df2['Taxa Crescimento'] = np.arange(5.)

In [24]:
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


In [25]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado1,Santa Catarina,1.5,0.0,2004
Estado2,Rio de Janeiro,1.7,1.0,2005
Estado3,Tocantins,1.6,2.0,2006
Estado4,Bahia,2.4,3.0,2007
Estado5,Minas Gerais,2.7,4.0,2008


### Slicing de Dataframes do Pandas

In [26]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado1,Santa Catarina,1.5,0.0,2004
Estado2,Rio de Janeiro,1.7,1.0,2005
Estado3,Tocantins,1.6,2.0,2006
Estado4,Bahia,2.4,3.0,2007
Estado5,Minas Gerais,2.7,4.0,2008


In [27]:
df2['Estado2' : 'Estado4']

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado2,Rio de Janeiro,1.7,1.0,2005
Estado3,Tocantins,1.6,2.0,2006
Estado4,Bahia,2.4,3.0,2007


In [28]:
df2[df2['Taxa Desemprego'] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
Estado1,Santa Catarina,1.5,0.0,2004
Estado2,Rio de Janeiro,1.7,1.0,2005
Estado3,Tocantins,1.6,2.0,2006


In [29]:
df2[['Estado', 'Taxa Crescimento']]

Unnamed: 0,Estado,Taxa Crescimento
Estado1,Santa Catarina,0.0
Estado2,Rio de Janeiro,1.0
Estado3,Tocantins,2.0
Estado4,Bahia,3.0
Estado5,Minas Gerais,4.0


### Preenchendo Valores Ausentes em Dataframes do Pandas
A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (por exemplo , média) ou o valor anterior ou seguinte.
Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variável.

In [4]:
import pandas as pd

In [5]:
# Primeiro importamos um dataset
dsa_df = pd.read_csv("dataset.csv")

In [7]:
dsa_df.head(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [9]:
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [10]:
# Extraimos a moda da coluna Quantity
moda = dsa_df['Quantidade'].value_counts().index[0]

A moda em estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados.
A moda é especialmente útil quando queremos savber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição ( com duas modas).
No entanto, a moda pode não ser tão representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos. Por essa razão, é importante analisar medidas de tendência central e usar a que melhor se sdequaadequa aos objetivos da análise estatística

In [11]:
print(moda)

3.0


In [13]:
# e por fim preenchemos os valores NA com a moda
dsa_df['Quantidade'].fillna(value = moda, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  dsa_df['Quantidade'].fillna(value = moda, inplace=True)


In [14]:
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

###Query(Consulta) de Dados no Dataframe do Pandas
Com o Pandas criamos dataframes, que são essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamos o método query(). Veja o exemplo abaixo:

In [15]:
#Checamos os valores mínimos e máximo da coluna Valor_Venda
dsa_df.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

O intervalo de vendas (Valor_Venda) é de 0.44 a 22638. Vamos fazer uma consulta para retornar todas as vendas dentro de um range de valores. Fazemos isso com a instrução abaixo:

In [24]:
# Gerando um novo dataframe apenas com o intervalo de vendas entr 229 e 10000
df2 = dsa_df.query('229 < Valor_Venda < 10000')

In [25]:
#Então confirmamos os valores mínimos e máximo
df2.Valor_Venda.describe()

count    2357.000000
mean      766.679142
std       856.315136
min       229.544000
25%       323.100000
50%       490.320000
75%       859.200000
max      9892.740000
Name: Valor_Venda, dtype: float64

In [26]:
# Geramos um novo dataframe apenas com os valores de venda acima da média
df3 = df2.query('Valor_Venda > 766')

In [27]:
df3.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
11,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002033,Technology,Konftel 250 Conference phone - Charcoal black,911.424,4.0
24,CA-2015-106320,2015-09-25,EB-13870,Consumer,United States,West,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,1044.63,3.0


###Verificando a Ocorrência de diversos valores em uma coluna
Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos savber em quais vendas foram vendidos 5, 7, 9 ou 11 itens.
Como aplicaríamos esse tipo de filtro ao nosso dataframe ?
Fácil. O Pandas oferece um método isin() ára checar diversos valores em uma coluna. Quem conhece Linguagem SQL já deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo

In [28]:
# Shape - Retorna o numero de linhas e numero de colunas
dsa_df.shape

(9994, 11)

In [29]:
# Então aplicamos o filtro
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.8600,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9000,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.1840,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5.0
...,...,...,...,...,...,...,...,...,...,...,...
9974,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-AR-10004752,Office Supplies,Blackstonian Pencils,18.6900,7.0
9977,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-FA-10003467,Office Supplies,"Alliance Big Bands Rubber Bands, 12/Pack",13.8600,7.0
9981,CA-2017-163566,2017-08-03,TB-21055,Consumer,United States,East,OFF-LA-10004484,Office Supplies,Avery 476,16.5200,5.0
9982,US-2016-157728,2016-09-22,RC-19960,Consumer,United States,Central,OFF-PA-10002195,Office Supplies,"RSVP Cards & Envelopes, Blank White, 8-1/2"" X ...",35.5600,7.0


Na instrução acima estamos filtrando o dataframe chamando df, retornando todas as linhas onde a coluna Quantiadade for igujal aos valores 5, 7, 9 ou 11.
Passamos uma lista de valores como argumento para o médoto isin().
Vamos deixar um pouquinho mais divertido. Se voce executou a instrução acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas? É só fatiar o resulta assim:

In [30]:
# shape
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])].shape

(2128, 11)

In [31]:
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])][:10]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.81,5.0
21,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AR-10000246,Office Supplies,Newell 318,19.46,7.0
22,CA-2016-137330,2016-12-09,KB-16585,Corporate,United States,Central,OFF-AP-10001492,Office Supplies,"Acco Six-Outlet Power Strip, 4' Cord Length",60.34,7.0
27,US-2015-150630,2015-09-17,TB-21520,Consumer,United States,East,FUR-BO-10004834,Furniture,"Riverside Palais Royal Lawyers Bookcase, Royal...",3083.43,7.0
35,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,TEC-PH-10004977,Technology,GE 30524EE4,1097.544,7.0
36,CA-2016-117590,2016-12-08,GH-14485,Corporate,United States,Central,FUR-FU-10003664,Furniture,"Electrix Architect's Clamp-On Swing Arm Lamp, ...",190.92,5.0


###Operadores Lógicos para manipulação de dados com pandas
Os operadores lógicos são excelentes para filtrar dataframes e retornar exatamente os dados que precisamos para nosso trabalho. Para conhecer mais sobre as regras dos operadores lógicos, acessi aqui:
https://pt.wikipedia.org/wiki/Operator_I%C3%B3gico

Primeiro usaremos o operador lógico AND para checar duas condições. SErão retornados os registros quando duas condições forem verdadeiras.

In [33]:
# Filtrando as vendas que ocorreram para o segmento de Home Office e na Região South
dsa_df[ (dsa_df.Segmento == 'Home Office') & (dsa_df.Regiao == 'South')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
182,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10003273,Technology,AT&T TR1909W,503.96,4.0
183,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10004896,Technology,Nokia Lumia 521 (T-Mobile),149.95,5.0
184,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-AC-10002345,Technology,HP Standard 104 key PS/2 Keyboard,29.0,2.0
231,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10001705,Furniture,Bush Advantage Collection Round Conference Table,233.86,2.0
232,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10003473,Furniture,Bretford Rectangular Conference Table Tops,620.6145,3.0


Mas pode ser necessário checar duas condições e retornar os registros se pelo menos uma for verdadeira. NEsse caso usamos o operador OR, conforme abaixo.

In [34]:
# Filtrando as vendas que ocorreram para o segmento Home office ou região South
dsa_df[ (dsa_df.Segmento == 'Home Office') | (dsa_df.Regiao == 'South')].tail()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
9979,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-BI-10002026,Office Supplies,Ibico Recycled Linen-Style Covers,437.472,14.0
9980,US-2015-151435,2015-09-06,SW-20455,Consumer,United States,South,FUR-TA-10001029,Furniture,KI Adjustable-Height Table,85.98,1.0
9987,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-AC-10001539,Technology,Logitech G430 Surround Sound Gaming Headset wi...,79.99,1.0
9988,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-PH-10004006,Technology,Panasonic KX - TS880B Telephone,206.1,5.0
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.248,3.0


Operador de negação é o contrário do primeiro exemplo

In [35]:
# Filtrando as vendas que não ocorreram para o segmento de Home Office e nem a região South
dsa_df[ (dsa_df.Segmento != 'Home Office') & (dsa_df.Regiao != 'South')].sample(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
8894,CA-2016-167241,2016-08-15,BD-11320,Consumer,United States,West,FUR-FU-10004071,Furniture,Luxo Professional Magnifying Clamp-On Fluoresc...,312.03,3.0
7394,CA-2017-147844,2017-05-02,DD-13570,Consumer,United States,West,OFF-PA-10002713,Office Supplies,"Adams Phone Message Book, 200 Message Capacity...",34.4,5.0
8220,CA-2014-120775,2014-10-03,RD-19930,Consumer,United States,Central,OFF-BI-10002609,Office Supplies,Avery Hidden Tab Dividers for Binding Systems,1.788,3.0
3868,CA-2015-132486,2015-10-23,JF-15355,Consumer,United States,West,FUR-CH-10004495,Furniture,"Global Leather and Oak Executive Chair, Black",240.784,1.0
1624,CA-2015-157084,2015-12-19,JG-15160,Consumer,United States,West,TEC-PH-10002922,Technology,ShoreTel ShorePhone IP 230 VoIP phone,675.96,5.0


###Agrupamento de Dados em Dataframes com Grou By

A função Pandfas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.
O código a seguir agrupará as linhas com base nas combinações Segmento/Regiao/Valor_Venda e nos dará a taxa média de vendas de cada grupo.

In [39]:
#Aplicamos o group by
dsa_df[ ['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao, 'Valor_venda']. Na sequência, agrupamos por duas colunas:
['Segmento', 'Regiao']. E então calculamos a média para a coluna quie ficou foram do group by, nesse caso a coluna Sales.
O comportamento do Group by com pandas é o mesmo observado na Linguagem SQL.

### Agregação Múltipla com Group By
Vamos explorar mais uma função groupby() pois temos diversas oppções de sumarização dos dados de forma simples,. No exemplo abaixo uniremos a função groupby() com a função agg() para realizar agragação múltipla.

In [40]:
# Aplicando o group by
dsa_df[ ['Segmento', 'Regiao', 'Valor_Venda'] ].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao', 'Valor_venda']. Na sequência, agrupamos por duas colunas:
['Segmento', 'Regiao']. E então agragamos os dados calculando a média, desvio padrão e contagem de elementos para a coluna que ficou de gora dos group by, nesse caso a coluna Valor_venda.
A gunção agg() recebe como argumento uma lista de funções para agregação.

### Filtrando Dataframe do Pandas com Base em Strings
O Pandas oferece diversas funções para minipulação de sgtrings. Começaremos com os filtros de strings com base nas letras iniciais e finais.

In [41]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [45]:
# Filtramos o dataframe pela coluna Segmento com valores que iniciam com as letras 'Con'
dsa_df[dsa_df.Segmento.str.startswith('Con')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


In [46]:
# Filtramos o dataframe pela coluna Segmento com valores que iniciam com as letras 'mer'
dsa_df[dsa_df.Segmento.str.startswith('mer')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
