# Data Science Academy

## Capítulo 10 - Manipulação de Dados com Pandas


### Usando Operadores Lógicos para Manipular Dados com Pandas

Os operadores lógicos são excelentes para filtrar dataframes e tetornar exatamente os dados que precisamos para nosso trabalho.

Primeiro usaremos o operador lógico __AND__ para chegar duas condições. Serão retornados os registros quando as duas condições forem verdadeiras

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('dataset.csv')

In [3]:
# Filtrando as vendas que ocorreram para o segmendo de Home Office e na região South
df[(df.Segmento == 'Home Office') & (df.Regiao == 'South')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
182,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10003273,Technology,AT&T TR1909W,503.96,4.0
183,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10004896,Technology,Nokia Lumia 521 (T-Mobile),149.95,5.0
184,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-AC-10002345,Technology,HP Standard 104 key PS/2 Keyboard,29.0,2.0
231,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10001705,Furniture,Bush Advantage Collection Round Conference Table,233.86,2.0
232,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10003473,Furniture,Bretford Rectangular Conference Table Tops,620.6145,3.0


In [4]:
# Filtrando as vendas que ocorreram para o Segmento Home Office ou Região South
df[(df.Segmento == 'Home Office') | (df.Regiao == 'South')].tail()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
9979,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-BI-10002026,Office Supplies,Ibico Recycled Linen-Style Covers,437.472,14.0
9980,US-2015-151435,2015-09-06,SW-20455,Consumer,United States,South,FUR-TA-10001029,Furniture,KI Adjustable-Height Table,85.98,1.0
9987,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-AC-10001539,Technology,Logitech G430 Surround Sound Gaming Headset wi...,79.99,1.0
9988,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-PH-10004006,Technology,Panasonic KX - TS880B Telephone,206.1,5.0
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.248,3.0


`Observação:` O método `head()` retorna os 5 primeiros registros. O método `tail()` retorna os 5 últimos registros do dataset. O método `sample()` usado abaixo retorna 5 amostras aleatórias da tabela.

In [5]:
# Filtrando as vendas que não ocorreram para o segmento Home Office e nem na região South
df[(df.Segmento != 'Home Office') & (df.Regiao != 'South')].sample(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
871,CA-2015-131128,2015-10-19,TB-21520,Consumer,United States,East,OFF-PA-10003591,Office Supplies,Southworth 100% Cotton The Best Paper,34.44,3.0
8819,CA-2015-142930,2015-11-28,EB-14170,Consumer,United States,Central,OFF-PA-10003395,Office Supplies,Xerox 1941,335.52,4.0
6793,CA-2015-145394,2015-11-16,MC-17605,Corporate,United States,Central,OFF-ST-10000344,Office Supplies,"Neat Ideas Personal Hanging Folder Files, Black",21.488,2.0
2894,CA-2017-139913,2017-10-23,JC-16105,Corporate,United States,East,FUR-FU-10000771,Furniture,"Eldon 200 Class Desk Accessories, Smoke",69.08,11.0
331,US-2016-150147,2016-04-25,JL-15850,Consumer,United States,East,TEC-PH-10004614,Technology,AT&T 841000 Phone,82.8,2.0


### Agrupamento de Dados em DataFrames com Group By
A função Pandas `Group By`é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis. 

Na instrução abaixo, primeiro filtramos os dados extraindo 3 colunas: ['Segmento', 'Regiao', 'Valor_Venda']. Na sequência, agrupamos por duas colunas ['Segmento', 'Regiao']. __E então calculamos a média para a coluna que ficou do groupby, nesse caso a coluna Valor_Venda.__ Esse comportamento também é observado em SQL.

In [6]:
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


#### Agregação Múltipla com o Group By

Na instrução abaixo, primeiro filtramos os dados extraindo 3 colunas ['Segmento', 'Regiao', 'Valor_Venda']. Na sequência, agrupamos por duas colunas ['Segmento', 'Regiao']. E então agregamos os dados calculando a média, desvio padrão e contagem de elementos para a coluna que ficou fora do group by, neste caso a coluna Valor_Venda.

- A função `agg()`recebe como argumento uma lista de funções para agregação.

In [7]:
df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Consumer,Central,207.946728,587.906523,1212
Consumer,East,238.875539,633.371169,1469
Consumer,South,233.39018,559.346824,838
Consumer,West,217.033955,551.997547,1672
Corporate,Central,234.763466,818.947521,673
Corporate,East,228.516929,530.001654,877
Corporate,South,238.992025,586.176947,510
Corporate,West,235.265911,471.288764,960
Home Office,Central,208.248046,371.00918,438
Home Office,East,253.911805,722.777318,502
