In [1]:
import pandas as pd

# Manipulando dados com pandas

In [2]:
# Cria um dicionário
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantins', 'Bahia', 'Minas Gerais'], 
         'Ano': [2004, 2005, 2006, 2007, 2008], 
         'Taxa Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}

In [3]:
from pandas import DataFrame

In [4]:
# convertendo um dicionario em um dataframe com o pandas

df = DataFrame(dados)

In [5]:
df.head()

Unnamed: 0,Estado,Ano,Taxa Desemprego
0,Santa Catarina,2004,1.5
1,Rio de Janeiro,2005,1.7
2,Tocantins,2006,1.6
3,Bahia,2007,2.4
4,Minas Gerais,2008,2.7


In [6]:
# podemos reorganizar as colunas em sequencia e definir um indexador no lugar de numeros como o padrao

df2 = DataFrame(dados,
                columns = ["Estado","Taxa Desemprego","Taxa Crescimento", "Ano"],
                index = ["estado1","estado2","estado3","estado4","estado5"])

In [7]:
df2

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [8]:
# verificar os valores

df2.values 

array([['Santa Catarina', 1.5, nan, 2004],
       ['Rio de Janeiro', 1.7, nan, 2005],
       ['Tocantins', 1.6, nan, 2006],
       ['Bahia', 2.4, nan, 2007],
       ['Minas Gerais', 2.7, nan, 2008]], dtype=object)

In [9]:
#verificar os tipos das colunas

df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [10]:
#verificando as colunas

df2.columns

Index(['Estado', 'Taxa Desemprego', 'Taxa Crescimento', 'Ano'], dtype='object')

In [11]:
# Imprimindo apenas uma coluna do Dataframe
df2['Estado']

estado1    Santa Catarina
estado2    Rio de Janeiro
estado3         Tocantins
estado4             Bahia
estado5      Minas Gerais
Name: Estado, dtype: object

In [12]:
# Imprimindo apenas duas colunas do Dataframe
df2[ ['Taxa Desemprego', 'Ano'] ]

Unnamed: 0,Taxa Desemprego,Ano
estado1,1.5,2004
estado2,1.7,2005
estado3,1.6,2006
estado4,2.4,2007
estado5,2.7,2008


In [13]:
# Filtrando pelo índice
df2.filter(items = ['estado3'], axis = 0)

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado3,Tocantins,1.6,,2006


# Usando numpy e pandas para manipulação

In [14]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,,2004
estado2,Rio de Janeiro,1.7,,2005
estado3,Tocantins,1.6,,2006
estado4,Bahia,2.4,,2007
estado5,Minas Gerais,2.7,,2008


In [15]:
df2.dtypes

Estado               object
Taxa Desemprego     float64
Taxa Crescimento     object
Ano                   int64
dtype: object

In [16]:
# Resumo estatístico do Dataframe
df2.describe()

Unnamed: 0,Taxa Desemprego,Ano
count,5.0,5.0
mean,1.98,2006.0
std,0.535724,1.581139
min,1.5,2004.0
25%,1.6,2005.0
50%,1.7,2006.0
75%,2.4,2007.0
max,2.7,2008.0


In [17]:
# verificando valores nulos no df

df2.isna()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,False,False,True,False
estado2,False,False,True,False
estado3,False,False,True,False
estado4,False,False,True,False
estado5,False,False,True,False


In [18]:
#verificando valores nulos na coluna especifica taxa de crescimento

df2['Taxa Crescimento'].isna()

estado1    True
estado2    True
estado3    True
estado4    True
estado5    True
Name: Taxa Crescimento, dtype: bool

In [19]:
# Importando o NumPy
import numpy as np

In [20]:
# como a coluna taxa crescimento esta vazia, podemos alimentar essa coluna atraves de uma funcao numpy

df2["Taxa Crescimento"] = np.arange(5.)

In [21]:
df2.head()

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007
estado5,Minas Gerais,2.7,4.0,2008


In [22]:
# verificando novamente valores nulos na coluna taxa crescimento

df2['Taxa Crescimento'].isna()

estado1    False
estado2    False
estado3    False
estado4    False
estado5    False
Name: Taxa Crescimento, dtype: bool

In [23]:
# Resumo estatístico do Dataframe
df2.describe()

Unnamed: 0,Taxa Desemprego,Taxa Crescimento,Ano
count,5.0,5.0,5.0
mean,1.98,2.0,2006.0
std,0.535724,1.581139,1.581139
min,1.5,0.0,2004.0
25%,1.6,1.0,2005.0
50%,1.7,2.0,2006.0
75%,2.4,3.0,2007.0
max,2.7,4.0,2008.0


# Slicing de dataframes do pandas

In [24]:
#faz um filtro trazendo do indice estado 2 ate o indice estado4

df2["estado2":"estado4"]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006
estado4,Bahia,2.4,3.0,2007


In [25]:
# fazendo um filtro em uma coluna

df2[df2["Taxa Desemprego"] < 2]

Unnamed: 0,Estado,Taxa Desemprego,Taxa Crescimento,Ano
estado1,Santa Catarina,1.5,0.0,2004
estado2,Rio de Janeiro,1.7,1.0,2005
estado3,Tocantins,1.6,2.0,2006


In [26]:
# retornando o dado de apenas uma coluna do df

df2["Taxa Crescimento"]

estado1    0.0
estado2    1.0
estado3    2.0
estado4    3.0
estado5    4.0
Name: Taxa Crescimento, dtype: float64

In [27]:
# para retornar somente uma coluna utilizamos 1 colchete, ja caso quisermos retornar mais de uma coluna, usamos 2 colchetes

df2[["Estado","Taxa Crescimento", "Ano"]]

Unnamed: 0,Estado,Taxa Crescimento,Ano
estado1,Santa Catarina,0.0,2004
estado2,Rio de Janeiro,1.0,2005
estado3,Tocantins,2.0,2006
estado4,Bahia,3.0,2007
estado5,Minas Gerais,4.0,2008


## Preenchendo Valores Ausentes em DataFrames do Pandas

A função fillna() é usada para preencher os valores ausentes. A função oferece muitas opções. Podemos usar um valor específico, uma função agregada (por exemplo, média) ou o valor anterior ou seguinte.

Para esse exemplo usaremos a moda, a estatística que representa o valor que aparece mais vezes em uma variável.

In [28]:
dsa_df = pd.read_csv("Notebooks/dataset_pd.csv")

In [29]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0


In [30]:
# a funcao isna os valores nulos e a funcao sum nos demonstra quantos valores nulos tem no df
# nesse caso a col quantidade tem 2 valores nulos

dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      2
dtype: int64

In [31]:
# calculando a moda da ds com o pandas, contando todos os valores que aparecem e pegando o primeiro que é a moda

moda = dsa_df['Quantidade'].value_counts().index[0]

In [32]:
moda

3.0

A moda em Estatística é uma medida de tendência central que representa o valor mais frequente em um conjunto de dados. 

A moda é especialmente útil quando queremos saber qual é o valor mais comum ou popular em um conjunto de dados, seja em uma distribuição unimodal (com apenas uma moda) ou em uma distribuição bimodal (com duas modas).

No entanto, a moda pode não ser tão representativa quanto outras medidas de tendência central, como a média e a mediana, especialmente em distribuições assimétricas ou quando há valores extremos. Por essa razão, é importante analisar diferentes medidas de tendência central e usar a que melhor se adequa aos objetivos da análise estatística.

In [33]:
# depois de calcularmos a moda, podemos preencher os valores nulos com a moda utilizando a funcao fillna
# nos parametros indicamos o valor que sera substituito e o inplace é que salva no df

dsa_df["Quantidade"].fillna(value = moda, inplace = True)

In [34]:
dsa_df.isna().sum()

ID_Pedido       0
Data_Pedido     0
ID_Cliente      0
Segmento        0
Pais            0
Regiao          0
ID_Produto      0
Categoria       0
Nome_Produto    0
Valor_Venda     0
Quantidade      0
dtype: int64

## Query (Consulta) de Dados no DataFrame do Pandas

Com o Pandas criamos dataframes, que são essencialmente tabelas. Como tal, podemos fazer consultas, ou simplesmente queries. E para isso usamos o método query(). Veja o exemplo abaixo:

In [35]:
# Checamos os valores mínimo e máximo da coluna Valor_Venda
dsa_df.Valor_Venda.describe()

count     9994.000000
mean       229.858001
std        623.245101
min          0.444000
25%         17.280000
50%         54.490000
75%        209.940000
max      22638.480000
Name: Valor_Venda, dtype: float64

In [36]:
# podemos usar uma query para criar um novo df, nesse caso ele vai filtrar vendas maiores que 766

df3 = dsa_df.query("Valor_Venda > 766")

df3.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
7,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002275,Technology,Mitel 5320 IP Phone VoIP phone,907.152,6.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.184,9.0
11,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,TEC-PH-10002033,Technology,Konftel 250 Conference phone - Charcoal black,911.424,4.0
24,CA-2015-106320,2015-09-25,EB-13870,Consumer,United States,West,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,1044.63,3.0


## Verificando a Ocorrência de Diversos Valores em Uma Coluna

Em nosso conjunto de dados de exemplo temos a coluna Quantidade que representa a quantidade de itens vendidos em cada uma das vendas. Imagine que precisamos saber em quais vendas foram vendidos 5, 7, 9 ou 11 itens. 

Como aplicaríamos esse tipo de filtro ao nosso dataframe?

Fácil. O Pandas oferece o método isin() para checar diversos valores em uma coluna. Quem conhece Linguagem SQL já deve ter percebido que o método é o mesmo que a cláusula IN em SQL. Vamos ao exemplo.

In [37]:
# podemos verificar a quantidade de linhas e colunas de um determinado df atraves do atributo shape

dsa_df.shape

(9994, 11)

In [38]:
# Então aplicamos o filtro
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])]

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.8600,7.0
9,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,OFF-AP-10002892,Office Supplies,Belkin F5C206VTEL 6 Outlet Surge,114.9000,5.0
10,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-TA-10001539,Furniture,Chromcraft Rectangular Conference Tables,1706.1840,9.0
14,US-2015-118983,2015-11-22,HP-14815,Home Office,United States,Central,OFF-AP-10002311,Office Supplies,Holmes Replacement Filter for HEPA Air Cleaner...,68.8100,5.0
...,...,...,...,...,...,...,...,...,...,...,...
9974,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-AR-10004752,Office Supplies,Blackstonian Pencils,18.6900,7.0
9977,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-FA-10003467,Office Supplies,"Alliance Big Bands Rubber Bands, 12/Pack",13.8600,7.0
9981,CA-2017-163566,2017-08-03,TB-21055,Consumer,United States,East,OFF-LA-10004484,Office Supplies,Avery 476,16.5200,5.0
9982,US-2016-157728,2016-09-22,RC-19960,Consumer,United States,Central,OFF-PA-10002195,Office Supplies,"RSVP Cards & Envelopes, Blank White, 8-1/2"" X ...",35.5600,7.0


Na instrução acima estamos filtrando o dataframe chamado df, retornando todas as linhas onde a coluna Quantidade for igual aos valores 5, 7, 9 ou 11. Passamos uma lista de valores como argumento para o método isin().

Vamos deixar um pouquinho mais divertido. Se você executou a instrução acima, percebeu que foram retornadas 2.128 linhas. E se quisermos retornar somente 10 linhas? É só fatiar o resultado assim:

In [39]:
# Shape
dsa_df[dsa_df['Quantidade'].isin([5,7,9,11])].shape

(2128, 11)

## Operadores Lógicos Para Manipulação de Dados com Pandas

Os operadores lógicos são excelentes para filtrar dataframes e retornar exatamente os dados que precisamos para nosso trabalho. Para conhecer mais sobre as regras dos operadores lógicos, acesse aqui:

https://pt.wikipedia.org/wiki/Operador_l%C3%B3gico

In [42]:
# operador AND podemos colocar as condicoes entre parenteses, depois dos colchetes

dsa_df[(dsa_df.Segmento == "Home Office") & (dsa_df.Regiao == "South")].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
182,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10003273,Technology,AT&T TR1909W,503.96,4.0
183,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-PH-10004896,Technology,Nokia Lumia 521 (T-Mobile),149.95,5.0
184,CA-2014-158274,2014-11-19,RM-19675,Home Office,United States,South,TEC-AC-10002345,Technology,HP Standard 104 key PS/2 Keyboard,29.0,2.0
231,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10001705,Furniture,Bush Advantage Collection Round Conference Table,233.86,2.0
232,US-2017-100930,2017-04-07,CS-12400,Home Office,United States,South,FUR-TA-10003473,Furniture,Bretford Rectangular Conference Table Tops,620.6145,3.0


In [43]:
# utilizando o OR

dsa_df[(dsa_df.Segmento == 'Home Office') | (dsa_df.Regiao == 'South')].tail()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
9979,US-2016-103674,2016-12-06,AP-10720,Home Office,United States,West,OFF-BI-10002026,Office Supplies,Ibico Recycled Linen-Style Covers,437.472,14.0
9980,US-2015-151435,2015-09-06,SW-20455,Consumer,United States,South,FUR-TA-10001029,Furniture,KI Adjustable-Height Table,85.98,1.0
9987,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-AC-10001539,Technology,Logitech G430 Surround Sound Gaming Headset wi...,79.99,1.0
9988,CA-2017-163629,2017-11-17,RA-19885,Corporate,United States,South,TEC-PH-10004006,Technology,Panasonic KX - TS880B Telephone,206.1,5.0
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.248,3.0


In [44]:
# Filtrando as vendas que não ocorreram para o segmento de Home Office e nem na região South
dsa_df[(dsa_df.Segmento != 'Home Office') & (dsa_df.Regiao != 'South')].sample(5)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
5673,CA-2017-127922,2017-10-27,SH-19975,Corporate,United States,Central,OFF-PA-10001204,Office Supplies,Xerox 1972,8.448,2.0
5189,US-2017-136679,2017-11-14,XP-21865,Consumer,United States,Central,TEC-AC-10004855,Technology,V7 USB Numeric Keypad,167.952,6.0
2210,CA-2014-125556,2014-11-14,ML-17410,Consumer,United States,East,OFF-BI-10003460,Office Supplies,Acco 3-Hole Punch,43.8,10.0
2189,CA-2017-143063,2017-08-10,IL-15100,Consumer,United States,Central,TEC-PH-10003645,Technology,Aastra 57i VoIP phone,1454.49,9.0
5727,CA-2017-117324,2017-12-08,JP-15520,Consumer,United States,Central,TEC-AC-10003023,Technology,Logitech G105 Gaming Keyboard,178.11,3.0


## Agrupamento de Dados em DataFrames com Group By

A função Pandas Groupby é uma função versátil e fácil de usar que ajuda a obter uma visão geral dos dados. Isso torna mais fácil explorar o conjunto de dados e revelar os relacionamentos entre as variáveis.

O código a seguir agrupará as linhas com base nas combinações Segmento/Regiao/Valor_Venda e nos dará a taxa média de vendas de cada grupo.

In [46]:
# agrupando o df com base na media do valor da venda

dsa_df[["Segmento","Regiao","Valor_Venda"]].groupby(["Segmento","Regiao"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda
Segmento,Regiao,Unnamed: 2_level_1
Consumer,Central,207.946728
Consumer,East,238.875539
Consumer,South,233.39018
Consumer,West,217.033955
Corporate,Central,234.763466
Corporate,East,228.516929
Corporate,South,238.992025
Corporate,West,235.265911
Home Office,Central,208.248046
Home Office,East,253.911805


Na instrução acima, primeiro filtramos os dados extraindo 3 colunas: ['Segmento','Regiao','Valor_Venda']. Na sequência, agrupamos por duas colunas: ['Segmento','Regiao']. E então calculamos a média para a coluna que ficou foram do group by, nesse caso a coluna Sales.

O comportamento do group by com Pandas é o mesmo observado na Linguagem SQL.

## Agregação Múltipla com Group By

Vamos explorar mais a função groupby() pois temos diversas opções de sumarização dos dados de forma simples. No exemplo abaixo uniremos a função groupby() com a função agg() para realiza agregação múltipla.

In [48]:
dsa_df[["Segmento","Regiao","Valor_Venda"]].groupby(["Segmento","Regiao"]).agg(["mean","std","count","sum"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor_Venda,Valor_Venda,Valor_Venda,Valor_Venda
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count,sum
Segmento,Regiao,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Consumer,Central,207.946728,587.906523,1212,252031.434
Consumer,East,238.875539,633.371169,1469,350908.167
Consumer,South,233.39018,559.346824,838,195580.971
Consumer,West,217.033955,551.997547,1672,362880.773
Corporate,Central,234.763466,818.947521,673,157995.8128
Corporate,East,228.516929,530.001654,877,200409.347
Corporate,South,238.992025,586.176947,510,121885.9325
Corporate,West,235.265911,471.288764,960,225855.2745
Home Office,Central,208.248046,371.00918,438,91212.644
Home Office,East,253.911805,722.777318,502,127463.726


## Filtrando DataFrame do Pandas com Base em Strings

O Pandas oferece diversas funções para manipulação de strings. Começaremos com o filtros de strings com base nas letras iniciais e finais.

In [51]:
# filtrando todos os segmentos que comecan com "con"

dsa_df[dsa_df.Segmento.str.startswith('Con')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


In [52]:
# Filtramos o dataframe pela coluna Segmento com valores que terminam com as letras 'mer'
dsa_df[dsa_df.Segmento.str.endswith('mer')].head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0
5,CA-2014-115812,2014-06-09,BH-11710,Consumer,United States,West,FUR-FU-10001487,Furniture,Eldon Expressions Wood and Plastic Desk Access...,48.86,7.0


## Split de Strings em DataFrames do Pandas

Com Pandas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

In [53]:
dsa_df["ID_Pedido"].head()

0    CA-2016-152156
1    CA-2016-152156
2    CA-2016-138688
3    US-2015-108966
4    US-2015-108966
Name: ID_Pedido, dtype: object

In [55]:
# dividindo a coluna id_pedido em outras 3 colunas separando por "-"

dsa_df["ID_Pedido"].str.split("-")

0       [CA, 2016, 152156]
1       [CA, 2016, 152156]
2       [CA, 2016, 138688]
3       [US, 2015, 108966]
4       [US, 2015, 108966]
               ...        
9989    [CA, 2014, 110422]
9990    [CA, 2017, 121258]
9991    [CA, 2017, 121258]
9992    [CA, 2017, 121258]
9993    [CA, 2017, 119914]
Name: ID_Pedido, Length: 9994, dtype: object

O pandas divide e inclui o resultado em uma lista python

In [56]:
# fazendo o split, capturando o resultado e incluindo em uma nova coluna no df

dsa_df["Ano"] = dsa_df["ID_Pedido"].str.split("-").str[1]

In [58]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


## Strip de Strings em DataFrames do Pandas

Cuidado para não confundir. Vimos o Split e agora veremos o Strip. São funções diferentes.

O Split divide a string. O Strip remove caracteres da string. Veja os exemplos.

In [59]:
dsa_df["Data_Pedido"].head()

0    2016-11-08
1    2016-11-08
2    2016-06-12
3    2015-10-11
4    2015-10-11
Name: Data_Pedido, dtype: object

A coluna 'Data_Pedido' é a data de envio do produto no formato YYYY-MM-DD. Imagine que seja necessário deixar o ano apenas com 2 dígitos sem alterar o tipo da variável. Fazemos isso com a função lstrip(), ou seja, left strip.

In [60]:
# removendo dois digitos do ano

dsa_df["Data_Pedido"].str.lstrip("20")

0       16-11-08
1       16-11-08
2       16-06-12
3       15-10-11
4       15-10-11
          ...   
9989    14-01-21
9990    17-02-26
9991    17-02-26
9992    17-02-26
9993    17-05-04
Name: Data_Pedido, Length: 9994, dtype: object

Como não usamos o inplace = True a mudança é somente na memória e não altera o dataframe. Podemos usar ainda as funções rstrip() e strip() com diferentes variações de strip de strings.

## Replace de Strings em DataFrames do Pandas

Se for necessário substituir caracteres dentro de uma string o Pandas oferece uma função para isso também.

Por exemplo, vamos substituir 2 caracteres em uma das colunas.

In [61]:
dsa_df["ID_Cliente"] = dsa_df["ID_Cliente"].str.replace("CG","AX")

In [62]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


## Combinação de Strings em DataFrames do Pandas

A função cat() pode ser usada para concatenar strings em um dataframe do Pandas.

Vamos criar uma nova coluna concatenando as colunas “ID_Pedido” e “Segmento” com o separador “-”.

In [63]:
dsa_df["Pedido_Segmento"] = dsa_df["ID_Pedido"].str.cat(dsa_df["Segmento"],sep = "-")

In [64]:
dsa_df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano,Pedido_Segmento
0,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016,CA-2016-152156-Consumer
1,CA-2016-152156,2016-11-08,AX-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016,CA-2016-152156-Consumer
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016,CA-2016-138688-Corporate
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015,US-2015-108966-Consumer
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015,US-2015-108966-Consumer
