### Split de Strings em DataFrames do Pandas

Com pandas podemos realizar diversas tarefas de split de strings dividindo uma coluna ou extraindo elementos do nosso interesse. Vamos ao exemplo!

In [2]:
# importando biblioteca
import pandas as pd

In [3]:
# Criando o dataframe e corrigindo os valores vazios
df = pd.read_csv("dados/dataset.csv")

df['Quantidade'] = df.Quantidade.fillna(value=3.0)

In [4]:
# Exibindo base de dados
display(df)

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.9600,3.0
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.9400,3.0
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.6200,2.0
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.3680,2.0
...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2014-110422,2014-01-21,TB-21400,Consumer,United States,South,FUR-FU-10001889,Furniture,Ultra Door Pull Handle,25.2480,3.0
9990,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,FUR-FU-10000747,Furniture,Tenex B1-RE Series Chair Mats for Low Pile Car...,91.9600,2.0
9991,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,TEC-PH-10003645,Technology,Aastra 57i VoIP phone,258.5760,2.0
9992,CA-2017-121258,2017-02-26,DB-13060,Consumer,United States,West,OFF-PA-10004041,Office Supplies,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",29.6000,4.0


In [5]:
# Trabalhando com a coluna de ID
df['ID_Pedido'].head()

0    CA-2016-152156
1    CA-2016-152156
2    CA-2016-138688
3    US-2015-108966
4    US-2015-108966
Name: ID_Pedido, dtype: object

Este é o formato dos dados da coluna " ID_Pedido":

• CA-2016-152156

• US-2015-108966

Temos o país, o ano e o id do pedido. Vamos dividir essa coluna e extrair o ano para gravar em uma coluna:

Por que não podemos usar split() diretamente?
Se você tentasse executar df['ID_Pedido'].split('-'), receberia um erro como AttributeError: 'Series' object has no attribute 'split'. Isso acontece porque a estrutura Series como um todo não possui um método chamado split. O método split pertence a strings individuais, não a uma coleção de strings.

O Papel do .str
O acessador .str resolve esse problema. Ao usá-lo, você está dizendo ao Pandas: "Eu quero que você entre nesta Series, pegue cada um dos valores de texto que estão dentro dela, e aplique o método de string que vem a seguir (.split('-')) em cada um deles".

In [6]:
# Utilizando Split:
# split() é uma função muito útil e comum usada em strings (str) para dividir uma string 
# em uma lista de substrings.

# Split da coluna pelo caractere '-':
df['ID_Pedido'].str.split('-')

0       [CA, 2016, 152156]
1       [CA, 2016, 152156]
2       [CA, 2016, 138688]
3       [US, 2015, 108966]
4       [US, 2015, 108966]
               ...        
9989    [CA, 2014, 110422]
9990    [CA, 2017, 121258]
9991    [CA, 2017, 121258]
9992    [CA, 2017, 121258]
9993    [CA, 2017, 119914]
Name: ID_Pedido, Length: 9994, dtype: object

Observe que o resultado são as listas em Python. Para extrair o ano precisamos especificar o índice da posição que queremos extrair (em nosso caso a
posição 2, logo, índice 1 em Python):

📍.str[1]:
Esta é a parte mais interessante. Como a nossa Series agora contém listas, podemos usar o acessador .str novamente, mas de uma maneira diferente. Quando usado com colchetes [] (como em .str[1]), ele funciona como um seletor de índice para cada lista dentro da Series.

Neste caso, .str[1] acessa o elemento na posição de índice 1 (que é o segundo elemento, já que a contagem começa em 0) de cada lista.

In [7]:
# Extraindo o ano
df['ID_Pedido'].str.split('-').str[1].head()

0    2016
1    2016
2    2016
3    2015
4    2015
Name: ID_Pedido, dtype: object

In [8]:
# Criando a nova coluna Ano
df['Ano'] = df['ID_Pedido'].str.split('-').str[1]

In [9]:
# Exibindo o data frame com a nova coluna
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


### Strip de Strings em DataFrames do Pandas

Cuidado para não confundir. Vimos o Split e agora veremos o Strip. São funções diferentes.

O Split divide a string. O Strip remove caracteres da string. Veja os exemplos.

strip(): Muito usado para limpar dados inseridos por usuários, que podem conter espaços 
extras acidentalmente no início ou no fim.

lstrip(): Remove caracteres do início (lado esquerdo, "left strip").
rstrip(): Remove caracteres do fim (lado direito, "right strip").
strip(): Remove caracteres de ambos os lados (início e fim).

Você também pode passar uma string como argumento para indicar um conjunto de caracteres a serem removidos.

In [10]:
# Exibindo o df
df.head()

Unnamed: 0,ID_Pedido,Data_Pedido,ID_Cliente,Segmento,Pais,Regiao,ID_Produto,Categoria,Nome_Produto,Valor_Venda,Quantidade,Ano
0,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-BO-10001798,Furniture,Bush Somerset Collection Bookcase,261.96,3.0,2016
1,CA-2016-152156,2016-11-08,CG-12520,Consumer,United States,South,FUR-CH-10000454,Furniture,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3.0,2016
2,CA-2016-138688,2016-06-12,DV-13045,Corporate,United States,West,OFF-LA-10000240,Office Supplies,Self-Adhesive Address Labels for Typewriters b...,14.62,2.0,2016
3,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,FUR-TA-10000577,Furniture,Bretford CR4500 Series Slim Rectangular Table,957.5775,5.0,2015
4,US-2015-108966,2015-10-11,SO-20335,Consumer,United States,South,OFF-ST-10000760,Office Supplies,Eldon Fold 'N Roll Cart System,22.368,2.0,2015


A coluna 'Data_Pedido' é a data de envio do produto no formato YYYY-MM-DD. Imagine que seja necessário deixar o ano apenas com 2 dígitos sem alterar o tipo da variável. Fazemos isso com a função Istrip(), ou seja, Left strip.

In [11]:
#Removendo os digitos 2 e 0 à esquerda do valor da variável
df['Data_Pedido'].str.lstrip('20')

0       16-11-08
1       16-11-08
2       16-06-12
3       15-10-11
4       15-10-11
          ...   
9989    14-01-21
9990    17-02-26
9991    17-02-26
9992    17-02-26
9993    17-05-04
Name: Data_Pedido, Length: 9994, dtype: object

Como não usamos o inplace = True a mudança é somente na memória e não altera o dataframe. Podemos usar ainda as funções rstrip() e strip() com diferentes variações de strip de strings.