# Manipulação de Dados com Pandas I

## Importando os dados

Neste exemplo, trabalharemos com dados do ShoeFly.com, uma loja de calçados online fictícia. Podemos carregar dados no Pandas de um arquivo csv (variável separada por vírgula). Esses dados representam compras no ShoeFly.com. Vamos examinar as primeiras 10 linhas do nosso conjunto de dados:

In [2]:
# solução
import pandas as pd
df = pd.read_csv('shoefly_orders.csv')
df.head(10)

Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
0,54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black
1,53450,Emily,Joyce,EmilyJoyce25@gmail.com,ballet flats,faux-leather,navy
2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
3,14437,Justin,Erickson,Justin.Erickson@outlook.com,clogs,faux-leather,red
4,79357,Andrew,Banks,AB4318@gmail.com,boots,leather,brown
5,52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black
6,20487,Thomas,Jensen,TJ5470@gmail.com,clogs,fabric,navy
7,76971,Janice,Hicks,Janice.Hicks@gmail.com,clogs,faux-leather,navy
8,21586,Gabriel,Porter,GabrielPorter24@gmail.com,clogs,leather,brown
9,62083,Frances,Palmer,FrancesPalmer50@gmail.com,wedges,leather,white


Note que o dataframe tem uma sequência de identificadores, os índices, mesmo tendo um outro identificador, o `id`, nesse exemplo. 

Poderíamos setar o índice para ser justamente esse `id`, com o comando a seguir: 

In [3]:
# solução
df.set_index('id')

Unnamed: 0_level_0,first_name,last_name,email,shoe_type,shoe_material,shoe_color
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black
53450,Emily,Joyce,EmilyJoyce25@gmail.com,ballet flats,faux-leather,navy
91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
14437,Justin,Erickson,Justin.Erickson@outlook.com,clogs,faux-leather,red
79357,Andrew,Banks,AB4318@gmail.com,boots,leather,brown
52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black
20487,Thomas,Jensen,TJ5470@gmail.com,clogs,fabric,navy
76971,Janice,Hicks,Janice.Hicks@gmail.com,clogs,faux-leather,navy
21586,Gabriel,Porter,GabrielPorter24@gmail.com,clogs,leather,brown
62083,Frances,Palmer,FrancesPalmer50@gmail.com,wedges,leather,white


Para retroceder e colocar o índice numérico como estava, basta:

In [5]:
# solução
df.reset_index()

Unnamed: 0,index,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
0,0,54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black
1,1,53450,Emily,Joyce,EmilyJoyce25@gmail.com,ballet flats,faux-leather,navy
2,2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
3,3,14437,Justin,Erickson,Justin.Erickson@outlook.com,clogs,faux-leather,red
4,4,79357,Andrew,Banks,AB4318@gmail.com,boots,leather,brown
5,5,52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black
6,6,20487,Thomas,Jensen,TJ5470@gmail.com,clogs,fabric,navy
7,7,76971,Janice,Hicks,Janice.Hicks@gmail.com,clogs,faux-leather,navy
8,8,21586,Gabriel,Porter,GabrielPorter24@gmail.com,clogs,leather,brown
9,9,62083,Frances,Palmer,FrancesPalmer50@gmail.com,wedges,leather,white


Veja que surgiu uma coluna extra, caso não precise, você pode acrescentar a flag `drop=True` (use `inplace=True` se não quiser retornar para uma nova variável)

In [6]:
# solução
df.reset_index(drop=True, inplace=True)
df

Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
0,54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black
1,53450,Emily,Joyce,EmilyJoyce25@gmail.com,ballet flats,faux-leather,navy
2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
3,14437,Justin,Erickson,Justin.Erickson@outlook.com,clogs,faux-leather,red
4,79357,Andrew,Banks,AB4318@gmail.com,boots,leather,brown
5,52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black
6,20487,Thomas,Jensen,TJ5470@gmail.com,clogs,fabric,navy
7,76971,Janice,Hicks,Janice.Hicks@gmail.com,clogs,faux-leather,navy
8,21586,Gabriel,Porter,GabrielPorter24@gmail.com,clogs,leather,brown
9,62083,Frances,Palmer,FrancesPalmer50@gmail.com,wedges,leather,white


Se você não sabe o nome das colunas para pesquisar, pode obter com o seguinte comando:

In [7]:
# solução
df.columns

Index(['id', 'first_name', 'last_name', 'email', 'shoe_type', 'shoe_material',
       'shoe_color'],
      dtype='object')

Para obter informações completas e detalhadas (para devs!), basta rodar o seguinte comando:

In [None]:
# solução
df.info

## Extraindo as primeiras informações

Se você quiser apenas os e-mails de todos os clientes, basta selecionar pela coluna:

In [9]:
# solução
emails = df.email
emails

0     RebeccaLindsay57@hotmail.com
1           EmilyJoyce25@gmail.com
2           Joyce.Waller@gmail.com
3      Justin.Erickson@outlook.com
4                 AB4318@gmail.com
5           JulieMarsh59@gmail.com
6                 TJ5470@gmail.com
7           Janice.Hicks@gmail.com
8        GabrielPorter24@gmail.com
9        FrancesPalmer50@gmail.com
10         JessicaHale25@gmail.com
11      LawrenceParker44@gmail.com
12         SusanDennis58@gmail.com
13                DO2680@gmail.com
14       Rebecca.Charles@gmail.com
15              JC2072@hotmail.com
16              VS4753@outlook.com
17          RoyTillman20@gmail.com
18       Thomas.Roberson@gmail.com
19         ANewton1977@outlook.com
Name: email, dtype: object

Ou selecionar nome, sobrenome e email, o que faz mais sentido:

In [11]:
# solução
customers_and_emails = df[['first_name', 'last_name', 'email']]
customers_and_emails	

Unnamed: 0,first_name,last_name,email
0,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com
1,Emily,Joyce,EmilyJoyce25@gmail.com
2,Joyce,Waller,Joyce.Waller@gmail.com
3,Justin,Erickson,Justin.Erickson@outlook.com
4,Andrew,Banks,AB4318@gmail.com
5,Julie,Marsh,JulieMarsh59@gmail.com
6,Thomas,Jensen,TJ5470@gmail.com
7,Janice,Hicks,Janice.Hicks@gmail.com
8,Gabriel,Porter,GabrielPorter24@gmail.com
9,Frances,Palmer,FrancesPalmer50@gmail.com


Podemos selecionar todos que pediram sandálias pretas.

In [17]:
# solução
df[(df.shoe_type == "sandals") & (df.shoe_color == 'black')]


Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
5,52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black


Ou quem pediu algum calçado branco ou preto?

In [20]:
# solução
df[df.shoe_color.isin(['black', 'white'])]

Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
0,54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black
2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black
5,52386,Julie,Marsh,JulieMarsh59@gmail.com,sandals,fabric,black
9,62083,Frances,Palmer,FrancesPalmer50@gmail.com,wedges,leather,white
12,45832,Susan,Dennis,SusanDennis58@gmail.com,ballet flats,fabric,white
14,73431,Rebecca,Charles,Rebecca.Charles@gmail.com,boots,faux-leather,white
16,39888,Vincent,Stephenson,VS4753@outlook.com,boots,leather,black
17,35961,Roy,Tillman,RoyTillman20@gmail.com,boots,leather,white


Vamos ver o que Susan Dennis pediu.

In [19]:
# solução
df[df.first_name == "Susan"]

Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color
12,45832,Susan,Dennis,SusanDennis58@gmail.com,ballet flats,fabric,white


Ainda é possível acessar diretamente usando `loc` ou `iloc`:

In [21]:
# solução
df.loc[(df.shoe_type == "sandals") & (df.shoe_color == 'black'), ['id','shoe_material']]

Unnamed: 0,id,shoe_material
2,91987,fabric
5,52386,fabric


In [23]:
df.iloc[1,4] #linha e coluna por numero 

'ballet flats'

Para criar novas colunas com valores baseados em condições usando função lambda, vamos ao seguinte exemplo: Muitos dos nossos clientes querem comprar sapatos veganos (sapatos feitos de materiais que não vêm de animais). Adicione uma nova coluna chamada `shoe_source`, que é `vegan` se os materiais não forem `leather` e `animal` caso contrário.

In [24]:
# solução
df["shoe_source"] = df.shoe_material.apply(lambda x: "vegan" if x != "leather" else "animal")
df.head()

Unnamed: 0,id,first_name,last_name,email,shoe_type,shoe_material,shoe_color,shoe_source
0,54791,Rebecca,Lindsay,RebeccaLindsay57@hotmail.com,clogs,faux-leather,black,vegan
1,53450,Emily,Joyce,EmilyJoyce25@gmail.com,ballet flats,faux-leather,navy,vegan
2,91987,Joyce,Waller,Joyce.Waller@gmail.com,sandals,fabric,black,vegan
3,14437,Justin,Erickson,Justin.Erickson@outlook.com,clogs,faux-leather,red,vegan
4,79357,Andrew,Banks,AB4318@gmail.com,boots,leather,brown,animal


## Operando Strings

Similares as funções nativas de Python, temos como saber o tamanho, rebaixar para minúsculas ou aumentar para maiúsculas, fazer replace, verificar se contém, ou ainda fazer split, sempre a partir da propriedade `str`:

In [27]:
# solução
df.first_name.str.len()
df.shoe_type.str.upper()
df.shoe_material.str.replace("fabric", "cotton")
df.email.str.contains("@gmail.com")
df.email.str.strip("@")

0     RebeccaLindsay57@hotmail.com
1           EmilyJoyce25@gmail.com
2           Joyce.Waller@gmail.com
3      Justin.Erickson@outlook.com
4                 AB4318@gmail.com
5           JulieMarsh59@gmail.com
6                 TJ5470@gmail.com
7           Janice.Hicks@gmail.com
8        GabrielPorter24@gmail.com
9        FrancesPalmer50@gmail.com
10         JessicaHale25@gmail.com
11      LawrenceParker44@gmail.com
12         SusanDennis58@gmail.com
13                DO2680@gmail.com
14       Rebecca.Charles@gmail.com
15              JC2072@hotmail.com
16              VS4753@outlook.com
17          RoyTillman20@gmail.com
18       Thomas.Roberson@gmail.com
19         ANewton1977@outlook.com
Name: email, dtype: object