# Selecionando Dados no Pandas

Agora que os passos iniciais foram dados, vamos avançar um pouco mais nos estudos da biblioteca "**Pandas**" do Python. Nesse arquivo, será trabalhado a ideia de **seleção de dados**.

In [1]:
# importando o pacote pandas do python
import pandas as pd

In [2]:
# abrindo os dados do dataset em um objeto
dados = pd.read_excel("Dados.xlsx")

In [3]:
# visualizandos os primeiros exemplos treinaveis
dados.head()

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0


É possível usar o atributo "head" para ler somente uma coluna especifica do dataset que está sendo trablhado através do objeto "dados". Entretanto, nenhuma alteração será feita nesse objeto.

In [4]:
# visualizando os primeiros exemplos treinaveis de uma coluna especifica
dados["FirstName"].head()

0        Ken
1      Terri
2    Roberto
3        Rob
4       Gail
Name: FirstName, dtype: object

In [5]:
# dimensao dos dados
dados.shape

(1000, 9)

In [6]:
# visualizando os 20 primeiros dados treinaveis de colunas especificas
dados[["FirstName", "MiddleName"]].head(20)

Unnamed: 0,FirstName,MiddleName
0,Ken,J
1,Terri,Lee
2,Roberto,
3,Rob,
4,Gail,A
5,Jossef,H
6,Dylan,A
7,Diane,L
8,Gigi,N
9,Michael,


In [7]:
# visualizando os dados de uma coluna especifica
dados.FirstName

0            Ken
1          Terri
2        Roberto
3            Rob
4           Gail
         ...    
995      Rebecca
996      Dorothy
997    Carol Ann
998        Scott
999          Jim
Name: FirstName, Length: 1000, dtype: object

Há também a possibilidade de criar novas colunas no nosso datasrt a partir de outras já existentes. Para isso, usamos operações simples com strings ou, dependendo do tipo de variável, com valores numéricas.

In [8]:
# criando uma nova coluna no dataset
dados["CompletedName"] = dados["FirstName"] + " " + dados["MiddleName"] + " " + dados["LastName"]

In [9]:
# visualizando os primeiros dados do dataset 
dados.head()

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion,CompletedName
0,1,EM,0,,Ken,J,Sánchez,,0,Ken J Sánchez
1,2,EM,0,,Terri,Lee,Duffy,,1,Terri Lee Duffy
2,3,EM,0,,Roberto,,Tamburello,,0,
3,4,EM,0,,Rob,,Walters,,0,
4,5,EM,0,Ms.,Gail,A,Erickson,,0,Gail A Erickson


In [10]:
# visualizando a coluna criada
dados.CompletedName

0            Ken J Sánchez
1          Terri Lee Duffy
2                      NaN
3                      NaN
4          Gail A Erickson
              ...         
995    Rebecca A. Robinson
996    Dorothy B. Robinson
997    Carol Ann F. Rockne
998       Scott M. Rodgers
999                    NaN
Name: CompletedName, Length: 1000, dtype: object

Vamos retornar as variáveis originais para continuarmos o nosso estudo em seleção de dados.

In [11]:
# abrindo os dados do dataset em um objeto 
dados = pd.read_excel("Dados.xlsx")

Vamos agora explorar o atributo "**loc**" e observar como ele pode nos ajudar a selecionar dados em um dataset.

In [12]:
# localizando exemplos treinaveis por indice
dados.loc[0]

BusinessEntityID          1
PersonType               EM
NameStyle                 0
Title                   NaN
FirstName               Ken
MiddleName                J
LastName            Sánchez
Suffix                  NaN
EmailPromotion            0
Name: 0, dtype: object

In [13]:
# localizando exemplos treinaveis por colunas especificas
dados.loc[0:10, "FirstName"]

0         Ken
1       Terri
2     Roberto
3         Rob
4        Gail
5      Jossef
6       Dylan
7       Diane
8        Gigi
9     Michael
10     Ovidiu
Name: FirstName, dtype: object

In [14]:
# localizando uma lista de exemplos treinaveis
dados.loc[[10,20,30,40]]

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
10,11,EM,0,,Ovidiu,V,Cracium,,0
20,21,EM,0,,Terry,J,Eminhizer,,2
30,31,EM,0,,Margie,W,Shoop,,2
40,41,EM,0,,Bryan,,Baker,,0


Observe que, após usar inúmeras vezes o atributo "loc", os dados originais permanecem inalterados. O motivo disso se dá pelo fato de que não foi feito em nenhum momento nenhuma atribuição no objeto "dados".

In [15]:
# localizando uma lista de exemplos treinaveis por colunas especificas
dados.loc[[10,20,30,40,50], ["FirstName", "MiddleName"]]

Unnamed: 0,FirstName,MiddleName
10,Ovidiu,V
20,Terry,J
30,Margie,W
40,Bryan,
50,Jeffrey,L


In [16]:
# localizando exemplos treinaveis por fatiamento de indices e de colunas
dados.loc[0:10, "FirstName":"LastName"]

Unnamed: 0,FirstName,MiddleName,LastName
0,Ken,J,Sánchez
1,Terri,Lee,Duffy
2,Roberto,,Tamburello
3,Rob,,Walters
4,Gail,A,Erickson
5,Jossef,H,Goldberg
6,Dylan,A,Miller
7,Diane,L,Margheim
8,Gigi,N,Matthew
9,Michael,,Raheem


Temos também um atributo muito semelhante ao "loc" chamado "**iloc**". Com ele, não temos a mesma mobilidade que o seu semelhante nos dá, devemos trabalhar somente com números inteiros, usando faixas numéricas ou interválos contínuos de números e intervalos descontínuos de números.

In [17]:
# pesquisando exemplos treinaveis por linhas e colunas especificas
dados.iloc[2:4, 3:8]

Unnamed: 0,Title,FirstName,MiddleName,LastName,Suffix
2,,Roberto,,Tamburello,
3,,Rob,,Walters,


In [18]:
# pesquisando exemplos treinaveis usando listas de linhas e colunas
dados.iloc[[1,2,3,4],[1,2,3,4]]

Unnamed: 0,PersonType,NameStyle,Title,FirstName
1,EM,0,,Terri
2,EM,0,,Roberto
3,EM,0,,Rob
4,EM,0,Ms.,Gail


Assim, podemos fazer seleção de dados usando a biblioteca "Pandas" do Python, um recurso de extrema utilidade na parte de pré-processamento de dados.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)