# Selecionando Dados no Pandas

Agora que os passos iniciais foram dados, vamos avançar um pouco mais nos estudos da biblioteca "**Pandas**" do Python. Nesse arquivo, será trabalhado a ideia de **seleção de dados**.

In [1]:
import pandas as pd
# importando a biblioteca "Pandas" do python

In [2]:
dados = pd.read_excel("Dados.xlsx")
# atribuindo os dados contidos na primeira aba do documento excel "Dados.xlsx" ao objeto inicializado
# "dados"

In [3]:
dados.head()
# observando os primerios dados armazenados em "dados" usando o atributo "head"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0


É possível usar o atributo "head" para ler somente uma coluna especifica do banco de dados que está sendo trablhado através do objeto "dados". Entretanto, nenhuma alteração será feita nesse objeto.

In [5]:
dados["FirstName"].head()
# selecionando uma ou n colunas por índice

0        Ken
1      Terri
2    Roberto
3        Rob
4       Gail
Name: FirstName, dtype: object

In [6]:
dados.shape
# observando as dimensões do vetor multidimensional, que é o própio objeto "dados"

(1000, 9)

In [7]:
dados[["FirstName", "MiddleName"]].head(20)
# fazemos uma lista dentro de outra lisa (vetor dentro de outro vetor) para visualizar mais de uma coluna
# do banco de dados, fazendo a seleção manualmente.

Unnamed: 0,FirstName,MiddleName
0,Ken,J
1,Terri,Lee
2,Roberto,
3,Rob,
4,Gail,A
5,Jossef,H
6,Dylan,A
7,Diane,L
8,Gigi,N
9,Michael,


In [8]:
dados.FirstName
# podemos selecionar como atributo do objeto cada coluna do banco de dados. Para fazer isso, o própio nome
# do atributo será o nome do campo de dados almejado

0            Ken
1          Terri
2        Roberto
3            Rob
4           Gail
         ...    
995      Rebecca
996      Dorothy
997    Carol Ann
998        Scott
999          Jim
Name: FirstName, Length: 1000, dtype: object

Há também a possibilidade de criar novas colunas no nosso banco de dados a partir de outras já existentes. Para isso, usamos operações simples com strings ou, dependendo do tipo de variável, com valores numéricas.

In [9]:
dados["CompletedName"] = dados["FirstName"] + " " + dados["MiddleName"] + " " + dados["LastName"]
# adicionando coluna nova de nome "CompletedName"
# observe que é necessário adicionar caracteres de espaços em brancos para que o nome do usuário completo
# não fique sem espaçamento entre as partes

In [10]:
dados.head(10)
# visualizando os 10 primeiros dados de usuários e também a nova coluna criada "CompletedName"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion,CompletedName
0,1,EM,0,,Ken,J,Sánchez,,0,Ken J Sánchez
1,2,EM,0,,Terri,Lee,Duffy,,1,Terri Lee Duffy
2,3,EM,0,,Roberto,,Tamburello,,0,
3,4,EM,0,,Rob,,Walters,,0,
4,5,EM,0,Ms.,Gail,A,Erickson,,0,Gail A Erickson
5,6,EM,0,Mr.,Jossef,H,Goldberg,,0,Jossef H Goldberg
6,7,EM,0,,Dylan,A,Miller,,2,Dylan A Miller
7,8,EM,0,,Diane,L,Margheim,,0,Diane L Margheim
8,9,EM,0,,Gigi,N,Matthew,,0,Gigi N Matthew
9,10,EM,0,,Michael,,Raheem,,2,


In [12]:
dados.CompletedName
# observando somente a coluna "CompletedName" e algumas propiedades do objeto

0            Ken J Sánchez
1          Terri Lee Duffy
2                      NaN
3                      NaN
4          Gail A Erickson
              ...         
995    Rebecca A. Robinson
996    Dorothy B. Robinson
997    Carol Ann F. Rockne
998       Scott M. Rodgers
999                    NaN
Name: CompletedName, Length: 1000, dtype: object

Vamos retornar as variáveis originais para continuarmos o nosso estudo em seleção de dados.

In [13]:
dados = pd.read_excel("Dados.xlsx")
# atribuindo ao objeto "dados" todas as informações do banco de dados "Dados.xlsx"

In [14]:
dados.head()
# visualizando os primeiros dados de usuários armazenados no objeto "dados"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0


Vamos agora explorar o atributo "**loc**" e observar como ele pode nos ajudar a selecionar dados em um banco de dados.

In [16]:
dados.loc[0]
# a entrada acima indica que só será visualizado os campos de dados do primeiros usuário
# em outras palavras, teremos a primeira e única entrada indicando a linha que estaremos trabalhando

BusinessEntityID          1
PersonType               EM
NameStyle                 0
Title                   NaN
FirstName               Ken
MiddleName                J
LastName            Sánchez
Suffix                  NaN
EmailPromotion            0
Name: 0, dtype: object

In [17]:
dados.loc[0:10, "FirstName"]
# nesse exemplo, há duas entradas: a primeira entrada é relativa as linhas e a segunda entrada é relativo
# as colunas. Observe que o atributo "loc" permite entradas mais dinâmicas, em que pode-se trabalhar com 
# seleções múltiplas, strings ou apenas inteiros

0         Ken
1       Terri
2     Roberto
3         Rob
4        Gail
5      Jossef
6       Dylan
7       Diane
8        Gigi
9     Michael
10     Ovidiu
Name: FirstName, dtype: object

In [18]:
dados.loc[[10,20,30,40]]
# usamos uma lista de vetor dentro de outra lista, na primeira entrada, para selecionar um número 
# específico de linhas

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
10,11,EM,0,,Ovidiu,V,Cracium,,0
20,21,EM,0,,Terry,J,Eminhizer,,2
30,31,EM,0,,Margie,W,Shoop,,2
40,41,EM,0,,Bryan,,Baker,,0


Observe que, após usar inúmeras vezes o atributo "loc", os dados originais permanecem inalterados. O motivo disso se dá pelo fato de que não foi feito em nenhum momento nenhuma atribuição no objeto "dados".

In [19]:
dados
# observando os dados armazenados no objeto "dados", esses que parmanecem inalterados

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0
...,...,...,...,...,...,...,...,...,...
995,1700,IN,0,Ms.,Rebecca,A.,Robinson,,0
996,1701,IN,0,Ms.,Dorothy,B.,Robinson,,2
997,1702,IN,0,Ms.,Carol Ann,F.,Rockne,,0
998,1703,IN,0,Mr.,Scott,M.,Rodgers,,0


In [20]:
dados.loc[[10,20,30,40,50], ["FirstName", "MiddleName"]]
# do mesmo medo, podemos usar duas listas de vetores dentro de outra. A primeira, relativa as linhas,
# indicará uma seleção específica de linhas para selecionadas a serem mostradas na saída de dados. Enquanto
# isso, a segunda entrada é um vetor de strings, essas que referenciam os campos de dados da coluna, para
# mostrar campos específicos na saída de dados. Poderiamos utilizar na segunda entrada números inteiros que
# obteriamos os mesmos resultados

Unnamed: 0,FirstName,MiddleName
10,Ovidiu,V
20,Terry,J
30,Margie,W
40,Bryan,
50,Jeffrey,L


In [21]:
dados.loc[0:10, "FirstName":"LastName"]
# usando seleção de faixas nas duas entradas, na primeira com números inteiros e na segunda usando strings

Unnamed: 0,FirstName,MiddleName,LastName
0,Ken,J,Sánchez
1,Terri,Lee,Duffy
2,Roberto,,Tamburello
3,Rob,,Walters
4,Gail,A,Erickson
5,Jossef,H,Goldberg
6,Dylan,A,Miller
7,Diane,L,Margheim
8,Gigi,N,Matthew
9,Michael,,Raheem


Temos também um atributo muito semelhante ao "loc" chamado "**iloc**". Com ele, não temos a mesma mobilidade que o seu semelhante nos dá, devemos trabalhar somente com números inteiros, usando faixas numéricas ou interválos contínuos de números e intervalos descontínuos de números.

In [22]:
dados.iloc[2:4, 3:8]
# usando o iloc, esse que possuí entradas de números inteiros, as duas entradas também são relativas as 
# linhas e as colunas, respectivamente

Unnamed: 0,Title,FirstName,MiddleName,LastName,Suffix
2,,Roberto,,Tamburello,
3,,Rob,,Walters,


In [23]:
dados.iloc[[1,2,3,4],[1,2,3,4]]
# usando uma lista de vetores dentro de outra lista, cada uma em uma entrada, essas que representam seleção
# em intervalos descontínuos

Unnamed: 0,PersonType,NameStyle,Title,FirstName
1,EM,0,,Terri
2,EM,0,,Roberto
3,EM,0,,Rob
4,EM,0,Ms.,Gail


Assim, podemos fazer seleção de dados usando a biblioteca "Pandas" do Python, um recurso de extrema utilidade na parte de pré-processamento de dados.

### Alguma dúvida? Entre em contato comigo:

- [Me Envie um E-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);