# Ordenando Dados

Nesse arquivo, vamos trabalhar com ordenação de dados usando a biblioteca "Pandas" do Python. Com isso, enriquecemos mais nossos conhecimentos em pré-processamento de dados usando essa linguagem de programação.

In [1]:
import pandas as pd
# importando a biblioteca Pandas do python

In [2]:
dados = pd.read_excel("Dados.xlsx")
# atribuindo ao objeto "dados" o banco de dados armazenado no arquivo "Dados.xlsx"

In [3]:
dados
# visualizando os dados continudos no objeto 

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0
...,...,...,...,...,...,...,...,...,...
995,1700,IN,0,Ms.,Rebecca,A.,Robinson,,0
996,1701,IN,0,Ms.,Dorothy,B.,Robinson,,2
997,1702,IN,0,Ms.,Carol Ann,F.,Rockne,,0
998,1703,IN,0,Mr.,Scott,M.,Rodgers,,0


Observe que os dados originais estão seguindo a ordenação numérica dos índices. Com o atributo "**sort_values**", podemos escolher outras colunas como referência para ordenação ou até multiplas colunas com ordem de preferência, sejam elas com tipos de variáveis numéricas ou categóricas.

In [4]:
dados.sort_values("FirstName")
# usando o atributo "sort_values" para ordenar a sequência de usuários através da coluna informada na 
# entrada de dados. No exemplo acima, a ordenação será feita com base no campo de dados "FirstName"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


In [5]:
dados.sort_values("FirstName").head(50)
# usando o atributo "head" para visualizar a ordenação com "sort_values" referenciado pelo campo de dados
# sort_values

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
984,1679,VC,0,Mr.,Adam,J.,Reynolds,Jr.,1
562,835,SC,0,Sr.,Adrian,,Dumitrascu,,0
538,787,SC,0,Ms.,Aidan,,Delaney,,0
835,1381,SC,0,Mr.,Ajay,,Manchepalli,,0
406,523,SC,0,Mr.,Alan,,Brewer,,1


Observe também que nenhuma atrbuição foi feita no nosso objeto "dados", pois não houve nenhuma atribuição a ele.

In [6]:
dados.head()
# veja que os dados originais permanecem inalterados

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0


Entretanto, há uma entrada de nome "**inplace**" que, quando ela recebe o valor lógico verdadeiro, por mais que nenhuma atribuição direta esteja sendo feita a "dados", os registros serão modificados no objeto original.

In [7]:
dados.sort_values("FirstName", inplace = True)
# podemos usar o inplace para modificar os dados no objeto que está sendo trabalhado

In [8]:
dados
# observe que os dados originais foram modificados e, agora, a ordenação dos usuários não se dá mais pelo
# índice, mas sim pelo campo de dados "First Name"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


In [9]:
dados = pd.read_excel("Dados.xlsx")
# atribundo o banco de dados armazenado no arquivo "Dados.xlsx" ao nosso objeto novamente para que ele 
# retorne com os dados originais

In [10]:
dados
# observando que os dados originais permanecem inalterados e a ordenação dos usuários segue com referência 
# ao índice

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0
...,...,...,...,...,...,...,...,...,...
995,1700,IN,0,Ms.,Rebecca,A.,Robinson,,0
996,1701,IN,0,Ms.,Dorothy,B.,Robinson,,2
997,1702,IN,0,Ms.,Carol Ann,F.,Rockne,,0
998,1703,IN,0,Mr.,Scott,M.,Rodgers,,0


Como foi citado acima, é possível fazer uma ordenação seguindo a ordem de mais de um campo de dados. Vale a pena salientar que o primeiro campo da entrada no atributo "sort_values" terá mais relevância em relação a segunda entrada.

In [12]:
dados.sort_values(["FirstName", "LastName"])
# usando o "sort_values" para fazer uma ordenação com base em mais de um campo de dados. No exemplo acima,
# "FirstName" terá mais relevância que "LastName"

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Usando na entrada do atributo "sort_values" a propriedade "**ascending**", podemos delimitar se a ordenação será em ordem crescente ou decrescente, independente se o tipo de variável é numérica ou categórica.

In [13]:
dados.sort_values("FirstName", ascending = True)
# usando a propiedade "ascending" no atributo "sort_values" para indicar se a ordenação e crescente ou 
# decrescente usando valores lógicos. No exemplo acima, indicamos que a ordenação possuirá como referência
# o campo de dados "FirstName" de forma ascendente

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


In [14]:
dados.sort_values("FirstName", ascending = False)
# usando a propiedade "ascending" no atributo "sort_values" para indicar se a ordenação e crescente ou 
# decrescente usando valores lógicos. No exemplo acima, indicamos que a ordenação possuirá como referência
# o campo de dados "FirstName" de forma não ascendente

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
901,1513,VC,0,Mr.,Zheng,,Mu,,0
101,102,EM,0,,Zheng,W,Mu,,0
216,217,EM,0,,Zainal,T,Arifin,,1
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
...,...,...,...,...,...,...,...,...,...
351,413,SC,0,Mr.,Adam,,Barr,,1
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
221,222,EM,0,,A. Scott,,Wright,,0


Podemos também escolher a se a ordenação será ascendente ou descendente com base em mais de um campo de dados. Lembrando que a relevância de ordenação sempre será do primeiro campo informado.

In [15]:
dados.sort_values(["FirstName", "LastName"], ascending = [True, False])
# usando a propiedade "ascending" no atributo "sort_values" para indicar se a ordenação e crescente ou 
# decrescente usando valores lógicos. No exemplo acima, indicamos que a ordenação possuirá como referência
# os campos de dados "FirstName" e "LastName", com respectivas relevâncias, sendo que "FirstName" será 
# ordenado de forma ascendente e "LastName" será ordenado de forma não ascendente. Para fazer isso, será
# usado uma lista de vetores dentro de outra lista

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
984,1679,VC,0,Mr.,Adam,J.,Reynolds,Jr.,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Lembre-se que a escolha de boas variáveis além de ser uma boa prática de programação, é uma forma de tornar o código mais claro. Observe abaixo as três linhas de código escritas. Elas possuem a mesma finalidade que as linhas anteriores. Entretanto, são mais fáceis de entender.

In [16]:
# criando uma lista que faz referência ao nome dos campos de dados do dataframe
colunas = ["FirstName", "LastName"]
# criando uma lista de valores lógicos que fazem referência ao tipo de ordenação ascendente dos respectivos
# campos de dados
ordenacao = [True, False]
# usando o atributo "sort_values" com as entradas fazendo uso das listas inicializadas acima
dados.sort_values(colunas, ascending = ordenacao)

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
984,1679,VC,0,Mr.,Adam,J.,Reynolds,Jr.,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Observe que o resultado foi o mesmo.

Portanto, foi estudando o uso do atributo "**sort_values**", pertencente a biblioteca "Pandas", para fazer a ordenação de dados. Assim, enriquecemos ainda mais nossa capacidade de fazer pré-processamento de dados usando a linguagem de programação Python.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);