# Ordenando Dados

In [1]:
# importando o pacote pandas do python
import pandas as pd

In [2]:
# carregando os dados do dataset em um objeto
dados = pd.read_excel("Dados.xlsx")

In [3]:
# visualizando os primeiros exemplos treinaveis
dados.head()

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
0,1,EM,0,,Ken,J,Sánchez,,0
1,2,EM,0,,Terri,Lee,Duffy,,1
2,3,EM,0,,Roberto,,Tamburello,,0
3,4,EM,0,,Rob,,Walters,,0
4,5,EM,0,Ms.,Gail,A,Erickson,,0


Observe que os dados originais estão seguindo a ordenação numérica dos índices. Com o atributo "**sort_values**", podemos escolher outras colunas como referência para ordenação ou até multiplas colunas com ordem de preferência, sejam elas com tipos de variáveis numéricas ou categóricas.

In [4]:
# escolhendo colunas especificas para serem referencias na ordenacao
dados.sort_values("FirstName")

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Entretanto, há uma entrada de nome "**inplace**" que, quando ela recebe o valor lógico verdadeiro, por mais que nenhuma atribuição direta esteja sendo feita, os registros serão modificados no objeto original.

In [5]:
# aplicando a ordenacao pela coluna especifica nos dados originais
dados.sort_values("FirstName", inplace = True)

In [6]:
# visualizando os primeiros exemplos treinaveis
dados.head()

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1


In [7]:
# carregando os dados do dataset em um objeto
dados = pd.read_excel("Dados.xlsx")

Como foi citado acima, é possível fazer uma ordenação seguindo a ordem de mais de um campo de dados. Vale a pena salientar que o primeiro campo da entrada no atributo "sort_values" terá mais relevância em relação a segunda entrada.

In [8]:
# fazendo ordenacao de dados com base em mais de uma coluna
dados.sort_values(["FirstName", "LastName"])

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Usando na entrada do atributo "sort_values" a propriedade "**ascending**", podemos delimitar se a ordenação será em ordem crescente ou decrescente, independente se o tipo de variável é numérica ou categórica.

In [9]:
# escolhendo a ordenacao do tipo crescente
dados.sort_values("FirstName", ascending = True)

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
351,413,SC,0,Mr.,Adam,,Barr,,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


In [10]:
# escolhendo a ordenacao do tipo decrescente
dados.sort_values("FirstName", ascending = False)

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
901,1513,VC,0,Mr.,Zheng,,Mu,,0
101,102,EM,0,,Zheng,W,Mu,,0
216,217,EM,0,,Zainal,T,Arifin,,1
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
...,...,...,...,...,...,...,...,...,...
351,413,SC,0,Mr.,Adam,,Barr,,1
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
221,222,EM,0,,A. Scott,,Wright,,0


Podemos também escolher a se a ordenação será ascendente ou descendente com base em mais de um campo de dados. Lembrando que a relevância de ordenação sempre será do primeiro campo informado.

In [11]:
# ordenacao com base em mais de uma coluna com mais de um tipo de ordenacao
dados.sort_values(["FirstName", "LastName"], ascending = [True, False])

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
984,1679,VC,0,Mr.,Adam,J.,Reynolds,Jr.,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Lembre-se que a escolha de boas variáveis além de ser uma boa prática de programação, é uma forma de tornar o código mais claro. Observe abaixo as três linhas de código escritas. Elas possuem a mesma finalidade que as linhas anteriores. Entretanto, são mais fáceis de entender.

In [12]:
# utilizando listas para fazer o processo de ordenacao
colunas = ["FirstName", "LastName"]
ordenacao = [True, False]
dados.sort_values(colunas, ascending = ordenacao)

Unnamed: 0,BusinessEntityID,PersonType,NameStyle,Title,FirstName,MiddleName,LastName,Suffix,EmailPromotion
797,1305,SC,0,,A.,Francesca,Leonetti,,2
221,222,EM,0,,A. Scott,,Wright,,0
508,727,SC,0,Mr.,Aaron,,Con,,0
632,975,SC,0,Ms.,Abigail,J.,Gonzalez,,0
984,1679,VC,0,Mr.,Adam,J.,Reynolds,Jr.,1
...,...,...,...,...,...,...,...,...,...
186,187,EM,0,,Yvonne,S,McKay,,0
862,1435,SC,0,Ms.,Yvonne,,McKay,,0
216,217,EM,0,,Zainal,T,Arifin,,1
101,102,EM,0,,Zheng,W,Mu,,0


Observe que o resultado foi o mesmo.

Portanto, foi estudando o uso do atributo "**sort_values**", pertencente a biblioteca "Pandas", para fazer a ordenação de dados. Assim, enriquecemos ainda mais nossa capacidade de fazer pré-processamento de dados usando a linguagem de programação Python.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)