In [1]:
import pandas as pd
import numpy as np

In [2]:
np.random.seed(10)
n = 50_000

escolaridade = ['Ensino Fundamental', 'Ensino Médio', 'Ensino Superior']

data = {
    'Id': np.arange(1, n+1),
    'Idade': np.random.randint(18, 70, size = n),
    'Renda': np.random.randint(1_500, 10_000, size = n),
    'Sexo': np.random.choice(['Masculino', 'Feminino'], size = n),
    'Escolaridade': np.random.choice(escolaridade, size = n)
}

df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,1,27,2554,Feminino,Ensino Fundamental
1,2,54,2475,Feminino,Ensino Superior
2,3,33,6820,Masculino,Ensino Superior
3,4,18,2141,Masculino,Ensino Médio
4,5,67,7381,Masculino,Ensino Fundamental
...,...,...,...,...,...
49995,49996,41,3102,Feminino,Ensino Superior
49996,49997,33,3906,Feminino,Ensino Superior
49997,49998,41,2543,Masculino,Ensino Superior
49998,49999,22,4651,Feminino,Ensino Superior


### Ordenação

In [4]:
# ordena o data frame pelo nível de renda
df.sort_values(by = 'Renda')

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
20624,20625,32,1500,Masculino,Ensino Superior
33316,33317,46,1500,Feminino,Ensino Médio
8074,8075,39,1500,Masculino,Ensino Superior
23165,23166,36,1500,Masculino,Ensino Médio
30444,30445,32,1500,Feminino,Ensino Fundamental
...,...,...,...,...,...
21093,21094,65,9999,Masculino,Ensino Superior
8381,8382,68,9999,Feminino,Ensino Médio
38187,38188,23,9999,Masculino,Ensino Superior
41288,41289,61,9999,Masculino,Ensino Fundamental


In [5]:
# ordena pelo nível de renda e idade
df.sort_values(by = ['Renda', 'Idade'])

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
36064,36065,22,1500,Feminino,Ensino Médio
20624,20625,32,1500,Masculino,Ensino Superior
30444,30445,32,1500,Feminino,Ensino Fundamental
23165,23166,36,1500,Masculino,Ensino Médio
20935,20936,38,1500,Masculino,Ensino Fundamental
...,...,...,...,...,...
38187,38188,23,9999,Masculino,Ensino Superior
41288,41289,61,9999,Masculino,Ensino Fundamental
21093,21094,65,9999,Masculino,Ensino Superior
1481,1482,68,9999,Masculino,Ensino Médio


In [6]:
# ordena os dados pelo nível de escolaridade e sexo
df.sort_values(by = ['Escolaridade', 'Sexo'])

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,1,27,2554,Feminino,Ensino Fundamental
11,12,26,4193,Feminino,Ensino Fundamental
22,23,42,7966,Feminino,Ensino Fundamental
24,25,51,8772,Feminino,Ensino Fundamental
26,27,54,1599,Feminino,Ensino Fundamental
...,...,...,...,...,...
49974,49975,43,8550,Masculino,Ensino Superior
49979,49980,59,9848,Masculino,Ensino Superior
49981,49982,38,7913,Masculino,Ensino Superior
49989,49990,69,5049,Masculino,Ensino Superior


In [7]:
# valores únicos da coluna Escolaridade
df.Escolaridade.unique()

array(['Ensino Fundamental', 'Ensino Superior', 'Ensino Médio'],
      dtype=object)

In [8]:
# mapeamento dos valores da coluna escolaridade
rank_escolaridade = {
    'Ensino Fundamental': 'A',
    'Ensino Médio': 'B',
    'Ensino Superior': 'C'
}

In [9]:
df.Escolaridade.map(rank_escolaridade)

0        A
1        C
2        C
3        B
4        A
        ..
49995    C
49996    C
49997    C
49998    C
49999    C
Name: Escolaridade, Length: 50000, dtype: object

In [10]:
# mapeamento dos valores da coluna de Escolaridade ordenados em ordem alfabética
df.Escolaridade.map(rank_escolaridade).sort_values()

0        A
14924    A
35084    A
14921    A
14920    A
        ..
12161    C
12163    C
37862    C
12158    C
49999    C
Name: Escolaridade, Length: 50000, dtype: object

In [11]:
rank_escolaridade_num = {
    'Ensino Fundamental': 1,
    'Ensino Médio': 2,
    'Ensino Superior': 3
}

In [12]:
# mapeamento dos valores da coluna de Escolaridade ordenados
df.Escolaridade.map(rank_escolaridade_num).sort_values()

0        1
14924    1
35084    1
14921    1
14920    1
        ..
12161    3
12163    3
37862    3
12158    3
49999    3
Name: Escolaridade, Length: 50000, dtype: int64

In [17]:
df.sort_values(by = ['Renda', 'Escolaridade']).reset_index(drop = True)

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,20936,38,1500,Masculino,Ensino Fundamental
1,30445,32,1500,Feminino,Ensino Fundamental
2,23166,36,1500,Masculino,Ensino Médio
3,33317,46,1500,Feminino,Ensino Médio
4,36065,22,1500,Feminino,Ensino Médio
...,...,...,...,...,...
49995,41289,61,9999,Masculino,Ensino Fundamental
49996,1482,68,9999,Masculino,Ensino Médio
49997,8382,68,9999,Feminino,Ensino Médio
49998,21094,65,9999,Masculino,Ensino Superior


In [18]:
# ordena os dados a partir das colunas Renda e Escolaridade
df.sort_values(by = ['Renda', 'Escolaridade']).reset_index()

Unnamed: 0,index,Id,Idade,Renda,Sexo,Escolaridade
0,20935,20936,38,1500,Masculino,Ensino Fundamental
1,30444,30445,32,1500,Feminino,Ensino Fundamental
2,23165,23166,36,1500,Masculino,Ensino Médio
3,33316,33317,46,1500,Feminino,Ensino Médio
4,36064,36065,22,1500,Feminino,Ensino Médio
...,...,...,...,...,...,...
49995,41288,41289,61,9999,Masculino,Ensino Fundamental
49996,1481,1482,68,9999,Masculino,Ensino Médio
49997,8381,8382,68,9999,Feminino,Ensino Médio
49998,21093,21094,65,9999,Masculino,Ensino Superior


In [19]:
# ordena os dados a partir das colunas Renda e Escolaridade
df.sort_values(by = ['Renda', 'Escolaridade']).reset_index(drop = True)

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,20936,38,1500,Masculino,Ensino Fundamental
1,30445,32,1500,Feminino,Ensino Fundamental
2,23166,36,1500,Masculino,Ensino Médio
3,33317,46,1500,Feminino,Ensino Médio
4,36065,22,1500,Feminino,Ensino Médio
...,...,...,...,...,...
49995,41289,61,9999,Masculino,Ensino Fundamental
49996,1482,68,9999,Masculino,Ensino Médio
49997,8382,68,9999,Feminino,Ensino Médio
49998,21094,65,9999,Masculino,Ensino Superior


In [23]:
# ordena os dados a partir das colunas Renda e Escolaridade
df.sort_values(by = ['Renda', 'Escolaridade']).reset_index().drop(columns = ['index'])

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,20936,38,1500,Masculino,Ensino Fundamental
1,30445,32,1500,Feminino,Ensino Fundamental
2,23166,36,1500,Masculino,Ensino Médio
3,33317,46,1500,Feminino,Ensino Médio
4,36065,22,1500,Feminino,Ensino Médio
...,...,...,...,...,...
49995,41289,61,9999,Masculino,Ensino Fundamental
49996,1482,68,9999,Masculino,Ensino Médio
49997,8382,68,9999,Feminino,Ensino Médio
49998,21094,65,9999,Masculino,Ensino Superior


In [24]:
df

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,1,27,2554,Feminino,Ensino Fundamental
1,2,54,2475,Feminino,Ensino Superior
2,3,33,6820,Masculino,Ensino Superior
3,4,18,2141,Masculino,Ensino Médio
4,5,67,7381,Masculino,Ensino Fundamental
...,...,...,...,...,...
49995,49996,41,3102,Feminino,Ensino Superior
49996,49997,33,3906,Feminino,Ensino Superior
49997,49998,41,2543,Masculino,Ensino Superior
49998,49999,22,4651,Feminino,Ensino Superior


In [25]:
# ordena os dados a partir das colunas Renda, Escolaridade e Sexo
# note que setamos inplace = True
df.sort_values(by = ['Renda', 'Escolaridade', 'Sexo'], inplace = True)

In [26]:
df.head()

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
30444,30445,32,1500,Feminino,Ensino Fundamental
20935,20936,38,1500,Masculino,Ensino Fundamental
33316,33317,46,1500,Feminino,Ensino Médio
36064,36065,22,1500,Feminino,Ensino Médio
23165,23166,36,1500,Masculino,Ensino Médio


In [27]:
# reset do índice
df.reset_index(drop = True, inplace = True)

In [28]:
df

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade
0,30445,32,1500,Feminino,Ensino Fundamental
1,20936,38,1500,Masculino,Ensino Fundamental
2,33317,46,1500,Feminino,Ensino Médio
3,36065,22,1500,Feminino,Ensino Médio
4,23166,36,1500,Masculino,Ensino Médio
...,...,...,...,...,...
49995,41289,61,9999,Masculino,Ensino Fundamental
49996,8382,68,9999,Feminino,Ensino Médio
49997,1482,68,9999,Masculino,Ensino Médio
49998,21094,65,9999,Masculino,Ensino Superior
