# Pandas - Classificação e Ordenação de Dataframes e Séries

# Classificando - Ordenação de Dados
O Pandas suporta três tipos de classificação: classificação por rótulos de índice, classificação por valores de coluna e classificação por uma combinação de ambos.

## Ordenando DataFrame Por índice 
Os métodos Series.sort_index()e DataFrame.sort_index()são usados ​​para classificar um objeto pandas por seus níveis de índice.

In [26]:
import pandas as pd
import numpy as np
df = pd.read_csv('totaisestadoscomregiao_arr.csv', sep=';',names =['REGIAO', 'UF', 'CASOS','OBITOS'], index_col=False)
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


In [27]:
index = np.array(df.index)
print(index)
np.random.shuffle(index)
print(index)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26]
[13  9 17 10 22  2 14 21 26 25 24 16  7 12 15  6 20  5  0  8  3  4 19 18
  1 11 23]


In [28]:
df = df.reindex(index)
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
13,Norte,AC,169625,2083
9,Nordeste,PE,1235360,23240
17,Norte,RO,505111,7527
10,Nordeste,PI,438676,8445
22,Sudeste,RJ,2966219,78238


In [29]:
df.sort_index().head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


In [30]:
df.sort_index(ascending=False).head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
26,Sul,SC,2089867,23145
25,Sul,RS,3144956,43044
24,Sul,PR,3031840,47029
23,Sudeste,SP,6907741,184235
22,Sudeste,RJ,2966219,78238


In [31]:
df.sort_index(axis=1).head()

Unnamed: 0,CASOS,OBITOS,REGIAO,UF
13,169625,2083,Norte,AC
9,1235360,23240,Nordeste,PE
17,505111,7527,Norte,RO
10,438676,8445,Nordeste,PI
22,2966219,78238,Sudeste,RJ


## Ordenando Series Por índice

In [32]:
df['UF'].sort_index().head()

0    DF
1    GO
2    MS
3    MT
4    AL
Name: UF, dtype: object

A classificação por índice também oferece suporte a um parâmetro key  que usa uma função que pode ser chamada para ser aplicada ao índice que está sendo classificado. 

In [33]:
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
13,Norte,AC,169625,2083
9,Nordeste,PE,1235360,23240
17,Norte,RO,505111,7527
10,Nordeste,PI,438676,8445
22,Sudeste,RJ,2966219,78238


In [34]:
df.set_index('UF')

Unnamed: 0_level_0,REGIAO,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,Norte,169625,2083
PE,Nordeste,1235360,23240
RO,Norte,505111,7527
PI,Nordeste,438676,8445
RJ,Sudeste,2966219,78238
MS,Centro-Oeste,637169,11305
AM,Norte,643745,14531
MG,Sudeste,4335714,66850
SC,Sul,2089867,23145
RS,Sul,3144956,43044


In [35]:
df.set_index('UF').sort_index(key=lambda idx: [x[1] for x in  idx]).head(10)

Unnamed: 0_level_0,REGIAO,CASOS,OBITOS
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
BA,Nordeste,1844481,32034
MA,Nordeste,501121,11103
PA,Norte,901045,19291
PB,Nordeste,725917,10669
AC,Norte,169625,2083
SC,Sul,2089867,23145
CE,Nordeste,1508135,28215
SE,Nordeste,368073,6575
PE,Nordeste,1235360,23240
DF,Centro-Oeste,955540,12025


### Ordenando DataFrames Por valores 

O método Series.sort_values() é usado para classificar uma série por seus valores. 

O método DataFrame.sort_values() é usado para classificar um DataFrame por seus valores de coluna ou linha. 


O parâmetro opcional by para DataFrame.sort_values()pode ser usado para especificar uma ou mais colunas a serem usadas para determinar a ordem de classificação.

In [36]:
df.sort_values(by='UF').head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
13,Norte,AC,169625,2083
4,Nordeste,AL,348701,7355
14,Norte,AM,643745,14531
15,Norte,AP,191877,2175
5,Nordeste,BA,1844481,32034


O byparâmetro pode levar uma lista de nomes de coluna, por exemplo:

In [37]:
df.sort_values(by=['REGIAO','UF']).head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


Esses métodos têm tratamento especial de valores NA por meio do na_position argumento:

In [38]:
df = pd.read_csv('totaisestadoscomregiao_arr.csv', sep=';',names =['REGIAO', 'UF', 'CASOS','OBITOS'], index_col=False)
df.head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


In [39]:
df.loc[ 20 , ['OBITOS']] = np.nan
df.loc[ 26 , ['OBITOS']] = np.nan

In [40]:
df.sort_values(by='OBITOS', na_position='first').head()

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
20,Sudeste,ES,1384800,
26,Sul,SC,2089867,
13,Norte,AC,169625,2083.0
15,Norte,AP,191877,2175.0
18,Norte,RR,190318,2202.0


A classificação também oferece suporte a um parâmetro key   que usa uma função chamável para aplicar aos valores que estão sendo classificados.

In [41]:
df['CASOS'].sort_values(key=lambda x: x//100_000, ascending=False)

23    6907741
21    4335714
25    3144956
24    3031840
22    2966219
26    2089867
1     2060518
5     1844481
6     1508135
20    1384800
9     1235360
16     901045
0      955540
3      921447
8      725917
14     643745
11     601493
2      637169
17     505111
7      501121
10     438676
12     368073
19     382320
4      348701
15     191877
18     190318
13     169625
Name: CASOS, dtype: int64

A chave receberá os Series valores de e deve retornar um Series ou array da mesma forma com os valores transformados. Para objetos DataFrame , a chave é aplicada por coluna, então a chave ainda deve esperar uma série e retornar uma série, por exemplo

In [42]:
df.sort_values(by='CASOS',  key=lambda x: x//100_000, ascending=False)

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
23,Sudeste,SP,6907741,184235.0
21,Sudeste,MG,4335714,66850.0
25,Sul,RS,3144956,43044.0
24,Sul,PR,3031840,47029.0
22,Sudeste,RJ,2966219,78238.0
26,Sul,SC,2089867,
1,Centro-Oeste,GO,2060518,28669.0
5,Nordeste,BA,1844481,32034.0
6,Nordeste,CE,1508135,28215.0
20,Sudeste,ES,1384800,


## menor / maior valor 
Series tem os métodos nsmallest() e nlargest() que retornam o menor ou o maior nvalores.

In [43]:
df['CASOS'].nsmallest(5)

13    169625
18    190318
15    191877
4     348701
12    368073
Name: CASOS, dtype: int64

In [44]:
df['CASOS'].nlargest(5)

23    6907741
21    4335714
25    3144956
24    3031840
22    2966219
Name: CASOS, dtype: int64

Data Frametambém tem os métodos nlargeste nsmallest.

In [45]:
df.nlargest(3, 'CASOS')

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
23,Sudeste,SP,6907741,184235.0
21,Sudeste,MG,4335714,66850.0
25,Sul,RS,3144956,43044.0


In [46]:
df.nlargest(5, ['CASOS', 'OBITOS'])

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
23,Sudeste,SP,6907741,184235.0
21,Sudeste,MG,4335714,66850.0
25,Sul,RS,3144956,43044.0
24,Sul,PR,3031840,47029.0
22,Sudeste,RJ,2966219,78238.0


In [47]:
df.nsmallest(3, 'CASOS')

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
13,Norte,AC,169625,2083.0
18,Norte,RR,190318,2202.0
15,Norte,AP,191877,2175.0


In [48]:
df.nsmallest(5, ['CASOS', 'OBITOS'])

Unnamed: 0,REGIAO,UF,CASOS,OBITOS
13,Norte,AC,169625,2083.0
18,Norte,RR,190318,2202.0
15,Norte,AP,191877,2175.0
4,Nordeste,AL,348701,7355.0
12,Nordeste,SE,368073,6575.0
