# Aula 4.1 - Introdução a Pandas, pt2

Já discutimos de forma mais básica quais são as estruturas de dados principais do Pandas: DataFrames e Series. Além disso, vimos também como ler um arquivo csv, ou como criar um dataframe a partir de dados no próprio Python.

Hoje, vamos aprender a explorar nossas tabelas em pandas. Como ver quantas entradas eu tenho? Quais os tipos de entradas? Como eu deixo meus dados em um formato melhor para minhas análises?

---

Vamos usar os dados da última aula, e tentar aproveitar o Pandas para extrair algumas informações. Enquanto mostramos as funcionalidades por aqui, vamos tentar ir reproduzindo o passo a passo com dados do IBGE!

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [2]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('dados/dados_parciais.txt',
                   sep=';', decimal=',')

# DICA: Procura o parâmetro "thousands"

In [3]:
df

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [4]:
# Antes de começarmos a processar nossos dados, queremos entender algumas coisas básicas sobre eles.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   regiao      28 non-null     object 
 1   uf          29 non-null     object 
 2   superficie  29 non-null     int64  
 3   pop_urbana  27 non-null     float64
 4   pop_rural   27 non-null     float64
 5   total       27 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.5+ KB


In [8]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0


In [9]:
df.shape

(29, 6)

In [10]:
df.count()

regiao        28
uf            29
superficie    29
pop_urbana    27
pop_rural     27
total         27
dtype: int64

In [47]:
cols = df.columns

In [49]:
print(type(cols))

<class 'pandas.core.indexes.base.Index'>


In [56]:
cols.to_numpy()

array(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'],
      dtype=object)

In [57]:
cols.to_series()

regiao            regiao
uf                    uf
superficie    superficie
pop_urbana    pop_urbana
pop_rural      pop_rural
total              total
dtype: object

In [59]:
cols.to_list()

['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total']

In [58]:
cols.values

array(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'],
      dtype=object)

In [52]:
list(cols)

['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total']

In [12]:
df.columns = ['regiao', 'estado', 'area', 'pop_urb', 'pop_rur', 'total']

In [None]:
df2 = df.columns.copy()

In [54]:
print(type(df.columns))

<class 'pandas.core.indexes.base.Index'>


In [13]:
df.head(10)

Unnamed: 0,regiao,estado,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [30]:
# e se eu só quisesse renomear 1 coluna?
df2 = df.rename(columns = {'reg':'pudim'}).copy()

In [33]:
df.head(2)

Unnamed: 0,reg,estado,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0


In [34]:
df2.head(2)

Unnamed: 0,pudim,estado,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0


In [15]:
import numpy as np

palavra = "Pudim"
lista = [1, 2, 3]
arr = np.array([1, 2, 3])

In [16]:
p2 = palavra
p2[1] = 'a'

TypeError: 'str' object does not support item assignment

In [36]:
p2 = 'bolo'

In [37]:
print(p2)

bolo


In [38]:
print(palavra)

Pudim


In [17]:
p2[1]

'u'

In [18]:
nova_lista = lista
nova_lista[1] = 10

In [19]:
print(nova_lista)

[1, 10, 3]


In [20]:
print(lista)

[1, 10, 3]


In [21]:
from copy import copy

In [22]:
nova_lista2 = copy(nova_lista)

In [23]:
nova_lista2[2] = 30

In [24]:
print(nova_lista2)

[1, 10, 30]


In [25]:
print(nova_lista)

[1, 10, 3]


In [26]:
new_arr = arr
new_arr[1] = 10
print(new_arr)
print(arr)

[ 1 10  3]
[ 1 10  3]


In [42]:
new_arr2 = new_arr.copy()
new_arr2[2] = 30
print(new_arr)
print(new_arr2)

[ 1 10  3]
[ 1 10 30]


In [39]:
# Esse .copy é chato. Dá pra fazer direto, alterar o dataframe nele próprio?
# Consigo, embora não seja bom ficar fazendo isso o tempo todo.
df.rename(columns = {'estado':'uf'}, inplace=True)

In [40]:
df.head(2)

Unnamed: 0,reg,uf,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0


In [43]:
# Também podemos jogar colunas fora.
df.drop(columns=['total'], inplace=True)

In [44]:
df.columns

Index(['reg', 'uf', 'area', 'pop_urb', 'pop_rur'], dtype='object')

## Manipulando meu dataframe

In [60]:
# Meu dataframe consiste em:
# Um índice
# Colunas (que são series)

# Para pegar o meu índice.
df.index

RangeIndex(start=0, stop=29, step=1)

In [61]:
# A primeira coisa que queremos aprender é como acessar os elementos do meu dataframe.
# Existem diversas formas de fazer isso.

# Vamos tentar acessar elementos da quinta linha do meu dataframe.
quinta_linha = df.iloc[5]

# i: índice
# loc: localização

In [64]:
df.head(6)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0


In [62]:
quinta_linha

regiao         Norte
uf                AP
superficie    143454
pop_urbana    330590
pop_rural      48869
total         379459
Name: 5, dtype: object

In [65]:
# Essa quinta linha vai ser um Pandas Series!
print(type(quinta_linha))

<class 'pandas.core.series.Series'>


In [66]:
# Podemos então pegar um elemento da quinta linha pela posição, ou pelo nome do index.
quinta_linha.iloc[1]

'AP'

In [67]:
quinta_linha.loc['uf']

# loc: localização

'AP'

In [68]:
quinta_linha.index

Index(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'], dtype='object')

In [69]:
quinta_linha['uf']

'AP'

In [70]:
# O mesmo pode ser feito diretamente com o DataFrame
df.loc[5, 'uf']

'AP'

In [71]:
df.iloc[5, 1]

'AP'

In [72]:
df.iat[5, 1]

# i: índice
# at: estou

'AP'

In [74]:
df2 = df.copy()

In [75]:
df2.iat[5, 1] = 'PUDIM'

In [76]:
df2.head(6)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,PUDIM,143454,330590.0,48869.0,379459.0


In [78]:
df2.iat[5, 'uf']

ValueError: iAt based indexing can only have integer indexers

In [81]:
df2.at[5, 'uf'] = "AP"

In [82]:
# Também podemos pegar subconjuntos de linhas através de slicing
df.loc[:5, 'uf']

# Ou através de uma máscara booleana
df.loc[df['regiao'] == 'Centro-Oeste']

0    RO
1    AC
2    AM
3    RR
4    PA
5    AP
Name: uf, dtype: object

In [84]:
print(type(df['regiao']))

<class 'pandas.core.series.Series'>


In [85]:
df['regiao'] == 'Centro-Oeste'

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24     True
25     True
26     True
27     True
28    False
Name: regiao, dtype: bool

In [95]:
# Ou através de uma máscara booleana
df.loc[df['regiao'] == 'Centro-Oeste']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0


In [87]:
# Pode ser também que queiramos trabalhar com colunas.
regioes = df['regiao']

In [88]:
print(type(regioes))

<class 'pandas.core.series.Series'>


In [89]:
# Se o nome da coluna não tiver espaço, também podemos pegar os seus valores usando ponto.
df.regiao

0            Norte
1            Norte
2            Norte
3            Norte
4            Norte
5            Norte
6            Norte
7         Nordeste
8         Nordeste
9         Nordeste
10        Nordeste
11        Nordeste
12        Nordeste
13        Nordeste
14        Nordeste
15        Nordeste
16        Nordeste
17         Sudeste
18         Sudeste
19         Sudeste
20         Sudeste
21             Sul
22             Sul
23             Sul
24    Centro-Oeste
25    Centro-Oeste
26    Centro-Oeste
27    Centro-Oeste
28             NaN
Name: regiao, dtype: object

In [92]:
# Pegar subconjuntos de colunas 
df[['regiao', 'uf']]

Unnamed: 0,regiao,uf
0,Norte,RO
1,Norte,AC
2,Norte,AM
3,Norte,RR
4,Norte,PA
5,Norte,AP
6,Norte,TO
7,Nordeste,MA
8,Nordeste,PI
9,Nordeste,Litígio*


In [97]:
df[df['regiao'] == 'Centro-Oeste']['total'] = [1, 2, 3, 4]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [98]:
df[df['regiao'] == 'Centro-Oeste']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0


In [100]:
df.loc[df['regiao'] == 'Centro-Oeste', 'total'] = [1, 2, 3, 4]

In [101]:
df.loc[df['regiao'] == 'Centro-Oeste']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,3.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,4.0


In [102]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('dados/dados_parciais.txt',
                   sep=';', decimal=',')

# DICA: Procura o parâmetro "thousands"

In [103]:
df.head(5)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0


In [104]:
area_sup = df['superficie']

In [105]:
total = df['total']

In [106]:
total / area_sup

0       5.161174
1       3.158511
2       1.514291
3       1.097794
4       4.397545
5       2.645162
6       3.766390
7      15.666160
8      10.591911
9            NaN
10     46.531514
11     47.998574
12     58.418591
13     74.785532
14     94.273404
15     73.658730
16     22.107977
17     28.337101
18     60.685670
19    305.314940
20    137.136864
21     45.084618
22     51.080163
23     34.168665
24      5.382621
25      2.465610
26      1.323178
27    312.941601
28           NaN
dtype: float64

In [107]:
df['densidade'] = total / area_sup

In [108]:
df.head(7)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545
5,Norte,AP,143454,330590.0,48869.0,379459.0,2.645162
6,Norte,TO,278421,741009.0,307633.0,1048642.0,3.76639


In [109]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('dados/dados_parciais.txt',
                   sep=';', decimal=',')

# DICA: Procura o parâmetro "thousands"

In [110]:
df['densidade'] = df['total'] / df['superficie']

In [111]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291


In [112]:
df.loc[:, 'perc_rural'] = df['pop_rural'] / df['total']

In [113]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,0.380293
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,0.34797
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291,0.260795


In [114]:
df['nao_sei_porque'] = df['densidade'] * df['perc_rural']

In [115]:
df.head(3)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,0.380293,1.962757
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,0.34797,1.099066
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291,0.260795,0.39492


In [None]:
# Ok, até agora, que diferença fez eu ter Pandas Series?
df.regiao.value_counts() # Eu posso pegar quantos estados tenho em cada região.

In [117]:
df.regiao

0            Norte
1            Norte
2            Norte
3            Norte
4            Norte
5            Norte
6            Norte
7         Nordeste
8         Nordeste
9         Nordeste
10        Nordeste
11        Nordeste
12        Nordeste
13        Nordeste
14        Nordeste
15        Nordeste
16        Nordeste
17         Sudeste
18         Sudeste
19         Sudeste
20         Sudeste
21             Sul
22             Sul
23             Sul
24    Centro-Oeste
25    Centro-Oeste
26    Centro-Oeste
27    Centro-Oeste
28             NaN
Name: regiao, dtype: object

In [118]:
df.regiao.value_counts()

Nordeste        10
Norte            7
Sudeste          4
Centro-Oeste     4
Sul              3
Name: regiao, dtype: int64

In [119]:
# Quantos estados têm população acima de 1 milhão de habitantes?
series = df.total > 1000000

In [120]:
series

0      True
1     False
2      True
3     False
4      True
5     False
6      True
7      True
8      True
9     False
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
21     True
22     True
23     True
24     True
25     True
26     True
27     True
28    False
Name: total, dtype: bool

In [121]:
series.head(10)

0     True
1    False
2     True
3    False
4     True
5    False
6     True
7     True
8     True
9    False
Name: total, dtype: bool

In [122]:
series.value_counts()

True     24
False     5
Name: total, dtype: int64

In [126]:
df.loc[~series]

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,0.34797,1.099066
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794,0.294799,0.323629
5,Norte,AP,143454,330590.0,48869.0,379459.0,2.645162,0.128786,0.34066
9,Nordeste,Litígio*,2977,,,,,,
28,,Ilhas***,10,,,,,,


In [130]:
mask_regiao = df['regiao'] == 'Norte'
mask_pop = df['total'] > 1000000

In [131]:
# Negando o valor booleano
df.loc[~mask_regiao] #aqui a gente pega quem não é do norte (Lannisters)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,15.66616,0.4808,7.532286
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0,10.591911,0.417878,4.426125
9,Nordeste,Litígio*,2977,,,,,,
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0,46.531514,0.307863,14.325327
11,Nordeste,RN,53307,1843486.0,715174.0,2558660.0,47.998574,0.279511,13.416137
12,Nordeste,PB,56585,2261986.0,1043630.0,3305616.0,58.418591,0.315714,18.44358
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0,74.785532,0.259789,19.428491
14,Nordeste,AL,27933,1661914.0,971425.0,2633339.0,94.273404,0.368895,34.776966
15,Nordeste,SE,22050,1140569.0,483606.0,1624175.0,73.65873,0.297755,21.932245
16,Nordeste,BA,567295,7826843.0,4714902.0,12541745.0,22.107977,0.375937,8.3112


In [132]:
# fazendo o OU do valor booleano
df.loc[mask_regiao | mask_pop]

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,0.380293,1.962757
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,0.34797,1.099066
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291,0.260795,0.39492
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794,0.294799,0.323629
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545,0.464871,2.044289
5,Norte,AP,143454,330590.0,48869.0,379459.0,2.645162,0.128786,0.34066
6,Norte,TO,278421,741009.0,307633.0,1048642.0,3.76639,0.293363,1.10492
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,15.66616,0.4808,7.532286
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0,10.591911,0.417878,4.426125
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0,46.531514,0.307863,14.325327


In [133]:
# fazendo o E do valor booleano
df.loc[mask_regiao & mask_pop]

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,0.380293,1.962757
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291,0.260795,0.39492
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545,0.464871,2.044289
6,Norte,TO,278421,741009.0,307633.0,1048642.0,3.76639,0.293363,1.10492


In [127]:
# Também podemos tentar ver quais são os elementos únicos de uma pandas series.
regioes = df.regiao

In [128]:
regioes.unique()

array(['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', nan],
      dtype=object)

In [129]:
regioes.nunique()

5

Podemos também fazer alterações no dataframe, de forma que nos ajude a ter mais informações.

In [134]:
# Eu posso reorganizar o meu dataframe de acordo com qualquer coluna.
sorted_values = df.sort_values(by='total', ascending=False).copy()

In [135]:
sorted_values.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
20,Sudeste,SP,248809,31769219.0,2351667.0,34120886.0,137.136864,0.068922,9.451696
17,Sudeste,MG,588384,13074245.0,3598852.0,16673097.0,28.337101,0.215848,6.116502
19,Sudeste,RJ,43910,12806488.0,599891.0,13406379.0,305.31494,0.044747,13.661831
16,Nordeste,BA,567295,7826843.0,4714902.0,12541745.0,22.107977,0.375937,8.3112
23,Sul,RS,282062,7581230.0,2056452.0,9637682.0,34.168665,0.213376,7.29078
21,Sul,PR,199709,7011990.0,1991814.0,9003804.0,45.084618,0.221219,9.973582
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0,74.785532,0.259789,19.428491
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0,46.531514,0.307863,14.325327
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545,0.464871,2.044289
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,15.66616,0.4808,7.532286


In [136]:
# Quais estados com menos habitantes?
sorted_values.tail(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural,nao_sei_porque
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0,5.382621,0.167813,0.903275
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0,312.941601,0.071187,22.277224
15,Nordeste,SE,22050,1140569.0,483606.0,1624175.0,73.65873,0.297755,21.932245
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,0.380293,1.962757
6,Norte,TO,278421,741009.0,307633.0,1048642.0,3.76639,0.293363,1.10492
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,0.34797,1.099066
5,Norte,AP,143454,330590.0,48869.0,379459.0,2.645162,0.128786,0.34066
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794,0.294799,0.323629
9,Nordeste,Litígio*,2977,,,,,,
28,,Ilhas***,10,,,,,,
