# Aula 4 - Pandas

Já discutimos de forma mais básica quais são as estruturas de dados principais do Pandas: DataFrames e Series. Além disso, vimos também como ler um arquivo csv, ou como criar um dataframe a partir de dados no próprio Python.

Hoje, vamos aprender a explorar nossas tabelas em pandas. Como ver quantas entradas eu tenho? Quais os tipos de entradas? Como eu deixo meus dados em um formato melhor para minhas análises?

---

Vamos usar os dados da última aula, e tentar aproveitar o Pandas para extrair algumas informações. Enquanto mostramos as funcionalidades por aqui, vamos tentar ir reproduzindo o passo a passo com dados do IBGE!

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [2]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('data/dados_parciais.txt',
                   sep=';', decimal=',')

In [3]:
# Antes de começarmos a processar nossos dados, queremos entender algumas coisas básicas sobre eles.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   regiao      28 non-null     object 
 1   uf          29 non-null     object 
 2   superficie  29 non-null     int64  
 3   pop_urbana  27 non-null     float64
 4   pop_rural   27 non-null     float64
 5   total       27 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.5+ KB


In [4]:
df.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [5]:
df.shape

(29, 6)

In [6]:
df.count()

regiao        28
uf            29
superficie    29
pop_urbana    27
pop_rural     27
total         27
dtype: int64

In [7]:
df.columns

Index(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'], dtype='object')

In [8]:
df.columns = ['regiao', 'estado', 'area', 'pop_urb', 'pop_rur', 'total']

In [9]:
df.head(10)

Unnamed: 0,regiao,estado,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [10]:
# e se eu só quisesse renomear 1 coluna?
df = df.rename(columns = {'regiao':'reg'}).copy()

In [11]:
# Esse .copy é chato. Dá pra fazer direto, alterar o dataframe nele próprio?
# Consigo, embora não seja bom ficar fazendo isso o tempo todo.
df.rename(columns = {'estado':'uf'}, inplace=True)

In [12]:
# Também podemos jogar colunas fora.
df.drop(columns=['total'], inplace=True)

## Manipulando meu dataframe

In [13]:
# Meu dataframe consiste em:
# Um índice
# Colunas (que são series)

# Para pegar o meu índice.
df.index

RangeIndex(start=0, stop=29, step=1)

In [14]:
# A primeira coisa que queremos aprender é como acessar os elementos do meu dataframe.
# Existem diversas formas de fazer isso.

# Vamos tentar acessar elementos da quinta linha do meu dataframe.
quinta_linha = df.iloc[5]

In [15]:
quinta_linha

reg           Norte
uf               AP
area         143454
pop_urb    330590.0
pop_rur     48869.0
Name: 5, dtype: object

In [16]:
# Essa quinta linha vai ser um Pandas Series!
print(type(quinta_linha))

<class 'pandas.core.series.Series'>


In [17]:
# Podemos então pegar um elemento da quinta linha pela posição, ou pelo nome do index.
quinta_linha.iloc[1]

'AP'

In [18]:
quinta_linha.loc['uf']

'AP'

In [19]:
quinta_linha['uf']

'AP'

In [20]:
# O mesmo pode ser feito diretamente com o DataFrame
df.loc[5, 'uf']

'AP'

In [21]:
df.iloc[5, 1]

'AP'

In [22]:
df.iat[5, 1]

'AP'

In [23]:
df.at[5, 'uf']

'AP'

In [24]:
# Também podemos pegar subconjuntos de linhas através de slicing
df.loc[:5, 'uf']

0    RO
1    AC
2    AM
3    RR
4    PA
5    AP
Name: uf, dtype: object

In [37]:
# Ou através de uma máscara booleana
df.loc[df['reg'] == 'Centro-Oeste']

Unnamed: 0,reg,uf,area,pop_urb,pop_rur
24,Centro-Oeste,MS,358159,1604318.0,323516.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0


In [38]:
# Pode ser também que queiramos trabalhar com colunas.
regioes = df['reg']

In [34]:
print(type(regioes))

<class 'pandas.core.series.Series'>


In [39]:
# Se o nome da coluna não tiver espaço, também podemos pegar os seus valores usando ponto.
df.reg

0            Norte
1            Norte
2            Norte
3            Norte
4            Norte
5            Norte
6            Norte
7         Nordeste
8         Nordeste
9         Nordeste
10        Nordeste
11        Nordeste
12        Nordeste
13        Nordeste
14        Nordeste
15        Nordeste
16        Nordeste
17         Sudeste
18         Sudeste
19         Sudeste
20         Sudeste
21             Sul
22             Sul
23             Sul
24    Centro-Oeste
25    Centro-Oeste
26    Centro-Oeste
27    Centro-Oeste
28             NaN
Name: reg, dtype: object

In [40]:
# Ok, até agora, que diferença fez eu ter Pandas Series?
df.reg.value_counts() # Eu posso pegar quantos estados tenho em cada região.

Nordeste        10
Norte            7
Sudeste          4
Centro-Oeste     4
Sul              3
Name: reg, dtype: int64

In [42]:
df = pd.read_table('data/dados_parciais.txt',
                   sep=';', decimal=',')

In [43]:
# Quantos estados têm população acima de 1 milhão de habitantes?
series = df.total > 1000000

In [44]:
series.head(10)

0     True
1    False
2     True
3    False
4     True
5    False
6     True
7     True
8     True
9    False
Name: total, dtype: bool

In [45]:
series.value_counts()

True     24
False     5
Name: total, dtype: int64

In [46]:
# Também podemos tentar ver quais são os elementos únicos de uma pandas series.
regioes = df.regiao

In [47]:
regioes.unique()

array(['Norte', 'Nordeste', 'Sudeste', 'Sul', 'Centro-Oeste', nan],
      dtype=object)

In [48]:
regioes.nunique()

5

Podemos também fazer alterações no dataframe, de forma que nos ajude a ter mais informações.

In [49]:
# Eu posso reorganizar o meu dataframe de acordo com qualquer coluna.
sorted_values = df.sort_values(by='total', ascending=False).copy()

In [50]:
sorted_values.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
20,Sudeste,SP,248809,31769219.0,2351667.0,34120886.0
17,Sudeste,MG,588384,13074245.0,3598852.0,16673097.0
19,Sudeste,RJ,43910,12806488.0,599891.0,13406379.0
16,Nordeste,BA,567295,7826843.0,4714902.0,12541745.0
23,Sul,RS,282062,7581230.0,2056452.0,9637682.0
21,Sul,PR,199709,7011990.0,1991814.0,9003804.0
13,Nordeste,PE**,98938,5476915.0,1922216.0,7399131.0
10,Nordeste,CE,146348,4713311.0,2096483.0,6809794.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0


In [51]:
# Quais estados com menos habitantes?
sorted_values.tail(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
15,Nordeste,SE,22050,1140569.0,483606.0,1624175.0
0,Norte,RO,238513,762864.0,468143.0,1231007.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
9,Nordeste,Litígio*,2977,,,
28,,Ilhas***,10,,,
