# Aula 4.1 - Introdução a Pandas, pt2

Já discutimos de forma mais básica quais são as estruturas de dados principais do Pandas: DataFrames e Series. Além disso, vimos também como ler um arquivo csv, ou como criar um dataframe a partir de dados no próprio Python.

Hoje, vamos aprender a explorar nossas tabelas em pandas. Como ver quantas entradas eu tenho? Quais os tipos de entradas? Como eu deixo meus dados em um formato melhor para minhas análises?

---

Vamos usar os dados da última aula, e tentar aproveitar o Pandas para extrair algumas informações. Enquanto mostramos as funcionalidades por aqui, vamos tentar ir reproduzindo o passo a passo com dados do IBGE!

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [1]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [5]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('/Users/magnovaldo/Documents/Training/lets_code/ds_boticario/boti_pipe/data/dados_parciais.txt',
                   sep=';', decimal=',')

In [6]:
# Antes de começarmos a processar nossos dados, queremos entender algumas coisas básicas sobre eles.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   regiao      28 non-null     object 
 1   uf          29 non-null     object 
 2   superficie  29 non-null     int64  
 3   pop_urbana  27 non-null     float64
 4   pop_rural   27 non-null     float64
 5   total       27 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.5+ KB


In [7]:
df.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [8]:
df.shape

(29, 6)

In [9]:
df.count()

regiao        28
uf            29
superficie    29
pop_urbana    27
pop_rural     27
total         27
dtype: int64

In [10]:
df.columns

Index(['regiao', 'uf', 'superficie', 'pop_urbana', 'pop_rural', 'total'], dtype='object')

In [11]:
df.columns = ['regiao', 'estado', 'area', 'pop_urb', 'pop_rur', 'total']

In [12]:
df.head(10)

Unnamed: 0,regiao,estado,area,pop_urb,pop_rur,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [13]:
# e se eu só quisesse renomear 1 coluna?
df = df.rename(columns = {'regiao':'reg'}).copy()

In [None]:
# Esse .copy é chato. Dá pra fazer direto, alterar o dataframe nele próprio?
# Consigo, embora não seja bom ficar fazendo isso o tempo todo.
df.rename(columns = {'estado':'uf'}, inplace=True)

In [None]:
# Também podemos jogar colunas fora.
df.drop(columns=['total'], inplace=True)

## Manipulando meu dataframe

In [None]:
# Meu dataframe consiste em:
# Um índice
# Colunas (que são series)

# Para pegar o meu índice.
df.index

In [None]:
# A primeira coisa que queremos aprender é como acessar os elementos do meu dataframe.
# Existem diversas formas de fazer isso.

# Vamos tentar acessar elementos da quinta linha do meu dataframe.
quinta_linha = df.iloc[5]

In [None]:
quinta_linha

In [None]:
# Essa quinta linha vai ser um Pandas Series!
print(type(quinta_linha))

In [None]:
# Podemos então pegar um elemento da quinta linha pela posição, ou pelo nome do index.
quinta_linha.iloc[1]

In [None]:
quinta_linha.loc['uf']

In [None]:
quinta_linha['uf']

In [None]:
# O mesmo pode ser feito diretamente com o DataFrame
df.loc[5, 'uf']

In [None]:
df.iloc[5, 1]

In [None]:
df.iat[5, 1]

In [None]:
df.at[5, 'uf']

In [None]:
# Também podemos pegar subconjuntos de linhas através de slicing
df.loc[:5, 'uf']

In [None]:
# Ou através de uma máscara booleana
df.loc[df['regiao']=='Centro-Oeste']

In [None]:
# Pode ser também que queiramos trabalhar com colunas.
regioes = df['regiao']

In [None]:
print(type(regioes))

In [None]:
# Se o nome da coluna não tiver espaço, também podemos pegar os seus valores usando ponto.
df.regiao

In [None]:
# Ok, até agora, que diferença fez eu ter Pandas Series?
df.regiao.value_counts() # Eu posso pegar quantos estados tenho em cada região.

In [None]:
# Quantos estados têm população acima de 1 milhão de habitantes?
series = df.total > 1000000

In [None]:
series.head(10)

In [None]:
series.value_counts()

In [None]:
# Também podemos tentar ver quais são os elementos únicos de uma pandas series.
regioes = df.regiao

In [None]:
regioes.unique()

In [None]:
regioes.nunique()

Podemos também fazer alterações no dataframe, de forma que nos ajude a ter mais informações.

In [None]:
# Eu posso reorganizar o meu dataframe de acordo com qualquer coluna.
sorted_values = df.sort_values(by='total', ascending=False).copy()

In [None]:
sorted_values.head(10)

In [None]:
# Quais estados com menos habitantes?
sorted_values.tail(10)

In [15]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('/Users/magnovaldo/Documents/Training/lets_code/ds_boticario/boti_pipe/data/dados_parciais.txt',
                   sep=';', decimal=',')

In [17]:
df.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


In [18]:
total = df['total']

In [19]:
superficie = df['superficie']

In [20]:
densidade = total / superficie

In [21]:
df['densidade'] = densidade
df.head(10)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545
5,Norte,AP,143454,330590.0,48869.0,379459.0,2.645162
6,Norte,TO,278421,741009.0,307633.0,1048642.0,3.76639
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0,15.66616
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0,10.591911
9,Nordeste,Litígio*,2977,,,,


In [27]:
df['perc_rural'] = round(df['pop_rural'] / df['total']*100,2)

In [28]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,densidade,perc_rural
0,Norte,RO,238513,762864.0,468143.0,1231007.0,5.161174,38.03
1,Norte,AC,153150,315401.0,168322.0,483726.0,3.158511,34.8
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,1.514291,26.08
3,Norte,RR,225116,174277.0,72854.0,247131.0,1.097794,29.48
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,4.397545,46.49
