# Aula 4.1 - Introdução a Pandas, pt2

Já discutimos de forma mais básica quais são as estruturas de dados principais do Pandas: DataFrames e Series. Além disso, vimos também como ler um arquivo csv, ou como criar um dataframe a partir de dados no próprio Python.

Hoje, vamos aprender a explorar nossas tabelas em pandas. Como ver quantas entradas eu tenho? Quais os tipos de entradas? Como eu deixo meus dados em um formato melhor para minhas análises?

---

Vamos usar os dados da última aula, e tentar aproveitar o Pandas para extrair algumas informações. Enquanto mostramos as funcionalidades por aqui, vamos tentar ir reproduzindo o passo a passo com dados do IBGE!

O objetivo dessa primeira parte é aprendermos algumas funcionalidades básicas para começarmos a olhar os nossos dados. É sempre importante sabermos qual tipo de dados nós temos, qual a cara deles, se tem algum erro, quantas linhas temos, etc...

Isso nos ajuda muito a nos preparar para de fato começar a fazer análises de dados.

## Lendo o arquivo

In [None]:
# Começamos sempre importando nossas bibliotecas.
import numpy as np
import pandas as pd

In [None]:
# A função "read_table" é equivalente à "read_csv", só muda que ela é mais geral.
# Tente ler abaixo os dados de população para um dataframe, usando pd.read_table
df = pd.read_table('dados/dados_parciais.txt',
                   sep=';', decimal=',')

In [None]:
# Antes de começarmos a processar nossos dados, queremos entender algumas coisas básicas sobre eles.
df.info()

In [None]:
df.head(10)

In [None]:
df.shape

In [None]:
df.count()

In [None]:
df.columns

In [None]:
df.columns = ['regiao', 'estado', 'area', 'pop_urb', 'pop_rur', 'total']

In [None]:
df.head(10)

In [None]:
# e se eu só quisesse renomear 1 coluna?
df = df.rename(columns = {'regiao':'reg'}).copy()

In [None]:
# Esse .copy é chato. Dá pra fazer direto, alterar o dataframe nele próprio?
# Consigo, embora não seja bom ficar fazendo isso o tempo todo.
df.rename(columns = {'estado':'uf'}, inplace=True)

In [None]:
# Também podemos jogar colunas fora.
df.drop(columns=['total'], inplace=True)

## Manipulando meu dataframe

In [None]:
# Meu dataframe consiste em:
# Um índice
# Colunas (que são series)

# Para pegar o meu índice.
df.index

In [None]:
# A primeira coisa que queremos aprender é como acessar os elementos do meu dataframe.
# Existem diversas formas de fazer isso.

# Vamos tentar acessar elementos da quinta linha do meu dataframe.
quinta_linha = df.iloc[5]

In [None]:
quinta_linha

In [None]:
# Essa quinta linha vai ser um Pandas Series!
print(type(quinta_linha))

In [None]:
# Podemos então pegar um elemento da quinta linha pela posição, ou pelo nome do index.
quinta_linha.iloc[1]

In [None]:
quinta_linha.loc['uf']

In [None]:
quinta_linha['uf']

In [None]:
# O mesmo pode ser feito diretamente com o DataFrame
df.loc[5, 'uf']

In [None]:
df.iloc[5, 1]

In [None]:
df.iat[5, 1]

In [None]:
df.at[5, 'uf']

In [None]:
# Também podemos pegar subconjuntos de linhas através de slicing
df.loc[:5, 'uf']

In [None]:
# Ou através de uma máscara booleana
df.loc[df['regiao']=='Centro-Oeste']

In [None]:
# Pode ser também que queiramos trabalhar com colunas.
regioes = df['regiao']

In [None]:
print(type(regioes))

In [None]:
# Se o nome da coluna não tiver espaço, também podemos pegar os seus valores usando ponto.
df.regiao

In [None]:
# Ok, até agora, que diferença fez eu ter Pandas Series?
df.regiao.value_counts() # Eu posso pegar quantos estados tenho em cada região.

In [None]:
# Quantos estados têm população acima de 1 milhão de habitantes?
series = df.total > 1000000

In [None]:
series.head(10)

In [None]:
series.value_counts()

In [None]:
# Também podemos tentar ver quais são os elementos únicos de uma pandas series.
regioes = df.regiao

In [None]:
regioes.unique()

In [None]:
regioes.nunique()

Podemos também fazer alterações no dataframe, de forma que nos ajude a ter mais informações.

In [None]:
# Eu posso reorganizar o meu dataframe de acordo com qualquer coluna.
sorted_values = df.sort_values(by='total', ascending=False).copy()

In [None]:
sorted_values.head(10)

In [None]:
# Quais estados com menos habitantes?
sorted_values.tail(10)