# *Dataframes* em python

- *Dataframes* são estruturas de dados de duas dimensões (linhas e colunas)  
- Podem ser pensados como planilhas  
- As linhas são as observações (indivíduos, municípios etc.)
- As colunas são as variáveis (cada variável pode ser de um tipo: *string*, inteiro, real etc.)
- O pacote mais usado para lidar com dataframes no python é o pacote *pandas*

Documentação do pandas: 

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.html

https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html

## Visão geral sobre *dataframes* no python usando o pacote *pandas*

Como carregar pacotes e arquivos externos:

In [None]:
# importar o pacote pandas - útil para dataframes, séries, dados em painel
import pandas as pd

In [None]:
# carregar arquivo csv a partir de um link
dados = pd.read_csv('https://raw.githubusercontent.com/patriciasiqueira/patriciasiqueira.github.io/master/arquivos/imrs-pam.csv', encoding='latin1')

In [None]:
# ler dados novamente, fazendo com que os dados sejam identificados pelos nomes dos municípios
# dados = pd.read_csv('https://raw.githubusercontent.com/patriciasiqueira/patriciasiqueira.github.io/master/arquivos/imrs-pam.csv', encoding='latin1', index_col='nome_mun')

In [None]:
# carregar um arquivo que esteja salvo no computador
# parte esquerda: pastinha e carregar arquivo
# dados1 = pd.read_excel('area.xlsx')

In [None]:
# ver as variáveis contidas no dataframe
dados.columns

In [None]:
# função que mostra as primeiras observações do dataframe
dados.head()

In [None]:
# retorna a dimensão do dataframe (linhas e colunas)
dados.shape

In [None]:
# retorna o número de linhas
len(dados)

In [None]:
dados.shape[1]

Fatias do *dataframe* usando iloc (índices das linhas e colunas):

In [None]:
dados.iloc[800:820]

In [None]:
dados.iloc[20:27, 0:5]

In [None]:
dados.columns

In [None]:
dados.iloc[[0, 3, 6], [1, 5, 6, 13]]

# Exemplos de consultas aos dados

Pergunta: quais os municípios de MG possuem renda (dos formalizados) maior do que R$1000,00?

In [None]:
# função pronta do pandas
dados[dados['rdpc_formal'] > 1000]

In [None]:
# função query faz o mesmo
dados.query('rdpc_formal > 1000')

In [None]:
# poderíamos salvar esse dataframe resultante da pesquisa em outro objeto
maiores = dados.query('rdpc_formal > 1000')

In [None]:
maiores.head()

# Uso de estruturas de programação

Como responder à mesma pergunta usando as estruturas de programação vistas?

Quais os municípios de MG possuem renda (dos formalizados) maior do que R$1000,00?

In [None]:
for i in range(len(dados)):
  if dados['rdpc_formal'][i] > 1000:
    print(dados['nome_mun'][i], dados['nome_meso'][i], dados['rdpc_formal'][i], dados['popul'][i])

In [None]:
# outra forma de especificar as variáveis
for i in range(len(dados)):
  if dados.rdpc_formal[i] > 1000:
    print(dados.nome_mun[i], dados.nome_meso[i], dados.rdpc_formal[i], dados.popul[i])

Note que bastaria trocar a variável (escolher outra no lugar de *rdpc_formal*) e o valor de referência (1000) para fazer outra consulta.

In [None]:
# usando a mesma estrutura acima para responder quais os municípios de MG 
# possuem mais do que três bibliotecas
# mostrar o nome do município e o valor de n_bib
for i in range(len(dados)):
  if dados['n_bib'][i] > 3:
    print(dados['nome_mun'][i], dados['nome_meso'][i], dados['n_bib'][i])

Se fôssemos usar uma função pronta do pacote *pandas*, bastaria fazer o seguinte (porém ele retornaria um *dataframe* inteiro com as linhas selecionadas (n_bib > 3)): 

In [None]:
# função pronta do pandas
dados[dados['n_bib'] > 3]

In [None]:
# interação com o usuário
valor = float(input('Acima de qual valor de renda você deseja visualizar os municípios de MG? '))
for i in range(len(dados)):
  if dados['rdpc_formal'][i] > valor:
    print(dados['nome_mun'][i], dados['nome_meso'][i], dados['rdpc_formal'][i], dados['popul'][i])

In [None]:
# interação com o usuário
variavel = input('Qual variável você quer saber valores acima de 1000? ')
for i in range(len(dados)):
  if dados[variavel][i] > 1000:
    print(dados['nome_mun'][i], dados['nome_meso'][i], dados[variavel][i], dados['popul'][i])

# Medidas resumo

A função *describe* fornece um resumo estatístico da variável, o que pode ajudar em alguns cálculos:

In [None]:
# função pronta do pandas
# como é a variável tx_mort_homicidio, por exemplo? Seu resumo estatístico é dado por:
dados.tx_mort_homicidio.describe()

In [None]:
# mais interações com o usuário
print('Insira a variável e qual o valor a partir do qual deseja ver os municípios que atendem ao critério:')
var = input('variável: ')
valor = float(input('valor: '))

# como seria o código para retornar os municípios que têm valores acima do escolhido?
for i in range(len(dados)):
    if dados[var][i] > valor:
        print(dados.nome_mun[i], dados[var][i])


In [None]:
# como seria o código para somar os valores de uma variável?
soma = 0
for j in range(len(dados)):
  soma = soma + dados['popul'][j]
print('População total de MG:', soma)

In [None]:
# função pronta do pandas para somar os valores de uma variável (coluna)
dados['popul'].sum()

In [None]:
# maior valor de uma variável
# maior valor de popul
maior = 0
y = 0
while y < len(dados):
  if dados['popul'][y] > maior:
    maior = dados['popul'][y]
    pos = y
  y = y + 1
print(dados.nome_mun[pos], maior)


In [None]:
# usando função pronta do pandas
# que retorna os maiores valores de uma variável
dados.sort_values(by='tx_mort_homicidio', ascending=False).loc[:,['nome_mun', 'nome_meso', 'popul', 'tx_mort_homicidio']]

In [None]:
# função pronta do pandas
# só mostrando os 5 primeiros
(dados.sort_values(by='popul', ascending=False)
       .loc[:,['nome_mun', 'nome_meso', 'popul']]  # variáveis que quero mostrar
       .head(5))

In [None]:
# uso de while
# ir retornando um resultado enquanto uma condição for verdadeira
var = input('Escolha uma variável: ')
entrada = input('Tecle "c" para continuar e "p" para parar: ')
i = 0
while entrada == 'c':
    print(dados.nome_mun[i], dados[var][i])
    i = i + 1
    entrada = input('Tecle "c" para continuar e "p" para parar: ')

## Selecionar municípios de MG (por mesorregião ou microrregião)

In [None]:
# para saber como estão os nomes das mesorregiões
dados.nome_meso.unique()

In [None]:
# criar um objeto sul com os municípios apenas do Sul/Sudoeste de MG
sul = dados.query("nome_meso == 'Sul/Sudoeste de Minas'")

In [None]:
sul.shape

In [None]:
# notar que os índices começam em 11
sul.head()

In [None]:
# fazer com que os índices comecem em 0
sul.index = range(len(sul))
sul.head()

sul é um novo *dataframe* que podemos usar da mesma forma que usamos o dados:

In [None]:
# percorrer cada linha do dataframe e verificar se o valor da variável rdpc_formal
# é maior do que 1000. Se for, mostrar o nome do município e o valor de rdpc_formal
for i in range(len(sul)):
    if sul.rdpc_formal[i] > 1000:
        print(sul.nome_mun[i], sul.rdpc_formal[i])

In [None]:
# outro jeito para fazer com que os índices comecem em 0
# sul1 = dados.query("nome_meso == 'Sul/Sudoeste de Minas'").reset_index().drop('index', axis=1)
# sul1.head()

## Usuário escolhe mesorregião

In [None]:
nome = input('Escolha uma mesorregião: ')
m = dados.query("nome_meso == @nome")

In [None]:
# fazer com que os índices comecem em 0
m.index = range(len(m))

In [None]:
# primeiras linhas do dataframe
m.head()

In [None]:
# rendas maiores que um valor para a mesorregião
for i in range(len(m)):
    if m.rdpc_formal[i] > 300:
        print(m.nome_mun[i], m.rdpc_formal[i])

## Possibilidades:
- usar menus para interagir com o usuário
- calcular medidas estatísticas (média, desvio padrão, correlação etc.)
- calcular porcentagens

# Parte 2 - inclusão de funções e listas

Uso de listas: responder à pergunta 'Quais os municípios de MG produziram mais de 20.000 toneladas de café em 2017?' Incluir numa lista de listas os municípios que atendem ao critério (nome e produção de café).

In [None]:
# quais os municípios de MG produziram mais de 20.000 toneladas de café em 2017?
# para os que produziram, colocar o nome do município e a produção numa lista
# retornar a lista
lista_cafe = []     # criar lista vazia
for i in range(len(dados)):
    if dados['cafe_q'][i] > 20000:
        lista_cafe.append([dados['nome_mun'][i], dados['cafe_q'][i]])
        
# mostrar a lista
lista_cafe

In [None]:
# elemento da posição 0 da lista
lista_cafe[0]

In [None]:
# elemento da posição 0 é uma lista, quero a posição 0 dessa sublista,
# ou seja, o nome do município
lista_cafe[0][0]

In [None]:
# se quiser o valor da produção desse município
lista_cafe[0][1]

Exemplo de uso de funções:

In [None]:
# transformando em função que recebe como parâmetros o dataframe df
# (esse dataframe pode ser 'dados' ou os dados de uma mesorregião, por ex.)
# e um valor
# e retorna na tela o nome do município e a produção de café
# dos municípios de MG que têm produção > valor
def acima_cafe(df, valor):
    for j in range(len(df)):
        if df['cafe_q'][j] > valor:
            print(df['nome_mun'][j], df['cafe_q'][j])

In [None]:
# uso da função 'acima_cafe'
# no dataframe 'dados' retornar quais municípios têm
# produção maior do que o valor especificado
acima_cafe(dados, 30000)

Exemplo de interação com o usuário: ele define o valor da produção de café a partir do qual ele deseja saber os municípios que apresentam esse valor.

In [None]:
# interação com o usuário
v = float(input('Acima de qual valor de produção de café (em toneladas) você deseja visualizar os municípios de MG? '))

# uso da função
acima_cafe(dados, v)

In [None]:
# outra variação da mesma função: uma lista é criada com as informações
def acima_cafe_lista(df, valor):
    lista = []
    for j in range(len(df)):
        if df['cafe_q'][j] > valor:
            lista.append([df['nome_mun'][j], df['cafe_q'][j]])
    return lista

In [None]:
# uso da função 'acima_cafe_lista' com 'dados'
cafe1 = acima_cafe_lista(dados, 30000)

In [None]:
cafe1

In [None]:
dados.nome_meso.unique()

In [None]:
# mesorregião escolhida pelo usuário
print(dados.nome_meso.unique())
m = input('Municípios de qual mesorregiao você deseja? ')
meso = dados.query('nome_meso == @m')
meso = meso.reset_index()
# visualizar o dataframe 'meso' criado
meso

In [None]:
meso.head()

In [None]:
meso.shape

In [None]:
# visualizar os municípios que produzem mais de um valor de 
# café na mesorregião escolhida
acima_cafe_lista(meso, 10000)

In [None]:
# função mais geral - as informações passadas como parâmetros são:
# - dataframe
# - variável
# - valor de referência
# a função retorna o nome do município e o valor da variável para
# os municípios que têm valores maiores do que o que foi passado
# como parâmetro
def municipios_acima(df, var, valor):
    lista = []
    for i in range(len(df)):
        if df[var][i] > valor:
            lista.append([df.nome_mun[i], df.nome_meso[i], df[var][i]])
    return lista

In [None]:
# uso da função 'municipios_acima'
# escolhi a variável 'cana'
# e valores acima de 2.000.000 de toneladas
municipios_acima(meso, 'cana_q', 2000)

Interação com o usuário na função *municípios_acima*:

In [None]:
dados.columns

In [None]:
dados.ovos.describe()

In [None]:
print('Insira a variável e qual o valor a partir do qual deseja ver os municípios que atendem ao critério:')
var = input('variável: ')
valor = float(input('valor: '))

l_ovos = municipios_acima(dados, var, valor)

In [None]:
len(l_ovos)

In [None]:
# municipios acima considerando uma mesorregião escolhida
municipios_acima(meso, var, valor)

Agora uma função mais simples: calcular a soma de valores dos municípios em relação a uma variável:

In [None]:
# função para calcular a soma dos valores de uma variável 
# para o dataframe
def soma(df, var):
    soma = 0
    for i in range(len(df)):
        soma = soma + df[var][i]
    return soma

In [None]:
# uso da função soma
soma(meso, 'popul')

In [None]:
# função pronta do pandas para conferir o resultado acima
meso.popul.sum()

In [None]:
# função para retornar o município com maior valor de uma variável
# para iniciar, o candidato a maior é o primeiro município
def maior(df, var):
    # a lista 'maior' tem nome na pos. 0 e o valor da variável 
    # do 1. município na pos. 1
    maior = [df.mun[0], df.nome_meso[0], df[var][0]] 
    for i in range(len(df)):   # percorrer o dataframe em busca do maior valor
        if df[var][i] > maior[2]: # comparar o valor da variável na posição i
                                  # com o valor da variável na lista 'maior'
            maior = [df.nome_mun[i], df.nome_meso[i], df[var][i]] # subtitui pelo novo maior encontrado
    return maior

In [None]:
# uso da função maior
maior(dados, 'tx_mort_homicidio')

In [None]:
# função pronta do pandas
# só mostrando os 5 primeiros
# ascending = True: ordem crescente
# ascending = False: ordem decrescente
(dados
 .sort_values(by='tx_mort_homicidio', ascending=False)
 .loc[:,['nome_mun', 'nome_meso', 'tx_mort_homicidio']]
 .iloc[:5,:])

# Parte gráfica

Alguns exemplos de gráficos que podem ser gerados se encontram abaixo.

In [None]:
# pacotes necessários para os gráficos
% matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid')

In [None]:
# histograma
dados['cafe_q'].plot.hist();

In [None]:
dados.cafe_q.describe()

In [None]:
# boxplot
sns.boxplot('popul', data=meso, orient='v')
plt.xlabel('população');

In [None]:
# diagrama de dispersão
dados.plot.scatter('milho_q', 'banana_q', c='pink')
plt.xlabel('milho')
plt.ylabel('banana');

In [None]:
# calcular correlação entre duas variáveis
dados['milho_q'].corr(dados['soja_q'])

In [None]:
# calcular correlação entre várias variáveis (duas a duas)
lista = ['milho_q', 'soja_q', 'banana_q', 'cana_q']
dados.loc[:, lista].corr()