### *Notebook* de exemplo para o trabalho final de Fundamentos da Programação (2018-1)

In [None]:
# importar o pacote pandas - útil para dataframes, séries, dados em painel
import pandas as pd

Dentre os conjuntos de dados disponíveis para o trabalho:

- imrs-2016
- censo-2015-EUA
- países

escolhi os dados do IMRS para este notebook. Mas no trabalho podem ser escolhidos mais conjuntos de dados.

In [None]:
# ler a planilha 'imrs-2016'
imrs = pd.read_excel('dados/imrs-2016.xlsx', encoding='latin1', decimal=',')
# outra opção é ler os dados em csv
# imrs = pd.read_csv('dados/imrs-2016.csv', encoding='latin1', decimal=',')

Para ler os outros conjuntos de dados:

In [None]:
# censo-EUA
# eua = pd.read_excel('dados/censo-2015-EUA.xlsx', encoding='latin1')

# paises
# paises = pd.read_excel('dados/paises.xlsx', encoding='latin1')

In [None]:
# ver as variáveis contidas no dataframe
imrs.columns

In [None]:
# número de linhas e colunas
imrs.shape

In [None]:
# função que mostra as 5 primeiras observações do dataframe
imrs.head()

In [None]:
# retorna a dimensão do dataframe (linhas e colunas)
imrs.shape

In [None]:
# retorna o número de linhas
len(imrs)

Para exemplificar o uso de uma estrutura de repetição (*for*) e uma estrutura condicional (*if*) fiz a seguinte pergunta:

Quais os municípios de MG possuem rendimento per capita no setor formal maior do que R$1000,00?

In [None]:
# municípios de MG possuem rendimento per capita no setor formal maior do que R$1000,00?
# percorrer cada linha do dataframe e verificar se o valor da variável rdpc_formal
# é maior do que 1000. Se for, mostrar o nome do município e o valor de rdpc_formal
for i in range(len(imrs)):
    if imrs.rdpc_formal[i] > 1000:
        print(imrs.mun[i], imrs.rdpc_formal[i])

Note que bastaria trocar a variável (escolher outra no lugar de *rdpc_formal*) e o valor de referência (1000) para fazer outra consulta. **Muito importante:** essa modificação **NÃO CONTA** como um uso diferente para o *for* e para o *if*, já que nada de novo está sendo feito no código.

In [None]:
# usando a mesma estrutura acima para responder quais os municípios de MG 
# possuem mais do que duas bibliotecas
# mostrar o nome do município e o valor de n_bib
for i in range(len(imrs)):
    if imrs.n_bib[i] > 2:
        print(imrs.mun[i], imrs.n_bib[i])

Se fôssemos usar uma função pronta do pacote *pandas* (o que não é nosso foco na disciplina), bastaria fazer o seguinte (porém ele retornaria um *dataframe* inteiro com as linhas selecionadas (n_bib > 2)): 

In [None]:
imrs[imrs.n_bib > 2]

Agora um exemplo de uso de listas. Eu quero responder a mesma pergunta sobre renda, mas o resultado será apresentado em uma lista.

In [None]:
# lista de listas: 
# quais os municípios de MG possuem rendimento per capita no setor formal maior do que R$1000,00?
# percorrer cada linha do dataframe e verificar se o valor da variável rdpc_formal
# é maior do que 1000. Se for, colocar o nome do município e a renda numa lista
lista_rdpc = []
for i in range(len(imrs)):
    if imrs.rdpc_formal[i] > 1000:
        lista_rdpc.append([imrs.mun[i], imrs.rdpc_formal[i]])

# visualizar a lista criada
lista_rdpc

Como é uma lista, posso acessar seus elementos:

In [None]:
# elemento da posição 4 da lista
lista_rdpc[4]

In [None]:
# elemento da posição 4 é uma lista, quero a posição 1 dessa sublista
lista_rdpc[4][1]

Exemplo do uso de funções:

In [None]:
# transformando em função que recebe o dataframe como parâmetro
# e retorna na tela o nome do município e a rdpc_formal 
# dos municípios de MG que têm rdpc_formal > 1000
def acima_rdpc(df):
    for i in range(len(df)):
        if df.rdpc_formal[i] > 1000:
            print(df.mun[i], df.rdpc_formal[i])

# uso da função
acima_rdpc(imrs)

Essa função é sem graça porque é meio "travada". Os parâmetros são interessantes para podermos retornar vários resultados interessantes com flexibilidade.

In [None]:
# melhorando a função acima: outro parâmetro que indica qual o 
# valor de referência
def acima_rdpc_valor(df, valor):
    for i in range(len(df)):
        if df.rdpc_formal[i] > valor:
            print(df.mun[i], df.rdpc_formal[i])

# uso da função
acima_rdpc_valor(imrs, 900)

Exemplo de interação com o usuário: ele define o valor do rendimento no setor formal a partir do qual ele deseja saber os municípios que apresentam esse valor.

In [None]:
# interação com o usuário
valor = float(input('Acima de qual valor de renda no setor formal você deseja visualizar os municípios de MG? '))

# uso da função
acima_rdpc_valor(imrs, valor)

In [None]:
# outra variação da mesma função: uma lista é criada com as informações
def acima_rdpc_valor(df, valor):
    lista = []
    for i in range(len(df)):
        if df.rdpc_formal[i] > valor:
            lista.append([df.mun[i], df.rdpc_formal[i]])
    return lista

# uso da função
acima_rdpc_valor(imrs, 1100)

A função *describe* fornece um resumo estatístico da variável, o que pode ajudar em alguns cálculos:

In [None]:
# como é a variável tx_esc_0_3 (taxa de atendimento escolar às crianças de 0 a 3 anos de idade),
# por exemplo? Seu resumo estatístico é dado por:
imrs.tx_esc_0_3.describe()

In [None]:
# apenas a média
imrs.tx_esc_0_3.mean()

In [None]:
# função mais geral - as informações passadas como parâmetros são:
# - dataframe
# - variável
# - valor de referência
# a função retorna o nome do município e o valor da variável para
# os municípios que têm valores maiores do que o que foi passado
# como parâmetro
def municipios_acima(df, var, valor):
    lista = []
    for i in range(len(df)):
        if df[var][i] > valor:
            lista.append([df.mun[i], df.nome_meso[i], df[var][i]])
    return lista

# uso da função
# escolhi a variável 'tx_adol_EM_adeq'
municipios_acima(imrs, 'tx_adol_EM_adeq', 90)

Interação com o usuário na função *municípios_acima*:

In [None]:
print('Insira a variável e qual o valor a partir do qual deseja ver os municípios que atendem ao critério:')
var = input('variável: ')
valor = float(input('valor: '))

municipios_acima(imrs, var, valor)

Agora uma função mais simples: calcular a soma de valores dos municípios em relação a uma variável:

In [None]:
# função para calcular a soma dos valores de uma variável 
# para o dataframe
def soma(df, var):
    soma = 0
    for i in range(len(df)):
        soma = soma + df[var][i]
    return soma

# uso da função
soma(imrs, 'popul')

In [None]:
# conferir com a função pronta do pandas
imrs.popul.sum()

In [None]:
# função para retornar o município com maior valor de uma variável
# para iniciar, o candidato a maior é o primeiro município
def maior(df, var):
    # a lista 'maior' tem nome na pos. 0 e o valor da variável 
    # do 1. município na pos. 1
    maior = [df.mun[0], df.nome_meso[0], df[var][0]] 
    for i in range(len(df)):   # percorrer o dataframe em busca do maior valor
        if df[var][i] > maior[2]: # comparar o valor da variável na posição i
                                  # com o valor da variável na lista 'maior'
            maior = [df.mun[i], df.nome_meso[i], df[var][i]] # subtitui pelo novo maior encontrado
    return maior

# uso da função
maior(imrs, 'tx_mort_homicidio')

In [None]:
# usando função pronta do pandas
# que retorna os maiores valores de uma variável
imrs.sort_values(by='tx_mort_homicidio', ascending=False).loc[:,['mun', 'nome_meso', 'tx_mort_homicidio']]

In [None]:
# só mostrando os 5 primeiros
# ascending = True: ordem crescente
# ascending = False: ordem decrescente
(imrs
 .sort_values(by='tx_mort_homicidio', ascending=False)
 .loc[:,['mun', 'nome_meso', 'tx_mort_homicidio']]
 .iloc[:5,:])

## Selecionar municípios de MG (por mesorregião ou microrregião)

In [None]:
# para saber como estão os nomes das mesorregiões
imrs.nome_meso.unique()

In [None]:
# criar um objeto sul com os municípios apenas do Sul/Sudoeste de MG
sul = imrs.query("nome_meso == 'Sul/Sudoeste de Minas'")

In [None]:
sul.shape

In [None]:
# notar que os índices começam em 11
sul.head()

In [None]:
# fazer com que os índices comecem em 0
sul.index = range(len(sul))
sul.head()

In [None]:
# outro jeito para fazer com que os índices comecem em 0
sul1 = imrs.query("nome_meso == 'Sul/Sudoeste de Minas'").reset_index().drop('index', axis=1)
sul1.head()

In [None]:
# usar a função municipios_acima
# quais municípios do sul de MG possuem rendimento no setor formal maior do que 1000?
municipios_acima(sul, 'rdpc_formal', 1000)

In [None]:
# usando a função soma
soma(sul, 'popul')

In [None]:
# conferindo com a função pronta do pandas
sul.popul.sum()

In [None]:
# uso da função maior (criada antes) para o conjunto de dados sul
maior(sul, 'rdpc_formal')

In [None]:
maior(sul, 'tx_mort_homicidio')

O próximo exemplo é de uma função que não faz quase nada, mas é para exemplificar o caso em que o usuário inserir uma *string* como parâmetro e for necessário fazer uma consulta ao *dataframe* usando o *query* para selecionar linhas do *dataframe*. Para isso é necessário o uso de @, observe:

In [None]:
# função em que o usuário escolhe uma mesorregião e ela retorna o dataframe só com essa mesorregião
# note que essa função apenas usa o query do pandas, mas é para exemplificar o uso de parâmetros
# perceba o uso do @ dentro do query, pois o parâmetro 'meso' é uma string
def mostra(meso):
    meso_escolhida = imrs.query('nome_meso == @meso').reset_index().drop('index', axis=1)
    return meso_escolhida

In [None]:
# uso da função 'mostra'
mostra('Sul/Sudoeste de Minas')

## Sugestões para o trabalho
- não vale usar os códigos e funções que passei como exemplo e simplesmente mudar para outra variável ou município, tenham novas ideias
- escolher mesorregiões de MG
- usar mais de uma variável na mesma função
- retornar maior e menor valor de alguma variável
- retornar outras medidas estatísticas em funções
- calcular porcentagens
- função que recebe uma variável e uma cidade e retorna seu valor  
- função que recebe uma cidade e retorna todos os indicadores
- função que recebe uma mesorregião e uma variável e retorna a média dessa variável para a mesorregião

### Importante:

- não é necessário que o trabalho seja em torno de um tema (demografia, saúde etc.), as funções e códigos podem misturar assuntos sem problema algum (funções que retornam informações de renda, outras funções que retornem informações sobre saúde etc.). Mas quem quiser trabalhar com um tema fique à vontade  
- gráficos podem ser utilizados para ilustrar resultados (basta correr atrás da documentação de pacotes do *Python*, como *seaborn*, *matplotlib* etc. ou o site *stackoverflow*)  
- o importante é utilizar o que vimos na disciplina, evitando usar funções prontas do *Python* e tentando criar seus próprios códigos

## Exemplo de gráfico

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid', palette='Set2')

In [None]:
imrs.columns

In [None]:
# gráfico de dispersão: proporção de pessoas com plano privado de saúde X rendimento no setor formal
plt.scatter(imrs.prop_priv_saude, imrs.rdpc_formal);

In [None]:
# correlação entre proporção de pessoas com plano privado de saúde X rendimento no setor formal
imrs[['prop_priv_saude', 'rdpc_formal']].corr().iloc[0,1]