## O que é pandas?

O `pandas` é uma biblioteca muito usada para análise de dados em Python, que é [uma das linguagens de programação mais populares da atualidade](https://insights.stackoverflow.com/survey/2020#technology-programming-scripting-and-markup-languages-all-respondents). (revisado em 2020)

Uma das principais vantagens de usar `Python` e o `pandas` é que você pode manipular uma quantidade relativamente grande de dados (*arquivos de até alguns GB*) com facilidade, rapidez e com infinitas possibilidades de análise, uma vez que você pode programar qualquer coisa e pegar ideias emprestadas de outras bibliotecas.

## O que vamos aprender neste caderno?

Vamos aprender o básico de manipulação e visualização de dados para conseguirmos fazer por conta próprias as nossas próprias análises. A ideia é que os comandos aqui sirvam de consulta para o futuro.

## Dicas de Jupyter Notebook

Este programa que estamos usando no navegado se chama Jupyter Notebook e é um interpretador de Python interativo, podemos digitar um comando de Python e apertar _Shift + Enter_ e esse comando é executado e seu resultado é impresso na tela.

Existem alguns atalhos bastante úteis para trabalhar com Jupyter Notebook:
    0. 'Esc' - Saí do modo edição da célula atual
    1. 'Enter' - Edita a célula selecionada
    2. 'Shift + Enter' - Executa a célula selecionada
    3. 'A' - Adiciona uma nova célula acima da célula atual (não pode estar em modo de edição)
    4. 'B' - Adiciona uma nova célula abaixo da célula atual (não pode estar em modo de edição) 
    5. 'X' - Deleta a célula selecionada (não pode estar em modo de edição)
    6. 'Z' - Desfaz a deleção de uma célula (não pode estar em modo de edição)
    7. 'Ctrl + Z' - Desfaz as últimas edições
    8. 'Ctrl + Shift + Z' - Refaz o último comando de desfazer
    9. 'H' - Abre um arquivo de ajuda com todos os atalhos (não pode estar em modo de edição)
    10. 'Tab' - Faz sugestões para completar o código
    11. '?função' - Mostra a documentação de uma dada função
    
*(Modo de edição é quando você consegue editar uma célula, e modo de navegação é quando você não consegue)*

# Iniciando com Python

As variáveis podem conter números `int` e `float`, textos `str`, valores booleanos `bool`, entre outras.

In [None]:
x = 10

In [None]:
x

In [None]:
y = 5

In [None]:
x + y 

In [None]:
nome = 'José'

In [None]:
sobrenome = 'da Silva'

In [None]:
nome_completo = nome + ' ' + sobrenome

In [None]:
nome_completo

## `Exercícios: Python Básico`

1. Criar as variáveis `nome` e `idade` e atribuir valores a elas
2. Juntar as variáveis por meio do comando: `nome + ' ' + idade`

# Preparando o Ambiente

Importando as bibliotecas que iremos usar no treinamento:

In [None]:
import pandas as pd
import seaborn as sns

Importando os dados a partir de um arquivo '<i>.csv</i>' contendo dados do IGM preparado especificamente para usarmos neste treinamento.

Em nosso código esse arquivo ficará salvo com o nome de `igm`

Esse arquivo foi construído a partir de uma série de colunas que compõe o IGM e também de notas do ENEM.

In [None]:
igm = pd.read_csv('../input/igm_modificado.csv')

Temos uma variável chamada `igm` que está guardando algo, para descobrirmos basta digitar `igm` e apertar `Shift + Enter`:

# Primeiro Contato com os Dados

Uma das primeiras coisas a se fazer quando se pega um conjunto de dados novo é uma rápida visualização a fim de entender melhor o que tem dentro dele. 

In [None]:
igm

## Dissecando o DataFrame (Tipo de Dados)

A visualização do DataFrame acima é composta pelos seguintes elementos:
    
    1. Index
    2. Elemento do Index
    3. Colunas
    4. Nome da coluna (pode ter espaço, acento e etc, mas nome curto, simples, e representativo facilita o código)
    5. '...'
    6. Células (Dados)
    7. NaNs

Para vermos apenas uma pequena parte, temos o comando `.head()` irá mostrar por padrão as 5 primeiras linhas do que existe dentro de um conjunto de dados dentro de um objeto do pandas.

In [None]:
igm.head()

## Outras formas de selecionar uma pequena amostra de dados:

O comando inverso ao `head()` é o `tail()`, que irá mostrar as 5 __últimas__ linhas do DataFrame por padrão:

In [None]:
igm.tail()

Apesar da convenção no Python ser utilizar o `.head()` ou o `.tail()` para olhar um DataFrame novo, algo muito mais inteligente de se fazer para ter uma ideia representativa do DataFrame é utilizar o `sample(5)`, que seleciona 5 linhas aleatórias do seu `DataFrame`. Se você executar o comando algumas vezes vai obter resultados diferentes a cada iteração.

In [None]:
igm.sample(5)

## Melhorando a visualização da tabela

Um truque para visualizar melhor os dados é invertendo as linhas pelas colunas (matrix transposta), para isso basta colocar um `.T` depois do nosso comando que gera uma visualização de DataFrame.

## Encadeamento de funcionalidades

Podemos juntar diversos comando na mesma linha, isto é, logo após o `sample(5)`, pode usar o `.T`, e essas funcionalidades irão funcionar em cascata e de forma sequêncial, primeiro o `sample(5)`, e depois o `.T`

In [None]:
igm.sample(5).T

## Selecionando Linhas no pandas

Outra forma de vermos os 5 primeiros registros podemos usar o comando:

In [None]:
igm[0:5].T

Outra forma de vermos os cinco últimos comandos é:

In [None]:
igm[-5:].T

A vantagem da forma explicitada acima é que podemos selecionar qualquer local da tabela, não estando restritos as primeiras linhas. Por exemplo, o comando a seguir seleciona as linhas 20 até 29:

In [None]:
igm[20:30].T

## Slicing no Pandas

O nome dessa operação de colocar algo entre colchetes é slicing, e isso como convenção geral é uma forma de selecionar um subconjunto de dados.

[20:30] vai selecionar exatamente 10 elementos (30 - 20). O número da direita menos o número da esquerda é sempre o total de elementos que serão selecionados, e isso é uma convenção no Python.

O número 20 é selecionado por ser um intervalo fechado na esquerda, e o número 30 não é selecionado por ser um intervalo aberto na direita. O que é outra convenção do Python.

## Selecionando colunas

Para selecionarmos colunas no pandas, basta dizermos o nome do DataFrame seguido por colchetes com o nome da coluna dentro:

__Nome do Dataframe:__ `igm`

__Colchetes com a coluna dentro:__ `['Porte do Município']`

__Comando completo:__ `igm['Porte do Município']`

In [None]:
igm['porte']

## Selecionando Múltiplas Colunas

Podemos selecionar multiplas colunas com o comando `igm[['municipio', 'indice_governanca']]`:

In [None]:
igm[['municipio', 'indice_governanca']]

##  `Exercícios: Seleções Básicas`

1. Selecionar as 10 primeiras linhas mostrando as colunas `municipio`, `estado` e `idhm`.
2. Selecionar das linhas 15 a 24 os valores da coluna `municipio`

## Dissecando Series (Tipo de Dados)

In [None]:
type(igm['porte'])

Quando selecionamos uma coluna, o nosso resultado é um objeto do tipo `Series`, que é basicamente a forma do pandas representar uma coluna. Uma `Series` é composta pelos seguintes elementos:
    1. Index
    2. Index label
    3. Hidden values
    4. Series Name
    5. Lenght
    6. dtype

# Fazendo Operações de Agregamento:

Vamos contar quantos valores da coluna `porte` temos para cada tipo com o comando `value_counts()`:

In [None]:
igm['porte'].value_counts()

## Plotando Nosso Primeiro Gráfico

Para garantir que nossos gráficos vão ser plotados em todas as versões do `Jupyter Notebook` precisamos rodar o comando abaixo:

In [None]:
%matplotlib inline

Com bastante facilidade podemos plotar um gráfico com os valores acima, basta colocar `.plot.bar()` na sequência.

In [None]:
igm['porte'].value_counts().plot.bar()

##  `Exercícios: Series`

1. Contar o número de munícipios por estado
2. Plotar gráfico de número de munícipios por estado

## Operações de Agregamento Numéricas


Vamos criar uma variável chamada `ind_des` para guarda a nossa `Series` relativa a coluna `indice_governanca`

In [None]:
ind_des = igm['indice_governanca']

Vamos contar a quantidade de elementos em `ind_des`

Para verificarmos quais são os valores em branco podemos usar o `isnull()`, que nos retornar uma `Series` com valores `True` ou `False` de acordo com se os valores estiverem em branco ou não.

In [None]:
ind_des.count()

Note que o `.count()` não contabiliza valores em branco, se quisermos ver os valores em branco temos que usar o atributo `.size`, que não tem paranteses

In [None]:
ind_des.size

In [None]:
ind_des.isnull()

Uma forma de melhor utilizarmos essa informação é contabilizando o total de valores em branco, note que `True` tem valor `1` e `False` tem valor `0`, portanto se somarmos todos os elementos, teremos o total de valores em branco.

In [None]:
ind_des.isnull().sum()

Podemos remover esses valores em branco com um simples comando, o `dropna()`.

In [None]:
ind_des.dropna()

Ele retornou os valores, e podemos ver que não tem nenhum valor em branco, mas vamos verificar de fato para ver se mudamos os nossos valores:

In [None]:
ind_des.isnull().sum()

Não mudou, por que isso aconteceu? Uma série de funções no pandas não alteram o objeto em questão, porque muitas vezes estamos fazendo transformações temporárias para gerar uma visualização ou análise, para mudar o objeto temos que passar um parâmetro a mais que é o `inplace=True`.

In [None]:
ind_des.dropna(inplace=True)

Vamos verificar novamente se temos valores em branco no nosso conjunto de dados:

In [None]:
ind_des.isnull().sum()

Selecionando o valor mínimo do índice de desempenho

In [None]:
ind_des.min()

Selecionando o valor máximo do índice de desempenho

In [None]:
ind_des.max()

Olhando a média dos valores:

In [None]:
ind_des.mean()

Olhando o desvio padrão dos valores:

In [None]:
ind_des.std()

## Tendo uma visão geral do Índice de Governança

Um comando muito útil para avaliar uma `Series` é o `.describe()`, que irá calcular os quartis, valores máximo, mínimo, a média e o desvio padrão.

In [None]:
ind_des.describe()

## Usando o .describe() em um DataFrame

O bom é que o `describe()` também funciona em um `DataFrame`, e por padrão apenas para as colunas numéricas:

In [None]:
igm.describe()

##  `Exercícios: Agregações Númericas`

1. Utilize o `.min()`, `.max()`, e `.mean()` para avaliar os dados da coluna `exp_vida`
2. Utilize o `.describe()` para avaliar os dados da coluna `idhm`

## Plotando um Histograma do Índice de Governança

In [None]:
ind_des.hist()

# Primeiros Gráficos com o Seaborn

O Python tem diversas ferramentas para plotar gráficos, uma das mais fáceis e poderosas de usar é o __seaborn__ que foi importado no começo do nosso código com o comando <i>import seaborn as sns</i>.

In [None]:
sns.kdeplot(ind_des)

Um gráfico ligeiramente diferente, mas que a além da linha plota as `bins` do histograma.

In [None]:
sns.distplot(ind_des.dropna())

##  `Exercícios: Histogramas`

1. Plote um histograma do `gasto_pc_educacao`
2. Plote um `sns.kdeplot()` do `gasto_pc_educacao`
3. Plote um `sns.distplot()` do `gasto_pc_educacao`
4. Utilize o `.describe()` para ver os valores numéricos do `gasto_pc_educacao`

## Fazendo Filtros

Tem alguns jeitos de selecionar subconjuntos, podemos escolher todas as cidades que pertençam a região nordeste utilizando o comando abaixo:

In [None]:
igm[igm['regiao']=='NORDESTE']

Quando rodamos o comando _igm['Região']=='NORDESTE'_ temos um resultado (em forma de Series) de _True_ (Verdadeiro) ou _False_ (Falso) de acordo com o índice do elemento.

In [None]:
igm['regiao']=='NORDESTE'

Podemos guardar esse resultado dentro de uma variável:

In [None]:
filtro = igm['regiao']=='NORDESTE'

E executar o filtro em seguida:

In [None]:
igm[filtro].T

## Explorando Dados do Nordeste

Para facilitar nossa vida, vamos criar uma variável já filtrada chamada `nordeste`:

In [None]:
nordeste = igm[filtro]

Agora temos um `DataFrame` apenas com cidades do Nordeste.

In [None]:
nordeste.sample(5).T

Se utilizarmos uma seleção de coluna `indice_governanca` e o `.describe()`, iremos ver o detalhamento dos dados dessa coluna de acordo com o método `.describe()`

In [None]:
nordeste['perc_pop_econ_ativa'].describe()

Podemos plotar essa distribuição para o Nordeste:

In [None]:
nordeste['perc_pop_econ_ativa'].hist(bins=50)

##  `Exercícios: Filtros`

1. Crie um filtro chamado `meu_filtro` para selecionar apenas as linhas onde os valores da coluna `pib_pc` sejam maiores do que 50000
2. Crie um novo `DataFrame` chamado `igm_filtrado_pib_pc` aplicando o `meu_filtro` no `igm`
3. Utilize o método `.describe()` na coluna `pib_pc` do `igm_filtrado_pib_pc`
4. Plote um histograma da coluna `pib_pc` do `igm_filtrado_pib_pc`

## Fazendo Filtros com Valores Negativos

Para pegarmos o valor negativo de uma sequência de `True` ou `False`, podemos usar o `~`

In [None]:
filtro_nordeste = ~nordeste['perc_pop_econ_ativa'].isnull()

## Ordenando um DataFrame que possui uma coluna com NaNs

Para ordernamos um dataframe por uma coluna basta usarmos o comando `.sort_values()` com o parâmetro `by=nome_da_coluna`. O parâmetro `ascending=False` serve para pegarmos os itens em ordem decrescente.

In [None]:
nordeste[filtro_nordeste].sort_values(by='perc_pop_econ_ativa', ascending=False)[0:5].T

## Usando vários filtros ao mesmo tempo

Vamos criar um novo filtro para o `DataFrame` inteiro e não só para o Nordeste.

In [None]:
filtro_2 = ~igm['perc_pop_econ_ativa'].isnull()

Outra forma de escrever isso é utilizando dois filtros ao mesmo tempo, para isso temos que usar o operador lógico `&` que representa `E`, também temos a oportunidade usar o operador lógico `|`, que significa `OU`:

In [None]:
igm[filtro & filtro_2].sort_values(by='perc_pop_econ_ativa', ascending=False)[0:5].T

## Avaliando o tamanho dos DataFrames e Series

Para sabermos o tamanho de um `DataFrame` usamos o comando `.shape`

In [None]:
igm.shape

O `DataFrame` feito a partir do `filtro` é menor como de se esperar:

In [None]:
nordeste.shape

Podemos fazer o `.shape` de uma `Series`

In [None]:
igm['municipio'].shape

Note pelo comando a seguir como o shape é diferente entre a seleção com:
1. `[]` - `Series` - 1 dimensão
2. `[[]]` - `DataFrame` - 2 dimensões

In [None]:
igm[['municipio']].shape

Podemos usar o `.shape` em uma `Series` também, que nos retornará apenas 1 dimensão.

In [None]:
filtro.shape

Note que o `filtro_nordeste` tem o mesmo número de linhas do `DataFrame` que o originou

In [None]:
filtro_nordeste.shape

Note que o segundo filtro que utilizamos tem o mesmo tamanho do primeiro filtro e do `DataFrame` original

In [None]:
filtro_2.shape

De preferência devemos usar um filtro do mesmo tamanho que um `DataFrame` para fazer as seleções. Mas se jogarmos um filtro maior em um `DataFrame` que é um subconjunto do `DataFrame` original, irá funcionar porque ele irá se guiar pelo `index`, mas irá retornar um aviso.

Se algum aviso desse tipo acontecer, você já tem uma boa ideia do que pode ter acontecido.

In [None]:
nordeste[filtro_2]

##  `Exercícios: Mais Filtros e Shape`

1. Crie um filtro chamado `filtro_com_idhm` que selecione as cidades que não tenham o `idhm` em branco.
2. Crie um filtro chamado `filtro_trabalho` que selecione as cidades que o valor de `jornada_trabalho` seja maior do que 50 
3. Crie um novo `DataFrame` chamado `igm_idhm_e_trabalho` que use os filtros `filtro_com_idhm` e `filtro_trabalho` com o operador `E` - `&`
4. Crie um novo `DataFrame` chamado `igm_idhm_ou_trabalho` que use os filtros `filtro_com_idhm` e `filtro_trabalho` com o operador `OU` - `|`
5. Pegue o `.shape` dos `DataFrames` dos itens `3` e `4`

## Manipulação de Strings

Agora nós iremos atualizar a densidade demográfica da tabela com um valor mais recente. Para isso temos que transformar as colunas de area e de populacao em números (`float` ou `int`), atualmente elas estão em forma de texto (`str`)

## Avaliando os tipos do nosso DataFrame

In [None]:
igm.info()

Como podemos notar, temos algumas colunas que são númeircas mas que estão como `object`, o que normalmente irá significar que são texto. Vamos avaliar o que está acontecendo.

### Convertendo a coluna de área

In [None]:
igm['area'].sample(5)

Para forçar a conversão para um número podemos usar o comando `.astype(float)`

In [None]:
igm['area'].astype(float)

O comando não funciona porque temos valores que ele não sabe o que fazer, em específico a vírgula separando os milhares. Para corrigir isso basta usar o comando `.str.replace()`

In [None]:
igm['area'].str.replace(',','').astype(float).sample(10)

## Salvando um resultado em uma nova coluna

Vamos salvar esse resultado:

In [None]:
igm['area'] = igm['area'].str.replace(',','').astype(float)

### Convertendo a coluna de população

Vamos primeiro dar uma olhada na coluna `populacao`

In [None]:
igm['populacao'].sample(10)

Também temos valores com vírgula, vamos substituí-los por um valor em branco:

In [None]:
igm['populacao'] = igm['populacao'].str.replace(',','')

E vamos converter em número e salvar o resultado

In [None]:
igm['populacao'] = igm['populacao'].astype(float)

Desta vez não funcionou, porque de acordo com a mensagem de erro, além de vírgulas temos `.` e temos um `(1)` solto de acordo com a nossa mensagem de erro.

Vamos tirar o `.`

In [None]:
igm['populacao'] = igm['populacao'].str.replace('.','')

Para tirar o `('1')`, uma forma é quebrando a string em vários pedaços, para isso usamos o `split()`. Vamos começar com um exemplo fora do `DataFrame` para ilustrar melhor o conceito:

In [None]:
valor_problema = '41.487(1)'

Vamos usar o split:

In [None]:
valor_problema.split('(')

O split separou o nosso elemento original em dois elementos, o que tinha antes da `(` e o que tinha depois:

Para selcionar o que tinha antes basta selecionarmos a posição 0 por meio do comando `[0]`

In [None]:
valor_problema.split('(')[0]

Agora vamos fazer a mesma coisa no `DataFrame`, vamos precisar de chamar o `str` para acessar os métodos de texto.

In [None]:
igm['populacao'] = igm['populacao'].str.split('(')

Vamos imprimir novamente os valores:

In [None]:
igm['populacao'].sample(10)

Vamos selecionar o elemento da posição zero para os casos de termos um `(` no elemento e atualizar os valores da coluna com isso.

In [None]:
igm['populacao'] = igm['populacao'].str[0]

Vamos imprimir os valores da coluna e ver que já temos algo com cara de número, mas que ainda é um `object`

In [None]:
igm['populacao'].sample(10)

Vamos converter isso para `float`:

In [None]:
igm['populacao'] = igm['populacao'].astype(float)

## Operações matemáticas entre colunas

Podemos multiplicar, somar, dividir, subtrair entre colunas, para isso basta usar os respectivos sinais.

In [None]:
igm['populacao'] / igm['area']

Para criarmos uma nova coluna basta colocarmos `igm[]` e dentro do colchetes botar o nome da nova coluna entre aspas. Temos que cuidar cuidado pois se esse nome já existir, iremos sobreescrever o que está lá.

In [None]:
igm['densidade_2'] = igm['populacao'] / igm['area']

## Comparando Densidades

Uma forma interessante de facilitar a nossa visualização o DataFrame é selecionando apenas algumas colunas que nos interessam, como no caso da densidade demográfica: `municipio`, `populacao`, `area`, `densidade_dem` e `densidade_2`, para isso basta colocarmos `igm[[]]` com os nomes das colunas dentro separados por vírgula (lembrando das aspas para identificar que é um texto).

In [None]:
igm[['municipio','populacao','area','densidade_dem', 'densidade_2']].sample(10)

## Alterando colunas no DataFrame

Valores estão ligeiramente diferentes, provavelmente é por conta de estarmos usando valores mais recentes para a populacao do que os que foram utilizados no cálculo original da densidade demográfica.

Para atualizar os valores, basta executar o seguinte comando:

In [None]:
igm['densidade_dem'] = igm['densidade_2']

## Deletando colunas

A coluna `densidade_2` se tornou obsoleta, podemos deletá-la com o seguinte comando:

In [None]:
igm.drop(columns='densidade_2', inplace=True)

##  `Exercícios: Manipulação de Strings`

1. Transforme a coluna `ranking_igm` para uma coluna numérica
2. Crie uma coluna `comissionados_por_servidor_2` a partir das colunas `comissionados` e `servidores`
3. Substitua a coluna `comissionados_por_servidor` se for o caso
4. Delete a coluna `comissionados_por_servidor_2`

In [None]:
igm['comissionados_por_servidor'] = igm['comissionados']/igm['servidores']

## Revisão

Fazer revisão do que foi visto.

## `Exercícios: Revisão`

1. Plotar um histograma da coluna `exp_vida`
2. Usar o método `.describe` na coluna `exp_vida`
3. Usar o método `.describe` na coluna `exp_vida` onde os municípios sejam apenas da região `NORTE`
4. Usar o método `.value_counts()` na coluna `estado` filtrando os munícipios que tenham `pib_pc` > 50000
5. Plotar um gráfico de barras do resultado gerado pelo item 4

## Conteúdos Adicionais

### Gráficos Interativos

Um jeito bem interessante de fazermos histogramas é com gráficos interativos, um boa biblioteca para fazer isso é a `plotly`, para instalarmos ela, basta usarmos o comando `!pip install plotly`

In [None]:
!pip install plotly

Vamos precisar importar duas sub-bibliotecas da `plotly`, importante notar que estamos usando o modo `offline` para facilitar a nossa vida e não necessitarmos de autenticação no site deles.

In [None]:
import plotly.offline as plotly
import plotly.graph_objs as go

Para conseguirmos plotar os gráficos no `Jupyter Notebook` no modo `offline` também precisamos executar o comando abaixo:

In [None]:
plotly.init_notebook_mode(connected=True)

Para prepararmos os dados, usamos o comando a seguir:

In [None]:
pyplot_data = [go.Histogram(x=igm['exp_vida'])]

Para plotarmos o Histograma, usamos o método `pyplot`:

In [None]:
plotly.iplot(pyplot_data)

Importante notar, que diferente dos gráficos do `pandas` e do `seaborn`, se você salvar esse arquivo e abrir depois, o gráfico gerado pelo `plotly` não estará lá para ser visualizado (nem de form não interativa).

## Histograma: Trocando Valores Absolutos por Probabilidades

Para vermos a probabilidade de dado valor acontecer em vez de quantos valores daquele tipo aconteceram, basta usar o parâmetro `histnorm='probability'`:

In [None]:
pyplot_data_norm = [go.Histogram(x=igm['exp_vida'], histnorm='probability')]

Para plotar o gráfico usamos o `plotly.iplot()`

In [None]:
plotly.iplot(pyplot_data_norm)

## `Exercícios: Histogramas Interativos`

1. Plote um histograma interativo de 2 colunas da sua escolha.

### Importando Valores com Vírgula

Vamos salvar o nosso `igm` de volta no disco. Mas dessa vez vamos separar os campos por `;` (ponto e vírgula) em vez da `,` (vírgula) que era utilizada no nosso arquivo original, e vamos usar a `,` (vírgula) como separador decimal em vez do `.` (ponto)

In [None]:
igm.to_csv('igm_virgula.csv', index=False, sep=';', decimal=',')

Podemos abrir esse arquivo no notepad para ver como os dados estão salvos.

Para lermos o arquivo, vamos usar o `read_csv()` novamente, mas dessa vez precisamos usar o comando `sep=;`. Podemos usar o `.info()` em seguida para averiguarmos os tipos de dados:

In [None]:
pd.read_csv('igm_virgula.csv',  sep=';').info()

Como vimos anteriormente, a maioria dos nossos números objetos foi interpretado como objeto, o que na prática significa que é texto.

Para conseguirmos importar os números no formato correto precisamos usar o comando `decimal=','`.

In [None]:
pd.read_csv('igm_virgula.csv', sep=';', decimal=',').info()

## Importandos Arquivos do Excel (Caso de uso real)

Além de importarmos arquivos `.csv`, também podemos ler de forma fácil arquivos do `Excel`:

In [None]:
pd.read_excel('../input/exemplo_1.xls')

Por padrão o `read_excel()` vai abrir a primeira aba da planilha do `Excel`, para selecionarmos uma diferente, precisamos do parâmetro `sheet_name`:

In [None]:
pd.read_excel('../input/exemplo_1.xls', sheet_name='Municípios')

Por padrão o cabeçalho do nosso arquivo vai ser a primeira linha de texto, para alteramos isso podemos usar o parâmetro `header`:

In [None]:
pd.read_excel('../input/exemplo_1.xls', sheet_name='Municípios', header=1)

Se observamos cuidadosamente, veremos que no final do nosso arquivo temos uma série de linhas que distoam dos dados coletados, para pularmos a importação de algumas linhas no final do arquivo, podemos usar o parâmetro `skip_footer`.

In [None]:
pd.read_excel('../input/exemplo_1.xls', sheet_name='Municípios', header=1, skip_footer=14)

Vamos salvar os nossos dados em uma variável chamada `df`:

In [None]:
df = pd.read_excel('../input/exemplo_1.xls', sheet_name='Municípios', header=[1], skip_footer=14)

Vamos olhar os tipos de dados que estão no nosso `DataFrame`

In [None]:
df.info()

Vamos gerar uma nova coluna chamada código:

In [None]:
df['codigo'] = df['COD. UF'] * 100000 + df['COD. MUNIC']

Vamos ver se essa coluna atende aos nossos objetivos:

In [None]:
df.sample(5)

##  `Exercícios: Importando Arquivos`

1. Importe o arquivo `dados_inpe.xlsx` usando a função `pd.read_excel()`.
2. Importe novamente o arquivo ajustando os parâmetros `header` e `skip_footer`
3. Averigue o `DataFrame` gerado no item 2. Use o comando `.info()`.
4. Importe o arquivo `anexo-V.csv`, usando o `read_csv()` e o parâmetro `encoding='latin1'`. (Ignore o `DTypeWarning` caso aconteça, ou use o parâmetro `low_memory=False`) 
5. Importe novamente o arquivo ajustando o parâmetro `header` e salve o `DataFrame` em uma variável com o nome de `anexo`.
6. Averigue a variável `anexo` com o comando `.info()`.

## Plotando Múltiplos Gráficos

Uma funcionalidade bem legal das bibliotecas gráficas do Python é que podemos plotar um gráfico em cima do outro.

Para isso vamos começar plotando um gráfico simples.

In [None]:
sns.distplot(igm[igm['regiao'] == 'NORDESTE']['indice_governanca'].dropna(), label='NORDESTE')

Vamos plotar outro gráfico simples.

In [None]:
sns.distplot(igm[igm['regiao'] == 'SUDESTE']['indice_governanca'].dropna(), label='SUDESTE')

## Índice de Governança por Região

Para plotar vários gráficos ao mesmo tempo com legenda, vamos precisar importar uma parte do `matplotlib`:

In [None]:
import matplotlib.pyplot as plt

Vamos plotar os dois gráficos que plotamos anteriormente, só que agora ao mesmo tempo, note como eles ficaram diferentes:

In [None]:
sns.distplot(igm[igm['regiao'] == 'NORDESTE']['indice_governanca'].dropna(), label='NORDESTE')
sns.distplot(igm[igm['regiao'] == 'SUDESTE']['indice_governanca'].dropna(), label='SUDESTE')
plt.legend()

Vamos plotar 3 gráficos ao mesmo tempo:

In [None]:
sns.distplot(igm[igm['regiao'] == 'NORDESTE']['indice_governanca'].dropna(), label='NORDESTE')
sns.distplot(igm[igm['regiao'] == 'SUDESTE']['indice_governanca'].dropna(), label='SUDESTE')
sns.distplot(igm[igm['regiao'] == 'CENTRO-OESTE']['indice_governanca'].dropna(), label='CENTRO-OESTE')
plt.legend()

E finalmente vamos plotar 5 gráficos ao mesmo tempo:

In [None]:
sns.distplot(igm[igm['regiao'] == 'NORDESTE']['indice_governanca'].dropna(), label='NORDESTE')
sns.distplot(igm[igm['regiao'] == 'SUDESTE']['indice_governanca'].dropna(), label='SUDESTE')
sns.distplot(igm[igm['regiao'] == 'NORTE']['indice_governanca'].dropna(), label='NORTE')
sns.distplot(igm[igm['regiao'] == 'SUL']['indice_governanca'].dropna(), label='SUL')
sns.distplot(igm[igm['regiao'] == 'CENTRO-OESTE']['indice_governanca'].dropna(), label='CENTRO-OESTE')
plt.legend()

##  `Exercícios: Plotando Múltiplos Gráficos`

1. Plote os gráficos de `exp_vida`de acordo com o `porte`
2. Adicione legendas ao gráfico

# Visualizando Categorias

É bastante comum na ciência de dados se classificar váriaveis em: 
    1. Categóricas - Poucas opções de variabilidade
    2. Contínuas - Muitas opções de variabilidade
    
Uma forma muito boa de entender as suas variáveis categóricas é utilizando o comando `nunique()`, ele irá te mostrar quantos valores únicos existem para cada coluna. 

In [None]:
igm.nunique()

Basicamente as três variáveis categóricas com poucas opções que temos são `região`, `capital` e `porte`.

Além disso temos `estado`, mas que não iria ficar tão bom para plotar gráficos. `participacao_transf_receita` e `taxa_empreendedorismo` também podem ser trabalhadas como variáveis categóricas já que apesar de serem uma porcentagem, os decimals se perderam e acabamos tendo poucas opções de variabilidade.

## Boxplot

Vamos avaliar como cada `regiao` se sai em relação ao `indice_governanca`

In [None]:
sns.boxplot(x="regiao", y="indice_governanca", data=igm)

## Violin plot

Uma forma mais elaborada de fazer isso é com o violin plot, que além de fazer os quartis, plota em seu lado as distribuições dos valores.

In [None]:
sns.violinplot(x="regiao", y="indice_governanca", data=igm)

Podemos adicionar mais um agrupamento no gráfico com o comando `hue`:

In [None]:
sns.violinplot(x="regiao", y="indice_governanca", data=igm, hue='capital')

E inclusive plotar 20 pequenos gráficos de violino ao mesmo tempo:

In [None]:
sns.violinplot(x="regiao", y="indice_governanca", data=igm, hue='porte')

Uma forma para facilitar a visualização dos gráficos acima é usando o `factorplot`, que funciona tanto com linhas quant com colunas.

In [None]:
sns.factorplot(x="regiao", y="indice_governanca", data=igm, col='porte', kind='violin')

## Análisando Frequência:

Para contarmos quantas ocorrências temos por cada categoria podemos usar o `.countplot()`

In [None]:
sns.countplot(x='regiao', data=igm)

Podemos usar também o `hue` para fazermos uma contagem levando em consideração outra dimensão.

In [None]:
sns.countplot(x='regiao', hue='porte', data=igm)

In [None]:
sns.factorplot(x="regiao", data=igm, col='porte', kind='count')

##  `Exercícios: Visualizando Categorias`

1. Fazer um `boxplot` de `porte` no eixo `x` e `exp_vida` no eixo `y`
2. Fazer um `violinplot` de `porte` no eixo `x` e `exp_vida` no eixo `y` com `hue=regiao`
3. Criar um `factorplot`  do tipo `box` com `porte` no eixo `x` e `exp_vida` no eixo `y` e `col='regiao'`
4. Pegar o `factorplot` do item 1 e substituir `col='regiao'` por `row='regiao'`
5. Fazer um `factorplot` usando `kind='count'`, `hue='porte'` e `x='regiao'`

## Gráficos de Pizza

Um gráfico bastante útil de plotarmos é o gráfico de pizza, podemos fazer isso com o `pandas`:

In [None]:
igm['regiao'].value_counts().plot.pie()

Como vemos acima, não fica tão bom esse gráfico. Uma possibilidade melhor é usarmos a biblioteca `plotly`. 

Para isso iremos precisar dos nomes das regiões quando fazemos o comando `.value_counts()`:

In [None]:
igm['regiao'].value_counts().index

Em `labels` colocamos os nomes das regiões, e em `values` colocamos os valores:

In [None]:
pie_chart = go.Pie(labels=igm['regiao'].value_counts().index, values=igm['regiao'].value_counts())
plotly.iplot([pie_chart])

## Criando novas variáveis categóricas a partir de valores em branco

Um tipo de variável categórica bastante interessante de avaliar são os valores em branco:

In [None]:
igm.isnull().sum()

Para criarmos ela basta rodarmos método `.isnull()` e assinalar os valores ao uma nova coluna `sem_igm`:

In [None]:
igm['sem_igm'] = igm['indice_governanca'].isnull()

Agora plotamos o gráfico e podemos observar, que a falta de um IGM, indica uma menor expectativa de vida na maioria das regiões.

In [None]:
sns.violinplot(x="regiao", y="gasto_pc_educacao", data=igm, hue='sem_igm')

In [None]:
igm['sem_gasto_pc_saude'] = igm['gasto_pc_saude'].isnull()

In [None]:
sns.violinplot(x="regiao", y="nota_mat", data=igm, hue='sem_gasto_pc_saude')

## Criando novas variáveis categóricas a partir de agrupamentos

Existe uma função bastante útil no `pandas` que é o `qcut` que nos permite criar categorias a partir de valores contínuos (ou de muitas categorias). Basta você partir de um princípio de ordenamento e selecionar a quantidade de categorias final que deseja. No nosso caso escolhemos 3.

In [None]:
pd.qcut(igm['taxa_empreendedorismo'], 3)

Vamos criar uma nova coluna com esses valores:

In [None]:
igm['cat_te'] = pd.qcut(igm['taxa_empreendedorismo'], 3)

E vamos plotar um gráfico os utilizando como filtro:

In [None]:
sns.violinplot(x="regiao", y="exp_vida", data=igm, hue='cat_te')

##  `Exercícios: Visualizando Categorias`

1. Criar uma coluna `sem_gasto_pc_saude` a partir dos valores em branco da coluna `gasto_pc_saude`
2. Criar uma coluna `cat_te` separando os valores em 3 categorias pra `qcut`
3. Criar um `factorplot` do tipo `box` com `porte` no eixo `x` e `exp_vida` no eixo `y` e `col='regiao'` e `row='cat_te`
4. Facilite a leitura dos nomes das regiões. Dica: `g.set_xticklabels(rotation=30)`

# Mais Gráficos Categóricos

## Swarm plot

Um tipo de gráfico interessante é o swarm plot que nos permite ver de forma granular os pontos que compõe uma distribuição, e nos dão a possibilidade de análises com a abaixo:

In [None]:
sns.swarmplot(x="regiao", y="indice_governanca", hue='porte', data=igm)

Abaixo segue um comando opcional para aumentar todos os gráficos que serão gerados:

O `#` é um comentário e significa que o código a seguir dele não será executado.

In [None]:
# sns.set(rc={'figure.figsize':(16.7,8.27)})

## Avaliação de uma variável contínua dada uma variável categórica

O `seaborn` de forma automática agrupa de acordo com as variáveis categóricas que você coloca no eixo `x` e tira as médias das variáveis que você coloca no eixo `y`.

Segue um índice de governança por região e por porte de cidade:

In [None]:
sns.barplot(x="regiao", y="indice_governanca", hue='porte', data=igm)

Segue a taxa de empreendedorismo por região:

In [None]:
sns.barplot(x="regiao", y="taxa_empreendedorismo",  data=igm)

Seguem os anos de estudo do empreendedor por região:

In [None]:
sns.barplot(x="regiao", y="anos_estudo_empreendedor",  data=igm)

Segue o pib_pc por região. Note que não é uma média ponderada e sim apenas a média dos munícipios sem levar em conta a população de cada um.

In [None]:
sns.barplot(x="regiao", y="pib_pc",  data=igm)

## Groupby

Os gráficos acima estão pegando uma variável contínua e claculando a média dela para uma dada região, para replicarmos o gráfico acima em números poderíamos utilizar o seguinte comando:

In [None]:
igm.groupby('regiao')['pib_pc'].mean()

##  `Exercícios: Mais Gráficos Categóricos`

1. Fazer um gráfico a partir do agrupamento de `porte` avaliando `gasto_pc_saude`
2. Fazer o exercício 1 a partir de um `groupby()`
3. Fazer um `swarmplot` usando `y="gasto_pc_saude"`, `hue='porte'`

# Explorando variáveis contínuas

### Gráficos Mais Elaborados

Abaixo iremos plotar em apenas uma linha de código, um gráfico que mostra a relação entre __'Gastos em saúde e educação per capita'__ com o __'Índice de Desempenho'__.

In [None]:
sns.pairplot(x_vars=['gasto_pc_educacao'], y_vars=['nota_mat'], data=igm, hue="regiao", size=5)

Com o simples parâmetro <i>hue="Região"</i> conseguimos gerar um gráfico colorido de acordo com as regiões do Brasil, que são uma coluna na tabela original.

## Regressões Lineares

De forma extremamente simples, podemos plotar <i>regressões lineares</i> no gráfico acima. Bastante adicionarmos o parâmetro <i>kind='reg'</i> no código acima.

In [None]:
sns.pairplot(x_vars=['gasto_pc_educacao'], y_vars=['nota_mat'], data=igm, hue="regiao", kind='reg', size=5)

### Análise do Tamanho do Nome do Município

Uma análise simples, mas interessante é vermos se o tamanho do nome de um `municipio` em número de caracteres influencia o `idhm`

Para computar o número de caracteres, basta usar o método `.len()`

In [None]:
igm['nome_len'] = igm['municipio'].str.len()

Para plotarmos o gráfico, podemos fazer um pairplot, com o parâmetro `kind` para vermos uma regressão linear.

In [None]:
sns.pairplot(x_vars=['nome_len'], y_vars=['idhm'], data=igm, kind='reg', size=5)

## Múltiplas Regressões Lineares

Podemos fazermos múltiplas regressões lineares e histogramas ao mesmo tempo com o `sns.pairplot()`:
    
Para isso vamos criar um `DataFrame` temporário:

In [None]:
temp_df = igm[['nota_mat','exp_vida', 'gasto_pc_saude', 'gasto_pc_educacao', 'regiao']]

E vamos usar o `pairplot()` com `hue=regiao` e `kind=reg`:

In [None]:
sns.pairplot(temp_df, hue='regiao', kind='reg')

O erro aconteceu porque tinhamos valores `NaN` no nosso DataFrame, podemos resolver isso da seguinte forma:

In [None]:
sns.pairplot(temp_df.dropna(), hue='regiao', kind='reg')

##  `Exercícios: Explorando Variáveis Contínuas`

1. Fazer um pairplot usando `taxa_empreendedorismo` e `nota_mat` usando `hue=porte` (apenas 1 gráfico e não 4)
2. Fazer um pairplot usando `taxa_empreendedorismo` e `nota_mat` usando `hue=porte` (4 gráficos)
3. Fazer um pairplot usando `taxa_empreendedorismo`, `anos_estudo_empreendedor`, `nota_mat` e `idhm`, usando `hue=porte`

## Plots usando Escala logarítimica

Vai acontecer de termos alguns gráficos que não ficam em uma escala adequada, para isso podemos tentar converter para uma escala logarítimica.

In [None]:
sns.pairplot(x_vars=['populacao'], y_vars=['indice_governanca'], data=igm, hue="regiao", kind='reg', size=5)

Para converter para `log` podemos usar o `numpy` que é uma biblioteca bastante importante para manipulação de dados, e é a base do `pandas`.

In [None]:
import numpy as np

Vamos criar uma coluna nova `log_pop` com os valores logarítimicos da `populacao` por meio da função `.log()` do `numpy`:

In [None]:
igm['log_pop'] = np.log(igm['populacao'])

Vamos plotar o gráfico de novo substituindo `populacao` por `log_pop`

In [None]:
sns.pairplot(x_vars=['log_pop'], y_vars=['indice_governanca'], data=igm, hue="regiao", kind='reg', size=5)

##  `Exercícios: Plots usando Escala logarítimica`

1. Plote um `pairplot` de `anos_estudo_empreendedor` por `pib_pc`
2. Crie uma nova variável chamada `log_pib_pc` com o log de `pib_pc`
3. Plote um `pairplot` de `anos_estudo_empreendedor` por `log_pib_pc`

## Projeto:

Pegue algum dataset de sua escolha ou vá em http://dados.gov.br/ e escolha algum conjunto de dados que te interesse.

De posse desses conjunto de dados faça os seguintes passos:
1. Importe o seu conjunto de dados como um `DataFrame`
2. Faça a conversão das colunas que estiverem com formato inadequado (números que estão em formato de `str`)
3. Faça 8 gráficos a partir dos seus dados
4. Faça um resumo dos principais pontos encontrados nos gráficos avaliados

## Bônus: Mostrando Valores como um Percentual

A opção mais recomendada é usar o `.style.format()`, que irá mexer apenas na exibição dos dados e não irá alterar a estrutura dos dados em si.

Para usarmos o `.style.format()`, primeiro precisamos de criar um `dict` com o nome da coluna e o tipo de formatação que desejamos:

In [None]:
format_dict = {'perc_pop_econ_ativa' :'{:.2%}'}

Depois podemos executar o `.style.format()` em uma parte do `DataFrame` (ou todo ele se quiséssemos):

In [None]:
igm.sample(5).style.format(format_dict)

Se olharmos o `.info()`, veremos que `perc_pop_econ_ativa` ainda é numérico:

In [None]:
igm.info()

Podemos converter várias colunas ao mesmo tempo criando um dicionário com vários valores:

In [None]:
format_dict = {'perc_pop_econ_ativa' :'{:.0%}', 'taxa_empreendedorismo' :'{:.0%}'}

E podemos executar o `.style.format()` novamente

In [None]:
igm.sample(5).style.format(format_dict)

## Bônus: Juntando DataFrames 

Vamos importar uma segunda base de exemplos:

In [None]:
igf = pd.read_excel('../input/exemplo_2.xls', header=[0], skiprows=8, skip_footer=2)

Vamos observar como estão nossos dados:

In [None]:
igf

Vamos remover a primeira linha. Usamos o método `.copy()` para evitarmos avisos no futuro.

In [None]:
igf = igf[1:].copy()

Vamos renomear a coluna `Unnamed: 1':'Ranking Estadual`, para isso vamos usar o comando `rename()`:

In [None]:
igf.rename(columns={'Unnamed: 1':'Ranking Estadual'}, inplace=True)

Como não temos códigos em ambos os `DataFrames` com nomes de `df` e `igf`, vamos fazer a junção deles por meio dos nomes dos municípios, para isso vamos deixar o nome da coluna referente aos nomes dos municípios iguais nos 2 `DataFrames`.

In [None]:
igf.rename(columns={'Município':'mun'}, inplace=True)
df.rename(columns={'NOME DO MUNICÍPIO':'mun'}, inplace=True)

Vamos tentar juntar os `DataFrames` e ver o que acontece:

In [None]:
df.merge(igf)

O nosso `DataFrame` após o `merge()` ficou com 5526 linhas, o que significa que 44 munícipios não estão com nomes iguais entre os DataFrames

In [None]:
df.merge(igf).shape

O `DataFrame` chamado `df` tem 5570 munícipios e com 6 colunas:

In [None]:
df.shape

O `DataFrame` chamado `df` tem 5568 munícipios e com 10 colunas:

In [None]:
igf.shape

Engraçado, que temos 10 colunas em um `DataFrame` e 6 colunas em outro, mas o nosso resultado do merge é de 14 colunas, por que isso?

## Retirando acentos e caracteres especiais:

Vamos criar uma coluna chamada `Munícipio` para guardar os nomes originais dos munícipios.

In [None]:
df['Município'] = df['mun']

Podemos usar o método `str.normalize...` para retirar os acentos e outros caracteres especiais:

In [None]:
igf['mun'] = igf['mun'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
df['mun'] = df['mun'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

Podemos ver que ganhamos mais algumas conversões, mas ainda foram poucas.

In [None]:
df.merge(igf).shape

## Retirando os espaços

Vamos usar o comando `str.replace(' ','')` para remover os espaços em branco dos munícipios

In [None]:
igf['mun'] = igf['mun'].str.replace(' ','')
df['mun'] = df['mun'].str.replace(' ','')

Podemos ver que ganhamos mais alguns itens no nosso merge, mas ainda falta um pouco:

In [None]:
df.merge(igf).shape

## O Comando `isin()`:

Atráves do comando `isin()` conseguimos se os valores de uma coluna estão contidos em outra coluna. Com o `~` conseguimos saber quais os valores não estão contidos.

A seguir vamos selecionar os valores da coluna `mun` de `df` que não estão contidos na coluna `mun` de `igf`.

In [None]:
df_mun = df[~df.mun.isin(igf['mun'])]['mun'].values

A seguir vamos selecionar os valores da coluna `mun` de `igf` que não estão contidos na coluna `mun` de `df`.

In [None]:
igf_mun = igf[~igf.mun.isin(df['mun'])]['mun'].values

## Comparando proximidade de strings:

Vamos importar o `SequenceMatcher` para compararmos dois textos e gerarmos um score de quão próximos eles são (1 é idêntico e 0 é nada similar).

In [None]:
from difflib import SequenceMatcher

Vamos testar todos os valores contidos nas variáveis `df_mun` e `igf_mun` para saber quais são os valores na coluna `mun` de cada `DataFrame` que mais se assemelham, e substituir esses valores caso eles tenham uma semelhança maior do que 80%.

In [None]:
for municipio_1 in df_mun:
    
    
    print(score, municipios_proximos)
    if score > 0.8:
        idx = igf[igf['mun']==municipios_proximos[1]].index[0]
        igf.at[idx, 'mun'] = municipios_proximos[0]       

Vamos avaliar as diferenças que ainda restam:

In [None]:
df.merge(igf).shape

In [None]:
df[~df.mun.isin(igf.mun)]

In [None]:
igf[~igf.mun.isin(df.mun)]

## O comando `.at[]`

Para substituirmos uma célula em específico é ideal usar o comando `.at[]`

In [None]:
igf.at[2911,'mun'] = 'EmbudasArtes'

Podemos conferir que a atualização foi efetuada de forma correta:

In [None]:
df[~df.mun.isin(igf.mun)]

In [None]:
igf[~igf.mun.isin(df.mun)]

Vamos terminar de substituir outros munícipios que façam sentido:

In [None]:
igf.at[4702, 'mun'] = 'SaoValerio'

In [None]:
igf.at[4962, 'mun'] = 'SaoVicentedoSerido'

Vamos avaliar as diferenças:

In [None]:
df[~df.mun.isin(igf.mun)]

In [None]:
igf[~igf.mun.isin(df.mun)]

Neste ponto as diferenças são mínimas, e a questão é realmente uma intervenção humana de caso a caso para decidir qual caminho vai ser dado para a junção entre tabelas.

In [None]:
df.merge(igf).shape