# Countplot

## 1. Passos preliminares

### 1.1. Nosso primeiro gráfico!

Nesta aula, vamos criar nosso primeiro gráfico usando a função `sns.countplot()`. Trata-se de um gráfico de barras, criado por meio da contagem simples de uma variável categórica. Mas, antes de partirmos para a criação do gráfico propriamente dita, vamos precisar de algumas linhas de código para cumprir etapas preliminares.

### 1.2. Importando as bibliotecas necessárias

O primeiro passo consiste em importar as bibliotecas que vamos usar em nosso código. Quando escrevemos um código na linguagem Python podemos utilizar uma série de recursos prontos, ou seja, funções e objetos que já foram criados para nossa conveniência. Alguns desses recursos fazem parte da sintaxe básica da linguagem, ou seja, são recursos que já vem prontos e estão sempre disponíveis quando escrevemos um código na linguagem Python (veja mais informações em: [Built-In Functions](https://docs.python.org/3/library/functions.html)).

Há outros recursos, no entando, que precisamos instalar e carregar para obtermos acesso. Esse é o caso de três bibliotecas amplamente utilizadas para trabalhos de análise de dados em Python: a biblioteca `pandas`, a biblioteca `matplotlib` e a biblioteca `seaborn`.

Vamos começar, antes de mais nada, escrevendo os comandos necessários para importar essas bibliotecas. A importação de bibliotecas é usualmente feita comandos que seguem a seguinte estrutura:

<center>

```import <BIBLIOTECA> as <ALIAS>```

</center>

Esse comando não apenas importa a biblioteca mais estabelece um "atalho" ou "apelido" que será utilizado para se referir ao modulo que foi importado. Isso é útil para simplificar e reduzir o volume de código que vamos precisar escrever, todas vez que quisermos utilizar funções que vêm daquela biblioteca.

Embora possamos utilizar qualquer apelido que escolhermos, existem protocolos muito bem definidos a esse respeito. Isso é importante pois, quando todos os programadores utilizam o mesmo padrão, fica mais fácil ler e entender códigos escritos por outra pessoa.

Sendo assim, leia com atenção o código abaixo. Ele importa as bibliotecas de que precisamos e atribui os atalhos corretos (que já foram consagrados pelo uso e que devemos sempre utilizar como boa prática em nosso código). É uma boa ideia memorizar essas linhas de código, pois iniciamos praticamente todos os códigos de análise de dados com essas exatas linhas:

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Para que o código acima funcione, as bibliotecas `pandas`, `matplotlib` e `seaborn` já devem ter sido instaladas. Neste curso, utilizamos o Python instalado por meio da distribuição Anaconda justamente porque essa instalação acompanha as principais bibliotecas utilizadas em trabalhos de dados, incluindo essas três de que precisamos. Agora vamos ver brevemente para que elas servem:

- [**pandas**](https://pandas.pydata.org/docs/): essa biblioteca é utilizada para lidar diretamente com os dados. Ela não apenas permite que a gente leia arquivos no computador (em `.CSV` ou `.XLSX`, por exemplo) e importe para o nosso ambiente de programação como uma tabela de dados (objeto que chamamos no Python de `DataFrame`), mas também contem uma série de funcionalidades para transformar e preparar os dados para as visualizações. Permite agrupamento de variáveis e criação de resumos estatísticos (cálculo de médias, etc.). Por trás dessa biblioteca, há uma outra biblioteca conhecida, chamada `numpy`, que realiza boa parte dessas operações, mas por hora não precisamos nos preocupar com ela.

- [**matplotlib**](https://matplotlib.org/): essa á a biblioteca que vamos utilizar para gerar gráficos. A biblioteca `matplotlib` possui muitos recursos e funcionalidades, mas estamos interessados em especial no submódulo `pyplot`, que é o 'motor' por trás da criação dos nossos gráficos. Seria possível criar todos os gráficos deste curso apenas utilizando essa biblioteca. No entanto, a criação de gráficos por ela acaba sendo bastante trabalhosa, pois essa biblioteca exige que o programador especifique muitos detalhes técnicos do gráfico.

- [**seaborn**](https://seaborn.pydata.org/index.html): essa biblioteca utiliza os recursos disponibilizados pelo módulo `matplotlib.pyplot` para simplificar o processo de criação de gráficos. Ela cuida de boa parte dos detalhes técnicos, oferecendo respostas-padrão razoáveis para os quesitos técnicos da biblioteca `matplotlib.pyplot`, nos desonerando, assim, de realizar todas essas escolhas ao produzir nosso gráfico. No entanto, quando se torna importante mudar detalhes técnicos de um gráfico, precisaremos retornar ao módulo `matplotlib.pyplot` para resolver esses problemas.

### 1.3. Carregando a base de dados

Agora, tendo importado as bibliotecas necessárias e entendendo para que elas servem, vamos utilizar nossa primeira função para carregar o conjunto de dados que será utilizado em nossa análise. Os dados que vamos carregar mostram informaçõe sobre todos os pagamentos realizados com o cartão presidencial desde o primeiro mandato do presidente Luiz Inácio Lula da Silva, até o primeiro mandato do presidente Jair Bolsonaro.

Esses dados foram tratados e podem ser baixados por meio de um link, no formato `CSV`. Para carregá-los utilizaremos o comando a seguir:

In [3]:
cartoes = pd.read_csv("https://bit.ly/dados_cartoes")
cartoes

Unnamed: 0,data_pgto,ano,mes,forma_pagamento,valor,tipo_despesa,nome_fornecedor,cpf_servidor,mandato,posicao_mandato
0,2003-01-02,2003,1,Débito,1696.90,LOCACAO DE MEIOS DE TRANSPORTE,JW TRANSPORTADORA TURÍSTICA,***.010.008-**,Lula (1º Mandato),1
1,2003-01-02,2003,1,Débito,1336.60,LOCACAO DE MEIOS DE TRANSPORTE,JW TRANSPORTADORA TURÍSTICA,***.010.008-**,Lula (1º Mandato),1
2,2003-01-02,2003,1,Débito,1396.43,LOCACAO DE MEIOS DE TRANSPORTE,JW TRANSPORTADORA TURÍSTICA,***.868.251-**,Lula (1º Mandato),1
3,2003-01-03,2003,1,Débito,105.00,MATERIAL P/MANUTENÇÃO DE BENS MÓVEIS,SEBASTIO ALVES DE SOUSA - ME,***.262.328-**,Lula (1º Mandato),1
4,2003-01-03,2003,1,Débito,200.00,MATERIAL P/MANUTENÇÃO DE BENS MÓVEIS,JOÃO LEITE NETO - ME - JLN ELETRONICOS,***.262.328-**,Lula (1º Mandato),1
...,...,...,...,...,...,...,...,...,...,...
114958,2022-12-29,2022,12,Crédito,210.80,GENEROS DE ALIMENTAÇÃO,ZAIANNA CRISTINA C0MERCIO DE ALIMENTOS LTDA,***.135.521-**,Jair Bolsonaro,7
114959,2022-12-29,2022,12,Crédito,536.13,GENEROS DE ALIMENTAÇÃO,CASA DO CHOCOLATE PRODUTOS ALIMENTICIOS,***.135.521-**,Jair Bolsonaro,7
114960,2022-12-29,2022,12,Crédito,673.82,GENEROS DE ALIMENTAÇÃO,MERCADINHO LA PALMA LTDA,***.135.521-**,Jair Bolsonaro,7
114961,2022-12-29,2022,12,Crédito,2147.53,GENEROS DE ALIMENTAÇÃO,COMPANHIA BRASILEIRA DE DISTRIBUIÇÃO,***.135.521-**,Jair Bolsonaro,7


A primeira linha do código acima executa a função `read_csv()` da biblioteca `pandas` (lembre-se que criamos o atalho `pd` para nos referirmos a esse módulo). Passamos o endereço do arquivo `CSV` que queríamos ler para a função, ela leu esse arquivo e salvou as informações em uma variável chamada `cartoes`. A função `read_csv()` é capaz de acessar arquivos em nosso computador ou na internet. Caso desejássemos ler um arquivo em nosso computador, poderíamos ter passado o endereço do arquivo no computador. Neste caso, como queríamos acessar um documento da internet, utilizamos uma url para o documento.

A segunda linha do código, por sua vez, contém apenas o nome da variável que criamos (`cartoes`). Quando a última linha de uma célula de um Notebook como este é o nome de uma variável, o leitor entende que queremos ver o conteúdo da variável. Ou seja, nessa segunda linha, estamos pedindo para ver o conteúdo da variável `cartoes`. Como podemos observar, nossa variável contém 114.963 linhas que representam, cada uma delas, uma transação distinta realizada com o cartão presidencial no período de referência. Em outras palavras, nossa unidade de observação (ou de análise) neste conjunto de dados é a transação (ou pagamento). Há também 10 colunas, que se referem a 10 variáveis ou características dessas transações. São elas:

- **data_pgto**: a data em que o pagamento foi realizado, no formato YYYY-MM-DD.

- **ano**: O ano em que a transação foi realizada, como número inteiro.

- **mes**: O mês em que a transação foi realizada, como número inteiro (1 = Janeiro, 2 = Fevereiro, etc).

- **forma_pagamento**: A forma de pagamento utilizada, que pode ser `"Crédito"` ou `"Débito"`.

- **valor**: O valor do pagamento realizado, em reais brasileiros (R$), como número decimal.

- **tipo_despesa**: A classificação orçamentária da despesa detalhada.

- **nome_fornecedor**: A razão social ou nome do favorecido.

- **cpf_servidor**: Os 6 últimos dígitos, antes do código verificador, do Cadastro de Pessoa Física (CPF) do agente suprido (que realizou o pagamento).

- **mandato**: Identifica o mandato no qual aconteceu o pagamento.

- **posicao_mandato**: Variável numérica que representa a ordem do mandato no qual aconteceu o pagamento.

In [None]:
# Carregando os dados



In [None]:
sns.countplot(x="forma_pagamento", data=cartoes)

In [None]:
sns.countplot(y="forma_pagamento", data=cartoes)

In [None]:
sns.countplot(x="mandato", data=cartoes)

In [None]:
sns.countplot(y="mandato", data=cartoes)

In [None]:
sns.countplot(
    y="mandato",
    hue="forma_pagamento",
    data=cartoes
)

In [None]:
sns.countplot(y="mandato", x="valor", data=cartoes)

In [None]:
fig, ax = plt.subplots()

sns.countplot(
    y="mandato",
    hue="forma_pagamento",
    palette={"Crédito": "#1e4ce3",
             "Débito": "#1fdb51"},
    data=cartoes,
    ax=ax
)

ax.set_title("Volume de transações dos cartões presidenciais\n(por mandato e forma de pagamento)")
ax.set_xlabel("Número de Transações")
ax.set_ylabel("")
ax.legend(title="Forma de Pagamento")
plt.show()


In [None]:
sns.countplot(x="mes", data=cartoes)