<font size="7">Introdução à Estatística</font>

João Ricardo Costa Filho \
[joaocostafilho.com](https://)

## Tipos de variáveis e como apresentá-las

Trabalharemos com dados referentes aos clientes da Livraria Dorela disponibilizados no livro [Credit scoring: Desenvolvimento, implantação, acompanhamento](https://www.blucher.com.br/credit-scoring_9788521205333), de Abraham Laredo Sicsú.

> **Sugestão:** Ao longo do notebook, crie *chunks* de código que reproduzam a análise feita, mas para outras variáveis da base.

## 0) Preparação

Salve uma cópia do notebook no **seu** Google Drive.

## 1) O que são os pacotes no R?
Um **pacote** é um conjunto de funções extras.

- Para **instalar** (uma vez por computador): `install.packages("nome")`
- Para **carregar**: `library(nome)`

Hoje vamos usar dois pacotes:
- `readxl` (para ler arquivos com a extensão `.xlsx`)
- `ggplot2` (para criar gráficos)

> Esses dois pacotes já estão instalados. Mas se você for utilizá-los pela primeira vez localmente, é importante fazer a instalação.

## 2) Base de dados e o pacote `readxl`

In [None]:
# Não é preciso realizar a instalação, porque o pacote já foi instalado na máquina do Google.
# No entanto, caso fosse necessário (ou se você for fazer isso localmente, utilize o comando abaixo:
# install.packages("readxl")

Uma das formar de utilizarmos as funções presentes no pacote `readxl` é com o comando abaixo:

In [None]:
library(readxl)

Utilizaremos os dados do livro [Credit scoring](https://www.blucher.com.br/credit-scoring_9788521205333), de Abraham Laredo Sicsú, referentes aos clientes da Livraria Dorela. Eu salvei o arquivo, que era orginalmente em formato `xls`, em `xlsx` e o coloquei no meu Github:

In [None]:
# endereço dos dados
url <- "https://github.com/costafilhojoao/Teaching/raw/main/Introduc%CC%A7a%CC%83o%20a%CC%80%20Estati%CC%81stica/Dados/LIVRARIAS_DORELA.xlsx"

# arquivo a ser baixado na máquina do Google
dest <- "LIVRARIAS_DORELA.xlsx"

# função para o download dos dados:
download.file(url, destfile = dest, mode = "wb")

Criaremos um `data frame` a partir do arquivo `.xlsx` que contém os dados:

In [None]:
df <- read_excel(dest, sheet = 1)

Exiba os primeiros quatro elementos do data frame `df`:

Verifique a estrutura dos dados:

## 3) Padronizar nomes das colunas

Apenas para visualizarmos a alteração, crie um objeto com os nomes das colunas do data frame `df` utilizando a função `names`:

In [None]:
nomes_originais <- names(df)

Veja o resultado:

In [None]:
nomes_originais

Agora, façamos a alteração para letras minúsculas padronizadas:

In [None]:
names(df) <- tolower(names(df))
names(df) <- gsub("\\s+", "_", names(df))
names(df) <- gsub("[^a-z0-9_]+", "", names(df))

Compare a diferença:

In [None]:
data.frame( antes = nomes_originais, depois = names( df ) )

Utilize a função `names` para verificar se os títulos das colunas do data frame `df` foram alterados corretamente:

In [None]:
names( df )

# Variáveis qualitativas

## 4) Tabelas de frequências

### 4.1) Tabelas de frequências para o status dos clientes

Crie um objeto com a frequência **absoluta** para a variável `status` no data frame `df`:

In [None]:
tab_status <- table( df$status )

Exiba a tabela:

Crie um objeto com a frequência **relativa** para a variável `status` no data frame `df`:

Exiba a tabela:

Crie um objeto com a frequência **relativa** para a variável `status` no data frame `df`, mas em pontos percentuais. Utilize a função `round( nome_do_objeto, 1 )` para arredondamento com uma casa decimal:

Exiba a tabela:

**Desafio**: crie um data frame com a função `data.frame( , , , )` que contenha: (i) a categoria dos clientes, (ii) a frequência absoluta, (iii) a frequência relativa e (iv) a frequência relativa em pontos percentuais.

> Dica 1: em `data.frame( , , , )`, as vírgulas separam cada uma das variáveis a serem inseridas no data frame.

> Dica 2: você pode utilizar a função `names()` com uma das tabelas de frequência que você criou para criar a variável de `categoria`.

Exiba o data frame:

### 4.2) Tabelas de frequências para a Unidade da Federação (UF) dos clientes

Crie um objeto com a frequência **absoluta** para a variável `unifed` no data frame `df`:

Exiba a tabela:

Crie um objeto com a frequência **relativa** para a variável `unified` no data frame `df`:

Exiba a tabela:

Crie um objeto com a frequência **relativa** para a variável `unified` no data frame `df`, mas em pontos percentuais. Utilize a função `round( nome_do_objeto, 1 )` para arredondamento com uma casa decimal:

Exiba a tabela:

**Desafio**: crie um data frame com a função `data.frame( , , , )` que contenha: (i) a categoria dos clientes, (ii) a frequência absoluta, (iii) a frequência relativa e (iv) a frequência relativa em pontos percentuais.

> Dica 1: em `data.frame( , , , )`, as vírgulas separam cada uma das variáveis a serem inseridas no data frame.

> Dica 2: você pode utilizar a função `names()` com uma das tabelas de frequência que você criou para criar a variável de `categoria`.

Exiba o data frame:

## Variáveis quantitativas

## 5) Tabelas de frequência por faixas

Defina a variável a ser utilizada:

In [None]:
x <- df$idade

Agora, construa uma tabela que contenha a

In [None]:
breaks <- seq(floor(min(x, na.rm = TRUE)),
              ceiling(max(x, na.rm = TRUE)) + 5,
              by = 5)

labels <- paste0(head(breaks, -1), " |-- ", tail(breaks, -1))

classes <- cut(x, breaks = breaks, right = FALSE, include.lowest = TRUE, labels = labels)

freq_abs <- table(classes, useNA = "no")
freq_rel <- as.numeric(freq_abs) / sum(freq_abs)
freq_rel_acum <- cumsum(freq_rel)

tabela_freq <- data.frame(
  Faixa = names(freq_abs),
  `Frequência Absoluta`           = as.integer(freq_abs),
  `Frequência Relativa`           = round(freq_rel * 100, 2),
  `Frequência Relativa Acumulada` = round(freq_rel_acum * 100, 2)
)

Exiba a tabela:

# Gráficos

## 6) O pacte `ggplot2`

In [None]:
# Não é preciso realizar a instalação, porque o pacote já foi instalado na máquina do Google.
# No entanto, caso fosse necessário (ou se você for fazer isso localmente, utilize o comando abaixo:
# install.packages("ggplot2")

In [None]:
library(ggplot2)

Defina o `tema` dos gráficos, isto é, um conjunto pré-estabelecido de escolhas que afetarão a estética dos seus gráficos:

In [None]:
theme_set( theme_classic(base_size = 20) )

### 6.1) Gráfico em barras

Crie um `Gráfico em Barras`para a variável `status` com base nos dados do data frame `df`:

In [None]:
ggplot( df, aes(x = status) ) +
  geom_bar() +
  labs(title = "Categoria dos clientes", x = NULL, y = "Frequência")

### 6.2) Histograma

Crie um `Histograma`para a variável `idade` com base nos dados do data frame `df`:

In [None]:
ggplot(df, aes(x = idade) ) +
  geom_histogram( bins = 20 ) +
  labs(title = "Histograma de idade", x = "Idade", y = "Frequência")

Altere a cor do preenchumento e do contorno do histograma:

In [None]:
ggplot(df, aes(x = idade)) +
  geom_histogram( bins = 20, fill = "darkred", colour = "black") +
  labs(title = "Histograma de idade", x = "Idade", y = "Frequência")


## Variáveis binárias (*dummies*)

Vamos considerar como *dummies* as variáveis cujos nomes começam com a letra `b`.

> **Lembre-se que isso só vale para esse conjunto de dados!**

In [None]:
nomes <- names(df)
dummies <- grep("^b", nomes, value = TRUE)

dummies

## 7) Proporção de 1s (no total)

Crie uma tabela de frequência relativa com todas as variáveis *dummy*:

In [None]:
t( apply(df[, dummies], 2, function(x) prop.table( table( x ) ) * 100 ) )

Essa expressão faz o seguinte:

Primeiro, ela pega do data frame apenas as colunas listadas no vetor **dummies** (ou seja, apenas as variáveis que são binárias). Em seguida, aplica uma operação **coluna por coluna** (por isso o número 2 dentro do apply, que significa “aplicar ao longo das colunas”).

Para cada coluna, o `apply` executa uma pequena função: ele monta uma tabela de frequências com `table(x)` (quantos 0 e quantos 1 existem naquela *dummy*), depois transforma essas frequências em proporções com `prop.table(...)` (dividindo cada frequência pelo total da coluna), e por fim multiplica por 100 para transformar em **pontos percentuais**.

O resultado natural do `apply` é uma estrutura onde, para cada dummy, aparecem os percentuais associados aos valores possíveis (0 e 1). Só que a forma como isso sai pode ficar “virada”, com as dummies como colunas e os valores 0/1 como linhas.

Por isso, no final aparece o `t(...)`, que significa **transpor** (trocar linhas por colunas). Ele reorganiza a saída para que fique mais intuitiva: cada dummy passa a ser uma linha e as colunas passam a ser os valores 0 e 1 (com seus percentuais).

Agora, podemos fazer a tabela com arredondamento de duas casas decimais:

## 8) Quais são as características de um bom cliente?

Vamos usar `status` como rótulo de bom/mau cliente. Calcule:

a) A média de idade dos clientes da cateoria "BOM" e da categoria "MAU". \
b) A mediana de idade dos clientes da cateoria "BOM" e da categoria "MAU". \
c) A média dos dias de atraso dos clientes da cateoria "BOM" e da categoria "MAU". \
d) A mediana dos dias de atraso dos clientes da cateoria "BOM" e da categoria "MAU".

In [None]:
#a)

In [None]:
#b)

In [None]:
#c)

In [None]:
#d)

### 9) Boxplot: atraso por status

In [None]:
ggplot(df, aes(x = status, y = atraso)) +
  geom_boxplot() +
  labs(title = "Atraso por status", x = NULL, y = "Atraso (dias)")

In [None]:
idx_bom <- df$status == "BOM"
idx_mau <- df$status == "MAU"

sum(idx_bom, na.rm = TRUE)
sum(idx_mau, na.rm = TRUE)