## Exercício de Aprofundamento - Trilha 1

Análise Pelican Store

## Atividade

A Pelican Stores, uma divisão da National Clothing, é uma cadeia de lojas de roupas femininas que opera em todos os Estados Unidos. Recentemente, a cadeia realizou uma promoção na qual cupons de desconto foram enviados aos clientes de outras lojas da National Clothing. Dados coletados para uma amostra de 100 transações de cartões de crédito nas lojas Pelican Stores durante um dia, durante a promoção, estão no arquivo PelicanStores.csv. A Tabela abaixo mostra uma parte do conjunto de dados. O método de pagamento chamado "Cartão Proprietário" se refere a cobranças feitas utilizando um cartão de crédito da National Clothing. Os clientes que fizeram uma compra utilizando um cupom de descontos são denominados clientes promocionais e os clientes que fizeram uma compra sem utilizar um cupom de desconto são chamados clientes regulares. Como os cupons promocionais não foram enviados aos clientes Pelican Stores regulares, a administração considera as negociações feitas para pessoas apresentando cupons promocionais como vendas que, de outro modo, não teriam sido efetuadas. Naturalmente, a Pelican também espera que os clientes promocionais continuem a comprar em suas lojas.

<!-- [![Foo](../assets/img_1.png)] -->
[![Foo](https://raw.githubusercontent.com/joaonart/mcz-m3-t1-anl-estatistica/master/assets/img_1.png)]

A maioria das variáveis mostradas na tabela acima são autoexplicativas, mas duas das variáveis exigem algum esclarecimento.

A Itens \-- O número total de itens comprados

B Vendas líquidas \-- A quantia total (\$) cobrada pelo cartão de crédito

A administração da Pelican gostaria de utilizar esses dados amostrais para aprender a respeito do perfil de seus clientes e avaliar a promoção envolvendo cupons de desconto.

Mas antes de obter estas informações, o analista precisa construir um dicionário de dados, indicando para cada variável (em um formato de tabela, com estas colunas):

a Nome da Variável

b Descrição da Variável \-- o que ela mede/significa

c Tipo da Variável (quantitativa, qualitativa, discreta, contínua)

d Tipo de Mensuração da Variável (nominal, ordinal, intervalar ou racional)

e Valores possíveis da variável.

Depois de construído o dicionário de dados, determine as medidas de posição e variabilidade para as variáveis apropriadas. Para isso, utilize o conjunto de dados completo, fornecido no arquivo PelicanStores.csv

## Resultado Esperado

### Dicionário de Dados

É necessário criar este dicionário para todas as variáveis do Dataset Pelican. Preencha cada elemento, de acordo com o modelo da tabela abaixo.

<!-- [![Foo](../assets/img_2.png)] -->
[![Foo](https://raw.githubusercontent.com/joaonart/mcz-m3-t1-anl-estatistica/master/assets/img_2.png)]

In [None]:
# Instala as bibliotecas necessárias

install.packages("dplyr")
install.packages("knitr")
install.packages("tidyr")
install.packages("readr")

In [None]:
# Importa as bibliotecas para uso no projeto

library(dplyr)
library(knitr)
library(tidyr)
library(readr)

In [None]:
# Leitura do arquivo com dados da Pelican Store

#pelicanstores <- read_csv("../data/PelicanStores.csv")
pelicanstores <- read_csv("https://raw.githubusercontent.com/joaonart/mcz-m3-t1-anl-estatistica/master/data/PelicanStores.csv")

In [None]:
# Funcão responsável por gerar a linha com os valores possiveis para cada variável

unique_values <- function(data){
  data_names <- data.frame(variable = names(data))
  data_base <- c()
  for(i in 1:nrow(data_names)) {
    valores <- paste( unlist(c(unique(pelicanstores[c(data_names[i,])]))), collapse=", " )
    data_base <- append(data_base, valores)
  }
  return(data_base)
}

In [None]:
# Cria a primeira versão do dicionário de dados

nome_variavel <- names(pelicanstores)
descricao <- c("ID do cliente", 
               "Tipo de cliente", 
               "O número total de itens comprados", 
               "A quantia total ($) cobrada pelo cartão de crédito", 
               "Método de pagamento utilizado na compra", 
               "Genêro do cliente", 
               "Estado civil do cliente", 
               "Idade do cliente")
tipo_variavel <- c("Qualitativa", 
                     "Qualitativa", 
                     "Quantitativa", 
                     "Quantitativa", 
                     "Qualitativa", 
                     "Qualitativa", 
                     "Qualitativa", 
                     "Quantitativa")
tipo_mensuracao <- c("Ordinal", 
                     "Nominal", 
                     "Discreta", 
                     "Contínua", 
                     "Nominal", 
                     "Nominal", 
                     "Nominal", 
                     "Discreta")
valores_possiveis <- unique_values(pelicanstores)

df_dict <- data.frame(nome_variavel, descricao, tipo_variavel, tipo_mensuracao, valores_possiveis,row.names = NULL)

colnames(df_dict) <- c("Nome da Variável", 
                       "Descrição", 
                       "Tipo de Variável",
                       "Tipo de Mensuração", 
                       "Valores Possíveis")
df_dict

### Estatística Descritiva

É necessário apresentar as Medidas de Posição (média, mediana) e Variabilidade (desvio padrão e variância) das variáveis numéricas: Itens, Vendas Líquidas e Idade.

Moda – O R não tem uma função para o cálculo da moda, então criamos uma função específica para isso, lembrando que a moda se aplica a variáveis numéricas discretas e variáveis categóricas. Para variáveis contínuas não faz sentido o cálculo da moda, já que tais variáveis podem assumir quaisquer valores no conjunto dos números reais.

<!-- [![Foo](../assets/img_3.png)] -->
[![Foo](https://raw.githubusercontent.com/joaonart/mcz-m3-t1-anl-estatistica/master/assets/img_1.png)]

Moda para as variáveis categóricas, explicitamente, utilizando nossa função definida acima.

In [None]:
# Cria o data frame com os dados de média, mediana, desvio padrão e variância

df_medias <- data.frame(variaveis = c("Itens", "Vendas líquidas", "Idade"), Média = apply(pelicanstores[,c("Itens", "Vendas líquidas", "Idade")], 2, mean))
df_medianas <- data.frame(variaveis = c("Itens", "Vendas líquidas", "Idade"), Mediana = apply(pelicanstores[,c("Itens", "Vendas líquidas", "Idade")], 2, median))
df_sd <- data.frame(variaveis = c("Itens", "Vendas líquidas", "Idade"), DesvPadrao = apply(pelicanstores[,c("Itens", "Vendas líquidas", "Idade")], 2, sd))
df_var <- data.frame(variaveis = c("Itens", "Vendas líquidas", "Idade"), Variancia = apply(pelicanstores[,c("Itens", "Vendas líquidas", "Idade")], 2, var))

df_1 <- left_join(df_medias,df_medianas, by ="variaveis")
df_2 <- left_join(df_1, df_sd, by = "variaveis")
df_3 <- left_join(df_2, df_var, by = "variaveis")

df_3

In [None]:
# Função responsável por identificar a moda

getmode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}

In [None]:
{r}
# Cria o data frame com os dados de moda

table(pelicanstores[, "Tipo de Cliente"])
table(pelicanstores[, "Método de Pagamento"])
table(pelicanstores[, "Gênero"])
table(pelicanstores[, "Estado Civil"])

df_modacat <- data.frame(variaveis = c("Tipo de Cliente", "Método de Pagamento", "Gênero", "Estado Civil"), Moda = apply(pelicanstores[,c("Tipo de Cliente", "Método de Pagamento", "Gênero", "Estado Civil")], 2, getmode), row.names = NULL)

df_3
df_modacat

In [None]:
# Cria a versão final do dicionário de dados, fazendo a junção dos três data frames

colnames(df_3) <- c("Nome da Variável", 
                       "Média", 
                       "Mediana",
                       "DesvPadrao", 
                       "Variancia")

colnames(df_modacat) <- c("Nome da Variável", 
                       "Moda")

df_dict_final <- left_join(df_dict,df_3, by ="Nome da Variável")
df_dict_final <- left_join(df_dict_final,df_modacat, by ="Nome da Variável")
df_dict_final