### Leitura do arquivo csv, exibindo suas 10 primeiras linhas

In [1]:
data <- read.csv(file="../input/PelicanStores.csv", header=TRUE, sep=",", dec=",")
head(data, n=10)

Cliente,Tipo.de.Cliente,Itens,Vendas.líquidas,Método.de.Pagamento,Gênero,Estado.Civil,Idade
<int>,<fct>,<int>,<dbl>,<fct>,<fct>,<fct>,<int>
1,Regular,1,39.5,Discover,Masculino,Casado,32
2,Promocional,1,102.4,Cartão Proprietário,Feminino,Casado,36
3,Regular,1,22.5,Cartão Proprietário,Feminino,Casado,32
4,Promocional,5,100.4,Cartão Proprietário,Feminino,Casado,28
5,Regular,2,54.0,MasterCard,Feminino,Casado,34
6,Regular,1,44.5,MasterCard,Feminino,Casado,44
7,Promocional,2,78.0,Cartão Proprietário,Feminino,Casado,30
8,Regular,1,22.5,Visa,Feminino,Casado,40
9,Promocional,2,56.52,Cartão Proprietário,Feminino,Casado,46
10,Regular,1,44.5,Cartão Proprietário,Feminino,Casado,36


### Dicionário de dados


In [2]:
nome_variaveis = c(
    "Cliente",
    "Tipo.de.Cliente",
    "Itens",
    "Vendas.líquidas",
    "Método.de.Pagamento",
    "Gênero",
    "Estado.Civil",
    "Idade"
)
descricao_variaveis = c(
    "Indentificação do cliente", 
    "Indica se o cliente fez compra usando cupom promocional (Promocional) ou não (Regular)",
    "Quantidade de itens adquiridos na compra",
    "Quantidade monetária total cobrada pelo cartão de crédito",
    "Quando possuir valor \"Cartão Proprietário\" se refere a cobranças feitas utilizando um cartão de crédito da National Clothing",
    "Gênero do cliente",
    "Estado civil do cliente",
    "Idade do cliente"
)
tipo_variavies = c(
    "quantitativa discreta",
    "qualitativa",
    "quantativa discreta",
    "quantativa contínua",
    "qualitativa",
    "qualitativa",
    "qualitativa",
    "quantativa discreta"
)
mensuracao_variaveis = c(
    "nominal",
    "nominal",
    "intervalar",
    "razão",
    "nominal",
    "nominal",
    "nominal",
    "intervalar"
)
valores_possiveis = c(
    "Inteiro > 0",
    "{Promocional, Regular}",
    "Inteiro > 0",
    "Real >= 0",
    "{Cartão Proprietário, Discover, MasterCard, Visa}",
    "{Masculino, Feminino}",
    "{Solteiro, Casado}",
    "Inteiro >= 0"
)
dicionario <- data.frame(
    "Variável"=nome_variaveis, 
    "Descrição"=descricao_variaveis, 
    "Tipo"=tipo_variavies, 
    "Mensuração"=mensuracao_variaveis, 
    "Valores possíveis"=valores_possiveis, 
    check.names = FALSE
)
dicionario

Variável,Descrição,Tipo,Mensuração,Valores possíveis
<fct>,<fct>,<fct>,<fct>,<fct>
Cliente,Indentificação do cliente,quantitativa discreta,nominal,Inteiro > 0
Tipo.de.Cliente,Indica se o cliente fez compra usando cupom promocional (Promocional) ou não (Regular),qualitativa,nominal,"{Promocional, Regular}"
Itens,Quantidade de itens adquiridos na compra,quantativa discreta,intervalar,Inteiro > 0
Vendas.líquidas,Quantidade monetária total cobrada pelo cartão de crédito,quantativa contínua,razão,Real >= 0
Método.de.Pagamento,"Quando possuir valor ""Cartão Proprietário"" se refere a cobranças feitas utilizando um cartão de crédito da National Clothing",qualitativa,nominal,"{Cartão Proprietário, Discover, MasterCard, Visa}"
Gênero,Gênero do cliente,qualitativa,nominal,"{Masculino, Feminino}"
Estado.Civil,Estado civil do cliente,qualitativa,nominal,"{Solteiro, Casado}"
Idade,Idade do cliente,quantativa discreta,intervalar,Inteiro >= 0


### Cálculo das medidas de posição


In [3]:
quartil <- function(data, quartil_num) {
    conjunto_ordenado <- sort(data)
    tamanho_conjunto <- length(conjunto_ordenado)
    return <- conjunto_ordenado[floor(tamanho_conjunto * .25 * quartil_num)]
}

q1 = c()
q2 = c()
q3 = c()

for (v in nome_variaveis) {
    q1[v] <- as.character(quartil(data[[v]], 1))
    q2[v] <- as.character(quartil(data[[v]], 2))
    q3[v] <- as.character(quartil(data[[v]], 3))
}

medidas_posicao = data.frame(q1, q2, q3, check.names = FALSE)
medidas_posicao

Unnamed: 0_level_0,q1,q2,q3
Unnamed: 0_level_1,<fct>,<fct>,<fct>
Cliente,25,50,75
Tipo.de.Cliente,Promocional,Promocional,Regular
Itens,1,2,4
Vendas.líquidas,39.6,59.5,100.4
Método.de.Pagamento,Cartão Proprietário,Cartão Proprietário,Discover
Gênero,Feminino,Feminino,Feminino
Estado.Civil,Casado,Casado,Casado
Idade,32,42,50


### Medidas de variabilidade


In [4]:
amplitudeF <- function(array){
    conj_ordenado <- sort(array)
    return <- c(conj_ordenado[1], conj_ordenado[length(array)])
}

mediaF <- function(array) {
    return <- sum(array) / length(array)
}

varianciaF <- function(array) {
    return <- sum((array - mediaF(array))**2) / (length(array) - 1)
}

desvio_padraoF <- function(array) {
    return <- sqrt(varianciaF(array))
}

coef_variacaoF <- function(array) {
    return <- desvio_padraoF(array) / mediaF(array)
}

amplitude_interquartilicaF <- function(array) {
    q1 <- quartil(array, 1)
    q3 <- quartil(array, 3)
    return <- q3 - q1
}

amplitude = c()
desvio_padrao = c()
variancia = c()
amplitude_interquartilica = c()
coef_variacao = c()

i <- 1
for (v in nome_variaveis) {
    if (dicionario$`Mensuração`[i] %in% c("intervalar", "razão")) {
        amplitude[v] <- paste(amplitudeF(data[[v]]), collapse="; ")
        desvio_padrao[v] <- desvio_padraoF(data[[v]])
        variancia[v] <- varianciaF(data[[v]])
        coef_variacao[v] = coef_variacaoF(data[[v]])
        amplitude_interquartilica[v] <- amplitude_interquartilicaF(data[[v]])
    }
    i <- i + 1
}

variabilidade = data.frame(
    "Amplitude"=amplitude, 
    "Desvio padrão"=desvio_padrao, 
    "Variância"=variancia, 
    "Coeficiente de variação"=coef_variacao,
    "Amplitude interquartílica"=amplitude_interquartilica 
)
variabilidade

Unnamed: 0_level_0,Amplitude,Desvio.padrão,Variância,Coeficiente.de.variação,Amplitude.interquartílica
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>,<dbl>
Itens,1; 17,2.73614,7.486465,0.8497331,3.0
Vendas.líquidas,13.23; 287.59,55.66494,3098.58537,0.7173271,60.8
Idade,20; 78,12.38905,153.488485,0.2875823,18.0
