# Frequências e Medidas com R

Frequência é um conceito estatístico que se refere ao número de vezes que um determinado evento ou valor ocorre em um conjunto de dados. Ela pode ser calculada para qualquer tipo de dado, como palavras em um texto, números em uma planilha ou respostas em uma pesquisa.

As medidas estatísticas são utilizadas para resumir e descrever os dados em um conjunto. Elas incluem medidas de tendência central, como a média, a mediana e a moda, que indicam onde estão localizados os valores centrais dos dados. Também existem medidas de dispersão, como o desvio padrão e a amplitude, que mostram o quão distantes os valores estão uns dos outros.

Além disso, existem outras medidas estatísticas que podem ser úteis para analisar diferentes aspectos dos dados, como a assimetria, que indica se a distribuição dos dados é simétrica ou assimétrica, e a curtose, que mostra se a distribuição é mais ou menos achatada em relação à distribuição normal.

No geral, as medidas estatísticas são importantes ferramentas para a compreensão e análise de dados, permitindo que sejam tiradas conclusões úteis a partir de um conjunto de informações.

# 1 - Configurações Iniciais

## 1.1 - R 

In [6]:
# Informações básicas do ambiente
sessionInfo()

R version 4.2.3 (2023-03-15)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Arch Linux

Matrix products: default
BLAS:   /usr/lib/libblas.so.3.11.0
LAPACK: /usr/lib/liblapack.so.3.11.0

locale:
 [1] LC_CTYPE=pt_BR.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=pt_BR.UTF-8        LC_COLLATE=pt_BR.UTF-8    
 [5] LC_MONETARY=pt_BR.UTF-8    LC_MESSAGES=pt_BR.UTF-8   
 [7] LC_PAPER=pt_BR.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=pt_BR.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] dplyr_1.1.0

loaded via a namespace (and not attached):
 [1] magrittr_2.0.3   tidyselect_1.2.0 uuid_1.1-0       R6_2.5.1        
 [5] rlang_1.1.0      fastmap_1.1.1    fansi_1.0.4      tools_4.2.3     
 [9] utf8_1.2.3       cli_3.6.0        htmltools_0.5.4  digest_0.6.31   
[13] tibble_3.2.1     lifecycle_1.0.3  cr

In [5]:
# Importando biblioteca necessária
library(dplyr)

In [7]:
# Acessando ajuda de um método
?select

# 2 - Estatística Básica

## 2.1 - Importando a base de dados

In [9]:
dataset <- read.csv('/home/joeldspy/Modelos/Datasets/dados.csv')

In [10]:
head(dataset, 5)

Unnamed: 0_level_0,UF,Sexo,Idade,Cor,Anos.de.Estudo,Renda,Altura
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>
1,11,0,23,8,12,800,1.603808
2,11,1,23,2,12,1150,1.73979
3,11,1,35,8,15,880,1.760444
4,11,0,46,2,6,3500,1.783158
5,11,1,47,8,9,150,1.690631


In [11]:
tail(dataset, 5)

Unnamed: 0_level_0,UF,Sexo,Idade,Cor,Anos.de.Estudo,Renda,Altura
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>
76836,53,1,46,2,11,812,1.68703
76837,53,0,30,4,7,1500,1.792934
76838,53,0,32,8,12,1300,1.830587
76839,53,0,57,8,4,1500,1.726344
76840,53,0,38,8,4,900,1.658305


## 2.2 - Tipos de Dados

<img src='https://www.inf.ufsc.br/~andre.zibetti/probabilidade/img/classificacao_variaveis.png'>

In [15]:
select(dataset, 'Anos.de.Estudo')

Anos.de.Estudo
<int>
12
12
15
6
9
12
12
12
14
12


In [16]:
unique(select(dataset, 'Anos.de.Estudo'))

Unnamed: 0_level_0,Anos.de.Estudo
Unnamed: 0_level_1,<int>
1,12
3,15
4,6
5,9
9,14
16,16
17,10
21,1
23,5
37,7


In [21]:
# Variável qualitativa ordinal
c(arrange(unique(select(dataset, Anos.de.Estudo)), Anos.de.Estudo))

In [26]:
# Variável qualitativa nominal
c(unique(select(dataset, UF)))

c(unique(select(dataset, Cor)))

c(unique(select(dataset, Sexo)))

In [28]:
# Variável quantitativa discreta
sprintf('de %d até %d anos', min(dataset$Idade), max(dataset$Idade))

In [33]:
# Variável quantitativa contínua
sprintf('de %.2f até %.2f metros', min(dataset$Altura), max(dataset$Altura))

## 2.3 - Distribuições de Frequência

In [34]:
table(dataset$Sexo)


    0     1 
53250 23590 