# Oficina de análise de dados com R #1 (14/01)

Prof. Dr. Hugo Cristo - hugo.santanna@ufes.br 

## Manhã

Instruções básicas para a participação na oficina:

1. Visualizar as aulas [1](https://hugocristo.github.io/seminario-ia-dados/aula-01/aula-01.html) e [2](https://hugocristo.github.io/seminario-ia-dados/aula-02/aula-02.html) do Seminário IA+Dados do PPGP e baixar o [zip]() da oficina
2. Instalar [Positron](https://positron.posit.co/) ou acessar [JupyterLite via Web](https://hugocristo.github.io/formajupyter)

### 1. Linguagem R, do zero

* Tudo é um vetor: `1:5`, `c()`, `c(1,2,3,4,5)`, `c(1:5)`, `1:200`
* Calculadora de luxo: `1+1`, `2*2`, `10/3`, `2^5`, `10%%2`
* Funções são suas amigas: `c()`, `print()`, `cat()`, `subs()`
* Texto também é dado: `"teste"`, `print("teste")`
* Atribuir dados a variáveis para manipulá-las: `x <- 10`, `y <- "teste"`

In [None]:
# tudo é um vetor

In [None]:
# tudo é um vetor

In [None]:
# tudo é um vetor

In [None]:
# tudo é um vetor

In [None]:
# tudo é um vetor

In [None]:
# calculadora de luxo

In [None]:
# calculadora de luxo

In [None]:
# calculadora de luxo

In [None]:
# calculadora de luxo

In [None]:
# calculadora de luxo

In [None]:
# funções são suas amigas

In [None]:
# atribuir dados a variáveis

In [None]:
# atribuir dados textuais a variáveis

In [None]:
# manipular variáveis

### 2. Explorando a base de dados

Acessem, *individualmente*, a base de dados disponível no [Google Planilhas](https://docs.google.com/spreadsheets/d/1sq0-VNy4TFERjLPAqT0Fhlz0x5lVNDoe/edit?usp=sharing&ouid=100077617737571590447&rtpof=true&sd=true) e inspecione seu conteúdo. Observe que os rótulos das colunas foram *deliberadamente* renomeados. Tente identificar:

1. Qual é a estrutura da planilha (linhas, colunas, abas...)?
2. Quais tipos de dados a planilha armazena (números, textos, siglas, códigos...)?
3. O que cada linha da planilha representa?
4. O que cada coluna da planilha representa?
5. Que tipo de análise poderíamos fazer a partir da exploração pura da planilha?

### 3. Os elementos essenciais

A estatística, enquanto braço aplicado da matemática, é menos sobre fazer contas e mais sobre como lidar com os problemas de *mensuração*, *comparação*  e *variação* (ver [Andrew Gelman](https://statmodeling.stat.columbia.edu/2015/04/28/whats-important-thing-statistics-thats-not-textbooks/)). 

|Mensuração|Comparação|Variação |
|----------|----------|---------|
|O que pode ser medido?|O que pode ser comparado?|O que varia?|
|Como realizar medidas?|Quais tipos de comparações são possíveis e permissíveis?|O quanto varia e em quais direções?|
|Como obter medidas consistentes (*precisão* e *confiabilidade*)? |O que as comparações evidenciam?|O que as variações significam?|
|Como saber se o que medimos é o que desejamos medir (*acurácia* e *validade*)?|Como interpretar comparações?|O quanto as variações encontradas eram esperadas ou conhecidas?|

### 4. Memes são didáticos

* [Medidas](https://imgs.xkcd.com/comics/measure_twice_cut_once.png)
* Preciso/confiável (*reliable*) versus acurado/válido (*valid*): [alvo #1](https://sciencenotes.org/wp-content/uploads/2021/08/Accuracy-and-Precision.png) e [alvo #2](https://cdn.lecturio.com/assets/Reliability-and-Validity-1536x597.png)
* [Comparações](https://imgs.xkcd.com/comics/fuck_grapefruit.png)
* [Fontes de variação](https://images3.memedroid.com/images/UPLOADED973/65fb3fe04c887.jpeg)
* [Variabilidade e confiança](https://i.pinimg.com/736x/b0/bd/67/b0bd67cbd591f9e6e46801b407e8ade7.jpg)
  
### 5. Voltando à base de dados

Quais questões sobre *mensuração*, *comparação* e *variação* podemos levantar sobre os dados? Desta vez, discutam em *duplas* e façam uma lista com as questões. 

## Tarde

### 1. Carregando a base de dados

As funções `install.packages()` e `library()` respectivamente instalam e carregam pacotes. Utilizaremos `openxlsx`, que oferece recursos para leitura e escrita de planilhas Microsoft Excel.

In [None]:
# instala e carrega pacote

A função `read.xlsx()` carrega a planilha e atribui a um objeto da linguagem R.

In [None]:
# carrega 

### 2. Propriedades da base

Podemos utilizar a função `summary()` para explorar o conteúdo de cada coluna e visualizar estatísticas descritivas.

In [None]:
# resumo da base

As funções `ncol()` e `nrow()` retornam o número de colunas e de linhas da base.

In [None]:
# número de colunas

In [None]:
# número de linhas

Para exibir o conteúdo da planilha, recorremos a três funções:

* `View()` imprime todas as linhas e colunas;
* `head()` imprime as dez (10) primeiras linhas ou o número definido pelo argumento `n`;
* `tail()` imprime as últimas dez (10) ou `n` linhas. 

In [None]:
# visualiza tudo

In [None]:
# visualiza as primeiras 10 linhas

In [None]:
# visualiza as 10 últimas

A base tem uma *estrutura*, isto é, colunas com diferentes tipos de dados e valores. A função `str()` exibe a estrutura de modo compacto.

In [None]:
# estrutura da base

### 3. Explorando os dados por variáveis ou fatores

A inspeção de cada coluna individualmente permite identificar os valores correspondentes àquela variável.

Há cinco formas para acessar qualquer célula da planilha:

1. `dados[linha,coluna]`: lista o conteúdo da célula na linha e coluna indicadas;
2. `dados[,coluna]`: lista todos os valores da coluna indicada numericamente ou pelo rótulo;
3. `dados$coluna`: sintaxe alternativa para a opção anterior, indicando o rótulo da coluna;
4. `dados[linha,]`: lista todas as colunas da linha indicada;
5. `dados$coluna[linha]`: sintaxe alternativa para a forma 1, utilizando o rótulo da coluna e o número ou rótulo da linha.


In [None]:
# exibindo célula em linha,coluna

In [None]:
# exibindo valores de uma coluna

In [None]:
# exibindo valores de uma coluna pelo rótulo

In [None]:
# exibindo valores das colunas de uma linha pelo número

In [None]:
# exibindo célula em uma linha pelo rótulo

### 4. Contando números

O acesso aos valores em grupo individualmente permitem diversas contagens, usando saídas em texto ou imagens:

In [None]:
# dados da coluna 8

In [None]:
# estatísticas resumo da coluna 8

In [None]:
# estatísticas manuais: média

In [None]:
# estatísticas manuais: mediana

In [None]:
# estatísticas manuais: desvio padrão 

In [None]:
# visualização dos valores

In [None]:
# valores únicos

### 5. Contando textos

Não podemos calcular médias de dados textuais, mas podemos contar suas ocorrências absolutas.

In [None]:
# lista e-mails dos alunos

In [None]:
# lista e-mails únicos

In [None]:
# exibe resultado numérico dos dois casos

Se transformarmos textos em categorias, com a função `as.factor()`, poderemos contar suas ocorrências.

In [None]:
# conversão de texto em categoria