---
title: "Seminário de Metodologia de Pesquisa X (PPGP-0114) - 2025/2: Aula 02"
format:
  html:
    toc: true
    toc-title: Sumário
    toc-location: left
    toc-depth: 4
    html-math-method: katex
    code-line-numbers: true
    css: aulas.css
---

* Tema: Análise Computacional de Dados Textuais
* Responsável: Prof. Dr. Hugo Cristo Sant'Anna - [hugo.santanna@ufes.br](mailto:hugo.santanna@ufes.br)

## 2. Princípios básicos de programação em R com *notebooks* (continuação)

Continuaremos a introdução à linguagem R com os mesmos dados do primeiro notebook:

In [None]:
# importa biblioteca
install.packages('openxlsx')
library(openxlsx)

# vetor das idades
idade <- c(15, 16, 14, 17, 15, 18, 16, 15, 14, 16)
# vetor com verdadeiro/falso
booleano <- c(TRUE, FALSE, FALSE, TRUE, FALSE, FALSE, TRUE, TRUE, FALSE, FALSE)
# vetor dos psicólogos
psicologos <- c("Piaget", "Vygotsky", "Skinner", "Wallon", "Bronfenbrenner", "Gibson")

# cria um data.frame a partir dos dois vetores anteriores
base <- data.frame(
  "idade"=idade,
  "presente"=booleano)

# exibe data.frame
View(base)

### 2.2 Funções

Até o momento, utilizamos o termo *função* de modo intuitivo. Podemos entendê-las como procedimentos que realizam operações sobre dados e que podem receber argumentos ou não.

~~~R
# sem argumentos
funcao()

# um ou mais argumentos
funcao(argumento1, argumento2, ...)
~~~

Os argumentos da função são informados entre parênteses, separados por vírgulas, e as operações que ela realiza internamente se chamam *corpo*. Até o momento utilizamos funções com um argumento...

In [None]:
# um argumento
print("Esta é uma função de argumento único!")

A função `mean()` pode ser utilizada com um único argumento (vetor) e pode receber adicionais que ajustam sua operação. Estes argumentos podem ou não ser identificados, pois a linguagem tenta interpretá-los em tempo de execução. O argumento `na.rm` com valor `TRUE` informa à função que deve *remover* as células vazias do cálculo da média. Quando o valor for `FALSE`, a função retornará um erro ao calcular médias com células vazias.

In [None]:
# dois argumentos
mean(idade, na.rm = TRUE)

Já a função `c()`, que constrói vetores, pode receber inúmeros argumentos:

In [None]:
# vetor com dez argumentos
c(15, 16, 14, 17, 15, 18, 16, 15, 14, 16)

O console de Positron permite invocar a ajuda de todas as funções da linguagem e dos pacotes adicionais por meio da combinação do símbolo `?` e o nome da função.

~~~R
?print
~~~

> **Dica**: A ajuda exibida com a execução deste comando é similar àquela exibida quando começamos a digitar o nome da função nas células de código, poré mais completa e inclui exemplos.

Há funções de propósito geral para exibição de textos em R, que nos ajudam a inspecionar objetos em uso pelo *script*. 

* `print()`: imprime no console (ou *notebook*) uma *string*, o valor de uma variável, uma expressão...
* `cat()`: semelhante a `print()`, porém com a opção de concatenar tipos de dados separados por espaço. Requer quebra de linha explícita ao final (`\n`);
* `substr()`: extrai caracteres de uma *string*;
* `paste()`: concatena duas ou mais *strings*;
* `length()`: retorna o comprimento de vetores;
* `nchar()`: retorna o comprimento de *strings*;
* `unique()`: retorna os valores únicos de um vetor (inclusive números).

In [None]:
# imprime texto, número e vetor
print("Saída de texto")
print(3.14)
print(idade)
# concatena texto e vetor e termina com quebra de linha
cat("O conteúdo do vetor de idades é:",idade,"\n")
# extrai e imprime os caracteres de 18 a 27
print(substr("Extraindo apenas esta parte",18,27))
# retorna o comprimento do vetor idade (10 itens)
print(length(idade))
# retorna o comprimento de uma string (37 caracteres)
print(nchar("Esta é uma função de argumento único!"))
# concatena strings
print(paste("A primeira parte","e a segunda parte","e a terceira parte."))
# mostra idades únicas
print(unique(idade))

Algumas funções da linguagem R nos ajudam a explorar a estrutura de `data.frames`: 

* `summary()`: medidas-resumo da base;
* `head()`: primeiras linhas;
* `tail()`: últimas linhas;
* `nrow()`: número de linhas;
* `ncol()`: número de colunas;
* `colnames()`: rótulos das colunas;
* `rownames()`: rótulos das linhas (quando não houver, retornará *strings* com números).

In [None]:
# resumo
summary(base)

In [None]:
# cabeça
head(base)

In [None]:
# cauda
tail(base)

In [None]:
# número de linhas
nrow(base)

In [None]:
# número de colunas
ncol(base)

In [None]:
# rótulos das colunas
colnames(base)

In [None]:
# rótulos das linhas
rownames(base)

A função `hist()` gera um histograma a partir da variável *idade* do `data.frame`. Para isso, recebe como argumentos um vetor de dados e um título (argumento `main`). O seletor `$` indica qual coluna de `base` será utilizada na visualização.

In [None]:
# plota histograma
hist(base$idade, main="Histograma das idades", xlab="Idades",ylab="Frequência")

A função `as.factor()` converte os níveis de varíaveis (colunas) de `data.frames` para categorias. No exemplo a seguir, coluna *presente* é transformada em categorias (`TRUE` e `FALSE`) e exibe a distribuições das idades em cada uma delas.

In [None]:
# transforma TRUE/FALSE em categoria
base$presente <- as.factor(base$presente)
# exibe boxplot
plot(x=base$presente,y=base$idade, main="Boxplot Presença x Idade", xlab="Presente", ylab="Idade")

Vamos adicionar mais um vetor de dados ao objeto `base` para testar a visualização em gráficos de dispersão. Para isso, utilizaremos a função `cbind()`, que adiciona uma nova coluna a `data.frames` existentes.

In [None]:
# novo vetor de dados com 10 alturas
altura <- c(1.75, 1.60, 1.64, 1.70, 1.81, 1.63, 1.72, 1.85, 1.75, 1.55)
# adiciona coluna
base <- cbind(base, "altura"=altura)

O resultado é `base` atualizada para incluir mais uma coluna:

![Exibição de coluna adicional de `base`.](./imagens/base-cbind.png)

Assim, podemos visualizar o gráfico de dispersão de *idade* versus *altura*:

In [None]:
# plota idade x altura
plot(base$idade, base$altura, main="Idade x altura", xlab="Idade", ylab="Altura")

> **Dica**: a adição de novas colunas a `data.frames` existentes exige que o vetor tenha o *mesmo número* de linhas. 

Também é possível fazer a adição utilizando o seletor `$`, mas para testar esta alternativa, vamos remover a coluna adicionada:

In [None]:
# remove coluna altura adicionada anteriormente
base$altura <- NULL
# verifica a remoção
View(base)

Adição por meio do seletor: 

In [None]:
# adiciona novamente utilizando o seletor
base$altura <- c(1.75, 1.60, 1.64, 1.70, 1.81, 1.63, 1.72, 1.85, 1.75, 1.55)
# visualiza
View(base)

> **Dica**: é uma boa prática *inicializar* a coluna, com valores vazios, antes de atribuir valores, caso isso seja feito por meio do seletor `$`. Isso evita avisos do R quanto à tentativa de manipular colunas não existentes.

In [None]:
# remove coluna altura adicionada anteriormente
base$altura <- NULL
# adiciona a coluna com valores vazios (NA)
base$altura <- NA
# adiciona novamente utilizando o seletor
base$altura <- c(1.75, 1.60, 1.64, 1.70, 1.81, 1.63, 1.72, 1.85, 1.75, 1.55)

### 2.3 Estruturas de controle

*Laços* são estruturas que permitem repetir conjuntos de instruções por *n* vezes, facilitando a varredura de vetores e `data.frames` para realizar operações, ler ou alterar elementos. Há dois principais tipos de laços em R:

1. `for(expressão){...}`: estabelece um contador progressivo ou regressivo, por meio da expressão entre parânteses, para a execução de operações indicadas entre chaves;
1. `while(expressão){...}`: executa operações até que a condição estabelecida pela expressão entre parênteses seja satisfeita. 

In [None]:
# lista psicólogos do vetor pelo índice do item
# 'item' será 1, 2, 3, ...
for (item in 1:length(psicologos)) {
  print(psicologos[item])
}

In [None]:
# lista psicólogos do vetor pelo item
# neste caso, 'item' recebe o valor do item, não o índice
# item será "Piaget", "Vygotsky", ...
for (item in psicologos) {
  print(item)
}

In [None]:
# lista idade e altura do data.frame
for (linha in 1:nrow(base)) {
  # imprime linha
  cat("idade:",base$idade[linha],"altura:",base$altura[linha],"\n")
}

In [None]:
# varre o data.frame até que encontre uma idade igual ou maior a 18
testa.idade <- 0
# começa pela primeira linha
linha <- 1
while (testa.idade < 18) {
  # atribui valor ao teste
  testa.idade <- base$idade[linha]
  # imprime
  cat("idade:",base$idade[linha],"altura:",base$altura[linha],"\n")
  # avança para a próxima linha
  linha <- linha + 1
}
# avisa que a idade foi encontrada
cat("Encontrei!\n")

In [None]:
# altera nomes dos psicólogos do vetor
for (item in 1:length(psicologos)) {
  # concatena 'Prof.' ao nome do psicólogo
  psicologos[item] <- paste("Prof.",psicologos[item])
}
# imprime resultado
print(psicologos)


## 3. Importação e processamento de dados

Há diferentes formatos de bases de dados, dentre as quais destacam-se `TXT` (formato texto), `CSV` (*comma-separated values*) e `XLSX` (Microsoft Excel). Os dois primeiros são de simples manipulação em R, enquanto o último requer recursos não nativos da linguagem, que podem ser incorporados por meio de *pacotes*. Estes adicionam recursos extras ao R, aumentando a capacidade de importar e processar dados, realizar inferências estatísticas e gerar gráficos. 

O carregamento de pacotes ocorre em duas etapas:

1. `install.packages()` solicita ao editor que faça o *download* e instale o pacote informado entre parênteses;
1. `library()` carrega o pacote e torna suas funções disponíveis para o *script* ou *notebook* atual. 

Se o pacote já estiver instalado e a função `install.packages()` for invocada, o ambiente R ignorará o comando. O mesmo ocorre com a função `library()`, de modo que a recomendação é manter essas instruções no início do programa.  


### 3.1 Arquivos texto (TXT, CSV etc.)

Arquivos `CSV` são utilizados pelo poder público e em acervos abertos para a distribuição de bases de dados de diversas áreas. É possível editar esses arquivos em ferramentas como Microsoft Excel, Open Office e Google Planilhas. Por se tratarem de texto puro, os arquivos costumam ser maiores e podem apresentar limitações quanto à acentuação e uso de caracteres especiais. 

Em R, a leitura de arquivos CSV é feita pela função `read.csv()`, que precisa da definição de três principais argumentos: 

* `file`: nome do arquivo, incluindo caminho;
* `header`: quando `TRUE`, considera que a primeira linha contém os rótulos das colunas;
* `sep` : informa o separador dos campos (vírgula, ponto e vírgula ou tabulação).

O exemplo de código abaixo carrega o arquivo `covid-es.csv` localizado na pasta `dados` que acompanha este *notebook*. A planilha consiste em dados sobre casos e óbitos por Covid-19 entre março de outubro de 2020 no ES.

![Primeiras linhas de `covid-es.csv`.](./imagens/csv.png)


In [None]:
# carrega arquivo covid-es.csv
# separador ; (ponto e vírgula)
# primeira linha tem cabeçalhos
base.covid <- read.csv(file="./dados/covid-es.csv",sep=";",header=TRUE)
# visualiza data.frame
View(base.covid)
# explora a base
summary(base.covid)

A primeira coluna da planilha contém *strings* que representam datas e que podem ser transformadas em objetos da linguagem R que permitem operações adequadas com datas (comparações, cálculos de intervalos etc.).

A segunda (*state*), terceira (*name*) e quarta (*code*) colunas correspondem à UF, ao município e ao código do município (IBGE) da ocorrência e podem ser igualmente tratados como categorias (*fatores*).

In [None]:
# transforma string em objeto data
base.covid$date <- as.Date(base.covid$date)
# transforma UF, municípios e códigos dos municípios em fatores
base.covid$state <- as.factor(base.covid$state)
base.covid$name <- as.factor(base.covid$name)
base.covid$code <- as.factor(base.covid$code)

A função `tapply()` é útil para realizar operações em bases de dados *controlando* por uma categoria, tendo uma tabela como resultado. O exemplo a seguir soma, pela função `sum()` os valores da coluna `deaths` agrupados pela coluna `name`, referente ao município.

In [None]:
# monta tabela com a soma das mortes por município
tapply(base.covid$deaths, base.covid$name, sum)

Se o resultado for transformado em `data.frame` pela função `array2DF()` e podemos gerar um gráfico:

In [None]:
# transforma soma em data.frame
base.csv.soma <- array2DF(tapply(base.covid$deaths, base.covid$name, sum))
# ajustamos os nomes das colunas
colnames(base.csv.soma) <- c("municipio","total")
# convertemos o município em fator
base.csv.soma$municipio <- as.factor(base.csv.soma$municipio)
# aumenta margem inferior do gráfico
par(mar=c(12,4,4,2))
# plota com rótulos do eixo em 90° (las=2)
plot(base.csv.soma$municipio,base.csv.soma$total, las=2, main="Mortes por município (mar-out 2020)",ylab="Total")


### 3.2 Planilhas Microsoft Excel (XLSX)


A importação de planilhas `XLSX` segue a mesma lógica dos arquivos `CSV`, porém depende da instalação e carregamento do pacote `openxlsx`. 

In [None]:
# instala e carrega pacote
install.packages('openxlsx')
library(openxlsx)

A base de dados `suicidios-es.xlsx` contém dados sobre suicídios no Espírito Santo e foi obtida no Data SUS. A função `read.xlsx()` carrega a planilha disponível na pasta `dados` e, ao contrário do arquivo `CSV`, o documento `XLSX` contém metadados mais ricos e recursos avançados para representar diferentes tipos de dados.

In [None]:
# importa base xlsx
base.sus <- read.xlsx('./dados/suicidios-es.xlsx')
# sumário dos dados
summary(base.sus)

Um dos recursos mais importantes do pacote `openxlsx` consiste no salvamento de `data.frames` resultantes dos processamentos como planilhas Microsoft Excel &mdash; função `write.xlsx()`. Isso facilita a exportação dos dados processados, de modo que análises subsequentes não precisem partir dos dados brutos originais. 

O exemplo abaixo exporta `base.covid.soma`, que consolida as mortes por Covid-19 por município em um arquivo `XLSX`:

In [None]:
# exporta base
write.xlsx(base.csv.soma, "./dados/total-mortes-municipio.xlsx")

# 4. Atividade

Explore a base de dados `suicidios-es.xlsx` e crie um novo *notebook* no Positron para realizar as seguintes tarefas:

1. Quais municípios existem na base? Elabore uma lista com eles.
1. Quantos casos foram registrados por município? Gere uma tabela e a exporte como `XLSX`.
1. A partir da tabela gerada anteriormente, calcule as estatísticas descritivas (média, mediana e desvio padrão);
1. Gere um gráfico com os municípios no eixo X e o total de casos no eixo Y.
