### O primeiro passo que devemos realizar é o carregamento dos dados
#### A linguagem R apresenta 3 pacotes principais para carga de textos:  

**Utils:** O pacote "utils" faz parte da instalação padrão do R e é carregado automaticamente quando você inicia uma sessão do R.   
    **Principais funções para leitura e escrita de dados:**  
**read.table() e write.table():** Usadas para ler e escrever dados tabulares em formato de texto.  
**read.csv() e write.csv():** Funções específicas para lidar com arquivos CSV.  
**read.delim()** Abre arquivos separados por tab e ponto.

**Ele é mais eficiente para arquivos menores em comparação com arquivos muito grandes.** 

In [1]:
DF1 <- read.csv('dadosgestantes.csv', sep= ';')
head(DF1)

Unnamed: 0_level_0,Paciente,Idade.da.gestante,Idade.gestacional.em.semanas,dias.entre.infeccao.e.parto,Condicoes.medicas
Unnamed: 0_level_1,<chr>,<int>,<int>,<int>,<chr>
1,A,45,26,3,Pre eclampsia e diabetes mellitus gestacional
2,B,38,28,3,Hipotireoidismo pre gestacional
3,C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada"
4,D,37,34,0,Transtorno de ansiedade generalizada
5,E,23,36,0,Nao informado
6,F,28,25,76,Diabetes mellitus tipo 2


O segundo pacote é o **Readr**, ele é projetado para tornar a leitura e escrita de dados tabulares mais eficiente, rápida e amigável. O "readr" é amplamente utilizado em análise de dados e manipulação de dados em R devido às suas vantagens sobre as funções de leitura e escrita de dados padrão do R.  
    **Principais funções para leitura e escrita de dados:**    
**read_csv():** Esta função é usada para ler arquivos CSV (Comma-Separated Values).É uma das funções mais comuns do "readr" e é projetada para ler dados em formato CSV de maneira eficiente.  
**read_tsv():** Semelhante ao read_csv(), o read_tsv() é usado para ler arquivos de texto tabulares, mas é específico para arquivos TSV (Tab-Separated Values). É útil quando os campos nos dados são separados por tabulações em vez de vírgulas.  
**read_delim():** é uma função mais geral para ler arquivos tabulares com um delimitador personalizado. Você pode especificar o delimitador desejado como um argumento para a função

**É necessário carregar o pacote readr**

In [2]:
library(readr)

"package 'readr' was built under R version 4.2.3"


In [3]:
#A função read_csv() do pacote "readr" não aceita o argumento sep para especificar o delimitador, 
# pois ela assume que os arquivos CSV são separados por vírgula
DF2 <- read_delim('dadosgestantes.csv')
head(DF2)

[1mRows: [22m[34m17[39m [1mColumns: [22m[34m5[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ";"
[31mchr[39m (2): Paciente, Condicoes medicas
[32mdbl[39m (3): Idade da gestante, Idade gestacional em semanas, dias entre infecca...

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas
<chr>,<dbl>,<dbl>,<dbl>,<chr>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional
B,38,28,3,Hipotireoidismo pre gestacional
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada"
D,37,34,0,Transtorno de ansiedade generalizada
E,23,36,0,Nao informado
F,28,25,76,Diabetes mellitus tipo 2


A terceira forma de carregar arquivos é por meio da **função fread**, ela faz parte do pacote "data.table". O "data.table" é um pacote em R que oferece funcionalidades avançadas para manipulação de dados em memória, especialmente adequado para conjuntos de dados grandes.  

**A função fread() é projetada para ser muito rápida na leitura de arquivos grandes, superando muitas outras funções de leitura de dados em termos de desempenho. Isso a torna uma escolha ideal para conjuntos de dados extensos.** 

**É necessário carregar o pacote data.table**

In [4]:
library(data.table)

"package 'data.table' was built under R version 4.2.3"


In [5]:
DF3 <- fread('dadosgestantes.csv')
head(DF3)

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas
<chr>,<int>,<int>,<int>,<chr>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional
B,38,28,3,Hipotireoidismo pre gestacional
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada"
D,37,34,0,Transtorno de ansiedade generalizada
E,23,36,0,Nao informado
F,28,25,76,Diabetes mellitus tipo 2


**Para arquivos com caracteres especiais:** fileEncoding = 'UTF-16LE')

### Agora precisamos carregar o pacote dplyr que é especialmente focado em tarefas de manipulação e transformação de dados. Ele fornece um conjunto de funções que simplificam a manipulação de data frames no R.  

In [6]:
library(dplyr)

"package 'dplyr' was built under R version 4.2.3"

Attaching package: 'dplyr'


The following objects are masked from 'package:data.table':

    between, first, last


The following objects are masked from 'package:stats':

    filter, lag


The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union




### Análise exploratória dos dados e funções básicas no R

In [7]:
#A função glimpse() é uma função do pacote "dplyr" e é usada para obter uma visão geral dos dados de um dataframe
glimpse(DF2)

Rows: 17
Columns: 5
$ Paciente                       [3m[90m<chr>[39m[23m "A", "B", "C", "D", "E", "F", "G", "H",…
$ `Idade da gestante`            [3m[90m<dbl>[39m[23m 45, 38, 29, 37, 23, 28, 22, 26, 22, 32,…
$ `Idade gestacional em semanas` [3m[90m<dbl>[39m[23m 26, 28, 34, 34, 36, 25, 35, 32, 34, 38,…
$ `dias entre infeccao e parto`  [3m[90m<dbl>[39m[23m 3, 3, 0, 0, 0, 76, 4, 42, 33, 0, 46, 12…
$ `Condicoes medicas`            [3m[90m<chr>[39m[23m "Pre eclampsia e diabetes mellitus gest…


In [8]:
#A função str() é uma função base do R que é usada para visualizar a estrutura de objetos em R.
str(DF2)

spc_tbl_ [17 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ Paciente                    : chr [1:17] "A" "B" "C" "D" ...
 $ Idade da gestante           : num [1:17] 45 38 29 37 23 28 22 26 22 32 ...
 $ Idade gestacional em semanas: num [1:17] 26 28 34 34 36 25 35 32 34 38 ...
 $ dias entre infeccao e parto : num [1:17] 3 3 0 0 0 76 4 42 33 0 ...
 $ Condicoes medicas           : chr [1:17] "Pre eclampsia e diabetes mellitus gestacional" "Hipotireoidismo pre gestacional" "Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de s"| __truncated__ "Transtorno de ansiedade generalizada" ...
 - attr(*, "spec")=
  .. cols(
  ..   Paciente = [31mcol_character()[39m,
  ..   `Idade da gestante` = [32mcol_double()[39m,
  ..   `Idade gestacional em semanas` = [32mcol_double()[39m,
  ..   `dias entre infeccao e parto` = [32mcol_double()[39m,
  ..   `Condicoes medicas` = [31mcol_character()[39m
  .. )
 - attr(*, "problems")=<externalptr

In [9]:
#verificando valores ausentes em todas as colunas
#is.na verifica cada valor ausente dentro do DF.
# colSums é uma função que calcula a soma das colunas, quando aplicada a um df de valores booleanos 
#(como o resultado de is.na(DF2)), ela somará 1 sempre que encontrar TRUE e 0 sempre que encontrar FALSE.
colSums(is.na(DF2))

In [10]:
#Removendo valores ausentes com a função na.omit(), ele remove todas as linhas indepedentes da coluna. 
DF2_filtrado <- na.omit(DF2)

In [11]:
colSums(is.na(DF2_filtrado))

In [12]:
#Removendo todas as linhas com valores ausentes com complete.cases()
#todas as linhas, todas as colunas
DF2_filtrar <- DF2[complete.cases(DF2), ]

In [13]:
colSums(is.na(DF2_filtrar))

In [14]:
#Removendo valores ausentes em uma coluna especifica com o complete.cases()
DF2_filtrar1 <- DF2[complete.cases(DF2$`Idade da gestante`), ]

In [15]:
#neste caso as linhas com valores ausentes eram as mesmas para as duas colunas. 
colSums(is.na(DF2_filtrar1))

In [16]:
#Verificando se existe registro duplicados pela coluna paciente
# DF2$Paciente: Isso acessa a coluna "Paciente" no  DF2.
# A função duplicated() identifica as linhas duplicadas na coluna "Paciente
#,] todas as colunas são incluídas no subconjunto resultante
DF2[duplicated(DF2$Paciente),]

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas
<chr>,<dbl>,<dbl>,<dbl>,<chr>


In [17]:
#Calcula um resumo estatístico para as colunas numéricas
summary(DF2)

   Paciente         Idade da gestante Idade gestacional em semanas
 Length:17          Min.   :22.00     Min.   : 8.00               
 Class :character   1st Qu.:26.00     1st Qu.:27.00               
 Mode  :character   Median :29.00     Median :34.00               
                    Mean   :30.53     Mean   :30.13               
                    3rd Qu.:35.50     3rd Qu.:34.50               
                    Max.   :45.00     Max.   :38.00               
                    NA's   :2         NA's   :2                   
 dias entre infeccao e parto Condicoes medicas 
 Min.   :  0.00              Length:17         
 1st Qu.:  3.00              Class :character  
 Median : 12.00              Mode  :character  
 Mean   : 35.82                                
 3rd Qu.: 46.00                                
 Max.   :231.00                                
                                               

In [18]:
#Linhas e colunas
dim(DF2)

### Adicionando colunas no DataFrame

In [19]:
#Adicionando uma nova coluna e atribuindo o valor 1 para ela:
DF2$Valor <-2
head(DF2)

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38,28,3,Hipotireoidismo pre gestacional,2
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,37,34,0,Transtorno de ansiedade generalizada,2
E,23,36,0,Nao informado,2
F,28,25,76,Diabetes mellitus tipo 2,2


### Renomenando colunas 

**colnames(DF2)[5] <- 'Valores'**
  
A coluna 5 seria renomeada para Valores


### Funções do pacote Dplyr:

**select():** Seleciona colunas específicas de um dataframe.  

**filter():** Filtra as linhas de um dataframe com base em condições específicas.  

**arrange():** Ordena as linhas de um dataframe com base em uma ou mais colunas.  

**mutate():** Adiciona novas colunas ou modifica colunas existentes em um dataframe.  

**summarize():** Cria resumos estatísticos de colunas em um dataframe.  

**group_by():** Agrupa um dataframe por uma ou mais colunas.  

**summarize():** Cria resumos estatísticos dentro de grupos definidos pelo group_by().  

**join():** Realiza operações de junção (join) entre dataframes.

**Abaixo estão exemplos de uso destas funções**

In [20]:
#Podemos selecionar colunas específicas com o select
#Selecionando colunas 1 e 5 
select(DF2, 1,5)

Paciente,Condicoes medicas
<chr>,<chr>
A,Pre eclampsia e diabetes mellitus gestacional
B,Hipotireoidismo pre gestacional
C,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada"
D,Transtorno de ansiedade generalizada
E,Nao informado
F,Diabetes mellitus tipo 2
G,"Diabetes mellitus gestacional, obesidade e hipotireoidismo"
H,Toxoplasmose aguda e hipotireoidismo
I,"Asma, transtorno de ansiedade generalizada e obesidade"
J,Nao informado


In [21]:
#Excluindo colunas 2,3 e 4
select(DF2, -'Idade da gestante':-'dias entre infeccao e parto')

Paciente,Condicoes medicas,Valor
<chr>,<chr>,<dbl>
A,Pre eclampsia e diabetes mellitus gestacional,2
B,Hipotireoidismo pre gestacional,2
C,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,Transtorno de ansiedade generalizada,2
E,Nao informado,2
F,Diabetes mellitus tipo 2,2
G,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
H,Toxoplasmose aguda e hipotireoidismo,2
I,"Asma, transtorno de ansiedade generalizada e obesidade",2
J,Nao informado,2


In [22]:
DF2 %>% #Utiliza o operador pipe para encadear as funções. 
  select(`Idade da gestante`)%>% # Seleciona a coluna Idade da gestante, necessárop crase (`)
  filter(`Idade da gestante` > 35) # Filtra linhas a idade é amior que 35 anos

Idade da gestante
<dbl>
45
38
37
39


In [23]:
# O operador %in% é usado para verificar se um elemento está presente em um vetor ou conjunto de elementos
DF2 %>% 
filter(Paciente %in% c('A', 'B', 'C')) #Filtrando com base na coluna paciente, paciente A, B,C

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38,28,3,Hipotireoidismo pre gestacional,2
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2


In [24]:
DF2 %>%
  select(2) %>% # Seleciona a segunda coluna
  filter(. > 35)

"[1m[22mUsing one column matrices in `filter()` was deprecated in dplyr 1.1.0.
[36mℹ[39m Please use one dimensional logical vectors instead."


Idade da gestante
<dbl>
45
38
37
39


In [25]:
# Neste exemplo, usamos a função filter() para selecionar as observações onde a variável "Idade_Gestante" é maior que 30 e 
#a variável "Idade_Gestacional" é maior que 30
DF2 %>%
  filter(`Idade da gestante` > 30, `Idade gestacional em semanas` > 30)

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
D,37,34,0,Transtorno de ansiedade generalizada,2
J,32,38,0,Nao informado,2
M,34,34,26,Nao informado,2


In [26]:
# Ordenação  de coluna por arrange
# usamos arrange(Idade da gestante para ordenar primeiro por "Idade da gestante" em ordem crescente.
DF2 %>%
  arrange(`Idade da gestante`) %>%
head() #Mostrando os 6 primeiros registros. 

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
G,22,35,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
I,22,34,33,"Asma, transtorno de ansiedade generalizada e obesidade",2
E,23,36,0,Nao informado,2
H,26,32,42,Toxoplasmose aguda e hipotireoidismo,2
O,26,21,74,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
L,27,37,12,Diabetes mellitus gestacional,2


In [27]:
# Usando mutate para criar uma nova coluna chamada "Idade_dobrada"
DF2 %>%
  mutate(Idade_dobrada = `Idade da gestante`* 2) %>%
head()

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor,Idade_dobrada
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional,2,90
B,38,28,3,Hipotireoidismo pre gestacional,2,76
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2,58
D,37,34,0,Transtorno de ansiedade generalizada,2,74
E,23,36,0,Nao informado,2,46
F,28,25,76,Diabetes mellitus tipo 2,2,56


In [28]:
#Neste exemplo, estamos usando summarize() para calcular  a media e a mediana da coluna dias entre infeccao e parto.
resumo_estatistico <- DF2 %>%
  summarize(
    Media_Dias = mean(`dias entre infeccao e parto`),
    Mediana_Dias = median(`dias entre infeccao e parto`))

resumo_estatistico

Media_Dias,Mediana_Dias
<dbl>,<dbl>
35.82353,12


In [29]:
# Usando a função group_by() para agrupar as observações com base nas colunas "Idade da gestante" e "Idade gestacional".
# usando a função summarize() para calcular a média dos "dias entre infecção e parto" para cada combinação de 
#"Idade da gestante" e "Idade gestacional em semanas".
# O argumento na.rm = TRUE é usado para ignorar valores ausentes (NA) ao calcular a média.

resumo_estatistico_1 <- DF2 %>%
  group_by(`Idade da gestante`, `Idade gestacional em semanas`) %>%
  summarize(
    Media_Dias_entre_Infeccao_e_Parto = mean(`dias entre infeccao e parto`, na.rm = TRUE))

resumo_estatistico_1

[1m[22m`summarise()` has grouped output by 'Idade da gestante'. You can override using the `.groups` argument.


Idade da gestante,Idade gestacional em semanas,Media_Dias_entre_Infeccao_e_Parto
<dbl>,<dbl>,<dbl>
22.0,34.0,33.0
22.0,35.0,4.0
23.0,36.0,0.0
26.0,21.0,74.0
26.0,32.0,42.0
27.0,37.0,12.0
28.0,25.0,76.0
29.0,34.0,0.0
30.0,30.0,46.0
32.0,38.0,0.0


In [30]:
# Neste exemplo, estamos usando inner_join() para realizar um "inner join" entre DF2 e resumo_estatistico_1,
resultado <- inner_join(DF2, resumo_estatistico_1)
resultado

[1m[22mJoining with `by = join_by(`Idade da gestante`, `Idade gestacional em semanas`)`


Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor,Media_Dias_entre_Infeccao_e_Parto
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>
A,45.0,26.0,3,Pre eclampsia e diabetes mellitus gestacional,2,3.0
B,38.0,28.0,3,Hipotireoidismo pre gestacional,2,3.0
C,29.0,34.0,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2,0.0
D,37.0,34.0,0,Transtorno de ansiedade generalizada,2,0.0
E,23.0,36.0,0,Nao informado,2,0.0
F,28.0,25.0,76,Diabetes mellitus tipo 2,2,76.0
G,22.0,35.0,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2,4.0
H,26.0,32.0,42,Toxoplasmose aguda e hipotireoidismo,2,42.0
I,22.0,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2,33.0
J,32.0,38.0,0,Nao informado,2,0.0


### O pacote "tidyr" é um pacote muito útil, ele concentra em transformar e organizar os dados.
#### Funções do pacote tidyr:

**A função gather()** (ou pivot_longer()) é usada para transformar dados de formato amplo para longo, onde as colunas se tornam variáveis e as células são preenchidas com valores correspondentes. Em outras palavras, ela ajuda a mover as informações das colunas para linhas.

**spread() (ou pivot_wider()):** Usada para transformar dados de formato longo para amplo, onde as variáveis se tornam colunas e os valores correspondentes preenchem as células.

**separate() e unite():** Usadas para separar e unir strings em colunas para criar ou dividir informações.

**complete():** Usada para preencher valores ausentes em uma tabela de acordo com valores específicos.

In [31]:
library(tidyr)

"package 'tidyr' was built under R version 4.2.3"


In [32]:
#Criando um DF para realizar as transformações

dados1 <- data.frame(
  Nome = c("Alice", "Bob"),
  Nota1 = c(95, 70),
  Nota2 = c(88, 82),
  Nota3 = c(75, 91)
)
dados1

Nome,Nota1,Nota2,Nota3
<chr>,<dbl>,<dbl>,<dbl>
Alice,95,88,75
Bob,70,82,91


In [33]:
# Aplicando gather() para transformar em formato longo
dados_long <- gather(dados1, key = "Prova", value = "Nota", Nota1:Nota3)
dados_long

#key = "Prova" indica que a nova coluna que conterá os 'nomes das colunas originais' será chamada "Prova".
#value = "Nota" indica que a nova coluna que 'conterá os valores das colunas' originais será chamada "Nota".
#Nota1:Nota3 são as colunas que você deseja que sejam transformadas em formato longo. 

Nome,Prova,Nota
<chr>,<chr>,<dbl>
Alice,Nota1,95
Bob,Nota1,70
Alice,Nota2,88
Bob,Nota2,82
Alice,Nota3,75
Bob,Nota3,91


In [34]:
# Dados de notas em disciplinas
dados2 <- data.frame(
  Nome = c("Geografia", "Literatura", "Biologia"),
  Regiao_A = c(97, 80, 84),
  Regiao_B = c(86, 90, 91)
)
dados2

Nome,Regiao_A,Regiao_B
<chr>,<dbl>,<dbl>
Geografia,97,86
Literatura,80,90
Biologia,84,91


In [35]:
dados_long_2 <- dados2 %>%
  gather(Regiao, NotaFinal, Regiao_A:Regiao_B)
#Região contém os nomes das colunas originais
#Nota_final contém os valores das colunas originais 
dados_long_2

Nome,Regiao,NotaFinal
<chr>,<chr>,<dbl>
Geografia,Regiao_A,97
Literatura,Regiao_A,80
Biologia,Regiao_A,84
Geografia,Regiao_B,86
Literatura,Regiao_B,90
Biologia,Regiao_B,91


In [36]:
#Aplicando spread para transformar dados de formato longo para formato amplo.
dados_long

Nome,Prova,Nota
<chr>,<chr>,<dbl>
Alice,Nota1,95
Bob,Nota1,70
Alice,Nota2,88
Bob,Nota2,82
Alice,Nota3,75
Bob,Nota3,91


In [37]:
dados_ampl <- spread(dados_long, key = Prova, value = Nota)
dados_ampl
#key = Prova: define a coluna "Prova" como a coluna que contém os nomes das colunas originais que você deseja espalhar.
#value = Nota: define a coluna "Nota" como a coluna que contém os valores que serão espalhados nas novas colunas

Nome,Nota1,Nota2,Nota3
<chr>,<dbl>,<dbl>,<dbl>
Alice,95,88,75
Bob,70,82,91


In [38]:
dados_long_2

Nome,Regiao,NotaFinal
<chr>,<chr>,<dbl>
Geografia,Regiao_A,97
Literatura,Regiao_A,80
Biologia,Regiao_A,84
Geografia,Regiao_B,86
Literatura,Regiao_B,90
Biologia,Regiao_B,91


In [39]:
dados_long_2 %>%
spread(Regiao, NotaFinal)

Nome,Regiao_A,Regiao_B
<chr>,<dbl>,<dbl>
Biologia,84,91
Geografia,97,86
Literatura,80,90


In [40]:
head(DF2)

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38,28,3,Hipotireoidismo pre gestacional,2
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,37,34,0,Transtorno de ansiedade generalizada,2
E,23,36,0,Nao informado,2
F,28,25,76,Diabetes mellitus tipo 2,2


In [41]:
# Usando separate() para dividir a coluna Condições médicas
# into = c: indica o nome das novas colunas
# sep =  especifica o separador(es) usado(s) para dividir o texto

condicoes_med_separadas <- separate(DF2, col = `Condicoes medicas`, into = 
                                    c('Primeira_Condicao', 'Outras_Condicoes'), sep = ',| e ')
condicoes_med_separadas

"[1m[22mExpected 2 pieces. Additional pieces discarded in 5 rows [3, 7, 9, 11, 15]."
"[1m[22mExpected 2 pieces. Missing pieces filled with `NA` in 10 rows [2, 4, 5, 6, 10, 12, 13, 14, 16, 17]."


Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Primeira_Condicao,Outras_Condicoes,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<chr>,<dbl>
A,45.0,26.0,3,Pre eclampsia,diabetes mellitus gestacional,2
B,38.0,28.0,3,Hipotireoidismo pre gestacional,,2
C,29.0,34.0,0,Diabetes mellitus gestacional,obesidade,2
D,37.0,34.0,0,Transtorno de ansiedade generalizada,,2
E,23.0,36.0,0,Nao informado,,2
F,28.0,25.0,76,Diabetes mellitus tipo 2,,2
G,22.0,35.0,4,Diabetes mellitus gestacional,obesidade,2
H,26.0,32.0,42,Toxoplasmose aguda,hipotireoidismo,2
I,22.0,34.0,33,Asma,transtorno de ansiedade generalizada,2
J,32.0,38.0,0,Nao informado,,2


In [42]:
#Usando unite para combinar colunas 
#col = especifica o nome da nova coluna resultante.
# Paciente, `Idade da gestante`são as colunas que serão combinadas.
#sep = " -" define o separador que você deseja entre as partes combinadas
dados_combinados <- unite(DF2, col = 'Paciente_idade', Paciente, `Idade da gestante`, sep = '-')
dados_combinados

Paciente_idade,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<chr>,<dbl>
A-45,26.0,3,Pre eclampsia e diabetes mellitus gestacional,2
B-38,28.0,3,Hipotireoidismo pre gestacional,2
C-29,34.0,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D-37,34.0,0,Transtorno de ansiedade generalizada,2
E-23,36.0,0,Nao informado,2
F-28,25.0,76,Diabetes mellitus tipo 2,2
G-22,35.0,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
H-26,32.0,42,Toxoplasmose aguda e hipotireoidismo,2
I-22,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2
J-32,38.0,0,Nao informado,2


### Pacote Reshape 2, é uma extensão do pacote reshape no R,  fornece uma interface mais intuitiva e simplificada para a remodelação e transformação de dados. 

Algumas das funções-chave do pacote reshape2 incluem:

**melt():** Essa função é usada para transformar um dataframe de formato amplo em formato longo, onde as colunas se tornam variáveis e os valores correspondentes são colocados em uma única coluna. **É semelhante ao gather() no pacote tidyr.**  

**dcast():** Esta função é usada para transformar dados de formato longo em formato amplo, onde as variáveis se tornam colunas e os valores correspondentes são preenchidos nas células. **É semelhante ao spread() no pacote tidyr.**  

**acast():** Esta função é semelhante ao dcast() e é usada para criar tabelas cruzadas a partir de dados no formato longo.

**recast():** Semelhante ao dcast(), mas permite operações de remodelação mais complexas.

**Na prática, o tidyr é capaz de realizar todas as tarefas que o reshape2 faz, e muito mais. Portanto, o tidyr pode substituir completamente o reshape2 e é amplamente preferido para tarefas de manipulação de dados no R devido à sua sintaxe mais clara e à integração com o pacote dplyr.**

### --------------------------------------------------------------------------------------------------------------------------------------------------------------
### O pacote plyr é um pacote muito útil no R que fornece uma variedade de funções para realizar operações de manipulação de dados em dataframes. 

### O plyr é amplamente conhecido por seguir o paradigma "split-apply-combine", o que significa que ele divide um dataframe em partes, aplica uma função a cada parte e, em seguida, combina os resultados. 

### Isso torna o plyr uma ferramenta poderosa para realizar operações complexas em dataframes de maneira organizada e eficiente.

**Alguns dos principais conceitos do plyr incluem:** 

**Split:** O primeiro passo é dividir os dados em grupos com base em critérios específicos. Isso é geralmente feito usando a função **ddply() (data frame ply) ou dlply() (list ply),** que divide o dataframe em partes.  

**Apply:** Em seguida, você aplica uma função a cada grupo de dados. As funções aplicadas são as mesmas presentes no pacote **dplyr**

**Combine:** Por fim, o plyr combina os resultados da aplicação das funções para produzir o resultado final. Isso pode ser feito usando funções como **rbind.fill() ou rbind.all(),** dependendo dos requisitos.

**Desta forma, o pacote plyr fornece funções de "split"  e funções de "combine" .**

**As principais funções de aplicação do pacote plyr incluem:**

**ddply():** Usada para dividir um dataframe em grupos com base em critérios específicos e aplicar funções a cada grupo. É semelhante ao group_by() do pacote dplyr.

**ldply():** Usada para dividir uma lista em subgrupos e aplicar funções a cada subgrupo.

**adply():** Usada para dividir um dataframe em grupos e aplicar funções, mas, ao contrário do ddply(), retorna os resultados em um novo dataframe.

**mdply():** Usada para criar um dataframe que combina todas as combinações possíveis de variáveis.

**join_all():** Usada para realizar junções (merges) entre múltiplos dataframes ou listas.

**rbind.fill():**  Usada para combinar dataframes, preenchendo com valores ausentes nas colunas que não existem em todos os dataframes.

**rbind.all():** Usada para combinar dataframes sem preencher com valores ausentes.

In [43]:
library(plyr)

"package 'plyr' was built under R version 4.2.3"
------------------------------------------------------------------------------

You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)

------------------------------------------------------------------------------


Attaching package: 'plyr'


The following objects are masked from 'package:dplyr':

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize




In [44]:
head(DF2)

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
A,45,26,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38,28,3,Hipotireoidismo pre gestacional,2
C,29,34,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,37,34,0,Transtorno de ansiedade generalizada,2
E,23,36,0,Nao informado,2
F,28,25,76,Diabetes mellitus tipo 2,2


In [45]:
# Usando ddply para calcular a média dos dias entre infeccao e o parto
#(): A parte entre parênteses vazios () indica que não estamos dividindo os dados em grupos específicos. 
#Estamos aplicando a operação a todo o dataframe.
ddply_DF2 <- ddply(DF2, .(), summarize, Media_infeccao_parto = mean(`dias entre infeccao e parto`))

In [46]:
ddply_DF2

.id,Media_infeccao_parto
<chr>,<dbl>
,35.82353


## O pacote data.table é uma biblioteca popular que oferece uma estrutura de dados eficiente e versátil para manipulação de conjuntos de dados. 

### Ela é especialmente útil para lidar com conjuntos de dados grandes e complexos, tornando as operações de manipulação de dados mais rápidas do que as abordagens tradicionais do R, como o uso de data frames.

**Ele pode substituir o data.frame em arquivos grandes e posso utilizar alguns métodos e atributos intercambiáveis entre eles.**  

**O pacote data.table já foi carregado anteriormente para uso da função fread.** 

In [47]:
# Exemplo: Criando uma tabela de dados
dt <- data.table(
  ID = 1:5,
  Nome = c("Alice", "Bob", "Charlie", "David", "Eve"),
  Idade = c(25, 30, 22, 35, 28)
)

dt

ID,Nome,Idade
<int>,<chr>,<dbl>
1,Alice,25
2,Bob,30
3,Charlie,22
4,David,35
5,Eve,28


In [48]:
# Acessando dados
# Selecionando todas as linhas em que a idade é maior que 25
dt[Idade > 25]

ID,Nome,Idade
<int>,<chr>,<dbl>
2,Bob,30
4,David,35
5,Eve,28


In [49]:
# Ordenando a tabela pelo nome em ordem alfabética crescente
dt[order(Nome)]

ID,Nome,Idade
<int>,<chr>,<dbl>
1,Alice,25
2,Bob,30
3,Charlie,22
4,David,35
5,Eve,28


In [50]:
# Calculando a média de idade
#Na notação [,...], a parte que fica antes da vírgula (,) é usada para selecionar linhas da tabela. 
# .(): Isso cria uma nova tabela de dados temporária. A notação .() é usada para criar um objeto de tabela de dados 
# vazio no qual podemos armazenar resultados intermediários ou calcular novas colunas. 
dt[, .(Media_Idade = mean(Idade))]

Media_Idade
<dbl>
28


In [51]:
#O "slice" em um data.table é uma operação que permite selecionar um subconjunto específico de linhas e/ou colunas de uma 
#tabela de dados.

dt

ID,Nome,Idade
<int>,<chr>,<dbl>
1,Alice,25
2,Bob,30
3,Charlie,22
4,David,35
5,Eve,28


In [52]:
#Seleção de linhas e colunas específicas:
#Selecionando linhas 1 à 3 e colunas 'nome' e 'idade'
dt[1:3, c("Nome", "Idade")]

Nome,Idade
<chr>,<dbl>
Alice,25
Bob,30
Charlie,22


In [53]:
#Filtragem de linhas com base em uma condição
dt[Idade > 25]

ID,Nome,Idade
<int>,<chr>,<dbl>
2,Bob,30
4,David,35
5,Eve,28


### gsub é uma função em R que é usada para realizar substituições de padrões em strings. 

#### Ela é uma parte da linguagem base do R e é frequentemente utilizada para processar e manipular strings em conjuntos de dados. O nome gsub é uma abreviação de "global substitution" (substituição global), o que significa que a função pode substituir todas as ocorrências de um padrão dentro de uma string.

In [54]:
#exemplos de uso da função gsub:
texto <- "Hoje é um dia ensolarado."
texto

In [55]:
novo_texto <- gsub("ensolarado", "chuvoso", texto)
novo_texto

In [56]:
# Substituição em um vetor de strings:
palavras <- c("gato", "cachorro", "gato preto", "gato branco")
palavras

In [57]:
#Neste exemplo, a função gsub está substituindo a palavra "gato" por "felino" em todas as strings do vetor palavras.
novas_palavras <- gsub("gato", "felino", palavras)
novas_palavras

### A função subset é uma função em R que é usada para criar subconjuntos de dados a partir de um data frame ou uma tabela de dados (incluindo objetos data.frame e data.table). Ela permite filtrar com base em condições específicas.

In [58]:
#Subconjunto de linhas com base em uma condição:
# dias entre infeccao e parto maior que 25
subconjunto_linhas <- subset(DF2, `dias entre infeccao e parto` > 25)
subconjunto_linhas

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
F,28.0,25.0,76,Diabetes mellitus tipo 2,2
H,26.0,32.0,42,Toxoplasmose aguda e hipotireoidismo,2
I,22.0,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2
K,30.0,30.0,46,"Pre eclampsia e diabetes mellitus gestacional, obesidade e infeccao do trato urinario de repeticao",2
M,34.0,34.0,26,Nao informado,2
N,39.0,8.0,231,Nao informado,2
O,26.0,21.0,74,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
P,,,53,Nao informado,2


In [59]:
#O operador %in% é usado para verificar se um elemento está presente em um vetor ou conjunto de elementos
subconjunto_linhas1 <- subset(DF2, Paciente %in% c('F', 'H'))
subconjunto_linhas1

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
F,28,25,76,Diabetes mellitus tipo 2,2
H,26,32,42,Toxoplasmose aguda e hipotireoidismo,2


In [60]:
#Seleção de colunas específicas no subconjunto:
#Selecionando apenas as colunas paciente e dias entre infeccao e parto
subconjunto_colunas <- subset(DF2, `dias entre infeccao e parto` > 25, select = c(Paciente, `dias entre infeccao e parto`))
subconjunto_colunas

Paciente,dias entre infeccao e parto
<chr>,<dbl>
F,76
H,42
I,33
K,46
M,26
N,231
O,74
P,53


### cbind e rbind são funções em R usadas para combinar objetos em formato de tabela (geralmente data frames ou matrizes) ao longo de suas colunas (cbind) ou linhas (rbind).

### cbind - Combinar por Colunas:

**A função cbind (abreviação de "column bind") é usada para combinar objetos, como data frames ou matrizes, ao longo de suas colunas. Ela cria uma nova tabela de dados ou matriz onde os objetos originais são concatenados lado a lado, ou seja, as colunas são unidas.**

## rbind - Combinar por Linhas:

**A função rbind (abreviação de "row bind") é usada para combinar objetos, como data frames ou matrizes, ao longo de suas linhas. Ela cria uma nova tabela de dados ou matriz onde os objetos originais são empilhados verticalmente, ou seja, as linhas são unidas.**


In [61]:
#Combinar por colunas
resultado_cbind <- cbind(DF2,DF2)
resultado_cbind 

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor,Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<chr>.1,<dbl>.1,<dbl>.1,<dbl>.1,<chr>.1,<dbl>.1
A,45.0,26.0,3,Pre eclampsia e diabetes mellitus gestacional,2,A,45.0,26.0,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38.0,28.0,3,Hipotireoidismo pre gestacional,2,B,38.0,28.0,3,Hipotireoidismo pre gestacional,2
C,29.0,34.0,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2,C,29.0,34.0,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,37.0,34.0,0,Transtorno de ansiedade generalizada,2,D,37.0,34.0,0,Transtorno de ansiedade generalizada,2
E,23.0,36.0,0,Nao informado,2,E,23.0,36.0,0,Nao informado,2
F,28.0,25.0,76,Diabetes mellitus tipo 2,2,F,28.0,25.0,76,Diabetes mellitus tipo 2,2
G,22.0,35.0,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2,G,22.0,35.0,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
H,26.0,32.0,42,Toxoplasmose aguda e hipotireoidismo,2,H,26.0,32.0,42,Toxoplasmose aguda e hipotireoidismo,2
I,22.0,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2,I,22.0,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2
J,32.0,38.0,0,Nao informado,2,J,32.0,38.0,0,Nao informado,2


In [62]:
resultado_rbind <- rbind(DF2,DF2)
resultado_rbind 

Paciente,Idade da gestante,Idade gestacional em semanas,dias entre infeccao e parto,Condicoes medicas,Valor
<chr>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
A,45.0,26.0,3,Pre eclampsia e diabetes mellitus gestacional,2
B,38.0,28.0,3,Hipotireoidismo pre gestacional,2
C,29.0,34.0,0,"Diabetes mellitus gestacional, obesidade, hipotireoidismo, ex usuaria de substancia psicoativa e historico de sifilis devidamente tratada",2
D,37.0,34.0,0,Transtorno de ansiedade generalizada,2
E,23.0,36.0,0,Nao informado,2
F,28.0,25.0,76,Diabetes mellitus tipo 2,2
G,22.0,35.0,4,"Diabetes mellitus gestacional, obesidade e hipotireoidismo",2
H,26.0,32.0,42,Toxoplasmose aguda e hipotireoidismo,2
I,22.0,34.0,33,"Asma, transtorno de ansiedade generalizada e obesidade",2
J,32.0,38.0,0,Nao informado,2


### A família de funções apply em R é um conjunto de funções que permite aplicar uma função a uma matriz (ou data frame) ao longo de linhas ou colunas. As funções apply são frequentemente usadas para realizar operações de resumo, transformação ou cálculos em dados tabulares.

### As funções apply mais comuns são as seguintes:

**apply():** Essa função aplica uma função a uma matriz ou data frame ao longo de linhas ou colunas, especificando o valor 1 para linhas e 2 para colunas. Ela é útil para realizar operações em uma dimensão específica dos dados.

In [63]:
#Criando uma matriz para fornecer o exemplo do uso de apply
matriz <- matrix(1:9, ncol = 3)
matriz

0,1,2
1,4,7
2,5,8
3,6,9


In [64]:
# Aplicar a função de soma por coluna, 2 indica que você deseja aplicar por coluna
apply(matriz, 2, sum)

In [65]:
# Aplicar a função de soma por linha, 1 indica que você deseja aplicar por coluna
apply(matriz, 1, sum)

**lapply():** Essa função é usada para aplicar uma função a todos os elementos de uma lista. Ela retorna uma lista com os resultados.

In [66]:
#Criando uma lista para fornecer o exemplo do uso de lapply
minha_lista <- list(a = 1:3, b = 4:6)
minha_lista

In [67]:
# Aplicando a função sqrt a todos os elementos da lista
lapply(minha_lista, sqrt)

**sapply():** Esta é uma versão simplificada de lapply. Ela tenta simplificar o resultado em um vetor ou matriz, sempre que possível.

In [68]:
sapply(minha_lista, sqrt)

a,b
1.0,2.0
1.414214,2.236068
1.732051,2.44949


**tapply():** Essa função é usada para aplicar uma função a uma variável em grupos, definidos por outra variável. É frequentemente usada para resumir dados agregados.

In [69]:
# Criando um data frame de exemplo
df <- data.frame(Grupo = c("A", "B", "A", "B"),
                 Valor = c(10, 20, 15, 25))
df

Grupo,Valor
<chr>,<dbl>
A,10
B,20
A,15
B,25


In [70]:
# Aplicando a função mean a "Valor" por grupo
data.frame(tapply(df$Valor, df$Grupo, mean))

Unnamed: 0_level_0,tapply.df.Valor..df.Grupo..mean.
Unnamed: 0_level_1,<dbl>
A,12.5
B,22.5


**vapply():** Funciona de forma semelhante ao sapply(), mas permite que você especifique o tipo de retorno da função, o que pode ser útil para garantir que o resultado tenha o tipo desejado

In [71]:
minha_lista

In [72]:
vapply(minha_lista, mean, numeric(1))

**by():** Embora não seja parte da família apply, a função by() é frequentemente usada para dividir um data frame em subconjuntos com base em uma variável específica e, em seguida, aplicar uma função a cada subconjunto.

In [73]:
df <- data.frame(Grupo = c("A", "B", "A", "B"), Valor = c(10, 20, 15, 25))
df

Grupo,Valor
<chr>,<dbl>
A,10
B,20
A,15
B,25


In [74]:
by(df$Valor, df$Grupo, mean)

df$Grupo: A
[1] 12.5
------------------------------------------------------------ 
df$Grupo: B
[1] 22.5

**do.call()** é uma função em R que permite chamar uma função usando uma lista de argumentos. Ela é frequentemente usada quando você precisa aplicar uma função a um conjunto de argumentos armazenados em uma lista. Isso pode ser útil quando os argumentos de uma função são dinâmicos e não são conhecidos a priori. A função do.call() ajuda a construir uma chamada de função com base em uma lista de argumentos e, em seguida, a executar essa chamada.  

Aqui está um exemplo de uso prático com do.call() para calcular a média de uma lista de vetores:

In [75]:
argumentos <- list(5, 3)
data.frame(argumentos)

X5,X3
<dbl>,<dbl>
5,3


do.call(sum, argumentos)

### A função merge é uma função em R que permite combinar duas ou mais estruturas de dados (geralmente data frames) com base em colunas comuns, ela é uma função base do R e está disponível por padrão no ambiente R base. 

In [76]:
df1 <- data.frame(ID = c(1, 2, 3), Name = c("Alice", "Bob", "Charlie"))
df1

ID,Name
<dbl>,<chr>
1,Alice
2,Bob
3,Charlie


In [77]:
df2 <- data.frame(ID = c(2, 3, 4), Score = c(85, 92, 78))
df2

ID,Score
<dbl>,<dbl>
2,85
3,92
4,78


In [78]:
# Ele combina pelo ID automaticamente
merged_df <- merge(df1, df2)
merged_df

ID,Name,Score
<dbl>,<chr>,<dbl>
2,Bob,85
3,Charlie,92


## Operadores [] e  [[]] 

In [79]:
a <- list(x = 1:3, y = 4:5)
a

In [80]:
a[1]

In [81]:
a[[1]]

In [82]:
a[[1]][[1]]

In [83]:
my_vector <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)

In [84]:
slice_result <- my_vector[(length(my_vector) - 2):length(my_vector)]

In [85]:
slice_result

### A notação de "slice" é uma técnica usada para acessar partes específicas de uma sequência, como uma string, lista, vetores e data frames.

In [86]:
# Exemplo com um vetor numérico:
vetor <- c(1, 2, 3, 4, 5, 6, 7, 8, 9)
vetor

In [87]:
#Extrai os elementos do índice 2 ao 5 (inclusive o 5)
vetor[2:5]

In [88]:
vetor_1 <- seq(c(1:10))
vetor_1 

In [89]:
#Retorna o elemento na posição 3
vetor_1[3]

In [90]:
#retorna o elemento da posição 5 e 9
# o operador c() para criar um 'subvetor' contendo os índices específicos que deseja acessar 
vetor_1[c(5,9)]

In [91]:
#Extraí uma sequencia de numeros começando do índice 3 até o comprimento do vetor, pulando de 2 em 2.
vetor_1[seq(3,length(vetor_1), by =2)]

In [92]:
# '-2', é usada para subtrair 2 do comprimento total, o que nos dá a posição do último elemento menos 2: terceiro elemento.
vetor_1[(length(vetor_1)-2)]

A expressão **length(vetor_1) - 2** é equivalente a length(vetor_1) - 1 - 1. A primeira subtração - 1 move uma posição antes do último elemento, e a segunda subtração - 1 move mais uma posição, resultando na posição do terceiro elemento a partir do final.

In [93]:
vetor_1[(length(vetor_1)-2)]:length(vetor_1)

In [94]:
lista <- list(a = 10, b = 20, c = 30)
lista

In [95]:
#Retorna o valor associado à a.
lista['a']

In [96]:
#Retorna o terceiro elemento da lista. 
lista[3]

In [97]:
matriz <- matrix(1:9, ncol =3)
matriz

0,1,2
1,4,7
2,5,8
3,6,9


In [98]:
# Retorna o elemento na segunda linha e terceira coluna.
matriz[2,3]

In [99]:
dt <- data.frame(nome= c('Ale', 'Ber', 'Will'), idade = c(25, 26,27))
dt

nome,idade
<chr>,<dbl>
Ale,25
Ber,26
Will,27


In [100]:
#Retornando a coluna nome
dt$nome

In [101]:
#Retornando a coluna nome
dt[,'nome']

In [102]:
dt[, c('nome', 'idade')]

nome,idade
<chr>,<dbl>
Ale,25
Ber,26
Will,27


In [103]:
#Excluir a 2º coluna
dt[,-2]

In [104]:
#Excluindo a primeira linha. 
dt[-1,]

Unnamed: 0_level_0,nome,idade
Unnamed: 0_level_1,<chr>,<dbl>
2,Ber,26
3,Will,27


In [105]:
#Selecionando linhas 1 e 2 da coluna nome
dt[1:2,'nome']

In [106]:
#Primeira linha, primeira coluna. 
dt[1,1]

In [107]:
#Exclui a primeira coluna
dt[,-1]