# Taxas de Desemprego (OECD)

Faça o download dos dados de desemprego mantidos pela OECD (donwload full indicator data (.csv) em
https://data.oecd.org/unemp/unemployment-rate.htm) e copie o arquivo .csv para um subdiretório data/
abaixo do diretório do script.

In [2]:
# Download feito manualmente pelo link disponibilizado
# O arquivo foi renomeado para "unemployment.csv" e salvo na pasta "data/" como especificado

# Leitura Inicial dos Dados

Crie um script que leia os dados do arquivo CSV, se certificando que os valores alfanuméricos sejam tratados
como string e não factor.

In [1]:
# Puxando os dados do arquivo e verificando início e fim da tabela
desempregoDados <- read.csv("data/unemployment.csv", na.strings="") # Obs.: Tratei campos vazios como NA
head(desempregoDados)
tail(desempregoDados)

Unnamed: 0,ï..LOCATION,INDICATOR,SUBJECT,MEASURE,FREQUENCY,TIME,Value,Flag.Codes
1,AUS,UNEMP,TOT,PC_LF,A,1967,1.875,
2,AUS,UNEMP,TOT,PC_LF,A,1968,1.85,
3,AUS,UNEMP,TOT,PC_LF,A,1969,1.8,
4,AUS,UNEMP,TOT,PC_LF,A,1970,1.625,
5,AUS,UNEMP,TOT,PC_LF,A,1971,1.925,
6,AUS,UNEMP,TOT,PC_LF,A,1972,2.625,


Unnamed: 0,ï..LOCATION,INDICATOR,SUBJECT,MEASURE,FREQUENCY,TIME,Value,Flag.Codes
9118,COL,UNEMP,TOT,PC_LF,M,2015-09,9.374468,
9119,COL,UNEMP,TOT,PC_LF,M,2015-10,9.276985,
9120,COL,UNEMP,TOT,PC_LF,M,2015-11,8.494882,
9121,COL,UNEMP,TOT,PC_LF,M,2015-12,9.099595,
9122,COL,UNEMP,TOT,PC_LF,M,2016-01,9.56433,
9123,COL,UNEMP,TOT,PC_LF,M,2016-02,8.995986,


In [2]:
# Mudando os nomes das colunas para facilitar leitura
names(desempregoDados) <- c("Location", "Indicator", "Subject", "Measure", "Frequency", "Time", "Value", "Codes")
names(desempregoDados)

In [3]:
# Verificando tipo dos dados de cada coluna
class(desempregoDados$Location)
class(desempregoDados$Indicator)
class(desempregoDados$Subject)
class(desempregoDados$Measure)
class(desempregoDados$Frequency)
class(desempregoDados$Time)
class(desempregoDados$Value)
class(desempregoDados$Codes)

In [4]:
# Passando os tipos para character usando lapply e testando o resultado
# Obs.: lapply me retorna uma lista, mas faço o valor retornado ser um data.frame e considero falso strings passarem a ser factor
desempregoDados <- data.frame(lapply(desempregoDados, as.character), stringsAsFactors=FALSE)

class(desempregoDados)
class(desempregoDados$Location)
class(desempregoDados$Indicator)
class(desempregoDados$Subject)
class(desempregoDados$Measure)
class(desempregoDados$Frequency)
class(desempregoDados$Time)
class(desempregoDados$Value)
class(desempregoDados$Codes)

# Examinando os Dados

Examine os dados lidos e responda:

a) Quantos registros e atributos há?

b) Quantos países/regiões estão incluídos nos dados?

In [5]:
# A quantidade de registros equivale à quantidade de linhas do data frame
# A quantidade de atributos equivale à quantidade de colunas do data frame
# Logo, basta saber as dimensões para responder a letra a
dim(desempregoDados)

# Pelo output abaixo, são 9123 registros e 8 atributos

In [6]:
# Para responder a letra b, a coluna Location é verificada usando unique para obter os dados registrados na coluna sem repetir
# dados similares
locais <- unique(desempregoDados$Location)
locais

In [7]:
# Uso length para saber quantos dados únicos estão registrados na coluna Location
length(locais)

# Pelo output abaixo, são 42 países/regiões incluídos nos dados

# Extraindo Subconjuntos de Dados

Extraia o subconjunto dos dados relacionados apenas aos indicadores anuais (excluindo os indicadores
trimestrais e mensais) e responda as seguintes perguntas. (Obs: Certifique-se de que a coluna relacionada às
datas seja da class numeric.)

a) Quantos registros permanecem?

b) De quantos anos há dados?

c) Qual é o período de tempo (primeiro ano e último ano)?

d) Qual é o primeiro e o último ano de que se tem dados de cada país? Elabore uma tabela com as colunas
location, first.year, last.year, ordenada por first.year e depois por location. Para exibir a
tabela, utilize a função kable do pacote knitr.

e) Desde o início da coleta dos dados em cada país, há algum ano de que não se tenha dados?

f) Desde qual ano a OECD tem dados de desemprego do Brasil?

g) De quantos e quais anos se tem dados de desemprego do Brasil?

In [8]:
# Antes, verifico os dados referentes à coluna Time para saber como separar os dados
unique(desempregoDados$Time)

# Pelo output abaixo, os dados que não contém indicadores anuais possuem o caracter "-" em comum

In [9]:
# Para gerar o subconjunto, uso subset
# Para excluir registros contendo tempos que não sejam puramente anuais, uso grepl para ignorar strings contendo o caracter "-"
ddAnos <- subset(desempregoDados, !grepl("-", desempregoDados$Time))

In [10]:
# Verifico que a coluna Time contenha apenas o desejado
unique(ddAnos$Time)

In [11]:
# Os dados da coluna Time são do tipo character, preciso transformar para numeric
class(ddAnos$Time)

In [12]:
# Uso transform para transformar apenas os dados da coluna Time para numeric e verifico
ddAnos <- transform(ddAnos, Time = as.numeric(Time))
class(ddAnos$Time)

In [13]:
# Para responder a letra a, vejo as dimensões do subconjunto
dim(ddAnos)

# Pelo output abaixo, são 1022 registros permanecentes

In [14]:
# Para responder a letra b, uso unique e length na coluna Time
length(unique(ddAnos$Time))

# Pelo output abaixo, são 61 anos dos quais há dados no subconjunto

In [15]:
# Para responder a letra c, uso min e max na coluna Time do subconjunto
# min irá me retornar o menor valor
anoMin <- min(ddAnos$Time)
anoMin

# max irá me retornar o maior valor
anoMax <- max(ddAnos$Time)
anoMax

# Pelo output abaixo, o período de tempo vai de 1955 a 2015

In [1]:
# Instalando o pacote knitr
# install.packages("knitr", repos='http://cran.us.r-project.org', lib="C:/RPackages")
# Obs.: Linha de código comentada para não dar problema de execução em outras máquinas

also installing the dependencies 'mime', 'evaluate', 'formatR', 'highr', 'markdown', 'yaml'



package 'mime' successfully unpacked and MD5 sums checked
package 'evaluate' successfully unpacked and MD5 sums checked
package 'formatR' successfully unpacked and MD5 sums checked
package 'highr' successfully unpacked and MD5 sums checked
package 'markdown' successfully unpacked and MD5 sums checked
package 'yaml' successfully unpacked and MD5 sums checked
package 'knitr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\NinoFabrizio\AppData\Local\Temp\RtmpKO5R9o\downloaded_packages


In [16]:
# Chamando a biblioteca knitr e me informando sobre a função kable
library(knitr)
?kable

0,1
kable {knitr},R Documentation

0,1
x,an R object (typically a matrix or data frame)
format,"a character string; possible values are latex, html, markdown, pandoc, and rst; this will be automatically determined if the function is called within knitr; it can also be set in the global option knitr.table.format; if format is a function, it must return a character string"
digits,the maximum number of digits for numeric columns (passed to round()); it can also be a vector of length ncol(x) to set the number of digits for individual columns
row.names,"a logical value indicating whether to include row names; by default, row names are included if rownames(x) is neither NULL nor identical to 1:nrow(x)"
col.names,a character vector of column names to be used in the table
align,"the alignment of columns: a character vector consisting of 'l' (left), 'c' (center) and/or 'r' (right); by default, numeric columns are right-aligned, and other columns are left-aligned; if align = NULL, the default alignment is used"
caption,the table caption
format.args,"a list of arguments to be passed to format() to format table values, e.g. list(big.mark = ',')"
escape,escape special characters when producing HTML or LaTeX tables
...,other arguments (see examples)


In [17]:
# Para responder a letra d, começo pegando um vetor contendo cada país/região descrita em Location
locais <- unique(ddAnos$Location)

# Uso um temporário para poder extrair um subgrupo contendo apenas dados da primeira região/país
temp <- subset(ddAnos, locais[1] == ddAnos$Location)

# Usando o temporário, gero um data frame contendo o menor ano e outro contendo o maior ano da primeira região/país
tempMin <- subset(temp, temp$Time == min(temp$Time))
tabelaMin <- tempMin
tempMax <- subset(temp, temp$Time == max(temp$Time))
tabelaMax <- tempMax

# Uso for para achar o restante dos dados para as regiões/países que faltam
# Obs.1: Anteriormente vi que há 42 registros de países/regiões, logo sei o limite de repetições
# Obs.2: Comecei extraindo dados para os data frames fora da repetição pois preciso que tenham dados para usar o rbind  seguir
for (i in 2:42) {

    temp <- subset(ddAnos, locais[i] == ddAnos$Location)
    tempMin <- subset(temp, temp$Time == min(temp$Time))
    tempMax <- subset(temp, temp$Time == max(temp$Time))
    
    tabelaMin <- rbind(tabelaMin, tempMin)
    tabelaMax <- rbind(tabelaMax, tempMax)
}

# Limito as colunas dos data frames para Location e Time e renomeio elas
tabelaMin <- tabelaMin[ names(tabelaMin) %in% c("Location", "Time")]
tabelaMax <- tabelaMax[ names(tabelaMax) %in% c("Location", "Time")]
names(tabelaMin) <- c("location", "first.year")
names(tabelaMax) <- c("location", "last.year")

# Uso merge para juntar os data frames em um novo, usando como critério de igualdade os dados em location
tabela <- merge(tabelaMin, tabelaMax, by = "location")

# Organizo os registros por ordem crescente em first.year primeiro e location em segundo
tabela <- tabela[with(tabela, order(first.year, location)), ]

In [18]:
# Uso a função kable para gerar a tabela
kable(tabela)

# O output abaixo me mostra os anos de início e fim dos registros guardados para cada país



|   |location | first.year| last.year|
|:--|:--------|----------:|---------:|
|5  |CAN      |       1955|      2015|
|26 |JPN      |       1955|      2015|
|41 |USA      |       1955|      2015|
|32 |NZL      |       1956|      2015|
|10 |DEU      |       1962|      2015|
|1  |AUS      |       1967|      2015|
|2  |AUT      |       1969|      2015|
|21 |IDN      |       1976|      2014|
|4  |BRA      |       1981|      2014|
|7  |CHL      |       1986|      2015|
|29 |MEX      |       1987|      2015|
|27 |KOR      |       1989|      2015|
|36 |RUS      |       1993|      2015|
|37 |SVK      |       1994|      2015|
|11 |DNK      |       1995|      2015|
|24 |ISR      |       1995|      2015|
|16 |FIN      |       1998|      2015|
|19 |GRC      |       1998|      2015|
|22 |IRL      |       1998|      2015|
|25 |ITA      |       1998|      2015|
|35 |PRT      |       1998|      2015|
|3  |BEL      |       1999|      2015|
|9  |CZE      |       1999|      2015|
|13 |ESP      |       1

In [32]:
# Para responder a letra e, começo arrumando ddAnos em um novo data frame que siga primeiro order de local e depois em anos
anos <- ddAnos[with(ddAnos, order(Location, Time)), ]

k <- 0 #Obs.: Flag para me auxiliar em mensagem a imprimir

# Vou percorrer uma distância equivalente a tabela para me guiar e pegar o primeiro e último ano de cada região
for (i in 1:42) {

    ano <- tabela$first.year[[i]]
    
    # Vou percorrendo cada ano até o ano final descrito em tabela
    while(ano <= tabela$last.year[[i]]) {
        
        # Aqui pego os índice em anos para poder me locomover por ele
        # which me retorna um vetor de índices de ocorrência, logo pego o primeiro valor para me locomover em ordem
        temp <- which(anos$Location == tabela$location[[i]])
        j <- temp[[1]]
        
        # Se local e ano não coincidir em anos, local não possui dados em certo ano até o último registrado
        if((anos$Time[[j]] != ano) && (anos$Location[[j]] != tabela$location[[i]])) {
            message("Regiao ", anos$Location[[j]], " nao possui dados no ano ", ano)
            k <- 1
            break #Obs.: Usei break para simplificar a mensagem impressa caso haja mais de um ano faltando por região
        }
        ano <- ano + 1
        j <- j + 1
    }
}
 # Flag notificando que faltou um ano qualquer em alguma região foi ativada
if(k == 0) {
        message("Nenhuma regiao tem algum ano faltando")
}

# Pela mensagem no output, não há algúm ano que esteja faltando dados

Nenhuma regiao tem algum ano faltando


In [35]:
# Para responder a letra f, pego os dados de tabela referentes ao local BRA representando o Brasil
dadosBR <- tabela[tabela$location == "BRA", ]
dadosBR$first.year

# Pelo output abaixo, o OECD tem dados do Brasil desde 1981

In [37]:
# Para responder a letra g, pego o data frame anos e crio um novo com somente Location de Brasil e calculo o pedido
anosBR <- anos[anos$Location == "BRA", ]
length(unique(anosBR$Time))
unique(anosBR$Time)

# Pelo output abaixo, são 34 anos dos quais se tem dados do Brasil. São os listados

# Estatísticas Descritivas Básicas

a) Qual é o país/ano com a menor taxa de desemprego? E o com a maior taxa de desemprego?

b) Quais as médias de taxa de desemprego de cada país?

c) Qual é o país com a menor taxa média? E o país com a maior taxa média?

In [75]:
# Para responder a letra a, calculo o menor e maior dado em Value e guardo ambos
menorTaxa <- transform(desempregoDados, Value = as.numeric(Value))
maiorTaxa <- transform(desempregoDados, Value = as.numeric(Value))
taxaMin <- min(menorTaxa$Value, na.rm=T)
taxaMax <- max(maiorTaxa$Value, na.rm=T)

# Gero subconjuntos do meu data frame usando os valores achados como critério do que quero
menorTaxa <- subset(menorTaxa, Value == taxaMin)
maiorTaxa <- subset(maiorTaxa, Value == taxaMax)

# Deixo apenas as colunas que me interessam para facilitar a leitura
menorTaxa <- menorTaxa[ names(menorTaxa) %in% c("Location", "Time", "Value")]
maiorTaxa <- maiorTaxa[ names(maiorTaxa) %in% c("Location", "Time", "Value")]

menorTaxa
maiorTaxa

# Pelo output abaixo, NZL e IDN são apontados como os locais com as menores taxas, nos anos listados, e ZAF possui a maior
# taxa de desemprego no primeiro quadrimestre de 2003

Unnamed: 0,Location,Time,Value
528,NZL,1956,0
529,NZL,1957,0
533,NZL,1961,0
868,IDN,1979,0
869,IDN,1980,0
870,IDN,1981,0
872,IDN,1983,0


Unnamed: 0,Location,Time,Value
4696,ZAF,2003-Q1,29.33123


In [73]:
# Para responder a letra b, gero um novo data frame cujos dados em Value são do tipo numeric
medias <- transform(desempregoDados, Value = as.numeric(Value))

# Uso aggregate para calcular as médias dos dados em Value usando Location como parâmetro de grupo
# Obs.: A coluna 7 representa Value
medias <- aggregate(medias[, 7], list(medias$Location), mean)
names(medias) <- c("Location", "Mean")
medias

# Pelo output abaixo, estão listadas as médias com seus respectivos locais

Unnamed: 0,Location,Mean
1,AUS,6.617186
2,AUT,3.541068
3,BEL,7.863856
4,BRA,9.311369
5,CAN,7.306308
6,CHE,4.156675
7,CHL,8.144204
8,COL,10.59417
9,CZE,7.041205
10,DEU,5.235455


In [76]:
# Para responder a letra c, procuro e guardo a menor e a maior média
mediaMin <- min(medias$Mean)
mediaMax <- max(medias$Mean)

# Gero subconjuntos do meu data frame usando os valores achados como critério do que quero
menorMedia <- subset(medias, Mean == mediaMin)
maiorMedia <- subset(medias, Mean == mediaMax)

menorMedia
maiorMedia

# Pelo output abaixo, JPN possui a menor média e ZAF possui a maior média

Unnamed: 0,Location,Mean
26,JPN,2.74663


Unnamed: 0,Location,Mean
42,ZAF,24.44012
