## Cadastro geral de empregados de desempregados (Caged)

Nesta aula prática, vamos realizar a leitura dos microdados do Caged e extrair algumas análises descritivas. 
Ela também será uma introdução ao Google Colaboratory, portanto, vamos utilizar apenas a linguagem Python.

## Programando em Python no Google Colaboratory












> Desenvolvida na década de 1990 pelo matemático holandês Guido Van Rossum, a linguagem de programação Python se caracteriza por sua versatilidade e  facilidade em sua curva de aprendizado.

> Utilizada em programações sofisticadas no desenvolvimento de softwares e também na execução de tarefas do dia-a-dia de pesquisadores de diferentes áreas do conhecimento, o Python tem se popularizado junto com as áreas de Ciência de Dados e Inteligêcia Artificial.


> O Python é uma linguagem de programação **orientada a objetos**, conforme iremos ver mais adiante.

> Mas antes, vamos entender em quais ambientes podemos trabalhar com esta linguagem 🤓






1.   ***Instalando o Python na sua máquina***

     Você pode instalar o Python em seu notebook ou microcomputador [baixando o instalador](https://www.python.org/downloads/) mais adequado ao sistema operacional em uso (linux, Windows, MAC OS etc).
      
2.   ***Programando em Python no Google Colaboratory***

      Se você tem uma conta Google, é possível ter acesso ao Google Colaboratory (ou Google Colab), uma ferramenta em nuvem, **gratuita**, e que permite criar e executar códigos em Python. Esta é uma forma mais prática de trabalhar, com maior flexibilidade no compartilhamento dos códigos além de vantagens como a inclusão de algumas **bibliotecas** do Python e o espaço disponível em nuvem (embora recursos Pro possam ser adquiridos em casos de necessidades mais específicas). 
      Para fins desta disciplina, utilizaremos o Google Colab nas aulas durante todo o curso. 

    

Assim, você cria um notebook, que é um ambiente interativo que armazena os códigos criados em Python.

Nas próximas aulas veremos que é possível criar e executar neste ambiente códigos em R, aguarde as cenas dos próximos capítulos 😀


# Primeiros passos em Python: trabalhando com dados do Caged para o Rio Grande do Norte



1.   ***Abrindo o notebook da aula prática sobre o Caged***

      O notebook é um arquivo de extensão .ipynb que fica armazenado em seu Google Drive. Todos os notebooks das aulas estão salvos na pasta "Notebooks" compartilhada com a turma pelo Google Drive, para facilitar. 

      Depois de abrir, faça uma cópia para o seu Drive. Os notebooks também serão disponibilizados pelo SIGAA. 

      Para esta aula, o notebook se chama "Aula 3 Caged".

2.   ***Importanto o banco de dados do Caged  para o Google Colab***
      
      Um das formas de trabalhar com um banco de dados no Google Colab é acessando um arquivo que esteja salvo no Google Drive. 

      No Google Drive da turma há uma pasta denominada "Banco de Dados", e para esta prática você deve baixar o arquivo RN_caged_dez20.txt, sobre os dados do Caged de dezembro de 2020. O arquivo também se encontra disponível via SIGAA.

      









In [None]:
#Conectando a sessão ao seu google drive 
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
#importanto a biblioteca pandas para ler um arquivo do tipo txt utilizando a função pandas.read_csv()
import pandas as pd

In [None]:
#Lendo o banco de dados que você acabou de dar upload para seu drive
RN = pd.read_csv('/content/drive/MyDrive/Gerenciamento de BD/RN_caged_dez20.txt', encoding = "ISO-8859-1", sep=',', decimal='.')

In [None]:
#Visualizando o banco de dados
RN

In [None]:
import pandas as pd

In [None]:
#Dessa vez, vamos trabalhar com códigos em R. Para fazer isso vamos instalar a extensão rpy2 IPython ao notebook. 
%load_ext rpy2.ipython

In [None]:
%%R 
install.packages("data.table")

In [None]:
%%R 
library(data.table)

In [None]:
%%R  
source("http://cemin.wikidot.com/local--files/raisr/rais.r", encoding="utf-8")

In [None]:
print(rais)

In [None]:
!wget 'http://cemin.wikidot.com/local--files/raisr/rais.r' 

In [None]:
!wget ftp://ftp.mtps.gov.br/pdet/microdados/RAIS/Layouts/v%EDnculos/

# Vamos agora fazer uma análise exploratória dos dados antes de selecionar o seu município: 

In [None]:
#Visualizando as seis primeiras linhas


In [None]:
#Visualizando as dez primeiras linhas


# As variáveis podem ser de diferentes tipos e isso vai importar quando desejamos fazer transformações ou operações matemáticas: 
1.   object: inclui números e texto.
2.   float64: números.
3.   int64: números inteiros.
4.   Datetime64: data e hora.
5.   Category: conjunto finito de categorias

Para maiores informações sobre tipos de variáveis, consulte o [link](https://colab.research.google.com/drive/1EtqLCjHNBr6ZafxuGtY3fmaioVhOc97b#scrollTo=VYCuuCALldoa&line=8&uniqifier=1) 💻

In [None]:
#Consultando o tipo das variáveis


In [None]:
#A variável salário é do tipo float64, ou seja, é uma variável contínua e que apresenta seis casas decimais


In [None]:
#Vamos arrendondar o valor dos salários para 2 dígitos


In [None]:
#Verificando se deu certo


In [None]:
#Qual o valor médio do salário dos trabalhadores celetistas no RN em dezembro de 2020?


In [None]:
#Arredondando o valor do salário para dois dígitos


In [None]:
#A variável idade também é do tipo float. Vamos pedir uma análise descritiva, iniciando pela idade média dos trabalhadores:


In [None]:
#A idade mais jovem registrada no banco de dados


In [None]:
#A idade mais avançada observada


In [None]:
#Podemos também pedir uma análise descritiva mais geral:


# Agora, vamos trabalhar com as variáveis categóricas do banco de dados. Para isso você precisará consultar o dicionário do banco de dados (arquivo "Layout Novo Caged Movimentação.xlsx" que está salvo no drive e também no SIGAA).

In [None]:
#Iniciando pela variável sexo, vamos pedir uma análise descritiva:


In [None]:
#Colocando os rótulos da variável sexo de acordo com o dicionário de dados
RN.sexo.cat.rename_categories(["Masculino", "Feminino"], inplace=True) 

⚠ Isso aconteceu porque a variável sexo está definida como inteira (int64) no banco de dados. Podemos contornar este problema transformando-a em categórica, e em seguida atribuir os rótulos a cada categoria.

In [None]:
#Transformando a variável sexo de inteira para categórica


In [None]:
#Agora podemos colocar os rótulos


In [None]:
#Conferindo para ver se deu certo


In [None]:
#Façamos o mesmo para a variável tipo de movimentação ocorrida no mês de dezembro de 2020:
##Transformando a variável de inteira para categórica


In [None]:
#Pedindo a frequência desta nova variável:


In [None]:
##Colocando os rótulos da nova variável criada sobre o tipo de movimentação
##Observe que ao pedir a frequência, nem todas os tipos de movimentações ocorreram em dezembro no RN, e isso deve ser considerado aqui:
RN.tipomovimentacao2.cat.rename_categories(['Admissão por primeiro emprego','Admissão por reemprego','Admissão por contrato trabalho prazo determinado','Desligamento por demissão sem justa causa',
'Desligamento por demissão com justa causa','Culpa Recíproca','Admissão por reintegração','Desligamento a pedido','Término contrato trabalho prazo determinado','Desligamento por Término de contrato',
'Desligamento por aposentadoria','Desligamento por morte','Desligamento por Acordo entre empregado e empregador', 'Não Identificado'], inplace=True) 

In [None]:
##Conferindo:


# Seguindo o roteiro da atividade para a elaboração do relatório: Compare os seguintes indicadores de seu município com o estado do RN, utilizando os dados do CAGED para dezembro de 2020.  

1.   Remuneração média do RN e de seu município;
2.   Remuneração média por sexo no RN e em seu município;
3.   Distribuição etária do trabalhador no RN e em seu município;
4.   Distribuição etária do trabalhador por sexo no RN e em seu município;
5.   Distribuição etária por tipo de movimentação registrada no RN e em seu município.



# Selecionando o seu município (consulte o roteiro para obter o código do seu município)

In [None]:
nomedoseumunicipio = RN.query("municipio == 'codigodoseumunicipio'")

In [None]:
#Remuneração média: da mesma forma como fizemos no início, faça o mesmo para seu município, trocando apenas o nome do seu objeto. Compare.
RN.salario.describe().round(2)

In [None]:
#Para obter a remuneração média por sexo, precisaremos criar duas bases de dados distintas, uma para os homens e outra para as mulheres:
Homens = RN.query("sexo2 == 'Masculino'")
Mulheres = RN.query("sexo2 == 'Feminino'")

In [None]:
#Agora basta substituir os objetos e calcular a diferença salarial por sexo no RN e no seu município
#Para obter a remuneração média por sexo, precisaremos criar duas bases de dados distintas, uma para os homens e outra para as mulheres:
Homens.salario.describe().round(2)
Mulheres.salario.describe().round(2)

💡 Dica: quando for gerar os objetos para homens e mulheres de seu munícipio, utilize um nome diferente daquele usado para o cálculo do RN! 

# Ao longo das aulas, vamos executando funções que precisam ser instaladas de suas respectivas bibliotecas. 

Conforme falamos anteriormente, algumas bibliotecas já se encontram instaladas e precisaremos apenas importar. 

Isso vai ficando claro ao longo das aulas, não se preocupe! 😉

In [None]:
#Para gerar as próximas figuras precisaremos importar as bibliotecas matplotlib e seaborn:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [None]:
#Distribuição de idade
##Total
sns.distplot(RN["idade"])
plt.xlabel("Idade do trabalhador celetista", fontsize=10)
plt.ylabel("Frequência",fontsize=10)
plt.title("Distribuição da idade do trabalhador, dez.2020", fontsize=11)

In [None]:
#Obtendo os histogramas da distribuição de idade para trabalhadores do sexo masculino e feminino, e utilizando os objetos criados anteriormente.
sns.distplot(Homens["idade"])
plt.xlabel("Idade do trabalhador celetista", fontsize=10)
plt.ylabel("Frequência",fontsize=10)
plt.title("Distribuição da idade do trabalhador, homens, dez.2020", fontsize=11)

In [None]:
sns.distplot(Mulheres["idade"])
plt.xlabel("Idade do trabalhador celetista", fontsize=10)
plt.ylabel("Frequência",fontsize=10)
plt.title("Distribuição da idade do trabalhador, homens, dez.2020", fontsize=11)

In [None]:
#Vamos obter agora boxplots da distribuição etária de acordo com o tipo de movimentação apresentada. Lembre-se: faça para o RN e para seu município!
sns.boxplot(x="idade", y="tipomovimentacao2", data=RN.sort_values("tipomovimentacao2"))
plt.xlabel("idade do trabalhador", fontsize=12)
plt.ylabel("Tipo de movimentação",fontsize=12)
plt.title("Distribuição etária por tipo de movimentação registrada, RN, dez.2020", fontsize=17)

# O exercício da aula sobre o caged termina por aqui, você está apto a escrever o relatório (ver guia prático disponbilizado no SIGAA). 

# É preciso se acostumar com a linguagem, e para isso acontecer praticar é fundamental. Vamos em frente! 🙅

In [None]:
#Mas antes de sair: salve os bancos de dados que você gerou e fez modificações no seu drive!
RN.to_csv('RN_caged_dez2020.txt')
!cp RN_caged_dez2020.txt "/content/drive/MyDrive/Gerenciamento de BD"