## Desafio_1

Agora vamos praticas tudo o que aprendemos no módulo 1 utilizando dados reais do CAGED (Cadastro Geral de Empregados e Desempregados)

<br>
<img src="img/caged.png" width='1200' >
<br>

O Cadastro Geral de Empregados e Desempregados (CAGED) foi criado como registro permanente de admissões e dispensa de empregados, sob o regime da Consolidação das Leis do Trabalho (CLT).

É utilizado pelo Programa de Seguro-Desemprego, para conferir os dados referentes aos vínculos trabalhistas, além de outros programas sociais.

Este Cadastro serve, ainda, como base para a elaboração de estudos, pesquisas, projetos e programas ligados ao mercado de trabalho, ao mesmo tempo em que subsidia a tomada de decisões para ações governamentais.

Visite o sitee do CAGED através [deste link](http://trabalho.gov.br/trabalhador-caged/2015-09-10-17-46-22) e acesse os dados clicando inicialemente em **ESTATÍSTICA** e depois em **MICRODADOS**, então acesse a base de dados do CAGED e baixe o último arquivo do ano de 2018 **CAGEDEST_122018.7z**. Além disso, baize também o arquivo **CAGEDEST_layout_Atualizado.xls** para o dicionário de dados.

Após isso, podemos começar as nossas análises:

1. **Importar as bibliotecas** e ler os dados: Importe as bibliotecas necessárias e verifique a cara dos dados e suas informações básicas dos conteúdos das colunas.

2. Limpeza e transformação da variável alvo **Salário Mensal**: verifique o tipo de dado da variával Salário Mensal, faça as devidas mudanças, plote a distribuição e dispersão dos dados e aplique a transformação matemática para a correção da assimetria.

3. Verificação dos dados da variável **Idade**: verifique os dados da variável Idade, plote uma distribuição e uma dispersão, calcule a correlação com a variável salário mensal e interprete os resultados.

4. Verificação dos dados da variável **Grau de Instrução**: verifique os dados da variável Grau de instrução, plote uma distribuição e uma dispersão, calcule a correlação com a variável salário mensal e interprete os resultados.

5. Verificação dos dados da variável **Sexo**: verifique os dados da variável Sexo, plote uma distribuição e uma dispersão, calcule a correlação com a variável salário mensal e interprete os resultados. Depois disso, faça uma inferência estatística pra verificar se os homens ganham mais que as mulheres.

6. Verificação dos dados da variável **Raça Cor**: verifique os dados da variável Raça Cor, plote uma distribuição e uma dispersão, calcule a correlação com a variável salário mensal e interprete os resultados. Depois disso, faça uma inferência estatística pra verificar se os brancos ganham mais que os outros grupos étnicos.

7. Elaborar uma hipótese para ser rejeitada ou não-rejeitada por você de acordo com o resultado da sua análise, através da utilização dos dados do CAJED considerando as suas colunas.

8. Avançado: plote um SEABORN heatmap com **todas as correlações das variávies numéricas entre si**. 

9. Avançado: Plote uma **regressão múltipla**.


In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
df1 = pd.read_csv("CAGEDEST_122018.txt", sep=";",encoding="latin1")

  interactivity=interactivity, compiler=compiler, result=result)


In [3]:
df1.head()

Unnamed: 0,Admitidos/Desligados,Competência Declarada,Município,Ano Declarado,CBO 2002 Ocupação,CNAE 1.0 Classe,CNAE 2.0 Classe,CNAE 2.0 Subclas,Faixa Empr Início Jan,Grau Instrução,...,Região Adm SP,Região Corede,Região Corede 04,Região Gov SP,Região Senac PR,Região Senai PR,Região Senai SP,Sub-Região Senai PR,Ind Trab Parcial,Ind Trab Intermitente
0,1,201812,500215,2018,711210,1619,1610,161003,1,6,...,999,{ñ,99,999,99,{ñ,999,99,0,0
1,1,201812,500710,2018,321210,2119,2101,210101,1,8,...,999,{ñ,99,999,99,{ñ,999,99,0,0
2,1,201812,500460,2018,623110,1619,1610,161003,1,2,...,999,{ñ,99,999,99,{ñ,999,99,0,1
3,1,201812,500460,2018,623110,1619,1610,161003,1,2,...,999,{ñ,99,999,99,{ñ,999,99,0,1
4,1,201812,500460,2018,623110,1619,1610,161003,1,2,...,999,{ñ,99,999,99,{ñ,999,99,0,1


In [4]:
df1.dtypes

Admitidos/Desligados      int64
Competência Declarada     int64
Município                 int64
Ano Declarado             int64
CBO 2002 Ocupação         int64
CNAE 1.0 Classe           int64
CNAE 2.0 Classe           int64
CNAE 2.0 Subclas          int64
Faixa Empr Início Jan     int64
Grau Instrução            int64
Qtd Hora Contrat          int64
IBGE Subsetor             int64
Idade                     int64
Ind Aprendiz              int64
Ind Portador Defic        int64
Raça Cor                  int64
Salário Mensal           object
Saldo Mov                 int64
Sexo                      int64
Tempo Emprego            object
Tipo Estab                int64
Tipo Defic                int64
Tipo Mov Desagregado      int64
UF                        int64
Bairros SP               object
Bairros Fortaleza        object
Bairros RJ               object
Distritos SP             object
Regiões Adm DF            int64
Mesorregião               int64
Microrregião              int64
Região A

In [6]:
misturados = df1.select_dtypes(include='object')
misturados

Unnamed: 0,Salário Mensal,Tempo Emprego,Bairros SP,Bairros Fortaleza,Bairros RJ,Distritos SP,Região Adm RJ,Região Adm SP,Região Corede,Região Corede 04,Região Gov SP,Região Senac PR,Região Senai PR,Região Senai SP,Sub-Região Senai PR
0,00095400,00000,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
1,00250000,00000,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2,00000000,00000,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
3,00000000,00000,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
4,00000000,00000,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2256747,00551000,04470,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256748,00095400,02150,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256749,00100000,02020,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256750,00136500,00160,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99


In [16]:
locais = misturados.drop(['Salário Mensal','Tempo Emprego'], axis=1)
locais

Unnamed: 0,Bairros SP,Bairros Fortaleza,Bairros RJ,Distritos SP,Região Adm RJ,Região Adm SP,Região Corede,Região Corede 04,Região Gov SP,Região Senac PR,Região Senai PR,Região Senai SP,Sub-Região Senai PR
0,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
1,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
3,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
4,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2256747,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256748,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256749,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99
2256750,{ñ c,{ñ c,{ñ c,{ñ c,{ñ,999,{ñ,99,999,99,{ñ,999,99


In [112]:
for i in locais.iloc[:,1].unique():
    chaves = []
    for j in range(0,i.shape):
        chaves  = chaves + 
    print(chaves)

TypeError: can only concatenate list (not "str") to list

In [140]:
test_str = str(locais.iloc[:,1].unique())

  
# printing original string  
print("The original string is : " + test_str) 
  
# Convert String of Heterogenous types to List 
# using eval() 
res = list(eval(test_str)) 
  
# printing result 
print("List after conversion from string : " + str(res))

The original string is : ['{ñ c' '9999' '0043' '0028' '0058' '0010' '0060' '0022' '0020' '0041'
 '0049' '0033' '0054' '0065' '0006' '0052' '0003' '0046' '0029' '0037'
 '0005' '0040' '0047' '0048' '0050' '0019' '0030' '0032' '0001' '0021'
 '0070' '0044' '0026' '0012' '0053' '0061' '0038' '0034' '0025' '0064'
 '0035' '0071' '0008' '0031' '0068' '0063' '0042' '0045' '0016' '0056'
 '0014' '0018' '0067' '0069' '0024' '0059' '0017' '0015' '0039' '0023'
 '0066' '0013' '0062' '0027' '0051' '0011' '0057' '0007' '0009' '0036']
List after conversion from string : ['{ñ c999900430028005800100060002200200041004900330054006500060052000300460029003700050040004700480050001900300032000100210070004400260012005300610038003400250064003500710008003100680063004200450016005600140018006700690024005900170015003900230066001300620027005100110057000700090036']


In [None]:
for i in np.array(locais.columns).tolist():
    chaves = df1[i].unique
    print(chaves)