# Crie um dataframe com o arquivo csv indicado

Vamos trabalhar com informações da RAIS

RAIS é um Registro Administrativo, com periodicidade anual, que possui informações sobre os trabalhadores do mercado de trabalho formal brasileiro e seus empregos. Esse registro foi criado com o objetivo de obter informações destinadas ao controle de trabalhadores no Brasil e dos registros relativos ao FGTS (Fundo de Garantia por Tempo de Serviço). 

A RAIS abrange mais de 95% do mercado de trabalho formal brasileiro, de forma a representar todo o território nacional sendo, desta forma, análoga ao censo do mercado de trabalho formal brasileiro.

Foi extraída uma amostra de 1% referente ao ano de 2008

In [1]:
import pandas as pd
url= ('https://github.com/thaissalzer/thaissalzer/blob/d712d416e5ad901113d52ffc0c23fd7e1366c044/salarios_RAIS.csv?raw=true')
df= pd.read_csv(url)
df.head()

Unnamed: 0.1,Unnamed: 0,uf_08,rg_m_mte_08,municipio_08,sc_cnae95_08,genero_08,fx_etaria_08,grau_inst_08,grgrup_oc_08,tamestab_08,rem_dezem_08,temp_empr_08
0,0,CE,FORTALEZA,MUN23.0440,SECAO L,MASCULINO,50 A 64,SUP. COMP,GR GRUP 2,1000 OU MAIS,3.46,317.20001
1,1,SP,SAO PAULO,MUN35.5030,SECAO J,MASCULINO,50 A 64,SUP. COMP,GR GRUP 4,1000 OU MAIS,13.25,18.1
2,2,RS,PORTO ALEGRE,MUN43.1490,SECAO L,MASCULINO,50 A 64,SUP. COMP,GR GRUP 3,1000 OU MAIS,7.4,274.0
3,3,RS,OUTROS,MUN43.1750,SECAO M,MASCULINO,50 A 64,SUP. COMP,GR GRUP 2,DE 100 A 249,10.39,273.79999
4,4,PA,BELEM,MUN15.0140,SECAO M,MASCULINO,50 A 64,SUP. COMP,GR GRUP 2,1000 OU MAIS,4.38,423.10001


Cada linha representa um trabalhador.
Cada coluna é uma variável.

Identifique quantos trabalhadores temos na nossa amostra e quantas variáveis?

In [2]:
df.shape

(43024, 12)

As variáveis extraídas desta base de dados que vamos utilizar são: 
    
    
    uf_08 = unidade federativa
    
    rg_m_mte_08 = região metropolitana

    genero_08 = genero
    
    fx_etaria_08 = faixa etária
    
    grau_inst_08 = escolaridade

    tamestab_08 = tamanho do estabelecimento que trabalha
    
    rem_dezem_08 = rendimento em dezembro em salários mínimos
    
    temp_empr_08 = tempo de emprego
    

# Exclua as variáveis que não usaremos e renomeie as demais com nomes mais amigáveis 

Informação que não te ajuda, te atrapalha e ocupa espaço!

In [3]:
# excluindo variáveis que não utilizaremos
df = df.drop(columns=['Unnamed: 0','municipio_08','sc_cnae95_08', 'grgrup_oc_08', 'rg_m_mte_08' ])

In [4]:
#renomeando as demais variáveis
df = df.rename(columns={
    "uf_08": "uf",
    "genero_08":"genero",
    "temp_empr_08":"temp_empr",
    "fx_etaria_08": "fx_etaria",
    "grau_inst_08": "escolaridade",
    "tamestab_08": "tamestab",
    "rem_dezem_08": "rem_dezem"})
df

Unnamed: 0,uf,genero,fx_etaria,escolaridade,tamestab,rem_dezem,temp_empr
0,CE,MASCULINO,50 A 64,SUP. COMP,1000 OU MAIS,3.46,317.20001
1,SP,MASCULINO,50 A 64,SUP. COMP,1000 OU MAIS,13.25,18.10000
2,RS,MASCULINO,50 A 64,SUP. COMP,1000 OU MAIS,7.40,274.00000
3,RS,MASCULINO,50 A 64,SUP. COMP,DE 100 A 249,10.39,273.79999
4,PA,MASCULINO,50 A 64,SUP. COMP,1000 OU MAIS,4.38,423.10001
...,...,...,...,...,...,...,...
43019,SP,FEMININO,40 A 49,MEDIO COMPL,1000 OU MAIS,4.73,190.70000
43020,SP,FEMININO,40 A 49,MEDIO COMPL,1000 OU MAIS,0.60,180.10001
43021,SP,MASCULINO,50 A 64,SUP. COMP,1000 OU MAIS,2.85,173.39999
43022,SP,MASCULINO,50 A 64,MEDIO COMPL,1000 OU MAIS,6.34,173.60001


## Crie uma nova variável no seu dataframe, de nome "salario", que represente o salário, em reais, do trabalhador
A variável rem_dezem representa o número de salários mínimos que o trabalhador recebia em dezembro de 2008.

Em 2008, o salário mínimo valia R$ 415



In [5]:
df = df.assign(salario=df['rem_dezem'] * 415)

# Qual era a média salarial dos trabalhadores formais em dezembro de 2008?

In [6]:
df['salario'].mean()

2672.3268309323507

# Qual é o maior e o menor salário em dezembro de 2008?

In [7]:
df['salario'].max()

61764.450000000004

In [8]:
df['salario'].min()

128.65

# produza o resumo estatístico dos seus dados usando df.describe()

In [9]:
df.describe()

Unnamed: 0,rem_dezem,temp_empr,salario
count,43024.0,43024.0,43024.0
mean,6.439342,192.825407,2672.326831
std,8.135861,103.153222,3376.382496
min,0.31,0.0,128.65
25%,2.11,121.775,875.649959
50%,3.82,195.60001,1585.299959
75%,7.12,265.10001,2954.799958
max,148.83,603.70001,61764.45


# Por que você acha que nem todas as variáveis vieram no resumo estatístico?

In [10]:
# Porque na função 'describe()' são apresentadas apenas as colunas numéricas

# Crie um Dataframe apenas com mulheres (genero = FEMININO)

In [11]:
df_mulheres = df.loc[df['genero'] == 'FEMININO']

## produza o resumo estatístico dos dados apenas de mulheres usando df.describe()
## Qual a média salarial das mulheres ?

In [12]:
df_mulheres.describe()

Unnamed: 0,rem_dezem,temp_empr,salario
count,20377.0,20377.0,20377.0
mean,5.558617,205.830218,2306.825879
std,6.971179,96.879275,2893.039287
min,0.34,0.0,141.1
25%,1.91,155.2,792.65
50%,3.42,206.89999,1419.300042
75%,6.21,272.79999,2577.15
max,117.53,603.70001,48774.95


In [13]:
df_mulheres['salario'].mean()

2306.825879013076

## Qual a média salarial dos homens ? Como você poderia analisar esse dado, comparativamente com a média salarial das mulheres?

In [14]:
df_homens = df.loc[df['genero'] == 'MASCULINO']
df_homens['salario'].mean()

3001.1921507212433

In [15]:
# outras possíveis soluções
df[df['genero'] == 'FEMININO']['salario'].mean()
df.groupby('genero')['salario'].mean()


genero
FEMININO     2306.825879
MASCULINO    3001.192151
Name: salario, dtype: float64

# Extra - se tiver tempo e disposição, analise os demais dados

## Analise as médias salariais por escolaridade. Como você analisaria esse dado?

In [28]:
# apresentando a lista de forma mais simples com a média
df.groupby('escolaridade')['salario'].mean()

escolaridade
5.A CO FUND     1221.274479
6. A 9. FUND    1384.580328
ATE 5.A INC     1166.281098
FUND COMPL      1578.011251
MEDIO COMPL     2266.440913
MEDIO INCOMP    1774.039644
SUP. COMP       4663.164201
SUP. INCOMP     3385.052780
Name: salario, dtype: float64

In [32]:
# outra forma de exibir:
# no comando abaixo ele extrai a média de cada grupo (até a função mean) e
# em seguida ordena pela primeira coluna depois da coluna de índice 
# (com a função sort_values(axis=0))
df.groupby('escolaridade')['salario'].mean().sort_values(axis=0)

escolaridade
ATE 5.A INC     1166.281098
5.A CO FUND     1221.274479
6. A 9. FUND    1384.580328
FUND COMPL      1578.011251
MEDIO INCOMP    1774.039644
MEDIO COMPL     2266.440913
SUP. INCOMP     3385.052780
SUP. COMP       4663.164201
Name: salario, dtype: float64

In [33]:
# outra forma de exibir:
# no comando abaixo ele extrai a média de cada grupo (até a função mean) e
# em seguida ordena pela coluna com nome 'salario' 
# (com a função sort_values(by='salario'))
df.groupby('uf')['salario'].mean().reset_index().sort_values(by='salario')

Unnamed: 0,uf,salario
16,PI,1576.058402
9,MA,1783.19936
24,SE,1798.715574
14,PB,1871.538351
15,PE,1891.859376
0,AC,1901.996875
1,AL,1938.250394
19,RN,1954.314953
4,BA,2088.43697
10,MG,2218.119985


## Analise as médias salariais por faixa etária. Como você analisaria esse dado?

In [34]:
df.groupby('fx_etaria')['salario'].mean().sort_values(axis=0)

fx_etaria
18 A 24     657.083333
25 A 29    1053.810468
30 A 39    2253.153156
40 A 49    2772.889461
50 A 64    2787.516515
Name: salario, dtype: float64

## Analise as médias salariais por tamanho do estabelecimento. Como você analisaria esse dado?


In [35]:
df.groupby('tamestab')['salario'].mean().sort_values(axis=0)

tamestab
ATE 4           1151.220192
DE 5 A 9        1589.225674
DE 10 A 19      2043.524051
DE 20 A 49      2336.029933
DE 50 A 99      2418.347990
DE 250 A 499    2616.906363
DE 100 A 249    2709.340309
DE 500 A 999    2864.502187
1000 OU MAIS    2953.659941
Name: salario, dtype: float64

## Analise as médias salariais por UF. Como você analisaria esse dado?

In [36]:
df.groupby('uf')['salario'].mean().sort_values(axis=0)

uf
PI    1576.058402
MA    1783.199360
SE    1798.715574
PB    1871.538351
PE    1891.859376
AC    1901.996875
AL    1938.250394
RN    1954.314953
BA    2088.436970
MG    2218.119985
GO    2254.517035
CE    2301.380320
MT    2304.424307
PA    2349.773960
TO    2438.487763
RR    2560.846432
PR    2561.049621
RO    2561.401287
RS    2601.979683
SC    2611.617231
MS    2632.681840
ES    2652.757035
RJ    2725.695817
AM    2875.375106
AP    3056.605861
SP    3109.548814
DF    6117.452590
Name: salario, dtype: float64