In [39]:
import numpy as np
import pandas as pd
import json

In [2]:
url = 'pnad2012.csv'
data = pd.read_csv(url, index_col=0)

In [3]:
data

Unnamed: 0,education,income,income_work,income_rent,income_capital,race,gender,weight,age,occupation,uf
0,15.0,3000.0,3000.0,,,16,1,246.0,48.0,1310.0,11
1,15.0,3000.0,3000.0,,,16,2,246.0,48.0,4110.0,11
2,15.0,1100.0,1100.0,,,16,2,246.0,23.0,3514.0,11
3,14.0,1100.0,1100.0,,,16,2,246.0,21.0,3514.0,11
4,15.0,460.0,,460.0,460.0,16,2,246.0,54.0,,11
5,15.0,10000.0,10000.0,,,2,1,246.0,56.0,2143.0,11
6,15.0,500.0,500.0,,,4,2,247.0,23.0,2611.0,11
7,0.0,622.0,,,,4,2,246.0,63.0,,11
8,11.0,622.0,622.0,,,2,2,247.0,39.0,5132.0,11
9,15.0,1200.0,1200.0,,,4,1,246.0,49.0,7152.0,11


### Gênero
Sabe-se que existem mais mulheres que homens no Brasil, logo, como a tabela representa a população brasileira então 1 representa a população masculina e 2 a população feminina.

1. **Homens**
2. **Mulheres**

In [4]:
data[data.gender == 1].sum()['weight']

97180709.0

In [5]:
data[data.gender == 2].sum()['weight']

102508198.0

### Raça

Por comparação entre os números absolutos dos dados e a tabela https://sidra.ibge.gov.br/Tabela/3175#resultado, temos que:

- 0. Sem declaração
- 1. Amarela
- 2. Preto
- 4. Pardo
- 8. Indígena
- 16. Branco


In [6]:
data.race.unique()

array([16,  2,  4,  1,  8,  0])

In [7]:
# Sem declaração
data[data.race == 0].sum()['weight']

6481.0

In [8]:
# Amarela
data[data.race == 1].sum()['weight']

1031978.0

In [9]:
# Preto
data[data.race == 2].sum()['weight']

15862257.0

In [10]:
# Pardo
data[data.race == 4].sum()['weight']

89776808.0

In [11]:
# Indígena
data[data.race == 8].sum()['weight']

596832.0

In [12]:
# Branco
data[data.race == 16].sum()['weight']

92414551.0

### Simplificando  

Foram considerados brancos pessoas autodeclaradas brancas e amareladas e negros pessoas pardas e pretas.

- N - Negros (Pretos + Pardos)
- B - Brancos (Brancos + Amarelos)

In [13]:
data = data[data.race != 0]
data = data[data.race != 8]

In [14]:
data.race = data.race.replace([4, 2], 'N')
data.race= data.race.replace([1, 16], 'B')

In [15]:
data

Unnamed: 0,education,income,income_work,income_rent,income_capital,race,gender,weight,age,occupation,uf
0,15.0,3000.0,3000.0,,,B,1,246.0,48.0,1310.0,11
1,15.0,3000.0,3000.0,,,B,2,246.0,48.0,4110.0,11
2,15.0,1100.0,1100.0,,,B,2,246.0,23.0,3514.0,11
3,14.0,1100.0,1100.0,,,B,2,246.0,21.0,3514.0,11
4,15.0,460.0,,460.0,460.0,B,2,246.0,54.0,,11
5,15.0,10000.0,10000.0,,,N,1,246.0,56.0,2143.0,11
6,15.0,500.0,500.0,,,N,2,247.0,23.0,2611.0,11
7,0.0,622.0,,,,N,2,246.0,63.0,,11
8,11.0,622.0,622.0,,,N,2,247.0,39.0,5132.0,11
9,15.0,1200.0,1200.0,,,N,1,246.0,49.0,7152.0,11


In [16]:
data['total_income'] = data['income'] * data['weight']
data

Unnamed: 0,education,income,income_work,income_rent,income_capital,race,gender,weight,age,occupation,uf,total_income
0,15.0,3000.0,3000.0,,,B,1,246.0,48.0,1310.0,11,738000.0
1,15.0,3000.0,3000.0,,,B,2,246.0,48.0,4110.0,11,738000.0
2,15.0,1100.0,1100.0,,,B,2,246.0,23.0,3514.0,11,270600.0
3,14.0,1100.0,1100.0,,,B,2,246.0,21.0,3514.0,11,270600.0
4,15.0,460.0,,460.0,460.0,B,2,246.0,54.0,,11,113160.0
5,15.0,10000.0,10000.0,,,N,1,246.0,56.0,2143.0,11,2460000.0
6,15.0,500.0,500.0,,,N,2,247.0,23.0,2611.0,11,123500.0
7,0.0,622.0,,,,N,2,246.0,63.0,,11,153012.0
8,11.0,622.0,622.0,,,N,2,247.0,39.0,5132.0,11,153634.0
9,15.0,1200.0,1200.0,,,N,1,246.0,49.0,7152.0,11,295200.0


In [17]:
# Quantidade de pessoas
qnt_pessoas_masc = data.groupby(['gender']).sum()['weight'][1]
qnt_pessoas_fem = data.groupby(['gender']).sum()['weight'][2]
print('Quantidade de homens: {}'.format(qnt_pessoas_masc))
print('Quantidade de mulheres: {}'.format(qnt_pessoas_fem))

Quantidade de homens: 96880403.0
Quantidade de mulheres: 102205191.0


In [18]:
#Distribuição de renda por gênero
# homens
renda_media_homens = data.groupby(['gender']).sum()['total_income'][1] / data.groupby(['gender']).sum()['weight'][1]

# mulheres
renda_media_mulheres = data.groupby(['gender']).sum()['total_income'][2] / data.groupby(['gender']).sum()['weight'][2]


print('Renda média de homens: {}'.format(renda_media_homens))
print('Renda média de mulheres: {}'.format(renda_media_mulheres))

Renda média de homens: 1067.3118260666195
Renda média de mulheres: 637.0647229258639


In [19]:
#Distribuição de renda por raça
# brancos
renda_media_brancos = data.groupby(['race']).sum()['total_income']['B'] / data.groupby(['race']).sum()['weight']['B']

# negros
renda_media_negros = data.groupby(['race']).sum()['total_income']['N'] / data.groupby(['race']).sum()['weight']['N']

print('Renda média de brancos: {}'.format(renda_media_brancos))
print('Renda média de negros: {}'.format(renda_media_negros))


Renda média de brancos: 1118.4340688780426
Renda média de negros: 605.8283445617395


In [20]:
#Criação da coluna de educação total
data['total_education'] = data['education'] * data['weight']
data

Unnamed: 0,education,income,income_work,income_rent,income_capital,race,gender,weight,age,occupation,uf,total_income,total_education
0,15.0,3000.0,3000.0,,,B,1,246.0,48.0,1310.0,11,738000.0,3690.0
1,15.0,3000.0,3000.0,,,B,2,246.0,48.0,4110.0,11,738000.0,3690.0
2,15.0,1100.0,1100.0,,,B,2,246.0,23.0,3514.0,11,270600.0,3690.0
3,14.0,1100.0,1100.0,,,B,2,246.0,21.0,3514.0,11,270600.0,3444.0
4,15.0,460.0,,460.0,460.0,B,2,246.0,54.0,,11,113160.0,3690.0
5,15.0,10000.0,10000.0,,,N,1,246.0,56.0,2143.0,11,2460000.0,3690.0
6,15.0,500.0,500.0,,,N,2,247.0,23.0,2611.0,11,123500.0,3705.0
7,0.0,622.0,,,,N,2,246.0,63.0,,11,153012.0,0.0
8,11.0,622.0,622.0,,,N,2,247.0,39.0,5132.0,11,153634.0,2717.0
9,15.0,1200.0,1200.0,,,N,1,246.0,49.0,7152.0,11,295200.0,3690.0


In [21]:
#Escolaridade por raça
escolaridade_media_brancos = data.groupby(['race']).sum()['total_education']['B'] / data.groupby(['race']).sum()['weight']['B']

# negros
escolaridade_media_negros = data.groupby(['race']).sum()['total_education']['N'] / data.groupby(['race']).sum()['weight']['N']

print('Escolaridade média de brancos: {}'.format(escolaridade_media_brancos))
print('Escolaridade média de negros: {}'.format(escolaridade_media_negros))

Escolaridade média de brancos: 7.262607892049153
Escolaridade média de negros: 5.777658918128441


In [22]:
#Escolaridade por gênero
# homens
escolaridade_media_homens = data.groupby(['gender']).sum()['total_education'][1] / data.groupby(['gender']).sum()['weight'][1]

# mulheres
escolaridade_media_mulheres = data.groupby(['gender']).sum()['total_education'][2] / data.groupby(['gender']).sum()['weight'][2]


print('Escolaridade média de homens: {}'.format(escolaridade_media_homens))
print('Escolaridade média de mulheres: {}'.format(escolaridade_media_mulheres))

Escolaridade média de homens: 6.231728660335982
Escolaridade média de mulheres: 6.704939292173526


In [23]:
new_data = data.groupby(['gender','race']).sum()
new_data

Unnamed: 0_level_0,Unnamed: 1_level_0,education,income,income_work,income_rent,income_capital,weight,age,occupation,uf,total_income,total_education
gender,race,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,B,520639.0,106249927.0,87091823.0,1694724.0,3276293.0,44173466.0,2454228.0,226090571.0,2559737,63800980000.0,312640977.0
1,N,571626.0,77855993.0,65635728.0,688220.0,1740190.0,52706937.0,3102758.0,335142931.0,2933281,39600620000.0,291091407.0
2,B,616919.0,69739436.0,48047143.0,898346.0,2666299.0,49273063.0,2939356.0,151563795.0,2855812,40712800000.0,366024522.0
2,N,629748.0,48525307.0,32458657.0,386028.0,3508921.0,52932128.0,3290429.0,188894983.0,2959053,24398520000.0,319255079.0


In [24]:
# 

In [25]:
#Renda média por gênero e raça
#brancos
renda_media_homens_brancos = new_data['total_income'][1, 'B'] / new_data['weight'][1, 'B']
renda_media_mulheres_brancas = new_data['total_income'][2, 'B'] / new_data['weight'][2, 'B']

print('Renda média de homens brancos: {}'.format(renda_media_homens_brancos))
print('Renda média de mulheres brancas: {}'.format(renda_media_mulheres_brancas))

#negros
renda_media_homens_negros = new_data['total_income'][1, 'N'] / new_data['weight'][1, 'N']
renda_media_mulheres_negras = new_data['total_income'][2, 'N'] / new_data['weight'][2, 'N']

print('Renda média de homens negros: {}'.format(renda_media_homens_negros))
print('Renda média de mulheres negras: {}'.format(renda_media_mulheres_negras))

Renda média de homens brancos: 1444.328244245086
Renda média de mulheres brancas: 826.2688492087451
Renda média de homens negros: 751.3359246430882
Renda média de mulheres negras: 460.9398024579703


In [26]:
#Escolaridade média por gênero e raça
#brancos
escolaridade_media_homens_brancos = new_data['total_education'][1, 'B'] / new_data['weight'][1, 'B']
escolaridade_media_mulheres_brancas = new_data['total_education'][2, 'B'] / new_data['weight'][2, 'B']

print('Escolaridade média de homens brancos: {}'.format(escolaridade_media_homens_brancos))
print('Escolaridade média de mulheres brancas: {}'.format(escolaridade_media_mulheres_brancas))

#negros
escolaridade_media_homens_negros = new_data['total_education'][1, 'N'] / new_data['weight'][1, 'N']
escolaridade_media_mulheres_negras = new_data['total_education'][2, 'N'] / new_data['weight'][2, 'N']

print('Escolaridade média de homens negros: {}'.format(escolaridade_media_homens_negros))
print('Escolaridade média de mulheres negras: {}'.format(escolaridade_media_mulheres_negras))

Escolaridade média de homens brancos: 7.077574057693368
Escolaridade média de mulheres brancas: 7.428491344246247
Escolaridade média de homens negros: 5.522829129683632
Escolaridade média de mulheres negras: 6.031404575308214


In [27]:
new_data_uf = data.groupby(['uf']).sum()
new_data_uf

Unnamed: 0_level_0,education,income,income_work,income_rent,income_capital,gender,weight,age,occupation,total_income,total_education
uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
11,40293.0,4982246.0,4160031.0,63818.0,215305.0,10364,1710271.0,206514.0,19380505.0,1226710000.0,9921044.0
12,21987.0,2467873.0,1933266.0,23978.0,145642.0,5878,732326.0,106993.0,9971640.0,460020600.0,4098346.0
13,63268.0,5938748.0,4803388.0,81180.0,335999.0,16011,3643464.0,296757.0,23966526.0,2022767000.0,21549371.0
14,18149.0,1924159.0,1592020.0,30150.0,103881.0,4029,466695.0,72734.0,6010491.0,332942200.0,3140577.0
15,135745.0,13055150.0,10265757.0,114458.0,566667.0,34430,7843399.0,679224.0,55391041.0,4070548000.0,42138559.0
16,18299.0,1893735.0,1688956.0,7100.0,64544.0,4440,721185.0,77129.0,5716574.0,464508900.0,4488766.0
17,35137.0,4082719.0,3263477.0,115375.0,238459.0,9071,1461898.0,182922.0,15272121.0,989762600.0,8518935.0
21,43852.0,3967082.0,2930963.0,15530.0,261288.0,13510,6715577.0,261648.0,22027767.0,2961993000.0,32739427.0
22,28181.0,3170241.0,2075069.0,50850.0,278018.0,8584,3173477.0,178216.0,15513470.0,1782849000.0,15848416.0
23,108591.0,10601750.0,7551102.0,99834.0,613666.0,28067,8719816.0,598292.0,45573623.0,4610398000.0,48640713.0


In [28]:
# Renda média por estado
renda_media_estado = new_data_uf['total_income']/new_data_uf['weight']
renda_media_estado

uf
11     717.260728
12     628.163681
13     555.176772
14     713.404328
15     518.977585
16     644.091185
17     677.039453
21     441.063061
22     561.796792
23     528.726562
24     644.540185
25     579.567459
26     551.886068
27     449.742450
28     612.119154
29     554.767074
31     868.602338
32     897.082198
33     956.829705
35    1094.067077
41    1008.609141
42    1057.838671
43    1024.889005
50     984.841451
51     930.639012
52     885.736213
53    1664.851192
dtype: float64

In [29]:
# Escolaridade média por estado
escolaridade_media_estado = new_data_uf['total_education']/new_data_uf['weight']
escolaridade_media_estado

uf
11    5.800861
12    5.596341
13    5.914528
14    6.729399
15    5.372487
16    6.224153
17    5.827311
21    4.875147
22    4.994023
23    5.578181
24    5.935586
25    5.537426
26    5.689354
27    4.951313
28    5.520480
29    5.487803
31    6.403150
32    6.697237
33    7.303853
35    7.466601
41    6.790077
42    7.070505
43    6.779448
50    6.565057
51    6.350641
52    6.592408
53    7.911563
dtype: float64

## Criação do JSON para a Web

O Json é composto pelos dados brutos relevantes e pelos dados calculados a partir do processamento dos dados da planilha "pnad2012.csv".

In [44]:
# Construindo json com dados tratados
pnad_json = {}
pnad_json['people'] = []
pnad_json['people'].append({
    'name': 'Scott',
    'website': 'stackabuse.com',
    'from': 'Nebraska'
})
pnad_json['people'].append({
    'name': 'Larry',
    'website': 'google.com',
    'from': 'Michigan'
})
pnad_json['people'].append({
    'name': 'Tim',
    'website': 'apple.com',
    'from': 'Alabama'
})

print(json.dumps(pnad_json, indent=4))

{
    "people": [
        {
            "name": "Scott",
            "website": "stackabuse.com",
            "from": "Nebraska"
        },
        {
            "name": "Larry",
            "website": "google.com",
            "from": "Michigan"
        },
        {
            "name": "Tim",
            "website": "apple.com",
            "from": "Alabama"
        }
    ]
}


O Json será salvo em um arquivo chamado "pnad_data.json", e será disponibilizado para as demais equipes para a utilização das informações tratadas.

In [43]:
# Salvando json em um arquivo chamado: "pnad_data.json" 
with open('pnad_data.json', 'w') as pnad_data_out_file:  
    json.dump(pnad_json, pnad_data_out_file, indent=4)