<a href="https://colab.research.google.com/github/stmlufe/exercises/blob/master/20_%5BProjeto%5D_DataFrame_Stella.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DataFrames

Nesse projeto, vamos utilizar dados da [_American Communities Survey (ACS)](https://usa.ipums.org/usa/acs.shtml)_ para estudar a relação entre educação e salário. A ACS é uma pesquisa realizada pelo _Unites States Census Bureau_ (embora ele não seja "O Censo", que é uma contagem de cada pessoa nos EUA e ocorre a cada 10 anos) que mede várias características da população americana. Os dados com os quais vamos trabalhar inclui cerca de 100 variáveis referentes à pesquisa de 2017, e é uma amostra de 10% dos dados totais da ACS (que, por sua vez, é uma amostra de 1% da população americana. Então, nós estaremos trabalhando com um amostra de 0.1% da população dos EUA).

Esses dados são disponibilizados pela [IPUMS](https://usa.ipums.org/usa/), que provê uma interface muito útil para conseguir acesso a amostras de importantes bases de dados, não apenas do governo americano, mas também de [governos mundo afora](https://international.ipums.org/international-action/sample_details).

Esta é uma base de dados _real_, o que significa que você vai receber os dados exatamente como eles são providenciados pelo _IPUMS_. A documentação explicando o que é cada variável pode ser encontrada [aqui](https://usa.ipums.org/usa-action/variables/group) (você pode pesquisar pelo nome da variável, para descobrir o que ela significa, ou pesquisar por algo que você deseje encontrar, para ver qual o nome da variável que contém o que você procura).

Nessa base de dados, você vai encontrar informações sobre o nível de escolaridade e os salários de uma porção representativa da população americana. Nós vamos usar esses dados para estimar o valor que o mercado de trabalho atribui a se formar no Ensino Médio (_high school_) ou na Faculdade (_college_), e para aprender um pouco mais sobre o significado de um diploma educacional.

Os dados para esse projeto podem ser encontrados [aqui](https://github.com/nickeubank/MIDS_Data/tree/master/US_AmericanCommunitySurvey). Primeiro, importe a base `US_ACS_2017_10pct_sample.dta`. 

Note que o formato desse arquivo é `.dta`, e não `.csv`. Por isso, ao invés de usarmos a função `read_csv`, precisamos usar a função `read_stata`.

Eu já escrevi o comando para você:

In [None]:
import pandas as pd

In [None]:
data = pd.read_stata('https://github.com/nickeubank/MIDS_Data/blob/master/US_AmericanCommunitySurvey/US_ACS_2017_10pct_sample.dta?raw=true')

#### Quantas linhas têm essa base de dados? Quantas colunas?

In [None]:
len(data.index)

319004

In [None]:
len(data.columns)

104

Vamos ver que variáveis temos na base. 

#### Primeiro, tente ver as variáveis usando `.columns`.


In [None]:
data.columns

Index(['year', 'datanum', 'serial', 'cbserial', 'numprec', 'subsamp', 'hhwt',
       'hhtype', 'cluster', 'adjust',
       ...
       'migcounty1', 'migmet131', 'vetdisab', 'diffrem', 'diffphys', 'diffmob',
       'diffcare', 'diffsens', 'diffeye', 'diffhear'],
      dtype='object', length=104)

Repare as reticências! O Python não está te mostrando todas as variáveis da base. Vamos tentar algo diferente. 

#### Copie o código abaixo e substitua a lacuna por algo que imprimirá o nome de todas as colunas.

```python
for coluna in ___________:
    print(coluna)
```

In [None]:
for coluna in data:
    print(coluna)

year
datanum
serial
cbserial
numprec
subsamp
hhwt
hhtype
cluster
adjust
cpi99
region
stateicp
statefip
countyicp
countyfip
metro
city
citypop
strata
gq
farm
ownershp
ownershpd
mortgage
mortgag2
mortamt1
mortamt2
respmode
pernum
cbpernum
perwt
slwt
famunit
sex
age
marst
birthyr
race
raced
hispan
hispand
bpl
bpld
citizen
yrnatur
yrimmig
language
languaged
speakeng
hcovany
hcovpriv
hinsemp
hinspur
hinstri
hcovpub
hinscaid
hinscare
hinsva
hinsihs
school
educ
educd
gradeatt
gradeattd
schltype
degfield
degfieldd
degfield2
degfield2d
empstat
empstatd
labforce
occ
ind
classwkr
classwkrd
looking
availble
inctot
ftotinc
incwage
incbus00
incss
incwelfr
incinvst
incretir
incsupp
incother
incearn
poverty
migrate1
migrate1d
migplac1
migcounty1
migmet131
vetdisab
diffrem
diffphys
diffmob
diffcare
diffsens
diffeye
diffhear


Quantas colunas! A maior parte dessas colunas não nos interessa. A vida é mais simples quando trabalhamos apenas com o essencial. Nesse projeto, a gente está interessado na relação entre educação e salários. Por isso, vamos selecionar apenas variáveis referentes a:

* Idade (`age`)
* Remuneração (`inctot`)
* Edudação (`educ`)
* Situação empregatícia i.e. se a pessoa está trabalhando no momento (`empstat`)

As variáveis correspondentes a essas grandezas estão em parêntesis.

#### Reduza o dataframe para conter apenas essas variáveis

In [None]:
data = data[['age','inctot','educ','empstat']]

Até agora, eu não te pedi para olhar a base. Isso é perigoso. Sempre é bom olhar a base. Para ver o porquê, considere a seguinte pergunta:

#### Qual é a renda média (`inctot`) das pessoas na base?

In [None]:
data['inctot'].mean()

1723646.2703978634

Nem brincando! Nem brincando! A renda média dos americanos certamente não é 1.7 milhão de dólares por ano!

Isso mostra o perigo de sairmos fazendo conta sem olharmos a base de dados.

SEMPRE olhe a base de dados!
SEMPRE.

A forma mais fácil de fazer isso é usando o método `.head()`, que mostra as primeiras 5 linhas da base, ou o método `.tail()`, que mostra as últimas 5.

Mas para ter uma boa idéia da base, costuma ser melhor escolher linhas aleatórias. Se a base estiver ordenada por algum critério, as linhas do início ou do final podem não representar bem a base como um todo. É por isso que é melhor selecionar linhas aleatórias. Isso pode ser feito usando o método `.sample()`. 

#### Observe uma amostra aleatória de 20 linhas da base de dados

In [None]:
data.head(5)

Unnamed: 0,age,inctot,educ,empstat
0,4,9999999,nursery school to grade 4,
1,17,6000,grade 11,employed
2,63,6150,4 years of college,employed
3,66,14000,grade 12,not in labor force
4,1,9999999,n/a or no schooling,


In [None]:
data.tail(5)

Unnamed: 0,age,inctot,educ,empstat
318999,33,22130,4 years of college,employed
319000,4,9999999,nursery school to grade 4,
319001,20,5000,grade 12,employed
319002,47,240000,5+ years of college,employed
319003,33,48000,5+ years of college,employed


In [None]:
data.sample(5)

Unnamed: 0,age,inctot,educ,empstat
171709,15,0,grade 9,
89487,24,23000,grade 12,employed
171395,31,7600,4 years of college,not in labor force
304395,29,0,grade 12,not in labor force
249436,16,0,grade 10,not in labor force


Você vê algum problema com a base? 

#### Escreva abaixo alguns problemas que você percebe nesta base


Resposta
* A - em 'Remuneração' existem dados muito grandes
* B - em 'Situação empregatícia' existem dados n/a, ou seja, em branco
* C - há pessoas com pouca idade e alta remuneração
* D - há criança na base de dados. não faz sentido, dado que não há remuneração nessa faixa etária

Um problema é que muita gente parece ter uma remuneração de $9,999,999. Além disso, pessoas com essa remuneração parecem ser crianças.

O que você está observando é um método (antiquado) de representar dados faltando. Neste caso, o valor 9999999 é usado para representar observações para as quais não se tem a informação (por exemplo, casos em que a pessoa é jovem demais para trabalhar e, portanto, não tem renda).

Vamos começar retirando da base todas as pessoas cuja renda é igual a 9999999. 

#### Retire da base as pessoas cuja renda é igual a 9999999

Depois, calcule a renda média das pessoas novamente. Você verá que esse valor é bem mais razoável (cerca de 40 mil dólares por ano).

Finalmente, mostre novamente uma amostra de 20 linhas, para continuarmos explorando a base.

In [None]:
data = data.loc[data['inctot']!= 9999999]
data

Unnamed: 0,age,inctot,educ,empstat
1,17,6000,grade 11,employed
2,63,6150,4 years of college,employed
3,66,14000,grade 12,not in labor force
5,50,50000,grade 12,employed
6,82,27100,1 year of college,not in labor force
...,...,...,...,...
318998,31,0,5+ years of college,not in labor force
318999,33,22130,4 years of college,employed
319001,20,5000,grade 12,employed
319002,47,240000,5+ years of college,employed


In [None]:
data.head(20)

Unnamed: 0,age,inctot,educ,empstat
1,17,6000,grade 11,employed
2,63,6150,4 years of college,employed
3,66,14000,grade 12,not in labor force
5,50,50000,grade 12,employed
6,82,27100,1 year of college,not in labor force
9,17,2000,grade 12,employed
10,47,18000,n/a or no schooling,employed
12,27,24000,1 year of college,employed
14,15,0,"grade 5, 6, 7, or 8",
15,66,0,n/a or no schooling,not in labor force


In [None]:
data.tail(20)

Unnamed: 0,age,inctot,educ,empstat
318978,66,38300,5+ years of college,employed
318979,51,6500,4 years of college,employed
318981,81,108600,grade 12,not in labor force
318982,26,45000,4 years of college,employed
318983,64,45600,grade 12,employed
318984,52,6600,5+ years of college,employed
318985,64,16000,1 year of college,employed
318987,36,50000,grade 12,employed
318988,70,82700,2 years of college,employed
318990,63,505400,5+ years of college,employed


In [None]:
data.sample(20)

Unnamed: 0,age,inctot,educ,empstat
179076,67,44500,5+ years of college,not in labor force
291898,57,9000,grade 11,not in labor force
191204,44,6500,"grade 5, 6, 7, or 8",employed
118495,37,45000,grade 12,employed
318311,31,47000,grade 12,employed
87372,20,8900,grade 12,employed
282872,94,16400,grade 12,not in labor force
257275,27,35000,4 years of college,employed
298865,74,21400,grade 12,not in labor force
248580,42,78000,grade 12,employed


OK, outro problema potencial é que nossos dados incluem várias pessoas que estão desempregadas e pessoas que não pertencem à força de trabalho (ou seja, pessoas que não tem um emprego mas também não estão procurando por um). Para esta análise, queremos focar em pessoas que _estão_ empregadas. Por isso, 

#### Selecione apenas as pessoas empregadas (i.e., pessoas cuja variável `empstat` é igual a _employed_)
Mostre uma amostra aleatória de 5 linhas para comprovar que o filtro funcionou.

In [None]:
data = data.loc[data['empstat'] == 'employed']
data

Unnamed: 0,age,inctot,educ,empstat
1,17,6000,grade 11,employed
2,63,6150,4 years of college,employed
5,50,50000,grade 12,employed
9,17,2000,grade 12,employed
10,47,18000,n/a or no schooling,employed
...,...,...,...,...
318995,67,125000,grade 12,employed
318999,33,22130,4 years of college,employed
319001,20,5000,grade 12,employed
319002,47,240000,5+ years of college,employed


In [None]:
data.head(5)

Unnamed: 0,age,inctot,educ,empstat
1,17,6000,grade 11,employed
2,63,6150,4 years of college,employed
5,50,50000,grade 12,employed
9,17,2000,grade 12,employed
10,47,18000,n/a or no schooling,employed


Note que a nossa decisão de olhar apenas para pessoas que estão empregadas afeta como a gente deverá interpretar as nossas conclusões sobre a relação entre educação e trabalho. Como a gente está olhando apenas para pessoas que estão empregadas, e gente estará analisando a relação entre educação e remuneração para pessoas empregadas. Isso significa que se a educação aumenta as chances de alguém estar empregado, isso é algo que a gente não vai conseguir observar na nossa análise. (Economistas chamam isso de "margem intensiva", enquanto que a análise sobre se pessoas conseguem ou não arranjar um emprego se chama "margem extensiva")


Agora, vamos abordar a questão da educação. A variável `educ` parece ter vários valores que são essencialmente categorias (chamamos de valores _discretos_, por oposição a valores _contínuos_). Vamos ver que valores existem e qual é a frequência de cada um deles usando o método `.value_counts()`. Esse método é muito útil e você vai usá-lo muito! 

#### Use o método `.value_counts()` na variável `educ` para ver quais os valores possiveis dessa variável e qual a frequência de cada um deles

In [None]:
data['educ'].value_counts()

grade 12                     47815
4 years of college           33174
1 year of college            22899
5+ years of college          20995
2 years of college           14077
grade 11                      2747
grade 5, 6, 7, or 8           2092
grade 10                      1910
n/a or no schooling           1291
grade 9                       1290
nursery school to grade 4      468
Name: educ, dtype: int64

Existem vários valores possíveis e nem todos interessam.Vamos focar em apenas alguns.

#### Qual é o valor médio de remuneração (`inctot`) para pessoas que têm o Ensino Médio completo?
Obs.: Isso corresponde a ter uma escolaridade máxima (`educ`) igual a _grade 12_


In [None]:
from numpy import mean

In [None]:
data['inctot'][data.educ == 'grade 12'].mean()

38957.76068179442

#### Qual é o valor médio de remuneração (`inctot`) para pessoas que concluíram a faculdade (`educ` igual a "4 years of college")?  O que isso sugere sobre o valor de se formar na faculdade, após concluir o Ensino Médio?

In [None]:
data['inctot'][data.educ == '4 years of college'].mean()

75485.05293301983

In [None]:
# Sugere que o salário aumenta significativamente após o término da graduação

#### Qual é o valor médio de remuneração (`inctot`) para pessoas que não concluíram o Ensino Médio? O que isso sugere sobre o valor de um diploma de conclusão do Ensino Médio?

In [None]:
data['inctot'][data.educ == 'grade 11'].mean()

21541.68693119767

#### Calcule as seguintes quantidades:

* Remuneração média para alguém que completou apenas a 9a série: ______________  
* Remuneração média para alguém que completou apenas a 10a série: ______________  
* Remuneração média para alguém que completou apenas a 11a série: ______________  
* Remuneração média para alguém que completou o ensino médio (12a série): ______________  
* Remuneração média para alguém que cursou 1 ano de faculdade mas largou (1 year of college): ____________
* Remuneração média para alguém que cursou 2 anos de faculdade mas largou (2 years of college): ____________
* Remuneração média para alguém que completou 4 anos de faculdade (que, para a maior parte dos cursos dos EUA, significa que a pessoa se formou na faculdade): ______________  

Dica: Você pode usar suas respostas para os itens anteriores para fazer uma função. Depois, basta aplicar a função a cada caso.


In [None]:
data['inctot'][data.educ == 'grade 9'].mean()

27171.907751937986

In [None]:
data['inctot'][data.educ == 'grade 10'].mean()

23018.795811518325

In [None]:
data['inctot'][data.educ == 'grade 11'].mean()

21541.68693119767

In [None]:
data['inctot'][data.educ == 'grade 12'].mean()

38957.76068179442

In [None]:
data['inctot'][data.educ == '1 year of college'].mean()

43123.87257085462

In [None]:
data['inctot'][data.educ == '2 years of college'].mean()

48679.305391773814

In [None]:
data['inctot'][data.educ == '4 years of college'].mean()

75485.05293301983

In [None]:
data['inctot'][data.educ == '5+ years of college'].mean()

110013.2213384139

Você viu o que eu vi? Não faz muita diferença ir da $9^a$ série para a $10^a$, ou da $10^a$ para a $11^a$. Mas faz uma diferença _gigante_ sair da $11^a$ para efetivamente concluir o Ensino Médio ($12^a$ série).

Na faculdade acontece a mesma coisa. Fazer 1 ano ou 2 anos não muda nada. Mas concluir a faculdade.... aí sim a diferença no salário fica expressiva!

#### Por que você acha que isso acontece?

In [None]:
# As pessoas com diploma são mais valorizada e melhores remuneradas pelo mercado,
# seja diploma de ensino médio ou superior, sempre agrega financeiramente mais.

Parabéns! Você acaba de descobrir o _efeito da pele de cordeiro_ ([sheepskin effect](https://en.wikipedia.org/wiki/Sheepskin_effect#:~:text=The%20sheepskin%20effect%20is%20an%20applied%20economics%20theory,effect%20of%20possession%20of%20such%20an%20academic%20degree.)): pessoas com diplomas tendem a ganhar salários significativamente maiores do que pessoas que têm quase o mesmo nível de educação, mas não chegaram a efetivamente obter o diploma.

Em Economia, isso é visto como evidência de que o motivo pelo qual empresas pagam mais a profissionais que têm faculdade do que a profissionais que não têm faculdade _não é_ porque elas acreditam que a faculdade lhes ensinou conteúdos importantes para o mercado de trabalho. Se esse fosse o caso, a gente esperaria que os salários crescessem progressivamente com cada ano de faculdade, já que a cada ano se aprende mais.

Ao invés disso, esses resultados sugerem que empresas pagam mais para pessoas que têm um diploma universitário porque elas acreditam que esses profissionais são o tipo de pessoa que são mais prováveis de serem bem sucedidas nos seus trabalhos. Concluir uma faculdade, em outras palavras, não é apenas uma questão de acumular conhecimento. É também uma questão de sinalizar para o seu futuro empregador que você é o tipo de pessoa que consegue vencer o desafio de concluir uma faculdade, o que sugere que você também é o tipo de pessoa que vai conseguir vencer os desafios da vida profissional.

(Obviamente, talvez os empregadores estejam completamente errados nessa conclusão. Pode ser. Não sabemos. Mas, estejam eles certos ou errados, aparentemente é assim que eles pensam).

Em outras palavras, aos olhos dos empregadores, um diploma de faculdade é um _sinal_ sobre que tipo de pessoa você é, não um atestado de que você aprendeu determinados conteúdos acadêmicos. Essa idéia rendeu a [Michael Spence](https://en.wikipedia.org/wiki/Michael_Spence) o Prêmio Nobel de Economia.