# Introdução 

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

In [6]:
import warnings
warnings.filterwarnings("ignore")

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Dicionáros das variáveis

In [7]:
sexo = {
    0: 'Masculino', 
    1: 'Feminino'
}
cor = {
    0: 'Indígena', 
    2: 'Branca', 
    4: 'Preta', 
    6: 'Amarela', 
    8: 'Parda', 
    9: 'Sem declaração'
}
anos_de_estudo = {
    1: 'Sem instrução e menos de 1 ano', 
    2: '1 ano', 
    3: '2 anos', 
    4: '3 anos', 
    5: '4 anos', 
    6: '5 anos', 
    7: '6 anos', 
    8: '7 anos', 
    9: '8 anos', 
    10: '9 anos', 
    11: '10 anos', 
    12: '11 anos', 
    13: '12 anos', 
    14: '13 anos', 
    15: '14 anos', 
    16: '15 anos ou mais', 
    17: 'Não determinados'
}
uf = {
    11: 'Rondônia', 
    12: 'Acre', 
    13: 'Amazonas', 
    14: 'Roraima', 
    15: 'Pará', 
    16: 'Amapá', 
    17: 'Tocantins', 
    21: 'Maranhão', 
    22: 'Piauí', 
    23: 'Ceará', 
    24: 'Rio Grande do Norte', 
    25: 'Paraíba', 
    26: 'Pernambuco', 
    27: 'Alagoas', 
    28: 'Sergipe', 
    29: 'Bahia', 
    31: 'Minas Gerais', 
    32: 'Espírito Santo', 
    33: 'Rio de Janeiro', 
    35: 'São Paulo', 
    41: 'Paraná', 
    42: 'Santa Catarina', 
    43: 'Rio Grande do Sul', 
    50: 'Mato Grosso do Sul', 
    51: 'Mato Grosso', 
    52: 'Goiás', 
    53: 'Distrito Federal'
}

Classes de renda:

<b>A</b> ► Acima de 25 SM

<b>B</b> ► De 15 a 25 SM

<b>C</b> ► De 5 a 15 SM

<b>D</b> ► De 2 a 5 SM

<b>E</b> ► Até 2 SM

#### Importando dados

In [8]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

ModuleNotFoundError: No module named 'pandas'

In [None]:
dados = pd.read_csv('dados/dados.csv')
dados.head()

#### Renomenado o dataframe


In [None]:
dados = dados.replace({'UF': uf,'Sexo' : sexo, 'Cor' : cor})
dados

#### Obtendo informações dos dados

In [None]:
dados.info()

#### A coluna altura foi removida, pois ela tinha sido inserida afim de testes estatísticos.


In [None]:
dados.drop(columns=['Altura'], inplace=True)

#### Definindo os valores em reais
Usand dados.Renda.min(), e max() para pegar o menor valor e o maior.

In [None]:
classe = [
    dados.Renda.min(),
    2*788,
    5*788,
    15*788,
    25*788,
    dados.Renda.max()
]
classe

#### Definindo labels

In [None]:
labels = ['E', 'D', 'C', 'B', 'A']

In [None]:
frequencias = pd.cut(x = dados.Renda,
bins = classe,
labels= labels,
include_lowest= True) #inclui o menor valor.
frequencias

#### Exibindo a quantidade por classe

In [None]:
frequencias = pd.value_counts(pd.cut(x = dados.Renda,
                            bins = classe,
                            labels= labels,
                            include_lowest= True)) #inclui o menor valor.
frequencias

In [None]:
frequencias = pd.DataFrame(frequencias)
frequencias

#### Construindo tabela de percentuais

In [None]:
percentual = pd.value_counts(pd.cut(x = dados.Renda,
bins = classe,
labels= labels,
include_lowest= True),
normalize= True) * 100 

percentual

In [None]:
percentual = pd.DataFrame(percentual)
percentual

In [None]:
percentual.rename(columns= {'Renda' : ' Quantidade (%)'})

# __Analisando renda máxima e minima__

In [None]:
dados.Renda.max()

In [None]:
dados.Renda.min()

In [None]:
area = plt.figure()

In [None]:
plt.rc('figure', figsize = (12, 8))
fig = percentual.plot.bar(color = 'royalblue', alpha = .6)#Configurações e plotagem
fig.set_title('Distribuição das rendas', {'fontsize' : 28}) #título
fig.set_xlabel('Classe das rendas', {'fontsize' : 25}) # título eixo x
fig.set_ylabel('Porcentagem (%)', {'fontsize' : 25}) #título eixo y
plt.tick_params(labelsize = 25) #aumentando os valores
plt.xticks(rotation = 0) #rotacionando os valores
plt.show()

Como fica claro, infelizmente, a classe mais populosa é a E.

In [None]:
x = sns.boxplot(x = 'Renda', data = dados, orient = 'h')

Há possíveis outliers, mas como se trata de renda, vamos filtrar para um valor menor e obter uma melhor visualização.

#### Nova visualização com query

In [None]:
x = sns.boxplot(x = 'Renda', data = dados.query('Renda < 10000'), orient = 'h')

Observa-se que, mais ou menos, acima de R$ 3.818,00 já são valores 'descrepantes' para a sociedade brasileira

In [None]:
#Identificando os quartis
Q1 = dados.Renda.quantile(0.25)
Q3 = dados.Renda.quantile(0.75)

IQQ = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQQ
limite_superior = Q3 + 1.5 * IQQ

In [None]:
limite_superior

----


# __Distribuição de renda por cor, sexo, anos de esutdo__


In [None]:
frequencia = pd.crosstab(dados.Sexo, dados.Cor)
frequencia

In [None]:
frequencia = pd.crosstab(dados.Sexo,
                         dados.Cor,
                         aggfunc= 'mean', values= dados.query('Renda < 10000').Renda)
frequencia.rename(index = sexo, inplace= True)
frequencia.rename(columns = cor, inplace= True)
frequencia 


#### Observa-se, que, a renda está mais concetrada, independente do sexo, na cor amarela.

In [None]:
ax = frequencia.plot.bar(stacked = True, color = ['#DEB887', '#808080', '#FAEBD7', '#0000FF', '#00FFFF'], alpha = .3)
ax.figure.set_size_inches(15, 10)
ax.set_title("Distribuição das rendas por sexo e cor", {'fontsize' : 28})
ax.set_ylabel("Renda (R$)", {'fontsize' : 25})
ax.set_xlabel("Sexo", {'fontsize' : 25})


In [None]:
plt.rcParams['figure.figsize'] = [2, 2] 
ax.figure.savefig('cor.png')

In [None]:
ax = sns.boxplot( y = 'Renda', x = 'Sexo', data = dados)
ax.figure.set_size_inches(15, 10)

#### Filtrando renda de até 10000

In [None]:
ax = sns.boxplot(x = 'Renda', y = 'Sexo',  data = dados.query('Renda < 10000'), orient = 'h')
ax.figure.set_size_inches(15, 10)

In [None]:
dados.head()

#### Por qual motivo os homens ganham mais? Estudam mais que as mulheres? Estão concentrados nos estados que mais pagam?

In [None]:
ax = sns.boxplot(x= 'Anos de Estudo', y = 'Sexo', data = dados)
ax.figure.set_size_inches(15, 10)
ax.set_title("Anos de estudo por sexo", {'fontsize' : 28})

In [None]:
dados

- __Fica evidente, que as mulheres estudam mais e ganham menos__

In [None]:
dfMasc = dados.query('Sexo == "Masculino"')

In [None]:
dfMasc.head()

In [None]:
dfMasc.sort_values(by =['Renda'], ascending= False, inplace = True)
dfMasc.head()

In [None]:
ax = sns.barplot(x = 'UF', y = 'Renda', data = dfMasc, color='royalblue', alpha = .6)
ax.figure.set_size_inches(15, 10)
plt.xticks(rotation = 90)
plt.show()

----

# __Qual região paga mais?__

In [None]:
dfRegiao = dados.groupby(['UF']).Renda.mean().to_frame()
dfRegiao.sort_values(by=['Renda'], inplace= True, ascending= False)

In [None]:
dfRegiao

In [None]:

ax = dfRegiao.plot.bar(color = 'royalblue', alpha = .6)#Configurações e plotagem
ax.figure.set_size_inches(16, 5)
ax.set_title('Distribuição media de renda por estado', {'fontsize' : 28}) #título
ax.set_ylabel('Renda (R$)', {'fontsize' : 25})
ax.set_xlabel('Estados', {'fontsize' : 25})
plt.show()


----

## __Analisando o motivo do DF pagar mais__



In [None]:
dfDistrito = dados[(dados.UF =='Distrito Federal')]
dfDistrito

In [None]:
ax = sns.boxplot(x = 'Renda', data = dfDistrito, orient = 'h')
ax.figure.set_size_inches(15, 10)

Analisando os outliers do Distrito Federal


In [None]:
Q1 = dfDistrito.Renda.quantile(0.25)
Q2 = dfDistrito.Renda.quantile(0.50)
Q3 = dfDistrito.Renda.quantile(0.75)

limite_inferior =  Q1 - 1.5 * (Q3 - Q1)
limite_superior = Q3 + 1.5 * (Q3 - Q1)

In [None]:
limite_inferior
limite_superior.round(2)

Como podemos ver, o limite superior é bem alto para o padrão brasileiro. Totalizando R$ 10.846,62

 

In [None]:
dfDistrito.describe()

----

# __Buscando uma possível relação com anos de estudo e salários altos.__

In [None]:
dados.head()

In [None]:
estatísticas = ['mean', 'max', 'min']

In [None]:
dfAnos1 = dados.groupby('Anos de Estudo')['Renda']

In [None]:
dfAnos1.describe()



Analisando, percebe-se descrepâncias. Em um ano de estudo o valor máximo é R$ 30.000,00. Esse valor é menor para quem estuda por 7 anos e o valor máximo é de R$ 25.000,00

In [None]:
dados.corr().round(4)

In [None]:
dfAnos = dados.groupby(['Anos de Estudo']).Renda.mean().to_frame().reset_index()

In [None]:
dfAnos

In [None]:

x = dfAnos['Anos de Estudo']
y = dfAnos['Renda']
plt.figure(figsize = (12, 8))
plt.rc('font', family= 'Arial', size = 20)
plt.plot(x, y, color = 'royalblue', alpha = .6)
plt.xlabel('Anos de Estudo', {'fontsize' : 20})
plt.ylabel('Renda (R$)', {'fontsize' : 20})
plt.title('Distribuição de renda media por anos de estudo', {'fontsize' : 22})


Importante salientar que no em 17 anos de estudo há uma queda brusca na renda.
Analisarei nas próximas etapas.

In [None]:
ax = sns.lmplot(x = 'Anos de Estudo', y = 'Renda', data = dfAnos)
ax.figure.set_size_inches(15, 10)


Plotando a reta de regressão é possível notar, também, o aumento do salário de acordo com anos de estudo.

In [None]:
dfAnos[(dfAnos['Anos de Estudo'] == 17)]

In [None]:
dfYear = dados[(dados['Anos de Estudo'] == 17)]
dfYear

Analisando as informações estatísitcas, nota-se, que, essa query pode ser um outlier. Pois, a idade minima (16) anos declarou que já estudou 17 anos.

In [None]:
dfYear.describe()

In [None]:
dfYear.Renda.mean()

In [None]:
Q1 = dfYear.Renda.quantile(0.25)
Q2 = dfYear.Renda.quantile(0.50)

limite_inferior = Q1 - 1.5 * (Q2 - Q1)
limite_superior = Q2 + 1.5 * (Q2 - Q1)



In [None]:
limite_inferior

In [None]:
limite_superior

In [None]:
ax = sns.boxplot(x = 'Anos de Estudo', y = 'Renda', data = dfYear, orient='v', width=.2)
ax.figure.set_size_inches(15, 10)


In [None]:
dfYear['Renda'].median()
print(f'A mediana de um trabalhador que estuda por 17 anos é de R${dfYear["Renda"].median()}')

In [None]:
dfYear['Renda'].mean().__round__(2)
print(f'A média de um trabalhador que estuda por 17 anos é de R${dfYear["Renda"].mean().__round__(2)}')

#### Como podemos notar, a mediana de uma pessoa que estuda por 17 anos é de apenas R$ 900,00. Essa análise vai contra a comprovação do leve aumento da renda quanto mais anos de estudo conforme o gráfico abaixo já exibido acima:

In [None]:
x = dfAnos['Anos de Estudo']
y = dfAnos['Renda']
plt.figure(figsize = (12, 8))
plt.rc('font', family= 'Arial', size = 20)
plt.plot(x, y, color = 'royalblue', alpha = .6)
plt.xlabel('Anos de Estudo', {'fontsize' : 20})
plt.ylabel('Renda (R$)', {'fontsize' : 20})
plt.title('Distribuição de renda media por anos de estudo', {'fontsize' : 22})

----

## __Renda máxima__

In [None]:
dfYear_16 = dados[(dados['Anos de Estudo'] == 16)]
dfYear_16

Observa-se a diferença dos dados em relação a renda. O valor máximo de renda é 200000. Irei analisar a fundo essa declaração.

In [None]:
dfYear_16.describe()

In [None]:
dfMax = dados[(dados.Renda == 200000)]
dfMax


In [None]:
ax = sns.lmplot(x = 'Anos de Estudo', y = 'Renda', data = dados, size= 8)

- Essa informação pode ser verdadeira, pois são homens (homens ganham mais) e são da Etnia branca (segundo grupo que mais ganha)

----

# __Em qual estado os estudantes estudam por mais tempo?__

In [5]:
dfEstudos = dados.groupby(['UF'])['Anos de Estudo'].mean().to_frame().reset_index()
dfEstudos

NameError: name 'dados' is not defined

In [None]:
dfEstudos = dfEstudos.sort_values(by = 'Anos de Estudo', ascending = False)

In [4]:
ax = dfEstudos.plot.bar(x = 'UF', y = 'Anos de Estudo', color = 'royalblue', alpha = .6)
ax.figure.set_size_inches(12, 8)
ax.set_title('Distribuição de anos de estudo por estado', {'fontsize' : 20})
ax.set_ylabel("Anos de estudo", {'fontsize' : 15})
ax.set_xlabel("Estados", {'fontsize' : 10})
plt.show()


NameError: name 'dfEstudos' is not defined