<h1> Análise exploratória de dados - Adult Data Set </h1>

#### Trabalho para a disciplina de Estatística, ministrada pelo prof. dr. Rodrigo Targino, na graduação em matemática aplicada da EMAp/FGV
#### Em 28 de Novembro de 2017, por Alifer Sales

Este trabalho realiza a análise exploratória da base de dados [Adult](https://archive.ics.uci.edu/ml/datasets/adult) disponível no repositório [UCI](https://archive.ics.uci.edu/ml/index.php), com acesso realizado em 28/11/2017, com o objetivo de aplicar as técnicas e ferramentas aprendidas durante a discplina de Estatística lecionada nos segundo semestre de 2017.

# 0. Importação dos pacotes utilizados

In [1]:
## Pandas: Utilizado para a estruturação dos dados em formato de DataFrame.
import pandas as pd

## Scipy: Utilizado para gerar as distribuições baseadas em parâmetros
import scipy.stats as stats

## Numpuy: Utilizado para funções matemáticas
import numpy as np

## Plotly: Utilizado para a construção dos gráficos utilizados.
import plotly.plotly as py
import plotly
from plotly import tools
import plotly.graph_objs as go
import plotly.offline as offline

from copy import deepcopy

offline.init_notebook_mode(connected=True)

# 1 A base de dados

## 1.1 Objetivos de análise

A base de dados _(vide 1.2)_ que será analisada traz informações interessantes em relação ao perfil das pessoas economicamente ativa de diversos países. Nesse sentido, listei algumas perguntas que me guiarão no processo de análise. São elas:

- A idade das pessoas é melhor modelada se modelada como uma distribuição contínua (Normal) ou discreta (Poisson)?
- Como a escolaridade se comporta, se condicionada à raça?

## 1.2 Adult Database

### 1.2.1 Source:

#### Donor: 
| Ronny Kohavi and Barry Becker <br \>
| Data Mining and Visualization <br \>
| Silicon Graphics. <br \>
| e-mail: ronnyk '@' live.com for questions. 


### 1.2.2 Data Set Information:

Extraction was done by Barry Becker from the 1994 Census database. A set of reasonably clean records was extracted using the following conditions: ((AAGE>16) && (AGI>100) && (AFNLWGT>1)&& (HRSWK>0)) 

Prediction task is to determine whether a person makes over 50K a year. 


### 1.2.3 Attribute Information:

- **age**:int – The age of the individual
    - Continuous
- **workclass**:str – The type of employer the individual has
    - Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
- **fnlwgt**:int – The \# of people the census takers believe that observation represents. We will be ignoring this variable
    - continuous
- **education**:str – The highest level of education achieved for that individual
    - Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
- **education_num**:int – Highest level of education in numerical form
    - continuous
- **marital-status**:str – Marital status of the individual
    - Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
- **occupation**:str – The occupation of the individual
    - Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
- **relationship**:str – A bit more difficult to explain. Contains family relationship values like husband, father, and so --on, but only contains one per observation. I’m not sure what this is supposed to represent
    - Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
- **race**:str – descriptions of the individuals race. Black, White, Eskimo, and so on
    - White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
- **sex**:str – Biological Sex
    - Female, Male.
- **capital_gain**:int – Capital gains recorded
    - continuous
- **capital_loss**:int – Capital Losses recorded
    - continuous
- **hr_per_week**:int – Hours worked per week
    - continuous
- **country**:str – Country of origin for person
    - United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
- **income**:str – Whether or not the person makes more than $50,000 per annum income.
    - <=50K, >50K

#### fontes
- http://scg.sdsu.edu/dataset-adult_r/ (acesso em 28/11/17)
- https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names (acesso em 28/11/17)

# 2 Upload e tratamento dos dados

In [2]:
col_names=['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country','income']

original_data = pd.DataFrame.from_csv('adult-test.csv',encoding='utf-8',header=None,index_col=None)
original_data.columns = col_names

In [3]:
original_data.head(2)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K.
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K.


In [4]:
original_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16281 entries, 0 to 16280
Data columns (total 15 columns):
age               16281 non-null int64
workclass         16281 non-null object
fnlwgt            16281 non-null int64
education         16281 non-null object
education-num     16281 non-null int64
marital-status    16281 non-null object
occupation        16281 non-null object
relationship      16281 non-null object
race              16281 non-null object
sex               16281 non-null object
capital-gain      16281 non-null int64
capital-loss      16281 non-null int64
hours-per-week    16281 non-null int64
native-country    16281 non-null object
income            16281 non-null object
dtypes: int64(6), object(9)
memory usage: 1.9+ MB


In [5]:
original_data.describe()

Unnamed: 0,age,fnlwgt,education-num,capital-gain,capital-loss,hours-per-week
count,16281.0,16281.0,16281.0,16281.0,16281.0,16281.0
mean,38.767459,189435.7,10.072907,1081.905104,87.899269,40.392236
std,13.849187,105714.9,2.567545,7583.935968,403.105286,12.479332
min,17.0,13492.0,1.0,0.0,0.0,1.0
25%,28.0,116736.0,9.0,0.0,0.0,40.0
50%,37.0,177831.0,10.0,0.0,0.0,40.0
75%,48.0,238384.0,12.0,0.0,0.0,45.0
max,90.0,1490400.0,16.0,99999.0,3770.0,99.0


# 3 Análise primária da  base

## 3.1 Distribuição Gráfica dos atributos

In [6]:
### Instanciando os histogramas
age = go.Histogram(x=original_data.age, name='age')
marital_status = go.Histogram(x=original_data['marital-status'], name='marital-status')
occupation = go.Histogram(x=original_data.occupation, name='occupation')

ordered_education = [' Preschool',' 1st-4th',' 5th-6th',' 7th-8th',' 9th',' 10th',' 11th',' 12th',' HS-grad',' Some-college',' Assoc-voc',' Assoc-acdm',' Bachelors',' Masters',' Prof-school',' Doctorate']
ordered_education_values = [original_data.education[original_data.education == x].count() for x in ordered_education]

education = go.Bar(x=ordered_education,y=ordered_education_values, name='education')
relationship = go.Histogram(x=original_data.relationship, name='relationship')
race = go.Histogram(x=original_data.race, name='race')
sex = go.Histogram(x=original_data.sex, name='sex')
hours_per_week = go.Histogram(x=original_data['hours-per-week'], name='hours-per-week')

### Instanciando a figura que receberá os gráficos
fig = tools.make_subplots(rows=4, cols=2, subplot_titles=('Distribuição de Idade', 'Distribuição de Estado Civil',
                                                          'Distribuição de Profissão', 'Distribuição de Escolaridade',
                                                          'Distribuição de Posição Familiar','Distribuição de raça',
                                                          'Distribuição de Gênero', 'Distribuição da carga horária semanal'))
fig['layout'].update(height=1100, title='FIGURA 1: Distribuição dos atributos')


### Inserindo os gráficos na figura
fig.append_trace(age, 1, 1)
fig.append_trace(marital_status, 1, 2)
fig.append_trace(occupation, 2, 1)
fig.append_trace(education, 2, 2)
fig.append_trace(relationship, 3, 1)
fig.append_trace(race, 3, 2)
fig.append_trace(sex, 4, 1)
fig.append_trace(hours_per_week, 4, 2)

### Configurando os eixos
fig['layout']['xaxis1'].update(title='Idade', range=[0,100])
fig['layout']['xaxis2'].update(title='Estado civil',tickangle=15)
fig['layout']['xaxis3'].update(title='Profissão', tickangle=30)
fig['layout']['xaxis4'].update(title='Escolaridade',range=ordered_education,tickangle=30)
fig['layout']['xaxis5'].update(title='Posição Familiar', tickangle=20)
fig['layout']['xaxis6'].update(title='Raça',tickangle=20)
fig['layout']['xaxis7'].update(title='Gênero')
fig['layout']['xaxis8'].update(title='Carga horária semanal')

fig['layout']['yaxis1'].update(title='Quantidade')
fig['layout']['yaxis2'].update(title='Quantidade')
fig['layout']['yaxis3'].update(title='Quantidade')
fig['layout']['yaxis4'].update(title='Quantidade')
fig['layout']['yaxis5'].update(title='Quantidade')
fig['layout']['yaxis6'].update(title='Quantidade')
fig['layout']['yaxis7'].update(title='Quantidade')
fig['layout']['yaxis8'].update(title='Quantidade')

### Plotando a figura
offline.iplot(fig, filename='customizing-subplot-axes')

This is the format of your plot grid:
[ (1,1) x1,y1 ]  [ (1,2) x2,y2 ]
[ (2,1) x3,y3 ]  [ (2,2) x4,y4 ]
[ (3,1) x5,y5 ]  [ (3,2) x6,y6 ]
[ (4,1) x7,y7 ]  [ (4,2) x8,y8 ]



# 4 Inferença sobre a distribuição de idade

#### A idade das pessoas é melhor modelada se modelada como uma distribuição contínua (Normal) ou discreta (Poisson)?

## 4.1 Metodologia

Para analisar a distribuição de idades da população como uma distribuição contínua, irei supor uma distribuição normal e para analisá-la como discreta, considerarei uma distribuição Poisson.

Para cada uma das distribuições propostas, irei calcular o estimador bayesiano com perda quadrática, $\delta^*(\textbf{X})$ e o estimatimador de máxima verossimilhança, $\widehat{\theta}$.

### 4.1.1 Distribuição normal

Supondo que as idades seguem uma distribuição normal, seja $X_i$ uma idade. Então,
<br \><br \>
$X_1,X_2,...X_n  \overset{iid}{\sim}  Normal(\mu,\sigma^2), onde \mu e \sigma^2 são desconhecidos.$

#### ESTIMADOR BAYESIANO
<hr \>

Utilizando o estimador bayesiano com perda quadrática, assumi a priori como:

$\begin{align*}
x_i \mid \mu,\tau &\overset{iid}{\sim} N(\mu,\tau) \\
\mu \mid \tau &\sim N(\mu_0,n_0\tau) \\
\tau &\sim Gamma(\alpha,\beta)
\end{align*}$, onde $\tau = \frac{1}{\sigma^2}$<br>

e a posteriori será:

$\begin{align*}
\mu \mid \tau, \textbf{x} &\sim N \Big( \frac{n\tau}{n\tau + n_0\tau}\overline{x}_n + \frac{n_0\tau}{n\tau + n_o\tau}\mu_0 \ , \ n\tau + n_0\tau \Big) \\
\sigma^2 \mid \textbf{x} = \frac{1}{\tau} \mid \textbf{x} &\sim Gamma^{-1}\Big(\alpha + \frac{n}{2} \ , \ \beta + \frac{1}{2}S_x^2+\frac{nn_0}{2(n+n_0)}(\overline{x}_n-\mu_0)^2 \Big)
\end{align*}$, onde $\overline{x}_n = \frac{\sum_{i=1}^{n}{x_i}}{n}$ e $S_x^2 = \sum_{i=1}^{n}{(x_i - \overline{x}_n)^2}$

Portanto, o estimador bayesiano para a média $\mu$ será:

$\widehat{\mu} = E(\mu\mid\textbf{X}) = \frac{n}{n + n_0}\overline{x}_n + \frac{n_0}{n + n_0}\mu_0$

Enquanto o estimador bayesiano para a variância será:

$\widehat{\sigma}^2 = E(\sigma^2\mid\textbf{X}) = \frac{\beta + \frac{1}{2}S_x^2+\frac{nn_0}{2(n+n_0)}(\overline{x}_n-\mu_0)^2 }{\alpha + \frac{n}{2} -1}$

#### ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA
<hr \>

Utilizando o estimador de máxima verossimilhança, temos que:
<br \><br \>
$\begin{align*}
\widehat{\mu} &= \overline{X}_n = \frac{\sum_{i=1}^{n}{X_i}}{n}\text{ e} \\
\widehat{\sigma}^2 &= \frac{{S_X}^2}{n} = \frac{\sum_{i=1}^{n}{(X_i - \overline{X}_n)^2}}{n}
\end{align*}$

### 4.1.2 Distribuição Poisson

Supondo que as idades seguem uma distribuição Poisson, seja $X_i$ uma idade. Então,
<br \><br \>
$X_1,X_2,...X_n  \overset{iid}{\sim}  Poi(\lambda)$, onde $\lambda$ é desconhecido. 

#### ESTIMADOR BAYESIANO
<hr \>

Utilizando o estimador bayesiano com perda quadrática, assumi a priori como:

$\begin{align*}
x_i \mid \lambda &\overset{iid}{\sim} Poi(\lambda) \\
\lambda &\sim Gamma(\alpha,\beta)
\end{align*}$<br>

e a posteriori será:

$\begin{align*}
\lambda \mid \textbf{x} &\sim Gamma \Big( \alpha + \sum_{i=1}^n x_i , \beta + n \Big)
\end{align*}$

Portanto, o estimador bayesiano para $\lambda$ será:

$\widehat{\lambda} = E(\lambda\mid\textbf{X}) = \frac{\alpha + \sum_{i=1}^n x_i}{\beta + n}$

#### ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA
<hr \>

Utilizando o estimador de máxima verossimilhança, temos que:

$\widehat{\lambda} = \overline{X}_n = \frac{\sum_{i=1}^{n}{X_i}}{n}$

In [7]:
### Média amostral
def Xn(sample):
    xn = sum(sample)/len(sample)
    return xn

### Sx²
def Sx2(sample):
    xn = Xn(sample)
    sx2 = 0
    
    for x in sample:
        sx2 += (x - xn)**2
    
    return sx2

## 4.2 Resultados

In [8]:
### Calculando as estatisticas para a amostra de idades
n_age = len(original_data.age)
Xn_age = Xn(original_data.age)
Sx2_age = Sx2(original_data.age)
print("n = {0} \nXn = {1:.3f} \nSx2 = {2:.3f}".format(n_age,Xn_age,Sx2_age))

n = 16281 
Xn = 38.767 
Sx2 = 3122503.600


Considerando nossos dados iniciais, temos 

$\begin{align*}
n &=16281,\\ \overline{x}_n &= 38.767\ \text{e} \\ S_x^2 &= 3122503.6
\end{align*}$

### 4.2.1 Assumindo distribuição normal

#### Bayseano

Para o cálculo da priori, considerarei os seguintes valores para os parâmetros:

$\begin{align*}
\mu_0 &= 35 & n_0 &= 16500 \\
\alpha &= 0.05 & \beta &= 10\\
\end{align*}$

In [9]:
### Calculando os estimadores de bayes

mu0 = 38
n0 = 16500
alpha = 0.05
betha = 10

mu_age_bayes = ((n_age/(n_age + n0))*Xn_age) + ((n0/(n_age + n0))*mu0)
sigma2_age_bayes = (betha + (0.5*(Sx2_age)) + (((n_age*n0)/(2*(n_age+n0)))*((Xn_age-mu0)**2)))/(alpha + (n_age/2) - 1)

print("Average estimator: {0:.3f} \nVarience estimator: {1:.3f} \nStandard Deviation: {2:.3f}".format(mu_age_bayes,sigma2_age_bayes,sigma2_age_bayes**0.5))

Average estimator: 38.381 
Varience estimator: 192.108 
Standard Deviation: 13.860


Calculando os estimadores de bayes, temos:

$\begin{align*}
\widehat{\mu} &= 36.871,\text{ para a média e}\\
\widehat{\sigma}^2 &= 198.957,\text{ para a variância.}
\end{align*}$



#### Estimador de máxima verossimilhança

In [10]:
### Estimador de máxima verossimilhança
def sigma2MLE(sample):
    sx2 = Sx2(sample)
    return sx2/len(sample)

sigma2ML2_age = sigma2MLE(original_data.age)
print("Average estimator: {0:.3f} \nVarience estimator: {1:.3f} \nStandard Deviation: {2:.3f}".format(Xn_age,sigma2ML2_age,sigma2ML2_age**0.5))

Average estimator: 38.767 
Varience estimator: 191.788 
Standard Deviation: 13.849


Utilizando o estimador de máxima verossimilhança, temos que:

$\begin{align*}
\widehat{\mu} &= 38.767,\text{ para a média e}\\
\widehat{\sigma}^2 &= 191.788,\text{ para a variância.}
\end{align*}$

#### Comparando as estimativas

In [11]:
x_range = np.linspace(0,100,100)

ages_histogram = go.Histogram(x=original_data.age, name='Distribuição normalizada da amostra',histnorm='probability')

normal_bayes = go.Scatter(
                    x = x_range, 
                    y = stats.norm(mu_age_bayes,sigma2_age_bayes**0.5).pdf(x_range),
                    name = 'Estimativa Normal de bayes'
)

normal_MLE = go.Scatter(
                    x = x_range, 
                    y = stats.norm.pdf(x_range,Xn_age,sigma2ML2_age**0.5),
                    name = 'Estimativa Normal de máxima verossimilhança'
)

data = [ages_histogram,normal_bayes,normal_MLE]

layout = go.Layout(
    xaxis=dict(
        title='Idade'
    ),
    yaxis=dict(
        title='Quantidade'
    ),
    title='FIGURA 2: Comparando as estimativas com a amostra de idades'
)

fig = go.Figure(data=data,layout=layout)

offline.iplot(fig,filename='Idades')

In [12]:
Xn_age

38.767459001289851

### 4.2.1 Assumindo distribuição Poisson

#### Bayseano

Para o cálculo da priori, considerarei os seguintes valores para os parâmetros:

$\begin{align*}
\alpha &= 10 \\
\beta &= 2
\end{align*}$

In [13]:
### Calculando o estimador de bayes

alpha = 10
beta = 2

lambda_age_bayes = (alpha + (Xn_age*n_age))/(beta + n_age)

print("lambda_age_bayes: {0:.3f}".format(lambda_age_bayes))

lambda_age_bayes: 38.763


Calculando o estimador de bayes, temos:

$\widehat{\lambda} = 38.763$

#### Estimador de máxima verossimilhança

In [14]:
### Estimador de máxima verossimilhança

print("MLE: {0:.3f}".format(Xn_age))

MLE: 38.767


Utilizando o estimador de máxima verossimilhança, temos que:

$\widehat{\mu} = 38.767$

#### Comparando as estimativas

In [15]:
x_range = np.linspace(0,100,101)

ages_histogram = go.Histogram(x=original_data.age, name='Distribuição normalizada da amostra',histnorm='probability')

poi_bayes = go.Scatter(
                    x = x_range, 
                    y = stats.poisson.pmf(x_range,lambda_age_bayes),
                    name = 'Estimativa Poisson de bayes'
)

poi_MLE = go.Scatter(
                    x = x_range, 
                    y = stats.poisson.pmf(x_range,Xn_age),
                    name = 'Estimativa Poisson de máxima verossimilhança'
)

data = [ages_histogram,poi_bayes,poi_MLE]

layout = go.Layout(
    xaxis=dict(
        title='Idade'
    ),
    yaxis=dict(
        title='Quantidade'
    ),
    title='FIGURA 3: Comparando as estimativas com a amostra de idades'
)

fig = go.Figure(data=data,layout=layout)

offline.iplot(fig,filename='Idades')

## 4.3 Discussão

Como podemos ver na figura 2, ambas as estimativas (bayesiana e frequentista) são muito próximas. Contudo, ambas apresentam curvas mais à direita que a amostra. Isso significa que, para grande parte dos dados, há superestimativa das idades. Isso pode ser explicado pela falta de dados para menores de 17 anos, o que torna a análise viesada.

Quando tentei descrever a amostra por uma distribuição Poisson, podemos perceber que as curvas nãos e aproximam dos dados, além de ambas as estimativas estarem próximas. Isso indica que, provavelmente, as idades não seguem uma distribuição Poisson.

Dentre as duas distribuições, a Normal traz uma melhor aproximação que a Poisson. Portanto, existe uma maior probabilidade de que as idades se distribuam por uma normal.

# 5 Relacionando raça e escolaridade 

#### Como a escolaridade se comporta, se condicionada à raça?

## 5.1 Metodologia

Para relacionar raça e escolaridade, irei utilizar **Teste de Hipóteses** para verificar se a escolaridade entre brancos e não-brancos é muito diferente.

Nesse sentido, vou 
    
1. Testar a hipótese que a quantidade de brancos com bacharelado ou superior é maior que a de não-brancos
2. Testar a hipótese que a quantidade de brancos com ensino médio ou inferior é menor que a de não-brancos
    
**Para testar a primeira hipótese:**

Seja $X_i$, para $1 \leq i \leq k$, onde k é o número de pessoas brancas, como uma variável aleatória bernoulli em que:
<br><br>
<center>
    $X_i =
        \begin{cases}
            1 ,\text{ se a pessoa branca tem bacharelado ou superior}\\
            0 ,\text{ caso contrário}
        \end{cases} $
</center>

Seja $Y_i$, para $1 \leq i \leq n - k$, como uma variável aleatória berunolli em que:
<br><br>
<center>
    $Y_i =
        \begin{cases}
            1 ,\text{ se a pessoa não-branca tem bacharelado ou superior}\\
            0 ,\text{ caso contrário}
        \end{cases} $
</center>

As hipóteses são:

$\begin{align*}
H_0&: \text{A quantidade de brancos com bacharelado ou superior não é maior que a de não-brancos} \\
H_1&: \text{A quantidade de brancos com bacharelado ou superior é maior que a de não-brancos}
\end{align*}$

O teste que usarei para testar as hipótese é o seguinte: 

$\delta$: Rejeito a hipótese nula se a diferença entre a porcentagem de brancos que tem bacharelado ou superior e a procentagem de negros na mesma situação é maior que uma constance positiva c. Ou seja, rejeito $H_0$ se $\overline{X}_n - \overline{Y}_n > c$ 

###### 404 not found: Professor, não consigo achar uma distribuição para $\overline{X}_n - \overline{Y}_n$. Empaquei nisso por bastante tempo e não sei como sair dessa fria, enquanto isso o tempo está se esgotando (já passaram das 23h :/). Desculpe por não ter conseguido finalizar o trabalho. 

...

In [16]:
white_race = deepcopy(original_data[original_data.race == ' White'])
black_race = deepcopy(original_data[original_data.race == ' Black'])
non_white_race = deepcopy(original_data[original_data.race != ' White'])

In [17]:
ordered_education = [' Preschool',' 1st-4th',' 5th-6th',' 7th-8th',' 9th',' 10th',' 11th',' 12th',' HS-grad',' Some-college',' Assoc-voc',' Assoc-acdm',' Bachelors',' Masters',' Prof-school',' Doctorate']

white_ordered_education_values = [white_race.education[white_race.education == x].count() for x in ordered_education]
non_white_ordered_education_values = [non_white_race.education[non_white_race.education == x].count() for x in ordered_education]

white_ordered_education_values_normal = [white_race.education[white_race.education == x].count()/len(white_race) for x in ordered_education]
non_white_ordered_education_values_normal = [non_white_race.education[non_white_race.education == x].count()/len(non_white_race) for x in ordered_education]

trace1 = go.Bar(x=ordered_education,y=white_ordered_education_values, name='white people')
trace2 = go.Bar(x=ordered_education,y=non_white_ordered_education_values, name='non-white people')

trace3 = go.Bar(x=ordered_education,y=white_ordered_education_values_normal, name='white people')
trace4 = go.Bar(x=ordered_education,y=non_white_ordered_education_values_normal, name='non-white people')


fig = tools.make_subplots(rows=2, cols=1, subplot_titles=('a) Escolaridade por raça - Valores absolutos',
                                                          'b) Escolaridade por raça - Normalizado'))
fig['layout'].update(height=800,title='FIGURA 4: Escolaridade por raça')

fig.append_trace(trace1,1,1)
fig.append_trace(trace2,1,1)

fig.append_trace(trace3,2,1)
fig.append_trace(trace4,2,1)

offline.iplot(fig)

This is the format of your plot grid:
[ (1,1) x1,y1 ]
[ (2,1) x2,y2 ]

