***
# <font color=green size=10>CURSO DE ESTATÍSTICA - PARTE 1</font>
***

# <font color=green>1 CONHECENDO OS DADOS</font>
***

## <font color=green>1.1 Dataset do projeto</font>
***

### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### <font color='red'>Observação</font>
***
> Os seguintes tratamentos foram realizados nos dados originais:
> 1. Foram eliminados os registros onde a <b>Renda</b> era inválida (999 999 999 999);
> 2. Foram eliminados os registros onde a <b>Renda</b> era missing;
> 3. Foram considerados somente os registros das <b>Pessoas de Referência</b> de cada domicílio (responsável pelo domicílio).

### Importando pandas e lendo o dataset do projeto

https://pandas.pydata.org/

In [1]:
import pandas as pd

In [16]:
df = pd.read_csv('data/dados.csv')
df

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


## <font color=green>1.2 Tipos de dados</font>
***

### Variáveis qualitativas ordinais

► Variáveis que podem ser ordenadas ou hierarquizardas

In [11]:
sorted(df['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

### Variáveis qualitativas nominais

► Variáveis que não podem ser ordenadas ou hierarquizardas

In [12]:
sorted(df['UF'].unique())

[11,
 12,
 13,
 14,
 15,
 16,
 17,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 31,
 32,
 33,
 35,
 41,
 42,
 43,
 50,
 51,
 52,
 53]

In [13]:
sorted(df['Sexo'].unique())

[0, 1]

In [14]:
sorted(df['Cor'].unique())

[0, 2, 4, 6, 8]

### Variáveis quantitativas discretas

► Variáveis que representam uma contagem onde os valores possíveis formam um conjunto finito ou enumerável.

In [27]:
min_idade = df['Idade'].min()
max_idade = df['Idade'].max()

print(f'Para a variável Idade temos valores de de {min_idade} até {max_idade} anos.')

Para a variável Idade temos valores de de 13 até 99 anos.


#### <font color='red'>Observação</font>
***
> A variável idade pode ser classificada de três formas distintas:
> 1. <b>QUANTITATIVA DISCRETA</b> - quando representa anos completos (números inteiros);
> 2. <b>QUANTITATIVA CONTÍNUA</b> - quando representa a idade exata, sendo representado por frações de anos; e
> 3. <b>QUALITATIVA ORDINAL</b> - quando representa faixas de idade.

### Variáveis quantitativas contínuas

► Variáveis que representam uma contagem ou mensuração que assumem valores em uma escala contínua (números reais).

In [29]:
min_altura = df['Altura'].min()
max_altura = df['Altura'].max()
print('A variável Altura foi criada pelo professor.')
print(f'Para a variável Altura temos valores de de {min_altura} até {max_altura} metros.')

A variável Altura foi criada pelo professor.
Para a variável Altura temos valores de de 1.339244614 até 2.028496765 metros.


In [37]:
sorted(df['Renda'].unique())

[0,
 5,
 6,
 8,
 10,
 12,
 13,
 14,
 15,
 19,
 20,
 22,
 24,
 25,
 26,
 27,
 30,
 31,
 33,
 35,
 38,
 39,
 40,
 41,
 42,
 45,
 46,
 48,
 50,
 55,
 57,
 58,
 60,
 62,
 65,
 66,
 67,
 68,
 70,
 72,
 74,
 75,
 78,
 80,
 83,
 84,
 85,
 87,
 88,
 90,
 95,
 96,
 100,
 104,
 105,
 108,
 110,
 112,
 113,
 114,
 115,
 116,
 117,
 120,
 125,
 128,
 130,
 132,
 133,
 134,
 135,
 140,
 142,
 145,
 146,
 147,
 148,
 150,
 152,
 160,
 165,
 166,
 170,
 172,
 175,
 180,
 182,
 183,
 185,
 187,
 188,
 190,
 192,
 200,
 205,
 208,
 209,
 210,
 215,
 219,
 220,
 225,
 230,
 239,
 240,
 250,
 255,
 256,
 260,
 262,
 270,
 275,
 278,
 280,
 284,
 290,
 295,
 300,
 310,
 320,
 325,
 330,
 333,
 334,
 336,
 340,
 345,
 350,
 360,
 364,
 366,
 369,
 370,
 375,
 376,
 380,
 385,
 390,
 394,
 395,
 396,
 399,
 400,
 410,
 412,
 415,
 416,
 417,
 420,
 425,
 427,
 430,
 436,
 440,
 444,
 445,
 450,
 460,
 463,
 465,
 466,
 470,
 472,
 476,
 478,
 480,
 485,
 490,
 496,
 498,
 500,
 507,
 517,
 520,
 525,
 530,


### Classificação de uma variável
<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img001.png' width='70%'>

# <font color=green>2 DISTRIBUIÇÃO DE FREQUÊNCIAS</font>
***

O primeiro passo em um trabalho de análise é o conhecimento do comportamento das variáveis envolvidas no estudo. Utilizando técnicas estatísticas como as análises das <b>DISTRIBUIÇÕES DE FREQUÊNCIAS</b> e <b>HISTOGRAMAS</b> podemos avaliar melhor a forma como os fenômenos em estudo se distribuem.

## <font color=green>2.1 Distribuição de frequências para variáveis qualitativas</font>
***

### Método 1

pd.value_counts()

https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.Series.value_counts.html

In [41]:
df.Sexo.value_counts()

0    53250
1    23590
Name: Sexo, dtype: int64

In [44]:
df.Sexo.value_counts(normalize = True) * 100

0    69.299844
1    30.700156
Name: Sexo, dtype: float64

In [45]:
frequencia = df.Sexo.value_counts()

In [46]:
percentual = df.Sexo.value_counts(normalize = True) * 100

In [65]:
dist_freq_quali = pd.DataFrame({'Frequência': frequencia, 'Percentual %': percentual}, index = {0:'Homens', 1:'Muheres'})

In [66]:
dist_freq_quali.rename(index = {0:'Homens', 1:'Muheres'})

Unnamed: 0,Frequência,Percentual %
Homens,53250,69.299844
Muheres,23590,30.700156


### Método 2
[pd.crosstab()](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.crosstab.html)

In [69]:
dic_sexo = {
    0: 'Masculino',
    1: 'Feminino',}

dic_cor = {
    0: 'Indígena',
    2: 'Branca',
    4: 'Preta',
    6: 'Amarela',
    8: 'Parda',}

In [79]:
frequencia = pd.crosstab(df.Sexo, df.Cor, normalize = True) * 100

frequencia.rename(
    index = dic_sexo,
    columns = dic_cor, 
    inplace = True)

frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


In [82]:
frequencia = pd.crosstab(
    df.Sexo, 
    df.Cor, 
    aggfunc = 'mean',
    values = df.Renda)

frequencia.rename(
    index = dic_sexo,
    columns = dic_cor,
    inplace = True)

frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


Acabamos de fazer tabelas de distribuição de frequencias

No primeiro método usamos o resultado comum e na segunda um metodo que pode cruzar varias variáveis, a última exibição a tabela está relacionando 3 variáveis

## <font color=green>2.2 Distribuição de frequências para variáveis quantitativas (classes personalizadas)</font>
***

### Passo 1 - Especificar os limites de cada classe

Utilizar a seguinte classificação:

<b>A</b> ► Acima de 20 SM

<b>B</b> ► De 10 a 20 SM

<b>C</b> ► De 4 a 10 SM

<b>D</b> ► De 2 a 4 SM

<b>E</b> ► Até 2 SM

onde <b>SM</b> é o valor do salário mínimo na época. Em nosso caso <b>R$ 788,00</b> (2015):

<b>A</b> ► Acima de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Até 1.576


In [102]:
sm = 788 # valor do salário min na época
df['RendaCat'] =  pd.cut(x = df['Renda'], bins= (renda.min(), 2*sm, 4*sm, 10*sm, 20*sm, renda.max()), labels=list('ABCDE'))
df.head(8)

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura,RendaCat
0,11,0,23,8,12,800,1.603808,A
1,11,1,23,2,12,1150,1.73979,A
2,11,1,35,8,15,880,1.760444,A
3,11,0,46,2,6,3500,1.783158,C
4,11,1,47,8,9,150,1.690631,A
5,11,1,34,8,12,790,1.637906,A
6,11,0,57,8,12,3150,1.570078,B
7,11,1,60,8,12,1700,1.608495,B


### Importando bibliotecas

http://www.numpy.org/

In [103]:
import numpy as np

### Passo 1 - Difinindo o número de classes

#### Regra de Sturges

# $$k = 1 + \frac {10}{3}\log_{10}n$$

In [121]:
import numpy as np

n = df['Idade'].shape[0] # tamanho da amostra
k = round(1 + (10/3) * np.log10(n)) # coeficiente de sturges

In [125]:
df['Idade'].value_counts(bins=17, sort=False)

(12.913, 18.059]      215
(18.059, 23.118]     2291
(23.118, 28.176]     5554
(28.176, 33.235]     9032
(33.235, 38.294]    10786
(38.294, 43.353]    10861
(43.353, 48.412]    10152
(48.412, 53.471]    10041
(53.471, 58.529]     7683
(58.529, 63.588]     5156
(63.588, 68.647]     2755
(68.647, 73.706]     1275
(73.706, 78.765]      647
(78.765, 83.824]      291
(83.824, 88.882]       77
(88.882, 93.941]       20
(93.941, 99.0]          4
Name: Idade, dtype: int64

## <font color=green>2.4 Histograma</font>
***

O <b>HISTOGRAMA</b> é a representação gráfica de uma distribuição de frequências. É uma gráfico formado por um conjunto de retângulos colocados lado a lado, onde a área de cada retângulo é proporcional à frequência da classe que ele representa.

### Importando a biblioteca

https://seaborn.pydata.org/

# <font color=green>3 MEDIDAS DE TENDÊNCIA CENTRAL</font>
***

## DataFrame de exemplo

In [108]:
df

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura,RendaCat
0,11,0,23,8,12,800,1.603808,A
1,11,1,23,2,12,1150,1.739790,A
2,11,1,35,8,15,880,1.760444,A
3,11,0,46,2,6,3500,1.783158,C
4,11,1,47,8,9,150,1.690631,A
...,...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030,A
76836,53,0,30,4,7,1500,1.792934,A
76837,53,0,32,8,12,1300,1.830587,A
76838,53,0,57,8,4,1500,1.726344,A


## <font color=green>3.1 Média aritmética</font>
***

É representada por $\mu$ quando se refere à população e por $\bar{X}$ quando se refere à amostra

# $$\mu = \frac 1n\sum_{i=1}^{n}X_i$$

onde 

$n$ = número de observações (registros)

$X_i$ = valor da i-ésima observação (registro)

In [131]:
df['Idade'].mean()

44.07142113482561

## <font color=green>3.2 Mediana</font>
***

Para obtermos a mediana de uma conjunto de dados devemos proceder da seguinte maneira:
1. Ordenar o conjunto de dados;
2. Identificar o número de observações (registros) do conjunto de dados ($n$);
3. Identicar o elemento mediano:

> Quando $n$ for ímpar, a posição do elemento mediano será obtida da seguinte forma:


# $$Elemento_{Md} = \frac{n+1}2$$

> Quando $n$ for par, a posição do elemento mediano será obtida da seguinte forma:


# $$Elemento_{Md} = \frac{n}2$$

4. Obter a mediana:

> Quando $n$ for ímpar:


# $$Md = X_{Elemento_{Md}}$$

> Quando $n$ for par:


# $$Md = \frac{X_{Elemento_{Md}} + X_{Elemento_{Md}+1}}2$$
***

### Exemplo 1 - n ímpar

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img002.png' width='40%' style="float:left">

In [132]:
df['Idade'].median()

43.0

### Exemplo 2 - n par

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img003.png' width='50%' style="float:left">

In [133]:
df['Idade'].median()

43.0

### Obtendo a mediana em nosso dataset

In [134]:
df['Idade'].median()

43.0

## <font color=green>3.3 Moda</font>
***

Pode-se definir a moda como sendo o valor mais frequente de um conjunto de dados. A moda é bastante utilizada para dados qualitativos.

In [135]:
df['Idade'].mode()

0    40
Name: Idade, dtype: int64

### Obtendo a moda em nosso dataset

## <font color=green>3.4 Relação entre média, mediana e moda</font>
***

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img004.png' width='80%'>

### Avaliando a variável RENDA

***

### Avaliando a variável ALTURA

***

### Avaliando a variável ANOS DE ESTUDO

# <font color=green>4 MEDIDAS SEPARATRIZES</font>
***

## <font color=green>4.1 Quartis, decis e percentis</font>
***

Há uma série de medidas de posição semelhantes na sua concepção à mediana, embora não sejam medidas de tendência central. Como se sabe, a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Já os quartis permitem dividir a distribuição em quatro partes iguais quanto ao número de elementos de cada uma; os decis em dez partes e os centis em cem partes iguais.

0    1
dtype: int64

## <font color=green>4.2 Box-plot</font>
***

O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes (outliers). A posição central é dada pela mediana e a dispersão por $IIQ$. As posições relativas de $Q1$, $Mediana$ e $Q3$ dão uma noção da simetria da distribuição. Os comprimentos das cauda são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos.

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img005.png' width='65%'>

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img006.png' width='80%'>

# <font color=green>5 MEDIDAS DE DISPERSÃO</font>
***

Embora as medidas de posição forneçam uma sumarização bastante importante dos dados, elas podem não ser suficientes para caracterizar conjuntos distintos, especialmente quando as observações de determinada distribuição apresentarem dados muito dispersos.

## <font color=green>5.1 Desvio médio absoluto</font>
***


# $$DM = \frac 1n\sum_{i=1}^{n}|X_i-\bar{X}|$$


## <font color=green>5.2 Variância</font>
***

### Variância

A variância é construída a partir das diferenças entre cada observação e a média dos dados, ou seja, o desvio em torno da média. No cálculo da variância, os desvios em torno da média são elevados ao quadrado.

### Variância populacional

# $$\sigma^2 = \frac 1n\sum_{i=1}^{n}(X_i-\mu)^2$$

### Variância amostral

# $$S^2 = \frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$

## <font color=green>5.3 Desvio padrão</font>
***

Uma das restrições da variância é o fato de fornecer medidas em quadrados das unidades originais - a variância de medidas de comprimento, por exemplo, é em unidades de área. Logo, o fato de as unidades serem diferentes dificulta a comparação da dispersão com as variáveis que a definem. Um modo de eliminar essa dificuldade é considerar sua raiz quadrada.

### Desvio padrão populacional

# $$\sigma = \sqrt{\frac 1n\sum_{i=1}^{n}(X_i-\mu)^2} \Longrightarrow \sigma = \sqrt{\sigma^2}$$

### Desvio padrão amostral

# $$S = \sqrt{\frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2} \Longrightarrow S = \sqrt{S^2}$$