# Estatística

In [47]:
import pandas as pd
import numpy as np

In [3]:
base_original = pd.read_csv('dados.csv')
base_original

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


# Dicionários 

In [4]:
sexo = {0: 'Masculino', 
        1: 'Feminino'}

cor = {0: 'Indígena', 
       2: 'Branca', 
       4: 'Preta', 
       6: 'Amarela', 
       8: 'Parda', 
       9: 'Sem declaração'}

### Variáveis utilizadas

> ### Renda
> ***

Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

> ### Idade
> ***

Idade do morador na data de referência em anos.

> ### Altura (elaboração própria)
> ***

Altura do morador em metros.

> ### UF
> ***

|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

> ### Sexo	
> ***

|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

> ### Anos de Estudo
> ***

|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

> ### Cor
> ***

|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

## 1.Tipos de variáveis
### Qualitativas ordinais

Variáveis não podem ser somadas, entretando, que podem ser hierarquizadas.

In [10]:
sorted(base_original['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

### Qualitativas nominais

Variáveis não podem ser somadas nem podem ser hierarquizadas.

In [21]:
sorted(base_original['UF'].unique())

[11,
 12,
 13,
 14,
 15,
 16,
 17,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 31,
 32,
 33,
 35,
 41,
 42,
 43,
 50,
 51,
 52,
 53]

### Quantitativas discretas

Variáveis que representam uma contagem onde os valores possíveis formam um conjunto finito ou enumerável.

In [15]:
sorted(base_original['Idade'].head(10).unique())

[23, 26, 34, 35, 46, 47, 50, 57, 60]

### Quantitativas contínuas

Variáveis que representam uma contagem ou mensuração que assumem valores em uma escala contínua (números reais).

In [22]:
sorted(base_original['Altura'].head(10).unique())

[1.5700782180000001,
 1.6038076159999999,
 1.608495442,
 1.6379055980000001,
 1.690630954,
 1.7397898269999998,
 1.7604438219999998,
 1.7803288830000001,
 1.783157945,
 1.793202625]

## 2. Distribuição de frequências

### Frequência é a quantidade de vezes que um dado ocorre, com isso, mostrando sua distribuição.

### Frequência do sexo usando value_counts

In [29]:
base_sexo = base_original['Sexo'].value_counts(normalize = True) * 100
base_sexo.rename(index = sexo)

Masculino    69.299844
Feminino     30.700156
Name: Sexo, dtype: float64

### Frequência do sexo usando crosstab

In [36]:
frequencia = pd.crosstab(base_original.Sexo,
                         base_original.Cor,
                        normalize = True) * 100
frequencia.rename(index = sexo, inplace = True)
frequencia.rename(columns = cor, inplace = True)
frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


## 2.1 Distribuição de frequências em variáveis quantitativas

Primeiro deve-se impor limites para as variáveis.

Usaremos a coluna renda para isso.

<b>A</b> ► Acima de 20 SM

<b>B</b> ► De 10 a 20 SM

<b>C</b> ► De 4 a 10 SM

<b>D</b> ► De 2 a 4 SM

<b>E</b> ► Até 2 SM

onde <b>SM</b> é o valor do salário mínimo na época. Em nosso caso <b>R$ 788,00</b> (2015):

<b>A</b> ► Acima de 15.760

<b>B</b> ► De 7.880 a 15.760

<b>C</b> ► De 3.152 a 7.880

<b>D</b> ► De 1.576 a 3.152

<b>E</b> ► Até 1.576

In [40]:
base_original.Renda.min()

0

In [41]:
base_original.Renda.max()

200000

In [42]:
classes = [0, 1576, 3152, 7880, 15760, 200000]

In [43]:
labels = ['E', 'D', 'C', 'B', 'A']

In [46]:
percentual = pd.value_counts(
  pd.cut(x = base_original.Renda,
         bins = classes,
         labels = labels,
         include_lowest = True),
  normalize = True
)
percentual * 100

E    64.751432
D    21.733472
C     9.889381
B     2.834461
A     0.791255
Name: Renda, dtype: float64

## Usando a regra de sturges

#### Regra de Sturges

# $$k = 1 + \frac {10}{3}\log_{10}n$$

In [49]:
n = base_original.shape[0]
n

76840

In [55]:
k = 1 + (10 /3) * np.log10(n)
int(k)

17

In [57]:
percentual = pd.value_counts(
  pd.cut(
      x = base_original.Renda,
      bins = int(k),
      include_lowest = True
  ),
  normalize = True
)
percentual * 100

(-200.001, 11764.706]       98.378449
(11764.706, 23529.412]       1.330036
(23529.412, 35294.118]       0.219938
(35294.118, 47058.824]       0.024727
(47058.824, 58823.529]       0.020822
(94117.647, 105882.353]      0.007808
(58823.529, 70588.235]       0.006507
(70588.235, 82352.941]       0.005206
(188235.294, 200000.0]       0.003904
(117647.059, 129411.765]     0.001301
(82352.941, 94117.647]       0.001301
(105882.353, 117647.059]     0.000000
(176470.588, 188235.294]     0.000000
(129411.765, 141176.471]     0.000000
(141176.471, 152941.176]     0.000000
(152941.176, 164705.882]     0.000000
(164705.882, 176470.588]     0.000000
Name: Renda, dtype: float64

In [60]:
base_exemplo = pd.DataFrame(data = {'Fulano': [8, 10, 4, 8, 6, 10, 8],
                          'Beltrano': [10, 2, 0.5, 1, 3, 9.5, 10],
                          'Sicrano': [7.5, 8, 7, 8, 8, 8.5, 7]}, 
                  index = ['Matemática', 
                           'Português', 
                           'Inglês', 
                           'Geografia', 
                           'História', 
                           'Física', 
                           'Química'])
base_exemplo.rename_axis('Matérias', axis = 'columns', inplace = True)
base_exemplo

Matérias,Fulano,Beltrano,Sicrano
Matemática,8,10.0,7.5
Português,10,2.0,8.0
Inglês,4,0.5,7.0
Geografia,8,1.0,8.0
História,6,3.0,8.0
Física,10,9.5,8.5
Química,8,10.0,7.0


## <font color=green>3.1 Média aritmética</font>
***

É representada por $\mu$ quando se refere à população e por $\bar{X}$ quando se refere à amostra

# $$\mu = \frac 1n\sum_{i=1}^{n}X_i$$

onde 

$n$ = número de observações (registros)

$X_i$ = valor da i-ésima observação (registro)

In [61]:
df['Fulano'].mean()

7.714285714285714

Média salarial

In [63]:
base_original.Renda.mean()

2000.3831988547631