# Estatística com Python - frequências e medidas

## 1 Conhecendo os dados

### 1.1 Dataset do Projeto

#### Pesquisa Nacional por Amostra de Domicílios - 2015

A <b>Pesquisa Nacional por Amostra de Domicílios - PNAD</b> investiga anualmente, de forma permanente, características gerais da população, de educação, trabalho, rendimento e habitação e outras, com periodicidade variável, de acordo com as necessidades de informação para o país, como as características sobre migração, fecundidade, nupcialidade, saúde, segurança alimentar, entre outros temas. O levantamento dessas estatísticas constitui, ao longo dos 49 anos de realização da pesquisa, um importante instrumento para formulação, validação e avaliação de políticas orientadas para o desenvolvimento socioeconômico e a melhoria das condições de vida no Brasil.

##### Fonte dos Dados

https://ww2.ibge.gov.br/home/estatistica/populacao/trabalhoerendimento/pnad2015/microdados.shtm

#### Variáveis utilizadas

##### Renda
Rendimento mensal do trabalho principal para pessoas de 10 anos ou mais de idade.

##### Idade
Idade do morador na data de referência em anos.

##### Altura (elaboração própria)
Altura do morador em metros.

##### UF
|Código|Descrição|
|---|---|
|11|Rondônia|
|12|Acre|
|13|Amazonas|
|14|Roraima|
|15|Pará|
|16|Amapá|
|17|Tocantins|
|21|Maranhão|
|22|Piauí|
|23|Ceará|
|24|Rio Grande do Norte|
|25|Paraíba|
|26|Pernambuco|
|27|Alagoas|
|28|Sergipe|
|29|Bahia|
|31|Minas Gerais|
|32|Espírito Santo|
|33|Rio de Janeiro|
|35|São Paulo|
|41|Paraná|
|42|Santa Catarina|
|43|Rio Grande do Sul|
|50|Mato Grosso do Sul|
|51|Mato Grosso|
|52|Goiás|
|53|Distrito Federal|

##### Sexo	


|Código|Descrição|
|---|---|
|0|Masculino|
|1|Feminino|

##### Anos de Estudo
|Código|Descrição|
|---|---|
|1|Sem instrução e menos de 1 ano|
|2|1 ano|
|3|2 anos|
|4|3 anos|
|5|4 anos|
|6|5 anos|
|7|6 anos|
|8|7 anos|
|9|8 anos|
|10|9 anos|
|11|10 anos|
|12|11 anos|
|13|12 anos|
|14|13 anos|
|15|14 anos|
|16|15 anos ou mais|
|17|Não determinados| 
||Não aplicável|

##### Cor
|Código|Descrição|
|---|---|
|0|Indígena|
|2|Branca|
|4|Preta|
|6|Amarela|
|8|Parda|
|9|Sem declaração|

#### Importando pandas e lendo o dataset do projeto

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('dados.csv')

In [3]:
type(dados)

pandas.core.frame.DataFrame

In [4]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


### 1.2 Tipos de dados

#### Variáveis qualitativas ordinais
Variáveis que podem ser ordenadas ou hierarquizardas

In [5]:
sorted(dados['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

#### Variáveis qualitativas nominais
Variáveis que não podem ser ordenadas ou hierarquizardas

In [6]:
sorted(dados['UF'].unique())

[11,
 12,
 13,
 14,
 15,
 16,
 17,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 31,
 32,
 33,
 35,
 41,
 42,
 43,
 50,
 51,
 52,
 53]

In [7]:
sorted(dados['Sexo'].unique())

[0, 1]

In [8]:
sorted(dados['Cor'].unique())

[0, 2, 4, 6, 8]

#### Variáveis quantitativas discretas
Variáveis que representam uma contagem onde os valores possíveis formam um conjunto finito ou enumerável.

In [9]:
sorted(dados['Idade'].unique())

[13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 24,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 94,
 95,
 97,
 99]

In [15]:
dados.Idade.min()

13

In [16]:
dados.Idade.max()

99

##### <font color='red'>Observação</font>
> A variável idade pode ser classificada de três formas distintas:
> 1. <b>QUANTITATIVA DISCRETA</b> - quando representa anos completos (números inteiros);
> 2. <b>QUANTITATIVA CONTÍNUA</b> - quando representa a idade exata, sendo representado por frações de anos; e
> 3. <b>QUALITATIVA ORDINAL</b> - quando representa faixas de idade.

#### Variáveis quantitativas contínuas
Variáveis que representam uma contagem ou mensuração que assumem valores em uma escala contínua (números reais).

In [10]:
print(f"De {dados['Altura'].min()} até {dados['Altura'].max()}")

De 1.339244614 até 2.028496765


#### Variáveis
* Qualitativas
    1. Ordinais 
    2. Nominais
 -------       
        
        
* Quantitativas
    1. Discretas
    2. Contínuas

## 2 Distribuição de Frequência
O primeiro passo em um trabalho de análise é o conhecimento do comportamento das variáveis envolvidas no estudo. Utilizando técnicas estatísticas como as análises das **DISTRIBUIÇÕES DE FREQUÊNCIAS** e **HISTOGRAMAS** podemos avaliar melhor a forma como os fenômenos em estudo se distribuiem.

### 2.1 Distribuição de frequências para variáveis qualitativas

#### Método 1
Iremos utilizar o método **value_counts()** do pandas
* [Documentação](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.Series.value_counts.html)

In [11]:
dados['Sexo'].value_counts()

0    53250
1    23590
Name: Sexo, dtype: int64

In [12]:
# obtendo a contagem em porcentagem
dados['Sexo'].value_counts(normalize = True) * 100

0    69.299844
1    30.700156
Name: Sexo, dtype: float64

In [13]:
frequencia = dados['Sexo'].value_counts()
percentual = dados['Sexo'].value_counts(normalize = True) * 100

In [14]:
# Montando o DataFrame
distribuicao_frequencia_qualitativas = pd.DataFrame({
    "Frequência": frequencia,
    "Porcentagem (%)": percentual
})
distribuicao_frequencia_qualitativas

Unnamed: 0,Frequência,Porcentagem (%)
0,53250,69.299844
1,23590,30.700156


In [16]:
# Sexo 0 = Masculino
# Sexo 1 = Feminino
distribuicao_frequencia_qualitativas.rename( index = {0: "Masculino", 1: "Feminino"}, inplace = True)
distribuicao_frequencia_qualitativas

Unnamed: 0,Frequência,Porcentagem (%)
Masculino,53250,69.299844
Feminino,23590,30.700156


In [17]:
# Inserindo nome na coluna index
distribuicao_frequencia_qualitativas.rename_axis('Sexo', axis='columns', inplace = True)
distribuicao_frequencia_qualitativas

Sexo,Frequência,Porcentagem (%)
Masculino,53250,69.299844
Feminino,23590,30.700156


#### Método 2
Iremos utilizar o método **crosstab** do pandas
* [Documentação](https://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.crosstab.html)

In [18]:
# Mapeando sexo e cor
sexo = {
    0: "Masculino",
    1: "Feminino"
}

cor = {
    0: "Indígena",
    2: "Branca",
    4: "Preta",
    6: "Amarela",
    8: "Parda",
    9: "Sem declaração"
}

In [19]:
# Cruzar os dados de Sexo e Cor
frequencia = pd.crosstab(dados.Sexo, dados.Cor)
frequencia

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,256,22194,5502,235,25063
1,101,9621,2889,117,10862


In [21]:
# Alterando indice
frequencia.rename(index = sexo, inplace= True)
frequencia

Cor,0,2,4,6,8
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


In [23]:
# Alterando nome das colunas
frequencia.rename(columns = cor, inplace = True)
frequencia

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Feminino,101,9621,2889,117,10862


In [25]:
# cruzando os dados e obtendo as médias
renda_media = pd.crosstab(dados.Sexo, dados.Cor, aggfunc = 'mean', values = dados.Renda)
renda_media.rename(index = sexo, inplace = True)
renda_media.rename(columns = cor, inplace = True)
renda_media

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Feminino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


In [26]:
# cruzando os dados para obter o valor percentual
percentual = pd.crosstab(dados.Sexo, dados.Cor, normalize = True) * 100
percentual.rename(index = sexo, inplace = True)
percentual.rename(columns = cor, inplace = True)
percentual

Cor,Indígena,Branca,Preta,Amarela,Parda
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Feminino,0.131442,12.520822,3.759761,0.152264,14.135867


### 2.2 Distribuição de frequências para variáveis quantitativas (classes personalizadas)

#### Passo 1 - Especificar os limites de cada classe

Para este banco de dados utilizaremos a classificação:

* **A** -> Acima de 20 Salário Minimo
* **B** -> Acima de 20 Salário Minimo
* **C** -> Acima de 20 Salário Minimo
* **D** -> Acima de 20 Salário Minimo
* **E** -> Acima de 20 Salário Minimo