In [1]:
# Importando a biblioteca pandas
import pandas as pd 

# Importando o dataset
df = pd.read_csv('base-de-dados/dados.csv') 

# 💠 Distribuição de frequências

Em uma pesquisa, por mais simples que ela seja, quando coletamos os dados, é fundamental que eles sejam organizados e analisados. A maneira mais comum de analizá-los é entendo como esses dados estão distribuidos.

## ✴️ Frequência absoluta

A frequência absoluta nada mais é que a quantidade de vezes que um mesmo elemento aparece num conjunto de dados. E a frequência absoluta acumulada nada mais é que a soma de frequências absolutas.<br>

Vamos pegar o nosso dataset e análisar as frequências absoluta da coluna **Anos de Estudo**.

In [39]:
freq_abs = df['Anos de Estudo'].value_counts().sort_index()
freq_abs

# Podemos notar que 5849 pessoas possuem apenas 1 ano de estudo

1      5849
2      1388
3      2101
4      2891
5      6729
6      4499
7      2445
8      2689
9      7980
10     1840
11     2118
12    20848
13     1836
14     1253
15     1388
16    10795
17      191
Name: Anos de Estudo, dtype: int64

Para ficar mais intuitivo o intendimento das frequências dos dados vamos criar uma dataframe e mostrar essas informações.

In [51]:
freq = pd.DataFrame({"freq_absoluta":freq_abs})
freq.rename_axis("anos de estudo", axis=1)

anos de estudo,freq_absoluta
1,5849
2,1388
3,2101
4,2891
5,6729
6,4499
7,2445
8,2689
9,7980
10,1840


## ✴️ Frequência Relativa

A frequência relativa nada mais é que a frequência absoluta de um determinado dado divido pela quantidade de dados coletado. É muito comum representar esses dados em forma de porcentagem e para isso basta multiplicar o resultado da operação por 100. A frequência relativa acumulada é a soma de frequências relativas.<br>

Vamos pegar o dataframe sobre a frequência absoluta que criamos no tópico passado e acrescentar a ele uma nova coluna que informa a frequência relativa.

In [57]:
freq['freq_relativa'] = (df['Anos de Estudo'].value_counts(normalize=True)*100).round(2)
freq

Unnamed: 0,freq_absoluta,freq_relativa
1,5849,7.61
2,1388,1.81
3,2101,2.73
4,2891,3.76
5,6729,8.76
6,4499,5.86
7,2445,3.18
8,2689,3.5
9,7980,10.39
10,1840,2.39


## ✴️ Histograma

Um histograma conciste em um gráfico com barras cujo o objetivo é ilustrar como um determinado conjunto de dados está distribuido, onde o eixo horizontal é dividido em pequenos intervalos, demonstrando valores assumidos pela variável de interesse. Já o eixo vertical é proporcional à frequência de observações da amostra onde os valores pertencem a tal intervalo.<br>

Um histograma torna fácil ver onde a maioria dos valores se classificam em uma escala de medição e quanta variação existe entre eles. Veja um exemplo:<br><br>

<img src='https://leansixsigmabrasil.com.br/site/wp-content/uploads/2020/01/Exemplo-de-histograma-de-temperatura.jpg' width = '700' style=float:left>

# 💠 Medidas de tendência central

As medidas de tendencia central servem para descrever um certo conjunto de dados, para encontrar uma tendência central como o titulo ja diz, por isso fazem parte da estatística descritiva.

## ✴️ Média

A média é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto. Como a média é uma medida sensível aos valores da amostra, é mais adequada para situações em que os dados são distribuídos mais ou menos de forma uniforme, ou seja, valores sem grandes discrepâncias.

Vamos calcular a média da coluna **Renda** do nosso dataset.

In [62]:
media = df["Renda"].mean()
media

2000.3831988547631

## ✴️ Moda 


A Moda representa o valor mais frequente de um conjunto de dados, sendo assim, para defini-la basta observar a frequência com que os valores aparecem. É possivel que um conjunto de dados tenha mais de um valor que são repetidos e que possuam a mesma frêquencia.

Para calcular a moda vamos utilizar a coluna **Idade**.

In [65]:
moda = df['Idade'].mode()
moda

0    40
Name: Idade, dtype: int64

A idade que mais se repete nos nosso dados é 40 anos.

## ✴️ Mediana

A Mediana representa o valor central de um conjunto de dados, ou seja, aproximadamente 50% por cento dos dados estão abaixo dela e aproximadamente 50% estão acima dela. Para encontrar o valor da mediana é necessário colocar os valores em ordem crescente.

Quando o número de elementos de um conjunto é par, a mediana é encontrada pela média dos dois valores centrais. Assim, esses valores são somados e divididos por dois. Já quando o número de elementos for ímpar a mediana será o valor central.

Vamos calcular a mediana da coluna do **Altura**.

In [67]:
mediana = df["Altura"].median()
mediana

1.6993247325