# 1. Medidas de posição e dispersão

In [1]:
import pandas as pd
import numpy as np
import statistics
from scipy import stats
import math

In [2]:
dados = np.array([150,151,152,152,153,154,155,155,155,155,156,156,156,
                 157,158,158,160,160,160,160,160,160,161,161,161,161,162,
                 163,163,164,164,164,165,166,167,168,168,169,170,172])

### Média aritmética simples

In [3]:
# Média aritmética simples

dados.sum()/len(dados)

160.05

In [4]:
# Usando o numpy

dados.mean()

160.05

In [5]:
# Usando o statistics

statistics.mean(dados)

160

#### Moda

In [6]:
# Moda por statistics

statistics.mode(dados)

160

In [7]:
# Demonstra a moda, o valor que mais aparece e quantas vezes

stats.mode(dados)

ModeResult(mode=array([160]), count=array([6]))

#### Mediana

In [8]:
dados_impar = [150, 151, 152, 152, 153, 154, 155, 155, 155]

In [9]:
# Cálculo da posição do valor sendo impar

posicao = len(dados_impar)/2
posicao

4.5

In [10]:
posicao = math.ceil(posicao)
posicao

# Logo a posicao vai ser na 5

5

In [11]:
dados_impar[posicao - 1]

# Valor que está na posicao definida

153

In [12]:
# Cálculo da posicao do valor sendo par

posicao = len(dados)//2
posicao

20

In [13]:
dados[posicao -1], dados[posicao]

(160, 160)

In [14]:
mediana = (dados[posicao-1]+dados[posicao])/2
mediana

160.0

#### Utilizando as bibliotecas

In [15]:
# impar

np.median(dados_impar)

153.0

In [16]:
# par

np.median(dados)

160.0

In [17]:
statistics.median(dados_impar)

153

In [18]:
statistics.median(dados)

160.0

#### Média aritmética ponderada

In [19]:
notas = np.array([9,8,7,3])
pesos = np.array([1,2,3,4])

In [20]:
# manual

(9*1+8*2+7*3+3*4)/(1+2+3+4)

5.8

In [21]:
media_ponderada = (notas * pesos).sum() / pesos.sum()
media_ponderada

5.8

In [22]:
# Calculo atraves do numpy

np.average(notas, weights=pesos)

5.8

# Média aritmética, moda e mediana com a distribuição de frequência (dados agrupados)

In [23]:
dados = {'inferior': [150, 154, 158, 162, 166, 170],
        'superior': [154, 158, 162, 166, 170, 174],
        'fi': [5, 9, 11, 7, 5, 3]}

In [24]:
dataset = pd.DataFrame(dados)

In [25]:
dataset

Unnamed: 0,inferior,superior,fi
0,150,154,5
1,154,158,9
2,158,162,11
3,162,166,7
4,166,170,5
5,170,174,3


In [26]:
# Calculando o ponto médio da classe

dataset['xi'] = (dataset['superior'] + dataset['inferior']) / 2

In [27]:
# Criando uma nova coluna e multiplcando fi * xi

dataset['fi.xi'] = dataset['fi'] * dataset['xi']
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi
0,150,154,5,152.0,760.0
1,154,158,9,156.0,1404.0
2,158,162,11,160.0,1760.0
3,162,166,7,164.0,1148.0
4,166,170,5,168.0,840.0
5,170,174,3,172.0,516.0


In [28]:
# Calculo da frequência acumulada

dataset['Fi'] = 0 
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,0
1,154,158,9,156.0,1404.0,0
2,158,162,11,160.0,1760.0,0
3,162,166,7,164.0,1148.0,0
4,166,170,5,168.0,840.0,0
5,170,174,3,172.0,516.0,0


In [29]:
# Criando a frequencia acumulada

frequencia_acumulada = []
somatorio = 0

for linha in dataset.iterrows(): # iterrows serve para percorrer a linha
    somatorio = somatorio + linha[1][2]
    frequencia_acumulada.append(somatorio)

In [30]:
frequencia_acumulada

[5.0, 14.0, 25.0, 32.0, 37.0, 40.0]

In [31]:
dataset['Fi'] = frequencia_acumulada

In [32]:
dataset

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
0,150,154,5,152.0,760.0,5.0
1,154,158,9,156.0,1404.0,14.0
2,158,162,11,160.0,1760.0,25.0
3,162,166,7,164.0,1148.0,32.0
4,166,170,5,168.0,840.0,37.0
5,170,174,3,172.0,516.0,40.0


In [33]:
# Cálculo da média 

dataset['fi.xi'].sum() / dataset['fi'].sum()

160.7

In [34]:
# Cálculo da moda

# dataset['fi'].max() # Retorna a quantidade de valor que mais aparece

dataset[dataset['fi'] == dataset['fi'].max()] 

Unnamed: 0,inferior,superior,fi,xi,fi.xi,Fi
2,158,162,11,160.0,1760.0,25.0


In [35]:
dataset[dataset['fi'] == dataset['fi'].max()]['xi'].values[0]

160.0

In [36]:
# Calculo da mediana

fi_2 = dataset['fi'].sum() / 2 # Retorna a posição 
limite_inferior, frequencia_classe, id_frequencia_anterior = 0, 0, 0

for linha in dataset.iterrows():
    limite_inferior = linha[1][0]
    frequencia_classe = linha[1][2]
    id_frequencia_anterior = linha[0]
    
    if linha[1][5] >= fi_2:
        id_frequencia_anterior -= 1
        break

In [37]:
limite_inferior, frequencia_classe, id_frequencia_anterior

(158.0, 11.0, 1)

In [38]:
Fi_anterior = dataset.iloc[[id_frequencia_anterior]]['Fi'].values[0]
Fi_anterior

14.0

In [39]:
mediana = limite_inferior + ((fi_2 - Fi_anterior) * 4) / frequencia_classe
mediana

160.1818181818182

## Média geométrica, harmônica e quadrática

#### Média geométrica

In [40]:
from scipy.stats.mstats import gmean

In [41]:
dados = np.array([150,151,152,152,153,154,155,155,155,155,156,156,156,
                 157,158,158,160,160,160,160,160,160,161,161,161,161,162,
                 163,163,164,164,164,165,166,167,168,168,169,170,172])

In [42]:
gmean(dados)

159.9568917355453

### Média Harmônica

In [43]:
from scipy.stats.mstats import hmean

In [44]:
hmean(dados)

159.86408759079328

### Média quadrática

In [45]:
# Implementação de uma função passo a passo, pois não encontrou-se função já feita

def quadratic_mean(dados):
    return math.sqrt(sum(n * n for n in dados) / len(dados))

In [46]:
quadratic_mean(dados)

160.14337326283595

# Implementação dos dados quartis

In [47]:
dados_impar = [150, 151, 152, 152, 153, 154, 155, 155, 155]

In [48]:
q2 = np.median(dados_impar)
print(f"Q2: {q2} e posição 4")

Q2: 153.0 e posição 4


In [49]:
posicao_mediana = math.floor(len(dados_impar)/2)
posicao_mediana

4

In [50]:
esquerda = dados_impar[0:posicao_mediana] # Selecionando os dados a esquerda da mediana
esquerda

[150, 151, 152, 152]

In [51]:
q1 = np.median(esquerda)
print(f'Q1: {q1}')

Q1: 151.5


In [52]:
direita = dados_impar[posicao_mediana:] # Selecionando os dados a direita da mediana
direita

[153, 154, 155, 155, 155]

In [53]:
q3 = np.median(direita)
print(f'Q3: {q3}')

Q3: 155.0


### Utilizando o numpy

In [54]:
np.quantile(dados_impar, 0.5) # 50% da base de dados

153.0

In [55]:
np.quantile(dados_impar, 0.75) # 75% da base de dados

155.0

In [56]:
np.quantile(dados_impar, 0.25) # 25% da base de dados, ele considera tb o valor de 153

152.0

In [57]:
# Com a base de dados completa 

q1 = np.quantile(dados, 0.25) # 25% da base de dados
q2 = np.quantile(dados, 0.5) # 50% da base de dados
q3 = np.quantile(dados, 0.75) # 75% da base de dados

In [58]:
print(f"Mediana do Q1: {q1}") # 25%
print(f"Mediana do Q2: {q2}") # 50%
print(f"Mediana do Q3: {q3}") # 75%

Mediana do Q1: 155.75
Mediana do Q2: 160.0
Mediana do Q3: 164.0


### Utilizando Scipy

In [59]:
stats.scoreatpercentile(dados, 25), stats.scoreatpercentile(dados, 50), stats.scoreatpercentile(dados, 75)

(155.75, 160.0, 164.0)

### Base de dados de acesso a crédito

In [60]:
# Importando base de dados de Acesso a crédito

dataset = pd.read_csv("credit_data.csv")

In [61]:
dataset.columns = ['ID', 'Renda', 'Idade', 'Emprestimo', 'AcessoACredito']

In [62]:
dataset.quantile([0.25, 0.5, 0.75])

Unnamed: 0,ID,Renda,Idade,Emprestimo,AcessoACredito
0.25,500.75,32796.459717,28.990415,1939.708847,0.0
0.5,1000.5,45789.117313,41.317159,3974.719419,0.0
0.75,1500.25,57791.281668,52.58704,6432.410625,0.0


# Percentis 

Vamos abordar outro conceito da estatística que é o percentis. Diz respeito sobre a divisão dos dados em percentuais. 

In [64]:
np.median(dados) # Valor central da base de dados

160.0

In [68]:
# Calculando 5% da base de dados

np.percentile(dados, 5), np.percentile(dados, 10), np.percentile(dados, 90)  

(151.95, 152.9, 168.0)

In [70]:
# utilizando a bibliotecas scipy

stats.scoreatpercentile(dados, 5), stats.scoreatpercentile(dados, 10), stats.scoreatpercentile(dados, 90)

(151.95000000000002, 152.89999999999998, 168.0)

In [72]:
dataset = pd.DataFrame(dados)
dataset.head()

Unnamed: 0,0
0,150
1,151
2,152
3,152
4,153


In [74]:
# Observando os percentis baseado nos dados do dataframe

dataset.quantile([0.05, 0.10, 0.9])

Unnamed: 0,0
0.05,151.95
0.1,152.9
0.9,168.0


## Aplicando os métodos a partir da base de dados de census.csv do EUA

Vamos abordar o estudo sobre análise da média aritmética, média harmônica, média geométrica, média quadrática, a mediana e a moda para os dados de census dos Estados Unidos da América, para a coluna 'age'.

In [75]:
dataframe = pd.read_csv('census.csv')

In [77]:
dataframe.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [79]:
# Média aritmética 

dataframe['age'].mean()

38.58164675532078

In [80]:
# Média harmônica 

hmean(dataframe['age'])

33.91874139089839

In [81]:
# Média geométrica

gmean(dataframe['age'])

36.210879158177256

In [83]:
# Média quadrática 

quadratic_mean(dataframe['age'])

40.9218664329987

In [84]:
# Mediana 

dataframe['age'].median()

37.0

In [85]:
# Moda

dataframe['age'].mode()

0    36
dtype: int64

In [86]:
# Outro modo de calcular a moda

statistics.mode(dataframe['age'])

36