<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Medidas_de_posi%C3%A7%C3%A3o_e_dispers%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estatística com Python: Um Guia para Estudos e Solução de Problemas


# **Medidas de posição e dispersão**

**Breve Resumo:**

As medidas de posição e dispersão são ferramentas estatísticas essenciais que fornecem informações sobre a tendência central e a variabilidade de um conjunto de dados.

**Quando Utilizar:**

- Para compreender a concentração dos dados em torno de um valor central, utilizando medidas como média, mediana e moda.
- Ao explorar a extensão dos dados e avaliar o quanto os valores se afastam da tendência central, utilizando medidas de dispersão como desvio padrão e amplitude interquartil.
- Em situações em que é necessário comparar diferentes conjuntos de dados ou avaliar a consistência e a variabilidade em uma série temporal.
- Para identificar outliers que podem impactar significativamente as análises estatísticas.
- Na construção de intervalos de confiança para avaliar a precisão das estimativas em torno de uma medida central.

## **Média aritmética, Moda e Mediana**

É possível realizar os cálculos dessa medida manualmente, por assim dizer. No entanto, utilizaremos bibliotecas para facilitar essa parte. Portanto, o primeiro passo é realizar a importação das mesmas.

In [None]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Funções estatísticas
import statistics

# Biblioteca para cálculo matématicos
import math

Gerando dados fictícios.

In [None]:
# Criando uma tabela
dados = np.array([150, 151, 152, 152, 153, 154, 155, 155, 155, 155, 156, 156, 156,
                  157, 158, 158, 160, 160, 160, 160, 160, 161, 161, 161, 161, 162,
                  163, 163, 164, 164, 164, 165, 166, 167, 168, 168, 169, 170, 172,
                  173])

### *Média*

Breve Resumo:

A média aritmética é uma medida que representa o valor médio de um conjunto de dados, sendo útil para obter uma representação central em distribuições aproximadamente simétricas, sem a presença de valores extremos que possam distorcer o resultado (outliers).

Quando Utilizar:

- Para calcular uma representação central de um conjunto de dados.
- Quando se trabalha com dados numéricos que seguem uma distribuição simétrica.
- Em situações em que os valores extremos não têm um impacto desproporcional no resultado desejado.
- Em análises estatísticas simples onde a tendência central é a principal preocupação.

In [None]:
# Calculando a média e armazenando em uma variável
media = dados.mean()

# Exibindo a média
media

160.375

### *Mediana*

Breve Resumo:

A mediana, medida de posição em dados ordenados, é valiosa em distribuições onde outliers podem afetar a interpretação da média aritmética. Divide o conjunto em duas partes iguais, sendo o valor central quando os dados estão ordenados. Essencial em cenários onde robustez contra outliers é desejada.

Quando Utilizar:

- Em distribuições onde a presença de outliers pode afetar significativamente a média aritmética.
- Em conjunto com a média para avaliar a dispersão e simetria dos dados.
- Em situações em que se deseja uma medida de posição que seja menos sensível a valores extremos.
- Para compreender a distribuição central dos dados em diferentes cenários estatísticos.

In [None]:
# Calculando a mediana e armazenando em uma variável
mediana = np.median(dados)

# Exibindo a mediana
mediana

160.0

### *Moda*

Breve Resumo:

A moda representa o valor mais frequente em um conjunto de dados. Útil para identificar padrões e tendências de repetição nos dados. Enquanto média e mediana focam em valores centrais, a moda destaca valores mais recorrentes na distribuição.






Quando Utilizar:

- Para identificar o valor mais frequente em um conjunto de dados.
- Destacar padrões e repetições na distribuição.
- Em situações onde a frequência de ocorrência dos dados é crucial.
- Complementar informações fornecidas pela média e mediana.

In [None]:
# Calculando a moda e armazenando em uma variável
moda = statistics.mode(dados)

# Exibindo a moda
moda

160

Exibindo todos os valores.


In [None]:
print(f"A média de desses dados é igual a: {media}, a mediana é: {mediana} e a moda é: {moda}")

A média de desses dados é igual a: 160.375, a mediana é: 160.0 e a moda é: 160



Interessante observar que, já que os dados não têm valores exorbitantes (outliers), a média e a mediana estão bem parelhas.

## **Média ponderada**

Breve Resumo:

A média ponderada é uma medida de tendência central que ajusta os valores de um conjunto de dados com base em diferentes pesos atribuídos a cada elemento. Essa técnica é útil quando certos elementos têm maior importância, fornecendo uma representação mais precisa dos dados.

Quando Utilizar:

- Em situações onde alguns elementos do conjunto têm maior relevância que outros.
- Quando é necessário considerar a importância ou peso de cada valor na média final.
- Em cálculos que exigem uma representação mais precisa dos dados, levando em conta a influência de determinados elementos.
- Em contextos nos quais a média aritmética tradicional não reflete adequadamente a contribuição real de cada elemento.


Gerando dados

In [None]:
# criando um array
notas = np.array([9, 8, 7, 3])

# criando um array
pesos = np.array([1, 2, 3, 4])

Para calcular a média, será utilizada uma função do numpy, passando como parâmetros o vetor das notas e o vetor peso, referente aos bimestres neste caso.

In [None]:
# Calculando a média ponderada
media_ponderada = np.average(notas, weights=pesos)

# Exibindo a média ponderada
media_ponderada

5.8

## **Média harmônica**

Breve Resumo:

A média harmônica é uma medida estatística que difere da média aritmética tradicional. Ela é calculada como o inverso da média dos inversos dos valores.

A média harmônica pode ser utilizada em situações onde a ênfase em valores menores é crítica, como no cálculo de métricas de desempenho em problemas de classificação desbalanceada, onde a classe minoritária é crucial.

Importando o pacote

In [None]:
# Realizando a importação da biblioteca para cálculo da média harmônica
from scipy.stats.mstats import hmean

In [None]:
# Realizando o cálculo  da média
hmean(dados)

160.1647194799467

A média harmonica é uma medida de tendência central que leva em consideração a importância relativa dos números. Se os números são todos iguais, a média harmonica será igual à média aritmética. Se os números são mais dispersos, a média harmonica será mais diferente da média aritmética.

## **Média geométrica**


Breve Resumo:

A média geométrica é uma medida de tendência central que é obtida extraindo-se a raiz n-ésima da multiplicação dos n termos positivos de um conjunto de dados. Ela é útil para entender a variabilidade e posição relativa dos valores, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.

Quando Utilizar:

- Na análise de dados para avaliar a variabilidade e identificar padrões, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados, especialmente em conjuntos de dados com valores positivos que se comportam como progressões geométricas.

Importando o pacote necessário para o cálculo dessa média.

In [6]:
# Importando a biblioteca
from scipy.stats.mstats import gmean

In [None]:
# Realizando o cálculo
gmean(dados)

160.26958390038905

A média geométrica é uma medida de tendência central que leva em consideração a ordem dos números. Se os números estão próximos uns dos outros, a média geométrica será mais próxima da média aritmética. Se os números estão mais dispersos, a média geométrica será mais diferente da média aritmética.

## **Média quadrática**

Breve Resumo:

A média quadrática é uma medida de tendência central que é obtida calculando-se a raiz quadrada da média aritmética dos quadrados dos valores de um conjunto de dados. Ela é útil para entender a variabilidade e posição relativa dos valores, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.

Quando Utilizar:

- Na análise de dados para avaliar a variabilidade e identificar padrões, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados, especialmente em conjuntos de dados com valores positivos ou negativos que são distribuídos de forma simétrica.

Criando função para realizar o cálculo dessa média.

In [5]:
# Calculando a média quadrática
def quadratic_mean(dados):
  return math.sqrt(sum(n * n for n in dados) / len(dados))

In [None]:
# Aplicando a função
quadratic_mean(dados)

160.48091786876097

É possível observar que a mediana e a média quadrática estão bem próximas. Isso pode indicar que os dados estão bem simétricos. Por mais que sejam em sua maior parte diferentes, eles não estão concentrados em um mesmo ponto.

## **Quartis**

Breve Resumo:

Os quartis dividem um conjunto de dados em quatro partes iguais, fornecendo insights sobre a dispersão e simetria. Q1 indica o 25% inferior, Q3 o 75% inferior e Q2 é a mediana. São úteis para entender a variabilidade e posição relativa dos valores.

Quando Utilizar:

- Na análise de dados para avaliar a dispersão e identificar padrões.

- Em situações onde se busca compreender a distribuição dos dados em diferentes partes.

- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados.

### *Numpy*

Nesta parte, os quartis serão calculados utilizando a biblioteca do NumPy.

In [None]:
# Calculando o Q1
q1 = np.quantile(dados, 0.25)

# Calculando o Q2
q2 = np.quantile(dados, 0.50)

# Calculando o Q3
q3 = np.quantile(dados, 0.75)

In [None]:
print(f"O Q1 é igual a: {q1}, o Q2 é igual a: {q2} e o Q3 é igual a {q3}")

O Q1 é igual a: 155.75, o Q2 é igual a: 160.0 e o Q3 é igual a 164.0


Podemos concluir que:
- 25% dos dados são menores ou iguais a 155.75,
- 50% dos dados são menores ou iguais a 160.0 e
- 75% dos dados são menores ou iguais a 164.0.

### *Pandas*

Utilizarei o Pandas para realizar o cálculo dos quartis.

In [None]:
# Transformando os dados em um Dataframe
df = pd.DataFrame(dados)

# Observando os dados
df.head()

Unnamed: 0,0
0,150
1,151
2,152
3,152
4,153


In [None]:
# Pegando os quartis, note que é possivél passar uma lista com os quartis desejados
df.quantile([0.25, 0.5, 0.75])

Unnamed: 0,0
0.25,155.75
0.5,160.0
0.75,164.0


Como os dados estão em um formato de DataFrame, é possível utilizar a função 'describe', que fornece várias estatísticas descritivas, incluindo quartis.

In [None]:
# Obtendo uma visão geral estatística dos dados
df.describe()

Unnamed: 0,0
count,40.0
mean,160.375
std,5.903877
min,150.0
25%,155.75
50%,160.0
75%,164.0
max,173.0


Ao utilizar a função **describe** em Pandas, podemos extrair informações valiosas sobre a distribuição dos dados:

- **Contagem (count):** Indica o número de entradas não nulas em nosso conjunto de dados.
- **Média (mean):** Representa a média aritmética dos valores, fornecendo um ponto de referência central.
- **Desvio padrão (std):** Oferece uma medida de dispersão, indicando o quão distantes os valores estão da média.
- **Valor Mínimo (min):** Aponta para o menor valor existente em nossos dados.
- **25º Percentil (25%):** Refere-se ao primeiro quartil, representando o valor abaixo do qual 25% dos dados estão concentrados.
- **50º Percentil (50%):** Denominado mediana, indica o ponto médio dos dados quando ordenados.
- **75º Percentil (75%):** Corresponde ao terceiro quartil, indicando o valor abaixo do qual 75% dos dados estão situados.
- **Valor Máximo (max):** Indica o maior valor presente em nossos dados.

Essas estatísticas proporcionam uma visão abrangente da distribuição e variabilidade dos dados, sendo essenciais para compreender a forma e características principais do conjunto de dados.


## **Percentis**

Breve Resumo:

Os percentis são medidas que dividem um conjunto de dados em 100 partes iguais, fornecendo insights sobre a dispersão, simetria e posição relativa dos valores. O percentil 25 indica o 25% inferior, o percentil 75 indica o 75% inferior e o percentil 50 é a mediana.

Quando Utilizar:

- Na análise de dados para avaliar a dispersão, identificar padrões e comparar grupos.
- Em situações onde se busca compreender a distribuição dos dados em diferentes partes.
- Em análises exploratórias para entender a posição relativa dos valores em um conjunto de dados.

In [None]:
# Percentil de 25%
percentil25 = np.percentile(dados, 25)

# Obetendo a mediana
percentil50 = np.percentile(dados, 50)

# Percentil de 75%
percentil75 = np.percentile(dados, 75)

In [None]:
print(f"O percentil 25% é igual a: {percentil25}, o percentil 50% é igual a: {percentil50} e o percentil 75% é igual a: {percentil75}")

O percentil 25% é igual a: 155.75, o percentil 50% é igual a: 160.0 e o percentil 75% é igual a: 164.0


Levando em consideração que esses dados se referem a alturas em centímetros, então é correto afirmar que 25% dos dados têm a altura girando em torno de 155 centímetros, enquanto 50% gira em torno de 160 e cerca de 75% da base tem altura inferior a 164 centímetros.

## **Desafio**

O objetivo desta tarefa é gerar as estatísticas para o atributo age da base de dados do censo

- Carregue o arquivo census.csv

- Calcule a média aritmética, média harmônica, média geométrica, média quadrática, a mediana e a moda. Compare os resultados

### *Carregando os dados*

In [7]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Importando os pacotes necessários.

In [8]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Funções estatísticas
import statistics

# Biblioteca para cálculo matématicos
import math

In [9]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/census.csv')

In [10]:
# Observando os dados
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


### *Calculando a média, mediana e a moda*

Esses cálculos devem ser realizados em uma coluna específica chamada 'age'. Dito isso, os cálculos que serão executados irão ser utilizando ela como base.

In [11]:
# Calculando a média
media = round(df['age'].mean(), 2)

# Calculando a mediana
mediana = df['age'].median()

# Calculando a moda
moda = df['age'].mode()

In [12]:
print(f"A média é igual a: {media}\nA mediana é igual a: {mediana}\nA moda é igual a: {moda}")

A média é igual a: 38.58
A mediana é igual a: 37.0
A moda é igual a: 0    36
Name: age, dtype: int64


É possível notar que a média e a mediana não estão tão distantes assim, demonstrando assim que os dados não possuem tantos outliers que estejam afetando grandemente a média. A moda desse conjunto de dados é 36, indicando que a maior parte dessa base de dados possui 36 anos.

### *Calculando a média geométrica, média harmônica, média quadrática*

Importando os pacotes

In [13]:
# Realizando a importação da biblioteca para cálculo da média harmônica
from scipy.stats.mstats import hmean

# Importando a biblioteca para calcular a média geométrica
from scipy.stats.mstats import gmean

Criando função para média quadrática

In [14]:
# Função para calcular a média quadrática
def quadratic_mean(dados):
  return math.sqrt(sum(n * n for n in dados) / len(dados))

Realizando os cálculos

In [20]:
# Calculando a média geométrica
media_geometrica = round(gmean(df['age']), 2)

# Calculando a média harmônica
media_harmonica = round(hmean(df['age']), 2)


# Calculando a média quadrática
media_quadratica = round(quadratic_mean(df['age']), 2)

In [24]:
print(f"A média geométrica é igual a: {media_geometrica}\nA média harmônica é igual a: {media_harmonica}\nA média quadrática a: {media_quadratica}")

A média geométrica é igual a: 36.21
A média harmônica é igual a: 33.92
A média quadrática a: 40.92


- A média geométrica de 36,21 está próxima da mediana que é de 37. Isso pode indicar que a presença de outliers não está afetando tanto a média geométrica.

- A média harmônica foi de 33,92, sendo menor que a mediana e que a média geométrica. Isso indica que possivelmente outliers estão afetando essa média.

- A média quadrática é de 40,92, sendo maior que todas as outras métricas. O que pode significar que outliers estão influenciando essa média.

Observando todas as métricas juntas.

In [25]:
print(f"A média é igual a: {media}\nA mediana é igual a: {mediana}\nA moda é igual a: {moda}")

print("-------------------------")

print(f"A média geométrica é igual a: {media_geometrica}\nA média harmônica é igual a: {media_harmonica}\nA média quadrática a: {media_quadratica}")

A média é igual a: 38.58
A mediana é igual a: 37.0
A moda é igual a: 0    36
Name: age, dtype: int64
-------------------------
A média geométrica é igual a: 36.21
A média harmônica é igual a: 33.92
A média quadrática a: 40.92


**Conclusão**

- A média de 38,58 indica que, em média, as pessoas do conjunto de dados têm 38 anos. A mediana de 37 indica que metade das pessoas do conjunto de dados tem 37 anos ou menos e metade tem 37 anos ou mais. A moda de 36 indica que a idade mais comum entre as pessoas do conjunto de dados é 36 anos.

- A média harmônica é menor que a média geométrica e a mediana, o que indica que os dados estão relativamente dispersos. A média quadrática é maior que a média geométrica e a mediana, o que também indica que os dados estão relativamente dispersos.