# Variância

A variância mede o quão dispersos estão os valores de um conjunto de dados em relação à média. É calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto.

# Desvio Padrão:

O desvio padrão é uma medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão em relação à média. É a raiz quadrada da variância.

In [None]:
import numpy as np

data = [1, 2, 3, 4, 5]

variancia = np.var(data)  # Variância da população
variancia_amostra = np.var(data, ddof=1)  # Variância da amostra

desvio_padrao = np.std(data)  # Desvio padrão da população
desvio_padrao_amostra = np.std(data, ddof=1)  # Desvio padrão da amostra

print(f"Variância: {variancia}")
print(f"Variância da amostra: {variancia_amostra}")
print(f"Desvio padrão: {desvio_padrao}")
print(f"Desvio padrão da amostra: {desvio_padrao_amostra}")


# Quartil:
Quartis são valores que dividem um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) é o ponto abaixo do qual 25% dos dados se encontram, o segundo quartil (Q2) é a mediana (50%), e o terceiro quartil (Q3) é o ponto abaixo do qual 75% dos dados se encontram.
 para determinar Q1, Q2 (mediana) e Q3.
Q1 = 25º percentil, Q2 = 50º percentil (mediana), Q3 = 75º percentil.

# Percentil:

Percentis são valores que dividem um conjunto de dados em 100 partes iguais. Por exemplo, o percentil 90 é o valor abaixo do qual 90% dos dados se encontram.

# Diferença
Quartis e percentis são ambos métodos para dividir um conjunto de dados ordenados em partes, mas a diferença entre eles está no número de divisões e na granularidade dessas divisões.

# Outliers
Sao valores foras do comum , se tiver um acima do outlier superior é um valor fora do comum e abaixo do lower bound tambem

In [None]:
import numpy as np

data = [1, 2, 3, 4, 5]

Q1 = np.quantile(data, 0.25)
Q2 = np.quantile(data, 0.50)  # Mediana
Q3 = np.quantile(data, 0.75)
P90 = np.percentile(data, 90)

# Calculando a diferença interquartil
IQR = Q3 - Q1

print(f"Q1: {Q1}")
print(f"Mediana (Q2): {Q2}")
print(f"Q3: {Q3}")
print(f"90º percentil: {P90}")
print(f"Diferença Interquartil (IQR): {IQR}")

# Calculando os limites para detectar outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# A média geométrica
A média geométrica é uma maneira de calcular a média de um conjunto de números que é mais adequada para dados que se multiplicam ou crescem a uma taxa constante.

Como calcular:
**Multiplique todos os valores do conjunto.**
**Tire a raiz enésima desse produto, onde "n" é o número total de valores**.

In [None]:
from scipy.stats import gmean

data = [1, 2, 3, 4, 5]

media_geometrica = gmean(data)

print(f"Média Geométrica: {media_geometrica}")


# Média Harmônica
A média harmônica é uma maneira de calcular a média que é especialmente útil quando os dados são taxas ou razões.

**Como calcular:**

Pegue o inverso de cada valor (1 dividido pelo valor).
Calcule a média aritmética desses inversos.
Pegue o inverso do resultado obtido no passo 2.
Exemplo:
Para os valores 1, 2, 4:

Inversos:
1
,
1/
2
,
1/
4
1,
2/
1
​
 ,
4/
1
​

Média aritmética dos inversos:
(1
+
1/
2
+
1/
4)//
3
=
1.75/
3
≈
0.583

Inverso de 0.583:

1/
0.583
≈
1.714


In [None]:
from scipy.stats import hmean

data = [1, 2, 3, 4, 5]

media_harmonica = hmean(data)

print(f"Média Harmônica: {media_harmonica}")


# Média Quadrática (ou Média das Raízes Quadradas):

A média quadrática é a raiz quadrada da média dos quadrados dos valores de um conjunto de dados. É especialmente útil quando se quer enfatizar valores maiores.
Média Quadrática
A média quadrática (ou média das raízes quadradas) é útil quando você quer enfatizar valores maiores em um conjunto de dados.

Como calcular:
Eleve cada valor ao quadrado.
Calcule a média desses quadrados.
Tire a raiz quadrada do resultado obtido no passo 2.
Exemplo:
Para os valores 1, 2, 3:

Quadrados:
1^
2
,
2^
2
,
3^
2
=
1
,
4,
9

Média dos quadrados:
(1+4+9)//3
=
4.67


Raiz quadrada de 4.67:

4.67
≈
2.16


In [None]:
import numpy as np

data = [1, 2, 3, 4, 5]

media_quadratica = np.sqrt(np.mean(np.square(data)))

print(f"Média Quadrática: {media_quadratica}")


# Variância
Definição: A variância mede a dispersão dos dados em relação à média. Indica o quão espalhados estão os valores em um conjunto de dados.
Cálculo:
Para uma população:

𝜎
2
=
1/𝑁
∑
𝑖=1(𝑥𝑖−𝜇)^2

Onde
x
i
​

 são os valores,


μ é a média da população,

x é a média da amostra,

N é o tamanho da população e

n é o tamanho da amostra.

Uso: Utilizada para entender a variabilidade dos dados; valores maiores indicam maior dispersão.

In [None]:
import numpy as np

# Conjunto de dados
data = [1, 2, 3, 4, 5]

# Calculando a variância para a população
variancia_populacao = np.var(data)

# Calculando a variância para a amostra
variancia_amostra = np.var(data, ddof=1)
#O DDOF é para ajustar o denominador n=1 que usamos na amostra

print(f"Variância (População): {variancia_populacao}")
print(f"Variância (Amostra): {variancia_amostra}")
