### Medidas de dispersão são medidas estatísticos utilizadas para identificar o grau de variabilidade de um conjunto de dados.

<br>

![alt text](https://www.robertonovaes.com.br/wp-content/uploads/2018/09/variability.jpg)

<br>

### As medidas de dispersão mais comuns são a variância, desvio padrão e coeficiente de variação.

<br>

### Importando a biblioteca pandas (https://pandas.pydata.org)

In [3]:
import pandas as pd

In [2]:
df = pandas.read_csv('BigmacPrice.csv')

In [7]:
df_filtered = df[df['date'] == '2022-07-01']

In [8]:
df_filtered.head()

Unnamed: 0,date,currency_code,name,local_price,dollar_ex,dollar_price
1876,2022-07-01,ARS,Argentina,590.0,129,4.57
1877,2022-07-01,AUD,Australia,6.7,1,6.7
1878,2022-07-01,EUR,Austria,4.35,1,4.35
1879,2022-07-01,AZN,Azerbaijan,4.7,1,4.7
1880,2022-07-01,BHD,Bahrain,1.6,1,1.6


In [9]:
df_filtered.count()

date             70
currency_code    70
name             70
local_price      70
dollar_ex        70
dollar_price     70
dtype: int64

### `Variância`

### A variância é uma medida de dispersão que nos ajuda a entender o quão longe da média os dados estão.

<br>

### Na prática, a variância é a média do quadrado das distâncias entre cada observação e a média.

![alt_text](https://www.onlinemathlearning.com/image-files/population-variance.png)

<br>

Na ciência de dados, a variância é uma ferramenta crucial para compreender a dispersão dos dados em um conjunto. Ela revela o quão dispersos os valores individuais estão em relação à média, fornecendo insights valiosos sobre a variabilidade e a confiabilidade dos dados.

<br>

**Importância da Variância:**

1. **Compreensão da Dispersão dos Dados:** A variância quantifica a dispersão dos dados em torno da média. Um valor alto indica que os dados estão mais espalhados, enquanto um valor baixo indica que os dados estão mais agrupados.

2. **Avaliação da Incerteza:** A variância está intimamente relacionada à incerteza. Um alto valor de variância indica maior incerteza nos dados, enquanto um valor baixo indica maior confiabilidade.

3. **Comparação de Conjuntos de Dados:** A variância permite comparar a dispersão de diferentes conjuntos de dados, facilitando a identificação de conjuntos mais homogêneos ou heterogêneos.

4. **Análise de Desempenho do Modelo:** A variância é crucial na avaliação do desempenho de modelos de machine learning. Altos valores de variância podem indicar overfitting, enquanto baixos valores podem indicar underfitting.

**Exemplos de Resultados de Variâncias Diferentes e Seus Significados:**

**Interpretando Resultados da Variância:**

Para interpretar a variância, é importante considerar o contexto do problema e a escala dos dados.

* **Variância Baixa:** Uma variância baixa indica que os dados estão agrupados em torno da média, sugerindo menor variabilidade e maior previsibilidade. Isso pode ser observado em conjuntos de dados com valores relativamente homogêneos, como altura de alunos em uma mesma faixa etária.

* **Variância Alta:** Uma variância alta indica que os dados estão mais dispersos, com maior variabilidade e incerteza. Isso pode ser observado em conjuntos de dados com valores mais diversos, como notas de alunos em uma turma com diferentes níveis de aprendizado.

* **Comparação entre Conjuntos:** Ao comparar a variância de diferentes conjuntos de dados, o conjunto com maior variância apresenta maior dispersão e variabilidade, enquanto o conjunto com menor variância apresenta dados mais homogêneos e previsíveis.

**Exemplos de Resultados de Variância e seus Significados:**

**Exemplo 1:**

* **Conjunto de dados:** Altura de 100 alunos de uma mesma faixa etária.
* **Variância:** 4 cm².
* **Interpretação:** A baixa variância (4 cm²) indica que os dados estão agrupados em torno da média, sugerindo que a altura dos alunos varia pouco dentro da faixa etária considerada.

**Exemplo 2:**

* **Conjunto de dados:** Notas de matemática de 50 alunos em uma prova.
* **Variância:** 25 pontos².
* **Interpretação:** A variância moderada (25 pontos²) indica que os dados estão dispersos em torno da média, sugerindo que as notas variam entre os alunos, com alguns obtendo notas mais altas e outros obtendo notas mais baixas.

**Exemplo 3:**

* **Conjunto de dados:** Retorno anual de investimentos em diferentes ações ao longo de 10 anos.
* **Variância do Investimento A:** 20%.
* **Variância do Investimento B:** 8%.
* **Interpretação:** A maior variância do Investimento A (20%) em comparação com o Investimento B (8%) indica que o retorno do Investimento A é mais incerto e arriscado, enquanto o Investimento B apresenta um retorno mais previsível e estável.

**Lembre-se:**

* A variância, por si só, não fornece informações completas sobre a distribuição dos dados. É recomendável utilizar outras medidas estatísticas, como o desvio padrão e histogramas, para uma análise mais abrangente.
* A interpretação da variância depende do contexto específico do problema e da escala dos dados.

<br>

### **Por que precisamos elevar ao quadrado?**

#### Queremos medir a distância entre cada observação e a média, mas pode ser que alguma observação seja menor do que a média! Nesse caso, somente fazer a diferença entre a observação e a média daria um valor negativo, e acabaria se anulando com as outras distâncias.



In [10]:
lista_exemplo_variancia = [1 , 2, 3 , 4, 5]

In [11]:
def media(lista):
    return sum(lista)/len(lista)

In [12]:
media(lista_exemplo_variancia)

3.0

In [13]:
1 - 3

-2

In [14]:
(1-3) + (2-3) + (3-3) + (4-3) + (5-3)

0

#### Nesse exemplo, todas as distâncias se anulariam e diríamos que os dados não tem variação alguma, o que não é verdade!

In [15]:
(1-3)**2 + (2-3)**2 + (3-3)**2 + (4-3)**2 + (5-3)**2

10

### Quando elevamos um número ao quadrado, o resultado é sempre positivo e por isso elevamos as diferenças ao quadrado no caso da variância!

In [16]:
def variancia_amostral(lista):
    media_lista = media(lista)
    tamanho_lista = len(lista)

    lista_distancias_quadradas = []
    for observacao in lista:
        distancia_quadrada = (observacao - media_lista) ** 2
        lista_distancias_quadradas.append(distancia_quadrada)

    variancia = sum(lista_distancias_quadradas)/tamanho_lista

    return variancia

In [17]:
variancia_amostral(lista_exemplo_variancia)

2.0

### **Podemos usar um pacote pronto para calcular a variância, não é necessário implementar toda vez**

In [18]:
import numpy as np

In [19]:
np.var(lista_exemplo_variancia)

2.0

### Voltando para o exempolo do preço do Big Mac no mundo, em dólares

Com Numpy:

In [28]:
np.var(df_filtered['dollar_price'], ddof = 1) ## Amostral

1.8311856107660458

In [29]:
np.var(df_filtered['dollar_price'], ddof = 0) ## Populacional

1.8050258163265307

Com Pandas

In [30]:
df_filtered['dollar_price'].var(ddof = 1) ## Amostral

1.8311856107660458

In [31]:
df_filtered['dollar_price'].var(ddof = 0) ## Amostral

1.8050258163265307

### Assim como a média, a variância é facilmente influenciada por valores extremos!

### Lista equilibrada

In [32]:
lista_alturas_1 = [1.67, 1.72, 1.70, 1.69, 1.74, 1.71]

In [33]:
media(lista_alturas_1)

1.705

In [38]:
np.var(lista_alturas_1, ddof = 1)

0.000590000000000001

### Lista mais espaçada

In [34]:
lista_alturas_2 = [1.60, 1.66, 1.72, 1.69, 1.78, 1.77]

In [35]:
media(lista_alturas_2)

1.7033333333333331

In [37]:
np.var(lista_alturas_2, ddof = 1)

0.004666666666666666

### Lista com uma altura bem menor do que as outras

In [39]:
lista_alturas_3 = [1.20, 1.72, 1.70, 1.69, 1.74, 1.71]

In [40]:
media(lista_alturas_3)

1.626666666666667

In [42]:
np.var(lista_alturas_3, ddof = 1)

0.04398666666666667

### Lista com uma altura bem maior do que as outras

In [43]:
lista_alturas_4 = [1.67, 1.72, 1.70, 1.69, 1.74, 2.24]

In [44]:
media(lista_alturas_4)

1.7933333333333332

In [46]:
np.var(lista_alturas_4, ddof = 1)

0.04846666666666671

### `Desvio Padrão`

## No cálculo da variância, elevamos as diferenças ao quadrado para que as distaâncias sejam positivas. Entretanto, ao fazer isso, a variância acaba ficando numa escala diferente dos dados, porque está em uma escala quadrática. Por isso, utilizamos o `desvio padrão`, que nada mais é do que a raiz quadrada da variância.

<br>


![alt_text](https://toptipbio.com/wp-content/uploads/2021/09/Standard-deviation-formula.jpg)

## O Desvio Padrão na Ciência de Dados: Desvendando a Variabilidade dos Dados

O desvio padrão é um conceito fundamental em estatística e ciência de dados, fornecendo uma medida crucial da **dispersão** dos dados em torno da média. Ele nos revela quão **variáveis** os valores individuais estão em relação à média, ajudando a compreender a **distribuição** e o **comportamento** dos dados.

**Compreendendo a Importância do Desvio Padrão:**

1. **Avaliação da Dispersão:** O desvio padrão quantifica a **distância média** entre cada ponto de dado e a média. Um desvio padrão alto indica que os dados estão mais **espalhados**, enquanto um desvio padrão baixo indica que os dados estão mais **agrupados** em torno da média.

2. **Análise de Risco e Incerteza:** Em cenários de negócios ou investimentos, o desvio padrão representa o nível de **risco e incerteza** associado a um conjunto de dados. Um desvio padrão alto indica maior **risco e incerteza**, enquanto um desvio padrão baixo indica menor **risco e maior previsibilidade**.

3. **Comparação de Conjuntos de Dados:** O desvio padrão permite **comparar a variabilidade** de diferentes conjuntos de dados. Isso pode ser útil para avaliar a **homogeneidade** dos dados ou identificar conjuntos de dados com características distintas.

4. **Detecção de Anomalias e Outliers:** Valores extremos ou **outliers** podem distorcer a média e mascarar a variabilidade real dos dados. A análise do desvio padrão pode ajudar a identificar outliers e investigar suas causas.

<br>

**Interpretando Resultados do Desvio Padrão:**

A interpretação do desvio padrão depende do contexto do problema e da **escala** dos dados.

* **Desvio Padrão Baixo:** Um desvio padrão baixo indica que os dados estão **próximos da média**, sugerindo menor variabilidade e maior previsibilidade. Isso pode ser observado em conjuntos de dados com valores relativamente homogêneos, como altura de alunos em uma mesma faixa etária.

* **Desvio Padrão Alto:** Um desvio padrão alto indica que os dados estão mais **dispersos**, com maior variabilidade e incerteza. Isso pode ser observado em conjuntos de dados com valores mais diversos, como notas de alunos em uma turma com diferentes níveis de aprendizado.

* **Comparação entre Conjuntos:** Ao comparar o desvio padrão de diferentes conjuntos de dados, o conjunto com maior desvio padrão apresenta maior **dispersão e variabilidade**, enquanto o conjunto com menor desvio padrão apresenta dados mais **homogêneos e previsíveis**.

<br>

**Exemplos de Resultados do Desvio Padrão e seus Significados:**

<br>

**Exemplo 1:**

* **Conjunto de dados:** Altura de 100 alunos de uma mesma faixa etária.
* **Desvio Padrão:** 5 cm.
* **Interpretação:** O desvio padrão baixo (5 cm) indica que os dados estão próximos da média, sugerindo que a altura dos alunos varia pouco dentro da faixa etária considerada.

<br>

**Exemplo 2:**

* **Conjunto de dados:** Notas de matemática de 50 alunos em uma prova.
* **Desvio Padrão:** 10 pontos.
* **Interpretação:** O desvio padrão moderado (10 pontos) indica que os dados estão dispersos em torno da média, sugerindo que as notas variam entre os alunos, com alguns obtendo notas mais altas e outros obtendo notas mais baixas.

<br>

**Exemplo 3:**

* **Conjunto de dados:** Retorno anual de investimentos em diferentes ações ao longo de 10 anos.
* **Desvio Padrão do Investimento A:** 25%.
* **Desvio Padrão do Investimento B:** 8%.
* **Interpretação:** O maior desvio padrão do Investimento A (25%) em comparação com o Investimento B (8%) indica que o retorno do Investimento A é mais **incerto e arriscado**, enquanto o Investimento B apresenta um retorno mais **previsível e estável**.

<br>

**Considerações Importantes:**

* O desvio padrão é **sensível a outliers**. Valores extremos podem distorcer o desvio padrão, afetando sua interpretação. É importante considerar a presença de outliers antes de analisar o desvio padrão.

* O desvio padrão é **medido na mesma unidade dos dados originais**. Isso facilita a comparação entre diferentes conjuntos de dados com a mesma escala.

* O desvio padrão deve ser utilizado em conjunto com outras medidas estatísticas, como a **média** e o **histograma**, para uma análise mais completa da distribuição dos dados.

<br>

Lembre-se: O desvio padrão, por si só, não revela toda a história dos dados. Para uma análise mais completa, combine-o com outras medidas estatísticas, como variância, histograma e boxplot.

Ao dominar o desvio padrão, você estará munido de uma ferramenta poderosa para desvendar os segredos da dispersão dos dados em seu projeto de Data Science, permitindo análises mais precisas, decisões mais informadas e descobertas mais significativas.

<br>

**Conclusão:**
<br>
Desvio Padrão: Um Aliado Essencial para Data Scientists:
<br><br>
O desvio padrão, junto à variância, torna-se um aliado fundamental para Data Scientists em diversas tarefas:
<br>
Análise da Distribuição dos Dados: Avaliar se os dados seguem uma distribuição normal (em forma de sino) ou se apresentam assimetrias.
Identificação de Anomalias: Detectar outliers, valores extremos que podem distorcer a análise.
<br><br>
Comparação de Conjuntos de Dados: Comparar a variabilidade de diferentes conjuntos de dados para identificar similaridades ou diferenças.
Estimativa da Precisão de Modelos: Avaliar a precisão de modelos preditivos e a confiabilidade das previsões.
<br>
Dominando o Desvio Padrão e a Variância: Uma Jornada Essencial em Data Science:
<br><br>
Ao desvendar os segredos do desvio padrão e da variância, Data Scientists ganham ferramentas poderosas para navegar na complexa paisagem dos dados, extraindo informações valiosas que guiam decisões mais assertivas em diversos campos.
<br><br>
Lembre-se: a jornada de dominar o desvio padrão e a variância é essencial para se tornar um mestre em Data Science!


### Vamos ver um exemplo do cálculo do desvio padrão

![alt_text](https://1.bp.blogspot.com/-uuORHtcAzvM/V0Hyje4xMQI/AAAAAAAACNY/U9NlBu-FQxQDZxYpgtoONviPXO8q9RgIQCLcB/s1600/chat.jpg)


### Desvio padrão com pandas

In [49]:
df_filtered['dollar_price'].std() ## Esse é o desvio padrão do preço do Big Mac no mundo, em dólares

1.3532130692415167

### Desvio padrão com o Numpy

In [48]:
np.std(df_filtered['dollar_price'])

1.3435124920619572

### Como o desvio padrão é a raiz quadrada da variância, ele também vai, assim como a média, ser facilmente influenciada por valores extremos.

### `Coeficiente de Variação`

### Com o desvio padrão, temos uma medida de dispersão na mesma escala dos nossos dados. Entretanto, como saber se os dados são muito variados ou pouco? Como saber se o nosso desvio padrão é pequeno ou grande? Para isso, temos o `Coeficiente de Variação`!

<br>

![image.png](attachment:image.png)
<br><br>
CV <= 15%  -----------------> Fraca dispersão;<br>
CV < 15% <= 30%  ------> Moderada dispersão;<br>
CV > 30% -------------------> Forte dispersão

<br>

No universo da Data Science, o **coeficiente de variação (CV)** surge como um herói improvável, mas crucial, para desvendar os mistérios da dispersão dos dados. Essa medida estatística, muitas vezes subestimada, revela informações valiosas sobre a variabilidade relativa dos dados, especialmente quando comparamos conjuntos de dados com unidades de medida diferentes.

**A Magia do Coeficiente de Variação:**

Imagine dois conjuntos de dados: as alturas de alunos em centímetros e seus respectivos pesos em quilogramas. Qual conjunto apresenta maior dispersão em relação à sua média? A intuição pode falhar, mas o CV está aqui para nos salvar!

Ele padroniza a dispersão, expressando-a em porcentagem, permitindo comparações justas entre conjuntos com unidades distintas. É como ter um superpoder que torna tudo comparável!

**Desvendando os Segredos do CV:**

O CV é calculado dividindo-se o desvio padrão pela média e multiplicando-se por 100. Simples assim!

* **Valores baixos de CV (até 30%)**: Indicam que os dados estão relativamente agrupados em torno da média, revelando baixa dispersão.
* **Valores altos de CV (acima de 30%)**: Indicam que os dados estão mais dispersos, com maior variabilidade em relação à média.

**Exemplos para Dominar a Linguagem do CV:**

**Exemplo 1: Alturas e Pesos dos Alunos:**

* **Altura:**
    * Média: 160 cm
    * Desvio Padrão: 10 cm
    * CV: 6,25%
* **Peso:**
    * Média: 60 kg
    * Desvio Padrão: 15 kg
    * CV: 25%
* **Interpretação:** Apesar do maior desvio padrão para o peso, o CV revela que a altura dos alunos apresenta menor dispersão relativa (CV de 6,25%) em comparação com o peso (CV de 25%). Ou seja, em termos proporcionais, a altura apresenta valores mais próximos da média do que o peso.

**Exemplo 2: Retornos de Investimentos:**

* **Investimento A:**
    * Retorno médio anual: 10%
    * Desvio Padrão: 15%
    * CV: 150%
* **Investimento B:**
    * Retorno médio anual: 5%
    * Desvio Padrão: 3%
    * CV: 60%
* **Interpretação:** Apesar do maior retorno médio do Investimento A, o CV indica que o Investimento B apresenta menor risco relativo (CV de 60%) em comparação com o Investimento A (CV de 150%). Ou seja, proporcionalmente ao seu retorno médio, o Investimento B apresenta menor dispersão dos retornos anuais.

**O Coeficiente de Variação: Um Campeão em Data Science:**

O CV se destaca como um campeão em Data Science, especialmente em situações como:

* **Comparação de Conjuntos de Dados com Unidades Diferentes:** Permite comparar a dispersão relativa de dados com unidades de medida distintas, facilitando a análise e a tomada de decisões.
* **Avaliação do Risco em Investimentos:** Auxilia na avaliação do risco relativo de diferentes investimentos, comparando a dispersão dos retornos em relação à sua média.
* **Análise da Eficiência de Processos:** Permite comparar a variabilidade de diferentes processos industriais ou de prestação de serviços, identificando áreas para otimização.

**Dominando o Coeficiente de Variação: Uma Jornada Essencial para Data Scientists:**

Ao dominar o coeficiente de variação, Data Scientists ganham uma ferramenta poderosa para navegar na complexa paisagem dos dados, extraindo insights valiosos que guiam decisões mais assertivas em diversos campos.

Lembre-se: a jornada de dominar o CV é essencial para se tornar um mestre em Data Science!




### O coeficiente de variação é o quociente entre o desvio padrão e a média e, já que multiplicamos por 100, ele vira uma porcentagem. Quanto maior essa porcentagem, podemos dizer que mais distantes da média os dados estão e, consequentemente, mais variados os dados estão.

#### Vamos calcular o coeficiente de variação do preço do Big Mac em dólares

In [50]:
coeficiente_variacao_big_mac = 100 * df_filtered['dollar_price'].std()/df_filtered['dollar_price'].mean()
coeficiente_variacao_big_mac

33.800148027441985

In [51]:
#### Os dados são bastante dispersos!