### Coeficiente de variação

O coeficiente de variação é uma medida que nos ajuda a perceber o quanto os dados variam em relação a média - Ele nos traz essa informação em forma de porcentagem o que significa que ao contrário do desvio padrão ele não é influenciado pela unidade de medida do conjunto.

<br/>
$$
CV = \frac{\sigma}{\mu} \times 100
$$

<br/>
Média dividida pelo desvio padrão multiplicado por 100.


#### Como interpretar o Coeficiente de Variação?

O coeficiente de variação serve para entendermos se estamos lidando com dados com alta ou baixa variabilidade:

- Quanto menor o CV, mais regular, estável e consistente é o conjunto de dados.
- Quanto maior o CV, maior é a variação e a instabilidade dos dados em relação à média.

<br/>

(<a href="https://www.todamateria.com.br/coeficiente-de-variacao-o-que-e-e-aprenda-a-calcular-com-exemplos/">Referência</a>)



#### Aplicando o Coeficiente de Variação e interpretando o resultado.

Criando um problema ficticio onde 2 conjuntos representam a produtividade de diferentes equipes de uma empresa, ou seja, um conjunto armazena quantas tarefas uma equipe A concluiu e outro conjunto quantas tarefas a equipe B concluiu - Através do Coeficiente de Variação seremos capazes de afirmar qual equipe oscila menos na quantidade de entregas.

In [1]:
import numpy as np

In [12]:
### Definindo os conjuntos

team_a = np.array([18,20,19,21,22,20,19])
team_b = np.array([5,12,20,30,42,18,25])


### Calculando o desvio padrão de ambos

# 1 - Tira-se a média

mean_team_a = np.mean(team_a)
mean_team_b = np.mean(team_b)

# 2 - Subtraindo os valores do conjunto pela média

team_a_minus_mean = team_a - mean_team_a
team_b_minus_mean = team_b - mean_team_b

# 3 - Resultado da operação anterior elevado ao quadrado

team_a_minus_mean_squared = team_a_minus_mean ** 2
team_b_minus_mean_squared = team_b_minus_mean ** 2

# 4 - Soma-se os valores da operação anterior e divide pelo tamanho do conjunto

variance_team_a = round((np.sum(team_a_minus_mean_squared)) / len(team_a), 2)
variance_team_b = round((np.sum(team_b_minus_mean_squared)) / len(team_b), 2)

sd_team_a = round(variance_team_a ** 0.5, 2)
sd_team_b = round(variance_team_b ** 0.5, 2)


print("Variancia time A", variance_team_a)
print("Variancia time B", variance_team_b)
print()
print("Desvio padrão time A", sd_team_a)
print("Desvio padrão time B", sd_team_b)
print()

# Agora podemos calcular o coeficiente de variação: 

cv_team_a = round((sd_team_a / mean_team_a) * 100,2)
cv_team_b = round((sd_team_b / mean_team_b) * 100,2)

print("Coeficiente de variação time A", cv_team_a)
print("Coeficiente de variação time B", cv_team_b)

Variancia time A 1.55
Variancia time B 125.92

Desvio padrão time A 1.24
Desvio padrão time B 11.22

Coeficiente de variação time A 6.24
Coeficiente de variação time B 51.67


#### Como podemos interpretar os valores acima?

A resposta que chegamos é que:

- Time A tem o CV como 6.24%
- Time B tem o CV como 51.67%

O que podemos afirmar é que o time B é menos consistente em suas entregas, ou seja, é um time com mais altos e baixos se comparado ao time A que tem um nível mais equilibrado de entregas.

#### O Time A entrega mais que o time B?

Não podemos fazer essa afirmação com o Coeficiente de Variação - As percepções que essa medida nos traz é sobre como os valores se comportam em relação a média, ou seja, dado 2 diferentes conjuntos qual tem os dados mais dispersos.

#### Desvio Padrão & Coeficiente de Variação - Quais as diferenças? E o que nos permitem afirmar em relação a um conjunto?


Ambos são medidas que ajudam a entender o quanto os dados estão dispersos em relação à média.

O Desvio Padrão (DP) mostra essa dispersão de forma absoluta, ou seja, na mesma unidade dos dados.

O Coeficiente de Variação (CV) mostra essa dispersão de forma relativa, em percentual, comparando o desvio com o valor da média.

O Desvio Padrão pode ser difícil de interpretar sozinho, porque seu valor depende da escala dos dados. Por exemplo: um DP de 10 é grande ou pequeno?  Se os dados variam entre 1 e 12, 10 é muito. Mas se os dados variam entre 1 e um milhão, 10 é pouco. Por isso, o DP é uma medida que precisa ser analisada dentro do contexto.

Já o Coeficiente de Variação expressa essa variação em percentual, o que facilita comparações entre conjuntos com escalas diferentes. Por exemplo, um CV de 10% indica que, em média, os dados variam 10% em relação à média, independentemente da unidade ou escala dos valores.

#### Um CV de 10% ou um DP de 10 indicam que os dados variam até 10% ou 10 unidades em relação à média?

**Não** - Tanto o DP quanto o CV indicam o quanto os dados se desviam em média da média — não o desvio máximo.

Um CV de 10% significa que, em média, os dados estão a 10% de distância da média.

Um DP de 10 significa que, em média, os dados estão a 10 unidades (na unidade de medida dos dados) de distância da média.