### Regressão em direção à média - artigo da Medium

https://medium.com/data-bistrot/descriptive-statistics-with-python-learning-day-6-acd406a16c19

  - artigo de: Gianpiero Andrenacci
  - 2024, Agosto

### A regressão em direção à média: Francis Galton

https://en.wikipedia.org/wiki/Francis_Galton

https://en.wikipedia.org/wiki/Regression_toward_the_mean


### Pais mais altos geram filhos mais altos: correto?

### Não.

### Regression toward the mean - Medium

A **regressão em direção à média** é um conceito fundamental em estatística e análise de dados que descreve a tendência de observações extremas se aproximarem da média ao longo do tempo. Esse fenômeno é particularmente perceptível ao observar subconjuntos de dados que inicialmente parecem ser valores discrepantes.

A regressão em direção à média é um conceito que ressoa profundamente com os ritmos da vida e do mundo ao nosso redor.

Considere o desempenho de um atleta profissional: após uma sequência extraordinária de alto desempenho, é estatisticamente provável que seu desempenho diminua, retornando ao seu nível médio. Isso não significa que ele esteja piorando, mas sim que seu desempenho extremo foi atípico e que os desempenhos subsequentes têm maior probabilidade de se aproximarem de sua média de longo prazo.

Da mesma forma, pense em um aluno que obtém uma nota excepcionalmente baixa em uma única prova. Estatisticamente, seu desempenho em provas futuras provavelmente melhorará, aproximando-se de seu desempenho médio. Essa melhora não se deve necessariamente a um estudo mais intenso ou a uma melhor preparação, mas pode ser atribuída à flutuação natural de seu desempenho em torno de sua nota média.

Esse equilíbrio natural, em que observações extremas tendem a se aproximar da média ao longo do tempo, incorpora a essência da regressão à média.


### Sir Francis Galton e sua descoberta

Sir Francis Galton, `primo de Charles Darwin`, fez contribuições significativas para os campos da estatística, psicologia e genética. **Na década de 1870**, Galton conduziu estudos sobre a hereditariedade de características humanas, com foco particular na relação entre a altura dos pais e a dos filhos.

Galton coletou dados sobre a altura de um grande número de pares de pais e filhos. Ele observou que, embora pais altos tendessem a ter filhos altos, os filhos geralmente não eram tão altos quanto os pais. Por outro lado, pais baixos tendiam a ter filhos baixos, mas os filhos geralmente eram mais altos que os pais. Essa observação levou Galton a identificar um padrão que ele denominou "regressão à mediocridade", hoje conhecido como regressão à média.

### Experimento e Análise de Galton

Em sua obra seminal, “Regressão à Mediocridade na Estatura Hereditária” (1886), Galton plotou as alturas de pais e filhos e ajustou uma linha aos pontos de dados. **Ele descobriu que as alturas dos filhos tendiam a regredir em direção à altura média da população, em vez de espelhar perfeitamente as alturas de seus pais.**

Galton usou o conceito de linha de regressão para descrever esse fenômeno. A linha mostrou que valores extremos na geração dos pais (muito altos ou muito baixos) tendiam a produzir descendentes com alturas mais próximas da média, demonstrando a tendência de observações extremas regredirem em direção à média ao longo das gerações.

### As Implicações Mais Amplas da Regressão à Média

A descoberta da regressão à média por Galton teve implicações profundas além do estudo das alturas humanas. Ela destacou um princípio estatístico fundamental: **ao medir qualquer variável sujeita a flutuações aleatórias**, `valores extremos provavelmente serão seguidos por valores mais próximos da média`.

Desde então, esse princípio tem sido aplicado em diversas áreas, incluindo:

  - **Esportes**: O desempenho excepcional de um atleta em uma temporada é frequentemente seguido por um desempenho mais próximo da sua média na carreira em temporadas subsequentes.

  - **Educação**: Alunos que obtêm notas excepcionalmente altas ou baixas em uma prova tendem a obter notas mais próximas da média em provas subsequentes.

  - **Medicina**: Pacientes com medidas de saúde extremas (como pressão alta) frequentemente apresentam medidas mais próximas da média em novos testes, em parte devido à variabilidade natural. (Monitoramento domiciliar da pressão arterial: alterações de curto prazo durante medições seriadas em 56.398 indivíduos)
Atualmente, a regressão à média é um conceito bem compreendido em estatística e é considerada no planejamento de experimentos, na interpretação de dados e na elaboração de previsões. Ela serve como um lembrete de que observações extremas podem ser frequentemente seguidas por observações mais típicas devido à variabilidade natural dos dados.


### A Falácia da Regressão

Como vimos, a regressão em direção à média é um fenômeno estatístico no qual valores extremos em um conjunto de dados tendem a se aproximar da média em medições subsequentes. Quando essa flutuação natural é interpretada erroneamente como um efeito real, ocorre o que é conhecido como falácia da regressão.

A falácia da regressão ocorre quando a tendência natural de medidas extremas de regredirem em direção à média é atribuída incorretamente a uma causa ou efeito específico.

Implicações da Regressão em Direção à Média na Análise de Desempenho
Ao avaliar o desempenho, seja em esportes, trabalho ou estudos, é importante reconhecer que desempenhos extremos frequentemente regridem em direção à média ao longo do tempo. Sem essa compreensão, pode-se atribuir incorretamente flutuações naturais a efeitos reais ou mudanças nas condições subjacentes.

Por que Considerar a Regressão em Direção à Média na Análise de Desempenho?

### Importanto bibliotecas (pacotes)

 - outras no meio do texto

In [None]:
import numpy as np
import matplotlib.pyplot as plt

### For reproducibility

In [None]:
np.random.seed(34)

### Simulate performance scores for 100 employees in the first period

  - Assume the scores are normally distributed around a mean of 70 with a standard deviation of 10


In [None]:
scores_period1 = np.random.normal(loc=70, scale=10, size=100)

### Simulando ruído

In [None]:
np.random.normal(loc=0, scale=1, size=5)

### Dados

In [None]:
ruido = np.random.normal(loc=0, scale=1, size=200)
seqx = np.arange(len(ruido))

## Regressão (veremos mais tarde)

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

# Fit the model
model.fit(seqx.reshape(-1, 1), ruido)

print(f"Slope (B1): {model.coef_[0]}")
print(f"Intercept (B0): {model.intercept_}")

In [None]:
import statsmodels.api as sm

model = sm.OLS(ruido, seqx).fit()
summ = model.summary()
summ

### Coeficiente de Correlação

In [None]:
correlation = np.corrcoef(seqx, ruido)[0, 1]
print("Correlation:", correlation)

### Ruído

In [None]:
plt.figure(figsize=(12, 6))
plt.scatter(seqx, ruido, alpha=0.6, color='blue')
plt.title(f'Ruído: media=0 desvio padrão=1, correlation={correlation:.3f}')
plt.xlabel('ruido')

m, b = np.polyfit(seqx, ruido, 1)
plt.plot(seqx, m*seqx+b, '--k')


plt.ylabel('x')

### Simular o score de desempenho para os mesmos funcionários no segundo período
  - As pontuações são novamente distribuídas de acordo com a distribuição normal em torno de uma média de 70, mas com algum ruído aleatório

In [None]:
#  score2      = 0.5 * score 1 + ruido centrado em 35 com desvio padrão 35
scores_period2 = scores_period1 * 0.5 + np.random.normal(loc=35, scale=10, size=100)

### Identify top and worst performers in period 1

In [None]:
mean_period1 = np.mean(scores_period1)
top_performers = scores_period1 > (mean_period1 + 10)
worst_performers = scores_period1 < (mean_period1 - 10)

### Plot the scores

In [None]:
plt.figure(figsize=(12, 6))
plt.scatter(scores_period1[top_performers], scores_period2[top_performers], alpha=0.6, color='green', label='Alta performance')
plt.scatter(scores_period1[worst_performers], scores_period2[worst_performers], alpha=0.6, color='red', label='Baixa performance')
plt.scatter(scores_period1[~(top_performers | worst_performers)], scores_period2[~(top_performers | worst_performers)], alpha=0.6, color='blue', label='Outras performance')
plt.axhline(np.mean(scores_period1), color='orange', linestyle='--', label='Media de scores do período 1')
plt.axvline(np.mean(scores_period2), color='purple', linestyle='--', label='Media de scores do período 2')
plt.title('Regressão em direção à media: scores de performance de empregados')
plt.xlabel('Scores do período 1')
plt.ylabel('Scores do período 2')
plt.legend(loc='upper left');
# plt.show()

### Calculate and print the means of the two periods


In [None]:
mean_period1 = np.mean(scores_period1)
mean_period2 = np.mean(scores_period2)

f"mean1: {mean_period1:.1f}, mean2: {mean_period2:.1f}"

### Calculate mean scores of top and worst performers in period 2

In [None]:
mean_top_performers_period2 = np.mean(scores_period2[top_performers])
mean_worst_performers_period2 = np.mean(scores_period2[worst_performers])

f"mean top1: {mean_top_performers_period2:.1f}, mean worst2: {mean_worst_performers_period2:.1f}"

### Explicação do código

#### Simulação de dados

  - Simulamos as pontuações de desempenho de 100 funcionários em dois períodos. No primeiro período, as pontuações são distribuídas de acordo com a distribuição normal em torno de uma média de 70 com um desvio padrão de 10.
  - No segundo período, as pontuações são novamente distribuídas de acordo com a distribuição normal em torno da mesma média, mas incluem algum ruído aleatório para simular variações do mundo real.

Visualização: Plotamos as pontuações de ambos os períodos para inspecionar visualmente a relação entre elas. As linhas tracejadas laranja e roxa representam as médias das pontuações nos dois períodos, respectivamente.

Cálculo da média: Calculamos e imprimimos as pontuações médias para ambos os períodos para ver como elas se comparam.
Identificação de extremos: Identificamos os funcionários com melhor desempenho (pontuações maiores que a média do período 1 mais 10) e os com pior desempenho (pontuações menores que a média do período 1 menos 10) no primeiro período.
Pontuações médias dos extremos: Calculamos as pontuações médias desses funcionários com melhor e pior desempenho no segundo período para demonstrar a regressão à média. Como você pode ver nos resultados, as pontuações dos melhores desempenhos diminuem, enquanto as dos piores aumentam, aproximando-se da média geral.

Codificação por cores: Usamos verde para representar os melhores desempenhos, vermelho para os piores e azul para os demais funcionários.

Bônus da Conclusão: Escrito em colaboração com o Escritor Interativo
Conclusão: A Suave Dança das Médias
Na dança dos opostos, os extremos brilham intensamente, lançando seu brilho fugaz na tela do tempo. Contudo, como o fluxo e refluxo das marés, eles também são guiados pela suave força da natureza em direção ao equilíbrio.

A regressão à média é essa mão invisível, que nos conduz de volta ao âmago da mediocridade, onde o comum e o mundano valsam em ritmo harmonioso.

No mundo dos negócios, onde as decisões moldam destinos, compreender essa dança é um valor supremo.

Ela nos lembra que os picos de triunfo e os vales de desespero são apenas sussurros passageiros no zumbido constante da média.

Abrace essa sabedoria, pois, ao reconhecermos o fluxo e refluxo, encontramos clareza e graça em nossos julgamentos.

Assim, honremos a jornada rumo ao equilíbrio, onde cada alta e baixa converge para a batida constante do meio-termo.

Nesse equilíbrio, descobrimos a verdadeira essência do desempenho, medida não pelos altos e baixos passageiros, mas pela melodia duradoura do equilíbrio.