# **P1 - Estatística para Ciência de Dados**

#### ***Tema: Medidas de Tendência Central - Estatística Descritiva***

<p align=center><iframe width="560" height="315" src="https://www.youtube.com/embed/uTpaICj8bow?si=r3azlPMiHvvLPf-w" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe></p>

#### **Conceito:**
A estatística é uma disciplina da matemática que se dedica à coleta, análise, interpretação, apresentação e organização de dados. Seu objetivo principal é extrair informações significativas e conclusões confiáveis a partir de conjuntos de dados, ajudando a entender padrões, tendências e relações em fenômenos variados.

Existem duas principais áreas na estatística:

+ **Estatística Descritiva:** Envolve a organização, resumo e apresentação de dados. Medidas como médias, medianas, modas, desvios padrão e gráficos são comumente utilizadas para descrever as características essenciais de um conjunto de dados.
+ **Probabilidade:** A teoria das probabilidades é fundamental para a estatística. Ela fornece a base matemática para lidar com a incerteza e a aleatoriedade. A probabilidade é essencial para a inferência estatística e a modelagem de fenômenos aleatórios.
+ **Inferência Estatística:** Esta área se concentra em fazer inferências sobre uma população com base em uma amostra representativa. Isso inclui a estimação de parâmetros populacionais, testes de hipóteses e a construção de intervalos de confiança.

A estatística é uma ferramenta crucial em diversas áreas, incluindo ciências, negócios, economia, medicina, engenharia, entre outras. Ela desempenha um papel fundamental na tomada de decisões informadas, fornecendo insights valiosos e fundamentando argumentos com base em evidências numéricas. Além disso, a estatística é frequentemente utilizada para realizar experimentos controlados, estudar fenômenos naturais e modelar o comportamento de sistemas complexos.

Tema Foco para este notebook - **statística discritiva - Medidas de Tendência Central**

Além disso podemos dividir a estatistica descritiva em dois grupos:

+ ***Medidas de Posição / Medidas de Tendência Central:*** As medidas de tendência central são estatísticas que procuram representar o valor central ou típico de um conjunto de dados. Elas são uma parte fundamental da estatística descritiva e ajudam a resumir e compreender a distribuição dos dados. As principais medidas de tendência central são a média, a mediana e a moda.
+ ***Medidas de Dispersão:*** 
As medidas de dispersão são estatísticas que indicam o quanto os valores de um conjunto de dados se afastam, ou dispersam, em relação a uma medida de tendência central. Elas fornecem informações sobre a variabilidade ou a dispersão dos dados, complementando as medidas de tendência central. Algumas das principais medidas de dispersão incluem a amplitude, a variância e o desvio padrão.



#### **Medidas de Tendência Central**

**Média Aritmética:** A média aritmética é uma medida comum de tendência central. Ela é calculada somando todos os valores em um conjunto de dados e dividindo pela quantidade total de valores.

$$\dfrac{\sum_{i=1}^{n} x_i}{n}$$

Obs: A média é sensível a valores extremos, também conhecidos como outliers.

***Exemplo Prático com Python:***

In [2]:
def media_aritmetica(valores):
    soma = 0
    for i in valores:
        soma+=i  # Somatório das amostras
    return round(soma/len(valores), 3)

print(f"\nMédia Aritmética de [1, 2, 5, 3, 4]: {media_aritmetica([1, 2, 5, 3, 4])}\n")


Média Aritmética de [1, 2, 5, 3, 4]: 3.0



**Média Geométrica:** A média geométrica é uma medida estatística que representa a "média" dos valores de um conjunto de dados, mas ao contrário da média aritmética, ela leva em consideração as proporções dos valores. Essa medida é especialmente útil quando se trata de dados que envolvem crescimento exponencial, taxas de retorno ou situações em que as relações proporcionais são significativas.

A fórmula da média geométrica para um conjunto de $n$ valores $X_1, X_2, X_3, \dots, X_n$

$$\sqrt[n]{X_1 \cdot X_2 \cdot X_3  \dots \cdot X_n}$$

Onde:

+ $G$ é a média geométrica.
+ $n$ é o número total de valores no conjunto de dados.
+ ​ $X_1, X_2, X_3, \dots, X_n$ são os valores individuais.

É importante notar que a média geométrica só pode ser calculada para conjuntos de dados contendo valores não negativos, pois a raiz `n-ésima` de um produto de valores negativos resultaria em um número complexo.

A média geométrica é frequentemente usada em finanças para calcular taxas de retorno médias ao longo de vários períodos. Também é aplicada em áreas como ecologia, bioestatística e outras disciplinas onde a interpretação em termos de proporções é relevante. Ela destaca a importância relativa das diferentes partes de um conjunto de dados e pode ser uma alternativa útil à média aritmética em certos contextos.

In [3]:
import numpy as np

def media_gemometrica(valores):
    mult = 1
    for i in valores:
        mult*=i  # Produtório das amostras
    return round(np.power(mult, 1./len(valores)), 3)

print(f"\nMédia Geométrica de [1, 2, 5, 3, 4]: {media_gemometrica([1, 2, 5, 3, 4])}\n")


Média Geométrica de [1, 2, 5, 3, 4]: 2.605



**Média Harmônica:** A média harmônica é outra medida de tendência central utilizada na estatística. Ela difere da média aritmética e da média geométrica em sua abordagem para calcular uma média. A média harmônica é especialmente útil em situações em que as relações inversas são importantes, como taxas médias de velocidade ou taxas médias de retorno financeiro.

A fórmula da média harmônica para um conjunto de $n$ valores $X_1, X_2, X_3, \dots, X_n$ ​é dada por:

$$H = \dfrac{n}{\dfrac{1}{x_1}+\dfrac{1}{x_2}+\dots+\dfrac{1}{x_n}}$$

Onde:

+ $H$ é a média harmônica.
+ $n$ é o número total de valores no conjunto de dados.
+ ​ $X_1, X_2, X_3, \dots, X_n$  são os valores individuais.


A média harmônica é mais sensível a valores extremos do que a média aritmética, o que significa que um único valor muito pequeno pode ter um impacto significativo na média harmônica. Por outro lado, ela é menos influenciada por valores extremamente grandes.

A aplicação comum da média harmônica inclui cálculos de velocidade média e taxas médias, onde as inversas das velocidades individuais ou taxas de retorno são somadas e depois invertidas novamente para obter a média. É uma medida específica para casos em que há uma relação inversa entre as variáveis e pode ser útil em contextos específicos.

In [4]:
def media_harmonica(valores):
    soma = 0
    for i in valores:
        soma+=(1./i)  # Somatório dos inversos das amostras
    return round(len(valores)/soma, 3)

print(f"\nMédia Harmônica de [1, 2, 5, 3, 4]: {media_harmonica([1, 2, 5, 3, 4])}\n")


Média Harmônica de [1, 2, 5, 3, 4]: 2.19



***Relação entre as médias, $MA \geq MG \geq MH$, só existe uma possibilidade das três serem iguais, se e somente se todas as observações do conjuntos forem as mesmas, exemplificação as células de códigos abaixo.***

In [5]:
media_aritmetica([2, 2, 2])

2.0

In [6]:
media_gemometrica([2, 2, 2])

2.0

In [7]:
media_harmonica([2, 2, 2])

2.0

**Média Ponderada:** 
A média ponderada é uma medida de tendência central que leva em consideração diferentes pesos atribuídos a diferentes valores em um conjunto de dados. Em vez de atribuir igual importância a todos os valores, a média ponderada permite que alguns valores tenham mais impacto na média do que outros, com base em seus pesos relativos.

A fórmula geral para a média ponderada é:

$$MP = \dfrac{w_1\cdot X_1 + w_2\cdot X_2 + w_3\cdot X_3 + \dots + w_n\cdot X_n}{w_1 + w_2 + w_3 
+ \dots + w_n}$$

Onde:

+ $X_1, X_2, X_3, \dots, X_n$ são os valores individuais.
+ $w_1 + w_2 + w_3 + \dots + w_n$ são os pesos correspondentes a cada valor.

Os pesos indicam a importância relativa de cada valor na média. Valores com pesos mais altos terão um impacto maior na média ponderada. Por exemplo, se estivermos calculando a média ponderada das notas de um aluno, podemos atribuir pesos diferentes a cada prova com base em sua importância ou carga horária.

A média ponderada é frequentemente usada em diversas áreas, incluindo finanças, economia, estatísticas de negócios e avaliações de desempenho, onde alguns valores são mais significativos que outros. Ela oferece uma maneira flexível de calcular uma média que reflete a importância relativa dos diferentes componentes de um conjunto de dados.

In [9]:
def media_ponderada(pesos, amostras):
    soma_notas = 0
    soma_pesos = 0
    for p, a in zip(pesos, amostras):
        soma_notas += p*a
        soma_pesos += p
    return soma_notas/soma_pesos


media_ponderada(pesos=[2, 3, 2], amostras=[5, 5, 5])

5.0

**Média Aritmética para Dados Agrupados em Classes:** Quando trabalhamos com dados agrupados em classes, a média aritmética é calculada de maneira ligeiramente diferente em comparação com dados individuais. Nesse contexto, a média aritmética é chamada de "média ponderada por frequência" ou simplesmente "média ponderada". A fórmula para calcular a média aritmética de dados agrupados em classes é a seguinte:

$$\overline{X} = \dfrac{\sum_{i=1}^{k} f_i \cdot x_i}{N}$$

Onde:

+ $\overline{X}$ é a média aritmética.
+ $f_i$ é a frequência da i-ésima classe.
+ $x_i$  é o ponto médio da i-ésima classe.
+ $N$ é o total de observações (a soma de todas as frequências).

O ponto médio $(x_i)$ de uma classe é calculado como a média dos limites inferior e superior da classe. A fórmula é $x_i = \frac{L_i+L_s}{2}$ , onde $L_i$ é o limite inferior e $L_s$ é o limite superior da classe.

Essa fórmula reflete o conceito de média ponderada, onde cada ponto médio é ponderado pela sua frequência relativa à amostra total. A soma é então dividida pelo total de observações para obter a média.

A média aritmética para dados agrupados em classes é útil quando os dados estão apresentados em forma de histograma ou tabela de frequências. Isso permite uma análise estatística mais fácil e eficiente, especialmente quando lidamos com grandes conjuntos de dados.