# Estatística

---------------------------------------------------------------------------------------------------------------------

In [28]:
# Média e Mediana

def media(xs: list) -> float:
    """Essa função recebe uma lista de números
    e retorna a média dos valores"""
    return sum(xs) / len(xs)

def mediana(xs: list) -> int:
    """Essa função recebe uma lista de números
    e retorna a mediana dos valores"""
    r = len(xs)
    a = sorted(xs)
    f = len(xs) // 2
    if r%2 == 0:
        return (a[f-1] + a[f]) / 2
    else:
        return a[r//2]
    
def amplitude(xs: list) -> float:
    """Essa função recebe uma lista de números
    e retorna a sua amplitude"""
    return max(xs) - min(xs)
    
print(media([1,2,3,4,5,6,7,8,9,100]))
print(mediana([1,2,3,4,5,6,7,8,9,100]))
print(amplitude([1,2,3,4,5,6,7,8,9,100]))

14.5
5.5
99


In [20]:
# a mediana é um quantil que separa 50% dos dados

from random import randint
numeros = [randint(1, 101) for i in range(101)]

from typing import List


def quantil(xs: List[float], p: float) -> float:
    """Retorna um determinado valor referente a um
    quantil especificado de uma lista"""
    posicao_do_elemento = int(len(xs) * p)
    xs.sort()
    return xs[posicao_do_elemento]

quantil(numeros, 0.75)

75

In [None]:
from collections import Counter
def moda(xs: List[float]) -> List[float]:
    """Retorna a(s) moda(s) de uma lista de números"""
    count = Counter(xs)
    max_count = max(count.values())
    return [x for x, c in count.items() if c == max_count]

moda(numeros)

In [30]:
# Multiplicação de dois vetores

def dot(v, w) -> float:
    """Calcula o produto de dois vetores, v_1 * w_1 + v_2 * w_2..."""
    assert len(v) == len(w), 'as funções não têm o mesmo tamanho'

    return sum(v_i * w_i for v_i, w_i in zip(v, w))

# Soma dos quadrados de um vetor

def sum_of_squares(v) -> float:
    """Calcula a soma dos quadrados dos vetores"""
    return dot(v, v)


In [31]:
def de_mean(xs: List[float]) -> List[float]:
    """Traduza xs subtraindo sua média (para que o resultado tenha média 0)"""
    xs_bar = sum(xs)/len(xs)
    return [x - xs_bar for x in xs]

# Variância: uma medida de dispersão
def variance(xs: List[float]) -> float:
    """Quase o desvio quadrado médio da média"""
    assert len(xs) >= 2, "A lista deve ter pelo menos dois elementos"

    n = len(xs)
    deviations = de_mean(xs)
    return sum_of_squares(deviations) / (n - 1)

print(variance(numeros))

809.5100990099011


In [33]:
import math

def standard_deviation(xs: List[float]) -> float:
    "Calcula o desvio padrão de uma lista de números, também conhecido como a raiz quadrada da variância"
    
    return math.sqrt(variance(xs))

print(standard_deviation(numeros))

def interquartil_range(xs: List[float]) -> float:
    """Retorna a diferença entre o percentil 75% e o 25%"""
    return quantil(xs, 0.75) - quantil(xs, 0.25)

print(interquartil_range(numeros))

28.45189095666404
47


In [35]:
def covariance(xs: List[float], ys: List[float]) -> float:
    assert len(xs) == len(ys), 'as listas devem ter o mesmo tamnho'

    return dot(de_mean(xs), de_mean(ys)) / (len(xs) - 1)

# Uma covariância positiva "alta" indica que x tende a ser alto quando y é alto e
# uma covariância negativa "alta" indica o oposto que x tende a ser alto quando y é baixo e
# uma covariância próxima de zero indica que essa relação não existe

In [54]:
# É mais comum se calcular a correlação

def correlacao(xs: List[float], ys: List[float]) -> float:
    """Mede a variação simultânea de xs e ys a partir de suas médias"""

    stdev_x = standard_deviation(xs)
    stdev_y = standard_deviation(ys)

    if stdev_x > 0 and stdev_y > 0:
        return covariance(xs, ys) / stdev_x / stdev_y
    else:
        return 0 # se não houver variação, a correlção será zero
    

# correlações vão de -1 (anticorrelação perfeita) até 1 (correlação perfeita)

print(correlacao([2, 4, 8, 16], [-2, -4, -8, -16]))
print(correlacao([1, 2, 3], [1, 2, 3]))
print(correlacao([8,4,9,3], [11,2,8,6]))

-0.9999999999999999
1.0
0.719874033065356
