In [1]:
import numpy as np
import pandas as pd 

## Desvio Padrão

O desvio padrão é uma medida de dispersão que indica o quanto os valores de um conjunto de dados se afastam da média. 

1. Calcular a Média: Soma-se todos os valores do conjunto e então divida a soma pelo número de elementos no conjunto
    Ex: (1, 2, 3, 4, 5) = 1 + 2 + 3 + 4 + 5 / 5 = 3
    a média desse conjunto é 3.

2. Subtrair a média de cada valor:
    1 - 3 = -2
    2 - 3 = -1
    3 - 3 = 0
    4 - 3 = 1
    5 - 3 = 2
    Assim temos: (-4, -3, -2, -1, 0)

3. Eleve o resultado da diferença ao quadrado para retirar os números negativos.
    -2 ** 2 = 4
    -1 ** 2 = 1
     0 ** 2 = 0
     1 ** 2 = 1
     2 ** 2 = 4 

4. Calcular a variância, que é somar todos os quadrados e dividir pelo número total de valores(**para população**), para **amostas** dividir pelo total de valores menos 1.

    populacao = 10 / 5 = 2
    amostra = 10 / 5 - 1 = 2,5

5. Por fim, tirar a raiz quadrada da variância para obter o desvio padrão.

    

In [2]:
# calcular a média
lista = [1, 2, 3, 4, 5]
media = sum(lista) / len(lista)



In [3]:
# Calcular a diferença
diferenca = list(map(lambda x : x - media, lista))


diferenca

[-2.0, -1.0, 0.0, 1.0, 2.0]

In [4]:
# Elevar a diferença ao quadrado

ao_quadrado = list(map(lambda x : x ** 2, diferenca))
ao_quadrado

[4.0, 1.0, 0.0, 1.0, 4.0]

In [5]:
# Calcular a variança

populacao = sum(ao_quadrado) / len(ao_quadrado)
amostra = sum(ao_quadrado) / (len(ao_quadrado) - 1)

In [6]:
from math import sqrt

desvio_populacao = sqrt(populacao)
desvio_amostra = sqrt(amostra)

In [7]:
print(f'O desvio padrão para População é de: {desvio_populacao:.2f}\nO desvio padrão para amostra é de: {desvio_amostra:.2f}')

O desvio padrão para População é de: 1.41
O desvio padrão para amostra é de: 1.58


In [8]:
### Criando uma função para calular o desvio utilizando os passos acima. 
from math import sqrt

def desvio_padrao(lista, tipo="None") -> float:
    media = sum(lista) / len(lista)
    lista_diferenca = list(map(lambda x:x - media, lista))
    ao_quadrado = list(map(lambda x:x ** 2, lista_diferenca))
    
    populacao = sum(ao_quadrado) / len(ao_quadrado)
    amostra = sum(ao_quadrado) / (len(ao_quadrado) - 1)
    
    desvio_populacao = sqrt(populacao)
    desvio_amostra = sqrt(amostra)
    
    if tipo == 'p':
        return desvio_populacao
    elif tipo == 'a':
        return desvio_amostra
    
    return desvio_populacao, desvio_amostra
    

In [9]:
pop, amos = desvio_padrao(lista)

print(f'O desvio padrão para População é de: {pop:.2f}\nO desvio padrão para amostra é de: {amos:.2f}')

O desvio padrão para População é de: 1.41
O desvio padrão para amostra é de: 1.58


In [10]:
idades = [30, 42, 90, 34]

desvio_idade = desvio_padrao(idades)
print(desvio_idade)

(24.06241883103193, 27.784887978899608)


### Facilitando as coisas com Numpy e Pandas

In [11]:
# Numpy
# posso fazer direto na lista
desvio = np.std(idades)
desvio

np.float64(24.06241883103193)

In [12]:
#ou posso converter a lista em um array e então calcular
array_idades = np.array(idades)
desvio = np.std(array_idades)
desvio

np.float64(24.06241883103193)

In [13]:
# Pandas
# Convertendo a lista em uma Serie

series_idades = pd.Series(idades)
series_idades

0    30
1    42
2    90
3    34
dtype: int64

In [14]:
# mean
series_idades.mean() # media

# Var - Variança
series_idades.var() # Variância

# Mediana
series_idades.median() # mediana

# Desvio padrão
series_idades.std() # desvio padrao

# Quantil
series_idades.quantile(0.75) # 54.0



np.float64(54.0)

In [15]:
# DESCRIBE - RESUMO 
series_idades.describe()




count     4.000000
mean     49.000000
std      27.784888
min      30.000000
25%      33.000000
50%      38.000000
75%      54.000000
max      90.000000
dtype: float64

In [16]:
# atributos - caracteristicas 

# SHAPE: A dimensão da Série, diz quantas linhas a serie tem
series_idades



0    30
1    42
2    90
3    34
dtype: int64

series podem ser acessadas por seus índices assim como listas e arrays. Mas não é possível utilizar índices negativos.

In [17]:
series_idades[0]

np.int64(30)

In [18]:
# Como saber os índices da minha serie
series_idades.index

RangeIndex(start=0, stop=4, step=1)

Com pandas, você pode nomear os índices da sua série como desejar

In [19]:
# Nomeando meus indices
series_idades.index = ['a', 'b', 'c', 'd']
series_idades

a    30
b    42
c    90
d    34
dtype: int64

Mesmo substituindo os índices, ainda é possível acessar os elementos pela sua posição

In [20]:
series_idades[2]

  series_idades[2]


np.int64(90)

In [21]:
# Recuperando dados com a posição usando ILOC
# O iloc pega o elemento pela posição independente do índice
a = series_idades.iloc[1:3]
print(a)


b    42
c    90
dtype: int64


In [22]:
# Loc pega pelo índice, é necessário passar o índice correto, mesmo naqueles caso em que eu tenha alterado o índice da minha série.abs

num = series_idades.loc['c']
print(num)

90


In [23]:
# É possível nomear as minhas séries

series_idades.name = 'idades'
series_idades

a    30
b    42
c    90
d    34
Name: idades, dtype: int64

In [24]:
# É possível dar nome a séria na sua criação.
lista = [4.65, 1.5, 1.99, 3.56, 8.5]
serie_lista = pd.Series(lista, name='precos')
serie_lista

0    4.65
1    1.50
2    1.99
3    3.56
4    8.50
Name: precos, dtype: float64