In [1]:
import functions

<p>Objetivo da estatística descritiva: pode ser visto como o conjunto de métodos que visa descrever, ou atribuir algum significado estimatório, para um conjunto de dados </p>

<h3>Amostra x População</h3>
<li>A população representa todos os valores possíveis para um determinado conjunto de dados</li>
<li>A amostra é uma representação da população, sendo necessária pois muitas vezes é difícil conseguir todos os valores da população. Existem várias técnicas para obter uma boa amostra, onde serão apresentadas mais a frente</li>

<h1>Medidas de Resumo</h1>

<h3>Média</h3>
<p>A média númerica é uma forma de resumir um conjunto de dados númericos, podendo ser entendida como um valor "justo" que tenta ficar o mais centralizado possível baseado em todos os valores do conjunto</p>
<p>Sua fórmula é dado por u = somatório dos valores da população / quantidade total da valores da população </p>

In [2]:
#exemplo
idades = [12, 15, 17, 51]
idade_media = functions.mean(idades)

print(f'Em média, a população tem {idade_media} anos')

Em média, a população tem 23.75 anos


<h3>Mediana</h3>
<p>A mediana é o valor do meio, central, em seu conjunto de dados ordenado</p>
<p>Diferentemente da média, ela não leva em consideração o valor de cada número no conjunto, apenas sua posição. Isso é útil em situações em que existem valores muito discrepantes. Por exemplo, idades de 1, 4, 9, 3 e 98 anos. Talvez não seja interessante considerar a pessoa de 98 anos, pois puxaria muito o valor para cima. Logo, a mediana é menos sensível a outliners </p>
<p>Sua fórmula é dado pela ordenação em ordem crescente ou descreste e: </p>
<li>Se a quantidade de números for ímpar, x = (num de elementos + 1) / 2</li>
<li>Se a quantidade de números for par, fazer a média entre os dois centrais</li>

In [3]:
salarios = [1000, 2000, 3000, 9000, 999999]

mediana_salarial = functions.median(salarios)
print(f'A mediana do salário dos 5 funcionários é {mediana_salarial} R$')

A mediana do salário dos 5 funcionários é 3000 R$


In [4]:
salarios_junior = [1000, 2000, 3000, 4000]

mediana_salarial_jr = functions.median(salarios_junior)
print(f'A mediana do salário dos 4 júniors é {mediana_salarial_jr} R$')


A mediana do salário dos 4 júniors é 2500.0 R$


In [5]:
functions.median([6, 14, -4, 9, 8, 15])

8.5

<h3>Problema da Distribuição</h3>
<p>Se os dados não estiverem bem distribuídos e considerar ranges continuos, é necessário tomar cuidado ao calcular a média e mediana, pois a estivama pode ser tendênciosa</p>

<h3>Moda</h3>
<p>A moda é uma terceira forma de resumir os dados. Para tal, ela procurar identificar o valor que ocorre com mais frequência no conjunto de dados</p>
<p> Se a frequência de n valores tem a mesma frequência, a moda seria os n valores (n-modal) </p>
<p> Ela é útil pra alguns contextos, como dados qualitativos. Por exemplo, um conjunto de dados para de pessoas que moram em determinados países. Não faz muito sentido calcular um país médio. Logo, observar o país mais frequente seria mais ideal. Além disso, ela pode ser útil para encontrar o pico em um gráfico de frequência não uniformemente distribuído (ou os picos). Logo, ela também é menos sensível a outliers se o conjunto de dados for significativo </p>

In [6]:
temperaturas_semana = [22, 25, 19, 18, 19, 20, 18]
mode_temp = functions.mode(temperaturas_semana)
print(f'Temperatura moda: {mode_temp} Cº')


Temperatura moda: {18, 19} Cº


### Comparação das medidas
<img src="images/Measures-Of-Central-Tendency-Mean-Median-and-Mode.png" alt="Measures-Of-Central-Tendency-Mean-Median-and-Mode">
<a>fonte: https://ledidi.com/academy/measures-of-central-tendency-mean-median-and-mode</a>

<h1>Médidas de Dispersão</h1>

<h3>Quantis</h3>
<p>são valores que dividem uma amostra de dados em partes iguais. Eles são usados em estatística para compreender a distribuição dos dados. Elas podem ser definas em partes de 10 (decis), de 4 (quartis), etc</p>

<h3>Quartis</h3>
<p>São pontos que dividem os dados em quatro partes iguais</p>
<p>Q1(mediana dos 50% primeiros dados, ou seja o 25% percentil), Q2 (mediana de todos os dados) e Q3 (mediana do intevalo 50%-100%, ou seja o 75% percentil) </p>

In [7]:
food_proteins = [3, 7, 8, 12, 13, 14, 18, 21, 23, 27]

functions.quartil(food_proteins, 0.5)

13.5

<h3>Amplitude - Range</h3>
<p>É dado pela diferença entre o maior e menor valor no conjunto de dados. Ele é útil para entender a extensão dos dados, mas é muito sensível a outliers</p>

In [8]:
food_proteins = [3, 7, 8, 12, 13, 14, 18, 21, 23, 27]

functions.amplitude(food_proteins)

24

<h3>Range Inter Quartil - IQR</h3>
<p>Diz quão dispero os valores mais comuns (dentro de Q1 e Q3) estão disperos pelo range. Logo, é dado por Q3 - Q1 e é menos sensível a outliers do que o range</p>

In [9]:
food_proteins = [3, 7, 8, 12, 13, 14, 18, 21, 23, 27]

functions.iqr(food_proteins)

13

<h3>Variância</h3>
<p>Variância é uma medida mais robusta de dispersão que as anteriores, por levar em conta todos os valores do conjunto de dados. Por exemplo, o IQR leva em conta os valores de Q1 e Q3, mas não necessáriamente todos os valores em volta, o que pode causar uma mesma dispersão para dados com distância diferentes.</p>

<p>Para levar em conta todo dataset, a variância usa como lógica usar um ponto central (média) e ver a distância dos outros valores para esse ponto. Pegando cada distância e dividindo pelo número de pontos, teremos uma distância média, que é a varância</p>

<img src="images/variancia.png" alt="variância">

<a>fonte: https://rodrigo-dev77.medium.com/vari%C3%A2ncia-e-desvio-padr%C3%A3o-introdu%C3%A7%C3%A3o-6920cea3da00</a>

<p>Sua notação é dado por s2, que não é s elevado a 2. Na fórmula, a elevação a dois ocorre pois estamos calculando distâncias. Já o N - 1 é quando se usa uma amostra em vez da população e ele é algo conhecido como graus de liberdade, que será explicado mais a frente</p>

In [10]:
renda = [1000, 2000, 3000]

variance = functions.variance(renda)
print(f'A variância da renda é {variance} R$^2')

A variância da renda é 1000000.0 R$^2


<h3>Desvio Padrão</h3>
<p>Variância não é uma medida ruim, mas ela pode ser pouca intiutiva do real signficado. Por exemplo, se tiramos a variância de um conjunto de dados de idades, teriamos então uma unidade anos ao quadrado. Outro exemplo seria o número de cores azul, onde haveria cores azul ao quadro. Logo, para o desvio padrão pode ser mais intuitivo</p>

<p>Sua fórmula é simplismente a raiz quadrada da variância e ele pode ser entendido como a distância média dos pontos de dados até a média</p>

In [11]:
renda = [1000, 2000, 3000]

desvio_padrao = functions.std(renda)
print(f'O desvio padrão da renda é {desvio_padrao} R$')

O desvio padrão da renda é 1000.0 R$
