# Estatística descritiva univariada

## Medidas-resumo usuais em estatística descritiva univariada

As informações contidas em um conjunto de dados podem ser resumidas por meio de medidas numéricas que descrevem a posição, a dispersão e a forma da distribuição dos dados. Tais medidas são chamadas de medidas-resumo.

### Medidas de posição ou localização

As medidas de posição ou localização são utilizadas para descrever a posição dos dados em relação ao eixo dos valores assumidos pela variável. São subdivididas em medidas de tendência central (média, mediana e moda) e medidas separatrizes (quartis, decis e percentis).

Vamos agora usar outra base. Considere uma empresa que comercializa cenouras em embalagens com uma quantidade determinada de cenouras já higienizadas para consumo. A fase final da linha consiste em embalar as cenouras na atmosfera adequada e dispor as embalagens em caixas para transporte. A base de dados apresenta o tempo, em segundos, desta fase final para 20 observações.

In [1]:
import pandas as pd

DADOS = "./dados/carrots.csv"

df_cenouras = pd.read_csv(DADOS)

df_cenouras.head()

Unnamed: 0,carrots
0,45.0
1,44.5
2,44.0
3,45.0
4,46.5


In [2]:
df_cenouras.tail()

Unnamed: 0,carrots
15,46.2
16,44.7
17,45.6
18,46.3
19,44.9


#### Medidas de tendência central

A moda (*Mo*) é o valor que ocorre com maior frequência em um conjunto de dados. É a única medida de tendência central que pode ser utilizada para variáveis qualitativas, já que essas variáveis permitem a identificação de valores repetidos.

Para dados não agrupados, a moda é o valor que ocorre com maior frequência. Para dados contínuos agrupados, existem procedimentos para estimar a moda, como a moda de King e a moda de Czuber.

In [3]:
df_cenouras.mode()

Unnamed: 0,carrots
0,45.0


A média aritmética pode ser a medida representativa de uma população com *N* elementos, representada pela letra grega *μ* (mi), ou a medida representativa de uma amostra com *n* elementos, representada por $\bar{X}$ (x barra).

A forma de calcular depende se a variável é discreta, contínua, agrupada ou não agrupada. Além disso, a média pode ter pesos iguais ou diferentes para cada observação, dando origem à média aritmética simples e à média ponderada, respectivamente.

Considerando dados não agrupados, a média aritmética simples é calculada pela fórmula:

$$
\bar{X} = \frac{\sum\limits_{i=1}^{n} X_{i}}{n}
$$

em que *n* é o número de observações e *X<sub>i</sub>* é o valor da variável para cada observação.

In [7]:
df_cenouras.describe()

Unnamed: 0,carrots
count,20.0
mean,45.3
std,0.700376
min,44.0
25%,44.875
50%,45.0
75%,45.85
max,46.5


In [6]:
df_cenouras['carrots'].mean()

np.float64(45.3)

A mediana (*Md*) é uma medida de tendência central que divide o conjunto de dados em duas partes iguais, de modo que 50% dos elementos são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana. Para calcular a mediana, os dados devem ser ordenados em ordem crescente. 

Para dados não agrupados, a mediana é calculada pela fórmula:

$$
Md(X) = \left\{ \begin{array}{ll}
X_{\left(\frac{n+1}{2}\right)} & \text{se } n \text{ ímpar} \\
\frac{X_{\left(\frac{n}{2}\right)} + X_{\left(\frac{n}{2}+1\right)}}{2} & \text{se } n \text{ par}
\end{array} \right.
$$

em que *n* é o número de observações e $X_i \leq \ldots \leq X_n$, tal que *X<sub>(i)</sub>* é a menor observação ou o valor do primeiro elemento e *X<sub>(n)</sub>* é a maior observação ou o valor do último elemento.

In [8]:
df_cenouras['carrots'].sort_values()

2     44.0
1     44.5
10    44.5
16    44.7
7     44.8
13    44.9
19    44.9
11    45.0
8     45.0
0     45.0
3     45.0
12    45.4
17    45.6
14    45.7
6     45.8
5     46.0
9     46.2
15    46.2
18    46.3
4     46.5
Name: carrots, dtype: float64

In [9]:
df_cenouras['carrots'].median()

np.float64(45.0)

In [10]:
df_cenouras["carrots"].sort_values()

2     44.0
1     44.5
10    44.5
16    44.7
7     44.8
13    44.9
19    44.9
11    45.0
8     45.0
0     45.0
3     45.0
12    45.4
17    45.6
14    45.7
6     45.8
5     46.0
9     46.2
15    46.2
18    46.3
4     46.5
Name: carrots, dtype: float64

In [11]:
df_cenouras['carrots'].quantile([0.25,0.5,0.75])

0.25    44.875
0.50    45.000
0.75    45.850
Name: carrots, dtype: float64

In [None]:
import numpy as np

np.arange(0,1.1,0.1) #pegar os decil

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])

In [15]:
df_cenouras['carrots'].quantile(np.arange(0,1.1,0.1))

0.0    44.00
0.1    44.50
0.2    44.78
0.3    44.90
0.4    45.00
0.5    45.00
0.6    45.48
0.7    45.73
0.8    46.04
0.9    46.21
1.0    46.50
Name: carrots, dtype: float64

In [17]:
df_cenouras['carrots'].quantile(np.arange(0,1.01,0.01))

0.00    44.000
0.01    44.095
0.02    44.190
0.03    44.285
0.04    44.380
         ...  
0.96    46.348
0.97    46.386
0.98    46.424
0.99    46.462
1.00    46.500
Name: carrots, Length: 101, dtype: float64

In [20]:
df_cenouras_ordenado=df_cenouras["carrots"].sort_values().reset_index(drop=True).to_frame()
df_cenouras_ordenado

Unnamed: 0,carrots
0,44.0
1,44.5
2,44.5
3,44.7
4,44.8
5,44.9
6,44.9
7,45.0
8,45.0
9,45.0


In [23]:
df_cenouras_ordenado['quartis']=pd.qcut(df_cenouras_ordenado['carrots'],q=4)

df_cenouras_ordenado

Unnamed: 0,carrots,quartis
0,44.0,"(43.999, 44.875]"
1,44.5,"(43.999, 44.875]"
2,44.5,"(43.999, 44.875]"
3,44.7,"(43.999, 44.875]"
4,44.8,"(43.999, 44.875]"
5,44.9,"(44.875, 45.0]"
6,44.9,"(44.875, 45.0]"
7,45.0,"(44.875, 45.0]"
8,45.0,"(44.875, 45.0]"
9,45.0,"(44.875, 45.0]"


In [24]:
df_cenouras_ordenado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carrots  20 non-null     float64 
 1   quartis  20 non-null     category
dtypes: category(1), float64(1)
memory usage: 548.0 bytes


In [26]:
df_cenouras_ordenado['quartis'].cat.categories

IntervalIndex([(43.999, 44.875], (44.875, 45.0], (45.0, 45.85], (45.85, 46.5]], dtype='interval[float64, right]')

In [27]:
df_cenouras_ordenado['quartis_rotulos']=pd.qcut(
    df_cenouras_ordenado['carrots'],
    q=4,
    labels=['0-25%',"25-50%",'50-75%','75-100%'])

df_cenouras_ordenado


Unnamed: 0,carrots,quartis,quartis_rotulos
0,44.0,"(43.999, 44.875]",0-25%
1,44.5,"(43.999, 44.875]",0-25%
2,44.5,"(43.999, 44.875]",0-25%
3,44.7,"(43.999, 44.875]",0-25%
4,44.8,"(43.999, 44.875]",0-25%
5,44.9,"(44.875, 45.0]",25-50%
6,44.9,"(44.875, 45.0]",25-50%
7,45.0,"(44.875, 45.0]",25-50%
8,45.0,"(44.875, 45.0]",25-50%
9,45.0,"(44.875, 45.0]",25-50%
