# Estatística descritiva com Python

## Imports e configurações

In [3]:
import numpy as np
import pandas as pd

import sidetable
from scipy import stats

import seaborn as sns
import matplotlib.pyplot as plt

import plotly.express as px
import plotly.graph_objects as go

In [4]:
sns.set_theme(
    context="talk"
    style='ticks'
    font_scale=8
    palette='viridis'
    rc={
        'figure.figsize': (12,8),
        'axes.grid': True,
        'grid.alpha': .2,
        'axes.titlesize': 'x-large',
        'axes.titleweight': 'bold'
        'axes.titlepad': 20,
    }
)

SyntaxError: invalid syntax. Perhaps you forgot a comma? (3849450304.py, line 2)

## Armazenando o banco de dados Tips do Seaborn
``` python
df_tips = sns.load_dataset('tips')
```

In [5]:
df_tips = sns.load_dataset('tips')
print(df_tips.shape)
df_tips.head()

(244, 7)


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [8]:
df_tips_sample = df_tips.sample(50)
print(df_tips.shape)
df_tips_sample.head()

(50, 7)


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
229,22.12,2.88,Female,Yes,Sat,Dinner,2
132,11.17,1.5,Female,No,Thur,Lunch,2
118,12.43,1.8,Female,No,Thur,Lunch,2
126,8.52,1.48,Male,No,Thur,Lunch,2
141,34.3,6.7,Male,No,Thur,Lunch,6


In [23]:
print('Tipos de variáveis presentes no dataset:\n')
print(df_tips.dtypes)

Tipos de variáveis presentes no dataset:

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object


## Médias:


### Média aritmética simples:
Soma de todos os valores dividido pela quantidade de valores

In [20]:
print(f"Média aritmética: {df_tips['tip'].mean()}")

Média aritmética: 2.99827868852459


### Média aritmética ponderada:
Soma e multiplicação dos valores pelo seu peso

In [19]:
print(f'Média ponderada com base na quantidade de integrantes da mesa: {np.average(df_tips["tip"],weights=df_tips["size"])}')

Média ponderada com base na quantidade de integrantes da mesa: 3.2478309409888357


### Média trimada
Ordenar o conjunto númerico e realizar a média ignorando uma certa quantidade (no caso do exemplo 
abaixo, <code>p</code>) de acordo com a ordenação

In [28]:
values = df_tips['tip'].sort_values().reset_index(drop=True)
values

0       1.00
1       1.00
2       1.00
3       1.00
4       1.01
       ...  
239     6.70
240     6.73
241     7.58
242     9.00
243    10.00
Name: tip, Length: 244, dtype: float64

In [30]:
p = 10
n = len(values[p:-p])
values[p:-p].sum() / (n - 2*p)

3.1851470588235293

In [31]:
stats.trim_mean(values,.1)

2.842704081632653

### Média Harmônica

In [32]:
stats.hmean(values)

2.482252914784503

## Mediana

In [35]:
values = [4, 50, 3, 1, 2]

### Manualmente

#### Passo 1: Ordenar

In [38]:
sorted_values = sorted(values)
sorted_values

[1, 2, 3, 4, 50]

In [47]:
n = len((sorted_values))
pos = int(((n + 1) / 2) - 1) 
sorted_values[pos]

3

### Via Biblioteca

In [48]:
np.median(values)

3.0

## Moda


É o valor mais frequente, ou seja, o que aparece mais vezes. É a única medida de tendência central que pode ser aplicada tanto para dados númericos quanto para categóricos

Os dados podem ser classificados como:
<ul>
    <li>Unimodal</li>
    <li>Bimodal</li>
    <li>Multimodal</li>
</ul>

Dependendo da quantidade de moda nos dados

In [9]:
df_tips['day'].value_counts()

day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

In [10]:
df_tips['day'].mode()

0    Sat
Name: day, dtype: category
Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']

## Medidas separatrizes

### Quartis

Medidas que separam os valores 

In [14]:
np.median(df_tips['tip'])

2.9

In [13]:
df_tips['tip'].quantile([0.25,0.5,0.75])

0.25    2.0000
0.50    2.9000
0.75    3.5625
Name: tip, dtype: float64

### Decis

In [18]:
decis = np.arange(1,11) / 10
df_tips['tip'].quantile(decis)

0.1     1.500
0.2     2.000
0.3     2.000
0.4     2.476
0.5     2.900
0.6     3.016
0.7     3.480
0.8     4.000
0.9     5.000
1.0    10.000
Name: tip, dtype: float64

### Percentis

In [27]:
percentis = np.arange(1,101) / 100
df_tips['tip'].quantile(percentis)

0.01     1.0000
0.02     1.0874
0.03     1.2500
0.04     1.3004
0.05     1.4400
         ...   
0.96     5.7060
0.97     5.9768
0.98     6.5280
0.99     7.2145
1.00    10.0000
Name: tip, Length: 100, dtype: float64

In [29]:
df_tips.describe(percentiles=[0.01, 0.05, 0.995, 0.999])

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
1%,7.25,1.0,1.0
5%,9.5575,1.44,2.0
50%,17.795,2.9,2.0
99.5%,48.3171,8.6947,6.0
99.9%,50.20736,9.757,6.0
max,50.81,10.0,6.0


## Medidas de dispersão ou variabilidade

### Amplitude

In [31]:
df_tips['tip'].max() - df_tips['tip'].min()

9.0

In [None]:
df_tips

### Variância