# Aula 01 - Introdução & Estatística Descritiva
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" height="40px" style="position: absolute; top: 20px; right: 20px;" />



## Motivação

1. O que é Estatística?
2. Para que serve?  
3. Como vou aplicar isso no meu dia a dia?  

<div style="display: flex">
<div style="display: block; margin: 10px; max-width: 400px; background-color: #333; padding: 20px; border-radius: 10px; color: white">
  <h4 style="font-weight: bold">O que é Estatística?</h4>
    
  Ciência da análise de dados. Ramo da matemática responsável por coletar, organizar e analisar um conjunto de dados com o intuito de tirar conclusões a partir dele.
</div>

<div style="display: block; margin: 10px; max-width: 400px; background-color: #333; padding: 20px; border-radius: 10px; color: white">
  <h4 style="font-weight: bold">Para quê serve?</h4>
    
  Pobreza, desemprego, acidentes de trânsito, criminalidade. Como saber como andam esses fatores socioeconômicos?
</div>
</div>


### Inspiração

Excerto do livro "Sapiens: Uma breve história da humanidade":

<img src="images/excerto.png" style="display: block; margin: 10px; padding: 20px; background-color: #fff; border-radius: 10px" />


## Definições Iniciais

**1. Estatística Descritiva**: Primeira etapa inicial da análise, quando ainda não conhecemos a forma do dado, com o objetivo de tirar informações prévias de modo informal e direto, quando obtemos grande volume de dados, precisamos de informações que `resumam` nosso conjunto de dados a fim de que possamos tirar conclusões sobre nossos dados 

**2. Probabilidade**: pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriundas de `fenômenos` de caráter aleátorio.


**3. Inferência estatística**: É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, denominado `população`, obtidos a partir de um conjunto extraido sobre esta denominada `amostra`.

<center><img src="C:/Users/Fabio/Desktop/Data Science/Módulo 4 - estatística/inferencia.png" width="700" height="700" /></center>


### Exemplos

1. Queremos analisar os níveis de violência de uma cidade. Vamos analisar os dados de uma rua `x` da cidade.

- População: todas as ruas da cidade
- Amostra: a rua `x`

2. Pesquisa de voto nas eleições: "O candidato `A` tem 30% das intenções de voto". Mesmo que você nunca tenha sido entrevistado, eles fizeram uma entrevista com algumas pessoas (amostra) e, com base nisso, foram tiradas conclusões sobre a população.

# Aula 01: Introdução à Estatística
---

### Objetivos

O objetivo desta aula é apresentar o conceito e as caracteristicas de tabelas, tabelas de frequência, variáveis, medidas resumo e análise descritiva.

### Habilidades a serem desenvolvidas

Ao fim desta aula, o aluno deve saber:

- Entender o que são variáveis
- Conhecer as principais medidas resumo
- Resumir tabelas em tabelas de frequência
- Identificar qual tipo de gráfico usar e como construí-lo
- Construir uma análise descritiva


### Bibliotecas a serem utilizadas

- numpy
- pandas
- matplotlib
- seaborn

### Conjunto de dados

Os dados brutos que trabalharemos nessa aula é a do famoso Titanic. É uma base pública disponibilizada no Kaggle em CSV.


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


In [2]:
dataset = pd.read_csv("https://s3-sa-east-1.amazonaws.com/lcpi/5729687e-ae14-4978-8cd7-7ef18277813d.csv")

In [3]:
dataset.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


### O que temos nesse dataset?

**PassengerId:**  Identificação do passageiro. Numerados sequencialmente de 1 a 891  
**Survived:** Informa se o passageiro sobreviveu ao desastre. 0 = Não; 1 = Sim  
**Pclass:** Classe na qual o passageiro viajou. 1 = Primeira Classe; 2 = Segunda Classe; 3 = Terceira Classe  
**Name:** Nome do passageiro  
**Sex:** Sexo do passageiro  
**Age:** Idade do passageiro  
**SlbSp:** Informa a quantidade de irmãos e cônjuges que o paciente possuía na embarcação  
**Parch:** Quantidade de crianças e idosos (pais) relativos ao passageiro  
**Ticket:** Código de identificação da passagem  
**Fare:** Valor da passagem  
**Cabin:** Identificação da Cabine  
**Embarked:** Local onde o passageiro embarcou

## 1. Tipos de variáveis 
---

### Variáveis qualitativas

- Nominal: Valores que expressam atributos sem nenhum tipo de ordem. Ex : sexo, estado civil, país de origem.
- Ordinal: Valores que expressam atributos, porém com algum tipo de ordem ou grau. Ex: escolaridade, resposta de um paciente (piora, igual, melhora), classe social (alta, média, baixa).

### Variáveis quantitativas

- Discreta: Valores que expressam atributos nos valores inteiros. Ex: idade, número de banheiros, número de filhos.
- Contínua: Valores que expressam atributos nos valores reais. Ex: Salário, temperatura.

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img001.png' width='50%' style="display: block; margin: 30px auto">

### Classificando as variáveis do nosso dataset

#### Qualitativas

##### Nominais: Survived, Name, Sex, Ticket, Cabin, Embarked

##### Ordinais: PassengerId, Pclass


#### Quantitativas:

##### Discretas: SibSp, Parch

##### Contínuas: Fare, Age



**É indispensável realizar essa classificação para que possamos utilizar corretamente as medidas resumo.**

In [5]:
dataset["Age"].unique()

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

#### <font color='red'>Observação</font>
***
> A variável `Age` pode ser classificada de três formas distintas:
> 1. <b>QUANTITATIVA DISCRETA</b> - quando representa anos completos (números inteiros);
> 2. <b>QUANTITATIVA CONTÍNUA</b> - quando representa a idade exata, sendo representado por frações de anos; e
> 3. <b>QUALITATIVA ORDINAL</b> - quando representa faixas de idade.

---

## Exercícios
**1. Descreva as seguintes variáveis abaixo como  qualitativa nominal/ordinal ou quantitativa discreta/contínua:**

*a) ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim ou não)*: Qualitativa nominal

*b) intenção de voto para presidente (as possíveis escolhas são os `nomes` dos presidentes e "não sei")*: Qualitativa nominal

*c) Perda de peso de maratonistas na corrida de São Silvestre (em quilos)*: Quantitativas contínuas

*d) intensidade da perda de peso de maratonistas na corrida de São Silvestre (leve, moderada, forte)*: Qualitativa ordinal

*e) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente (valores de 0-5 , com zero indicando totalmente insatisfeito, e 5 totalmente satisfeito)*: Qualitativa ordinal

---

## 2. Medidas Resumo | Estatística Descritiva

### 2.1. Medidas de Tendência Central (ou de Centralidade)

Uma medida de centralidade descreve um número ao redor dos quais as observações se concentram. Ela expressa um valor "típico" nas observações para uma determinada variável. Existem várias possíveis medidas de centralidade, algumas das quais veremos a seguir.

### 2.1.1. Média

A média de uma variável, comumente designada por $\overline{X}$, é obtida somando todas as observações desta e dividindo o resultado pelo número total de observações. Este procedimento é sintetizado da seguinte forma:

$$ \overline{X} = \frac{\sum_{i=1}^{n}x_i}{n} = \frac{x_1 + x_2 + ... + x_n}{n} $$

Nesta expressão, o termo ${\sum_{i=1}^{n}x_i}$ é traduzido como "em xi substitua i por todos os números entre 1 e n e some os valores encontrados". Em particular, o símbolo “$\sum$” é chamado de somatório.

**Essa medida é calculada para variáveis quantitativas.**

Para quais variáveis do nosso dataset, poderíamos calcular essa medida?

In [10]:
dataset.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [12]:
dataset["Age"].mean()

29.69911764705882

In [15]:
dataset["Age"].values

array([22.  , 38.  , 26.  , 35.  , 35.  ,   nan, 54.  ,  2.  , 27.  ,
       14.  ,  4.  , 58.  , 20.  , 39.  , 14.  , 55.  ,  2.  ,   nan,
       31.  ,   nan, 35.  , 34.  , 15.  , 28.  ,  8.  , 38.  ,   nan,
       19.  ,   nan,   nan, 40.  ,   nan,   nan, 66.  , 28.  , 42.  ,
         nan, 21.  , 18.  , 14.  , 40.  , 27.  ,   nan,  3.  , 19.  ,
         nan,   nan,   nan,   nan, 18.  ,  7.  , 21.  , 49.  , 29.  ,
       65.  ,   nan, 21.  , 28.5 ,  5.  , 11.  , 22.  , 38.  , 45.  ,
        4.  ,   nan,   nan, 29.  , 19.  , 17.  , 26.  , 32.  , 16.  ,
       21.  , 26.  , 32.  , 25.  ,   nan,   nan,  0.83, 30.  , 22.  ,
       29.  ,   nan, 28.  , 17.  , 33.  , 16.  ,   nan, 23.  , 24.  ,
       29.  , 20.  , 46.  , 26.  , 59.  ,   nan, 71.  , 23.  , 34.  ,
       34.  , 28.  ,   nan, 21.  , 33.  , 37.  , 28.  , 21.  ,   nan,
       38.  ,   nan, 47.  , 14.5 , 22.  , 20.  , 17.  , 21.  , 70.5 ,
       29.  , 24.  ,  2.  , 21.  ,   nan, 32.5 , 32.5 , 54.  , 12.  ,
         nan, 24.  ,

In [18]:
array_aleatorio = np.random.randint(1, 10, 100)
array_aleatorio 

array([7, 1, 5, 1, 4, 8, 9, 6, 8, 3, 9, 9, 3, 8, 5, 3, 6, 2, 6, 8, 9, 8,
       6, 6, 1, 1, 2, 9, 6, 2, 1, 5, 1, 4, 6, 9, 8, 6, 9, 1, 9, 5, 8, 3,
       9, 2, 4, 4, 9, 4, 9, 9, 8, 2, 8, 9, 4, 7, 3, 3, 6, 3, 8, 3, 7, 4,
       4, 3, 3, 7, 9, 7, 1, 1, 5, 5, 4, 1, 7, 1, 8, 3, 4, 2, 7, 9, 6, 4,
       4, 1, 7, 6, 4, 1, 2, 9, 9, 2, 6, 1])

In [19]:
array_aleatorio.mean()

5.14

### 2.1.2. Mediana

A mediana de uma variável é um número tal que há o mesmo número de observações maiores e menores do que ele. Se você ordenar os dados em ordem crescente, a mediana é a observação que fica na posição central.

-  $3,4,7,8,8$ (CASO ÍMPAR)

> $mediana = 7$

-  $3,4,7,8,8,9$ (CASO PAR)

> $mediana = \frac{(7+8)}{2} = 7,5 $

Logo, podemos definir 

- Mediana de $X = X_{\frac{n+1}{2}}$ (`Se tamanho da amostra ímpar`)


- Mediana de $X = \frac{X_{\frac{n}{2}}+ X_{\frac{n}{2}+1}}{2}$ (`Se tamanho da amostra par`)

#### Na programação

Como os valores de **indice no python** começam em `0`, devemos nos atentar que a equação acima deve ficar como:

- Mediana de $X = X_{\frac{n}{2}}$ `Se tamanho da amostra par`


- Mediana de $X = \frac{X_{\frac{n-1}{2}}+ X_{\frac{n}{2}}}{2}$ `Se tamanho da amostra ímpar`

> A mediana é menos afetada por valores extremos - os famosos ***outliers*** - do que a média. Isso significa que a mediana é uma medida mais robusta em relação a outliers do que a média.

In [20]:
np.random.seed(10)

array = np.random.randint(1, 100, 20)

array

array([10, 16, 65, 29, 90, 94, 30,  9, 74,  1, 41, 37, 17, 12, 55, 89, 63,
       34, 73, 79])

In [24]:
# Caso o tamanho seja PAR
array.sort()
array

array([ 1,  9, 10, 12, 16, 17, 29, 30, 34, 37, 41, 55, 63, 65, 73, 74, 79,
       89, 90, 94])

In [30]:
size = len(array)

array[size//2-1:size//2+1].sum()/2  # array[9:11] => décimo e décimo primeiro

39.0

In [29]:
# Calcular a mediana

dataset["Age"].median()

28.0

#### Exemplo: Média x Mediana

In [32]:
import statistics as st

In [33]:
dados = np.array([0, 0.1, 0.1, 0.2, 0.25, 0.5, 0.7, 0.9, 1.1, 10000])

In [34]:
dados

array([0.0e+00, 1.0e-01, 1.0e-01, 2.0e-01, 2.5e-01, 5.0e-01, 7.0e-01,
       9.0e-01, 1.1e+00, 1.0e+04])

In [36]:
np.median(dados)

0.375

In [37]:
dados.mean()

1000.385

Observamos que, dos 10 dados, 9 estão concentrados próximo a 0 e 1 tem o valor 10.000. Enquanto que a média de aproximadamente 1.000 é afetada pelo valor extremo, a mediana de 0.375 não o é. É comum chamarmos observações atípicas, como o valor 10.000 neste caso, de outliers.

**Observação:** Note que como no exemplo acima existe um número par de dados, a mediana foi tomada como a média entre 0.25 e 0.5, as observações 5 e 6 em ordem crescente.

### 2.1.3. Moda

A moda é o valor mais frequente observado nos dados. **Como em variáveis contínuas, tipicamente, não observamos valores repetidos, a moda não é usada nestes casos. Por outro lado, dentre média, mediana e moda, a moda é a única medida resumo que pode ser aplicada a variáveis qualitativas.**

Considere que observamos os dados: azul, azul, azul, vermelho, verde, verde. Observamos as cores azul, vermelho e verde respectivamente, 3, 1 e 2 vezes. Portanto, a cor azul é a mais frequente, sendo a moda desta variável.

**Vamos aplicar ao nosso dataset?**

In [38]:
dataset["Age"].mode()

0    24.0
dtype: float64

In [39]:
dataset["Age"].value_counts()

24.00    30
22.00    27
18.00    26
19.00    25
30.00    25
         ..
55.50     1
70.50     1
66.00     1
23.50     1
0.42      1
Name: Age, Length: 88, dtype: int64

In [40]:
dataset["Pclass"].mode()

0    3
dtype: int64

In [41]:
dataset.mean()

PassengerId    446.000000
Survived         0.383838
Pclass           2.308642
Age             29.699118
SibSp            0.523008
Parch            0.381594
Fare            32.204208
dtype: float64

In [42]:
dataset[["Age", "Fare"]].mean()

Age     29.699118
Fare    32.204208
dtype: float64

In [44]:
dataset.mode().head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3.0,"Abbing, Mr. Anthony",male,24.0,0.0,0.0,1601,8.05,B96 B98,S
1,2,,,"Abbott, Mr. Rossmore Edward",,,,,347082,,C23 C25 C27,


### 2.1.4 Relação entre média, mediana e moda

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img004.png' width='80%'>

- Assimetria à direita: $moda < mediana < média$
- Assimetria à esquerda: $moda > mediana > média$

#### Analisando a coluna `Age`

In [45]:
dataset["Age"].mean()

29.69911764705882

In [46]:
dataset["Age"].median()

28.0

In [47]:
dataset["Age"].mode()

0    24.0
dtype: float64

#### Analisando a coluna `Fare`

In [48]:
dataset["Fare"].mean()

32.2042079685746

In [49]:
dataset["Fare"].median()

14.4542

In [50]:
dataset["Fare"].mode()

0    8.05
dtype: float64

## 2.2. Medidas de Dispersão (ou de Variabilidade)

As medidas de dispersão indicam o quanto as observações variam ao redor da medida de centralidade. Em outras palavras, indicam o quão longe podemos esperar que uma observação esteja do valor típico para aquela variável. Existem diversas medidas de variabilidade, as quais veremos a seguir.

**Primeiro, graficamente, o quanto os nossos dados variam em relação ao valor médio:**

In [6]:
# Outro exemplo do "problema" de analisar apenas as medidas de tendência central

estudantes = pd.DataFrame(data = {'Fulano': [8, 10, 4, 8, 6, 10, 8],
                          'Beltrano': [10, 2, 0.5, 1, 3, 9.5, 10],
                          'Sicrano': [7.5, 8, 7, 8, 8, 8.5, 7]}, 
                  index = ['Matemática', 
                           'Português', 
                           'Inglês', 
                           'Geografia', 
                           'História', 
                           'Física', 
                           'Química'])
estudantes.rename_axis('Matérias', axis = 'columns', inplace = True)
estudantes

Matérias,Fulano,Beltrano,Sicrano
Matemática,8,10.0,7.5
Português,10,2.0,8.0
Inglês,4,0.5,7.0
Geografia,8,1.0,8.0
História,6,3.0,8.0
Física,10,9.5,8.5
Química,8,10.0,7.0


### 2.2.1. Amplitude

A amplitude é a diferença entre o maior e o menor valor observado. Esta medida de variabilidade é fortemente influenciada por valores extremos nas observações, como *outliers*.

### 2.2.2. Variância e Desvio Padrão

*Exemplo*: suponha que você precisa de uma máquina que fabrique parafusos com 5 cm de comprimento, e receba proposta de duas empresas interessadas em te vender uma máquina de fazer parafusos. Abaixo estão os resultados de um teste que foi realizado referente à produção de parafusos das duas máquinas:

$$ M_1 = [3,3,5,7,7] $$

$$ M_2 = [4,4,5,6,6] $$

Qual das duas máquinas você compraria?

---

Intuitivamente, podemos imaginar uma medida de variabilidade que calcule a média do quanto os dados desviam do centro. Se tomarmos como centro das observações a média, então podemos pensar no desvio da i-ésima observação como $D_i=X_i−\overline{X}$. Contudo, esta medida de desvio apresenta um problema.

Por exemplo, considere os dados: 0, 10, 20. A média das observações é 10 e os desvios são: -10, 0, 10. Assim, se tomarmos a média dos desvios obteremos o valor 0. 
O problema é que, ainda que o desvio de 0 e 20 sejam -10 e 10, estas observações estão igualmente distantes da média. Para corrigir este problema, podemos tomar a média dos desvios ao quadrado, isto é, a média de $D^2_i=(X_i−\overline{X})^2$.

No exemplo apresentado, os desvios ao quadrado são 100, 0 e 100 e a média destes valores é 200/3. Neste caso, as observações -10 e 10 contribuem igualmente para a variabilidade dos dados em relação à média. Formalmente, a variância, $s^2$, é definida como:

$$ s^2 = \sum_{i=1}^{n}\frac{(x-\overline{x})^{2}}{n - 1} $$

Note que a variância não está na mesma escala das observações. Quando os desvios são elevados ao quadrado, a unidade de medida é alterada para o quadrado da unidade de medida original. Assim, para obter uma medida mais interpretável de variabilidade, é comum tomar a raiz quadrada da variância. Esta medida é chamada de desvio padrão, $s$, e é definida como:

$$ s=\sqrt{s^2} $$



## 2.3. Medidas Separatrizes

### 2.3.1. Quartis, Decis e Percentis

Os quartis não são medidas de variabilidade, mas a partir deles, é possível construir o intervalo interquartilíco que é uma medida de variabilidade.
Quartis (Q1, Q2 e Q3): São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem os seus dados em quatro partes iguais. O primeiro quartil, Q1, é o número que deixa 25% das observações abaixo e 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% das observações abaixo e 25% acima. Já Q2 é a mediana, deixa 50% das observações abaixo e 50% das observações acima.

In [7]:
# Quartis


In [8]:
# Decis


In [9]:
# Percentis


### 2.2.3. Intervalo Interquartílico

Por construção, aproximadamente metade dos dados estão entre o 1º e o 3º quartil, isto é, este também pode ser interpretado como um intervalo de valores tipicamente assumidos pelas observações. 


### Boxplot

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img005.png' width='45%'>

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img006.png' width='45%'>

## 3. Distribuição de Frequências (Tabela de Frequência)

A distribuição de frequências é um agrupamento de dados em classes, de tal forma que contabilizamos o número de ocorrências em cada classe. O número de ocorrências de uma determinada classe recebe o nome de frequência absoluta. O objetivo é apresentar os dados de uma maneira mais concisa e que nos permita extrair informação sobre seu comportamento. A seguir, apresentamos algumas definições necessárias para a construção da distribuição de frequências.

- **Frequência absoluta ($f_i$):** É o número de observações correspondente a cada classe. A frequência absoluta é, geralmente, chamada apenas de frequência.

- **Frequência relativa ($f_{ri}$):** É o quociente entre a frequência absoluta da classe correspondente e a soma das frequências (total observado), isto é, $ \displaystyle f_{ri}=\frac{f_i}{\sum_{j}f_j} $ onde n representa o número total de observações.

- **Frequência percentual ($f_p$):** É obtida multiplicando a frequência relativa por 100%.

- **Frequência acumulada:** É o total acumulado (soma) de todas as classes anteriores até a classe atual. Pode ser: frequência acumulada absoluta (Fi), frequência acumulada relativa (Fri), ou frequência acumulada percentual (Pi).

A construção de uma tabela de distribuição de frequências pontual é equivalente à construção de uma tabela simples, onde se listam os diferentes valores observados da variável com suas frequências absolutas, denotadas por ($f_i$) (o índice i corresponde ao número de linhas da Tabela) como é mostrado na Tabela abaixo. Utilizamos a distribuição de frequência pontual quando se trabalha com dados discretos. 

Um gráfico utilizado para representar este tipo de distribuição de frequência é o Gráfico de Barras.

---

### 3.1. Distribuição de Frequências para Variáveis Qualitativas

**1. Vamos fazer uma tabela e um gráfico de distribuição de frequências para a variável `Sex` do nosso dataset**

### Fazer o mesmo para a variável `Pclass`

### 3.2. Distribuição de Frequências para Variáveis Quantitativas

**Vamos fazer uma tabela e um gráfico de distribuição de frequências para a variável `Age` do nosso dataset**

#### Definindo um número de classes

#### Regra de Sturges

$$k = 1 + \frac{10}{3}\log_{10}(n)$$

- $k$ é o número de classes  
- $n$ é o número de amostras

**Vamos aplicar essa regra para os dados da coluna `Age`:**

### Entendendo o método `cut`

### Aplicando na variável `Age`

### 3.3.Tabela de Frequência com Cruzamento de Dados