# Aula 01 - Estatística Descritiva
---

<img src="https://letscode.com.br/images/logoLcPng.png" width="250px" style="position: absolute; top: 20px; right: 20px; border-radius: 5px;" />



## Motivação

1. O que é Estatística?
2. Para que serve?  
3. Como vou aplicar isso no meu dia a dia?  

<div style="display: block; margin: 10px; max-width: 400px; background-color: #333; padding: 20px; border-radius: 10px;">
    <h4>O que é Estatística?</h4>
    
  Ciência da análise de dados. Ramo da matemática responsável por coletar, organizar e analisar um conjunto de dados com o intuito de tirar conclusões a partir dele.
</div>

<div style="display: block; margin: 10px; max-width: 400px; background-color: #333; padding: 20px; border-radius: 10px;">
    <h4>Para que serve?</h4>
    
    Pobreza, desemprego, acidentes de trânsito, criminalidade. Como saber como andam esses fatores socioeconômicos?
</div>


## Inspiração

Excerto do livro "Sapiens: Uma breve história da humanidade":

<img src="../images/excerto.png" style="display: block; margin: 10px; padding: 20px; background-color: #fff; border-radius: 10px" />


## Definições Iniciais

**1. Estatística Descritiva**: Primeira etapa inicial da análise, quando ainda não conhecemos a forma do dado, com o objetivo de tirar informações prévias de modo informal e direto, quando obtemos grande volume de dados, precisamos de informações que `resumam` nosso conjuto de dados a fim de que possamos tirar conclusões sobre nossos dados 

**2. Probabilidade**: pode ser pensada como a teoria matemática utilizada para se estudar a incerteza oriundas de `fenômenos` de caráter aleátorio.


**3. Inferência estatística**: É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, denominado `população`, obtidos a partir de um conjunto extraido sobre esta denominada `amostra`.

<center><img src="../images/inferencia.png" width="700" height="700" /></center>


### Exemplos

1. Queremos analisar os níveis de violência de uma cidade. Vamos analisar os dados de uma rua `x` da cidade.

- População: todas as ruas da cidade
- Amostra: a rua `x`

2. Pesquisa de voto nas eleições: "O candidato `A` tem 30% das intenções de voto". Mesmo que você nunca tenha sido entrevistado, eles fizeram uma entrevista com algumas pessoas (amostra) e, com base nisso, foram tiradas conclusões sobre a população.

# Aula 01: Introdução à Estatística
---

### Objetivos

O objetivo desta aula é apresentar o conceito e as caracteristicas de tabelas, tabelas de frequência, variáveis, medidas resumo e análise descritiva.

### Habilidades a serem desenvolvidas

Ao fim desta aula, o aluno deve saber:

- Entender o que são variáveis
- Conhecer as principais medidas resumo
- Resumir tabelas em tabelas de frequência
- Identificar qual tipo de gráfico usar e como construí-lo
- Construir uma análise descritiva


### Bibliotecas a serem utilizadas

- numpy
- pandas
- matplotlib
- seaborn


### Conjunto de dados

Os dados brutos que trabalharemos nessa aula é a do famoso Titanic. É uma base pública disponibilizada no Kaggle em CSV.


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set()

In [2]:
df = pd.read_csv('../datasets/titanic.csv')

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### O que temos nesse dataset?

**PassengerId:**  Identificação do passageiro. Numerados sequencialmente de 1 a 891  
**Survived:** Informa se o passageiro sobreviveu ao desastre. 0 = Não; 1 = Sim  
**Pclass:** Classe na qual o passageiro viajou. 1 = Primeira Classe; 2 = Segunda Classe; 3 = Terceira Classe  
**Name:** Nome do passageiro  
**Sex:** Sexo do passageiro  
**Age:** Idade do passageiro  
**SlbSp:** Informa a quantidade de irmãos e cônjuges que o paciente possuía na embarcação  
**Parch:** Quantidade de crianças e idosos (pais) relativos ao passageiro  
**Ticket:** Código de identificação da passagem  
**Fare:** Valor da passagem  
**Cabin:** Identificação da Cabine  
**Embarked:** Local onde o passageiro embarcou

## 1. Tipos de variáveis 
---

### Variáveis qualitativas

- Nominal: Valores que expressam atributos sem nenhum tipo de ordem. Ex : sexo, estado civil, país de origem.
- Ordinal: Valores que expressam atributos, porém com algum tipo de ordem ou grau. Ex: escolaridade, resposta de um paciente (piora, igual, melhora), classe social(alta, média, baixa).

### Variáveis quantitativas

- Discreta: Valores que expressam atributos nos valores inteiros. Ex: idade, numero de banheiros, numero de filhos.
- Contínua: Valores que expressam atributos nos valores reais. Ex: Salário, temperatura.

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img001.png' width='50%' style="display: block; margin: 30px auto">

### Classificando as variáveis do nosso dataset

In [4]:
# explore o dataset
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
# quais os valores da coluna Age?

## SELECT AGE FROM tabela
df['Age']

## SELECT DISTINCT(AGE) FROM tabela
df['Embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

#### Qualitativas

**Nominais:** PassengerId, Survived, Name, Sex, Ticket, Cabin, Embarked

**Ordinais:** Pclass


#### Quantitativas

**Discretas:** Age, SibSp, Parch

**Contínuas:** Fare

**É indispensável realizar essa classificação para que possamos utilizar corretamente as medidas resumo.**

#### <font color='red'>Observação</font>
***
> A variável `Age` pode ser classificada de três formas distintas:
> 1. <b>QUANTITATIVA DISCRETA</b> - quando representa anos completos (números inteiros);
> 2. <b>QUANTITATIVA CONTÍNUA</b> - quando representa a idade exata, sendo representado por frações de anos; e
> 3. <b>QUALITATIVA ORDINAL</b> - quando representa faixas de idade.

## Medidas Resumo | Estatística Descritiva

### Medidas de Tendência Central (ou de Centralidade)

Uma medida de centralidade descreve um número ao redor do qual as observações se concentram. Ela expressa um valor "típico" nas observações para uma determinada variável. Existem várias possíveis medidas de centralidade, algumas das quais veremos a seguir.

### Média

A média de uma variável, comumente designada por $\overline{X}$, é obtida somando todas as observações desta e dividindo o resultado pelo número total de observações. Este procedimento é sintetizado da seguinte forma:

$$ \overline{X} = \frac{\sum_{i=1}^{n}x_i}{n} = \frac{x_1 + x_2 + ... + x_n}{n} $$

Nesta expressão, o termo ${\sum_{i=1}^{n}x_i}$ é traduzido como "em xi substitua i por todos os números entre 1 e n e some os valores encontrados". Em particular, o símbolo “$\sum$” é chamado de somatório.

**Essa medida é calculada para variáveis quantitativas.**

Para quais variáveis do nosso dataset, poderíamos calcular essa medida?

In [6]:
# explore o dataset
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
# media de idade?

## SELECT AVG(AGE) from tabela
df['Age'].mean()

29.69911764705882

### Mediana

A mediana de uma variável é um número tal que há o mesmo número de observações maiores e menores do que ele. Se você ordenar os dados em ordem crescente, a mediana é a observação que fica na posição central.

-  $3,4,7,8,8$ (CASO ÍMPAR)

> $mediana = 7$

-  $3,4,7,8,8,9$ (CASO PAR)

> $mediana = \frac{(7+8)}{2} = 7,5 $

Logo, podemos definir 

- Mediana de $X = X_{\frac{n+1}{2}}$ (`Se tamanho da amostra ímpar`)


- Mediana de $X = \frac{X_{\frac{n}{2}}+ X_{\frac{n}{2}+1}}{2}$ (`Se tamanho da amostra par`)

#### Na programação

Como os valores de **indice no python** começam em `0`, devemos nos atentar que a equação acima deve ficar como:

- Mediana de $X = X_{\frac{n}{2}}$ `Se tamanho da amostra par`


- Mediana de $X = \frac{X_{\frac{n-1}{2}}+ X_{\frac{n}{2}}}{2}$ `Se tamanho da amostra ímpar`

> A mediana é menos afetada por valores extremos - os famosos ***outliers*** - do que a média. Isso significa que a mediana é uma medida mais robusta em relação a outliers do que a média.

#### Exemplo com numpy

In [8]:
dados = np.array([0, 0.1, 0.1, 0.2, 0.25, 0.5, 0.7, 0.9, 1.1, 10000])
dados

array([0.0e+00, 1.0e-01, 1.0e-01, 2.0e-01, 2.5e-01, 5.0e-01, 7.0e-01,
       9.0e-01, 1.1e+00, 1.0e+04])

In [None]:
# media
media = dados.mean()
media

In [None]:
np.mean(dados)

In [None]:
# mediana
mediana = np.median(dados)
mediana

In [None]:
print('Média: {}'.format(media))
print('Mediana: {}'.format(mediana))

Observamos que, dos 10 dados, 9 estão concentrados próximo a 0 e 1 tem o valor 10.000. Enquanto que a média de aproximadamente 1.000 é afetada pelo valor extremo, a mediana de 0.375 não o é. É comum chamarmos observações atípicas, como o valor 10.000 neste caso, de outliers.

**Observação:** Note que como no exemplo acima existe um número par de dados, a mediana foi tomada como a média entre 0.25 e 0.5, as observações 5 e 6 em ordem crescente.

### Moda

A moda é o valor mais frequente observado nos dados. **Como em variáveis contínuas, tipicamente, não observamos valores repetidos, a moda não é usada nestes casos. Por outro lado, dentre média, mediana e moda, a moda é a única medida resumo que pode ser aplicada a variáveis qualitativas.**

Considere que observamos os dados: **azul, azul, azul, vermelho, verde, verde**. Observamos as cores azul, vermelho e verde respectivamente, 3, 1 e 2 vezes. Portanto, a cor azul é a mais frequente, sendo a moda desta variável.

**Vamos aplicar ao nosso dataset?**

In [None]:
df.head()

In [None]:
# quantos valores temos na varoiável 'Sex'
df['Sex'].value_counts()

In [None]:
df['Sex'].mode()

### Relação entre média, mediana e moda

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img004.png' width='80%'>

- Assimetria à direita: $moda < mediana < média$
- Assimetria à esquerda: $moda > mediana > média$

#### Analisando a coluna `Age`

In [None]:
# media
df['Age'].mean()

In [None]:
# mediana
df['Age'].median() # -> equivalente a pd.median(df['Age'])

In [None]:
# moda
df['Age'].mode()

**Conclusão**: moda < mediana < media ==> Assimetrica a direita

#### Analisando a coluna `Fare`

In [None]:
# media
df['Fare'].mean()

In [None]:
# mediana
df['Fare'].median()

In [None]:
# moda
df['Fare'].mode()

**Conclusão:** moda < mediana < media ==> assimétrica a direita

## Medidas de Dispersão (ou de Variabilidade)

As medidas de dispersão indicam o quanto as observações variam ao redor da medida de centralidade. Em outras palavras, indicam o quão longe podemos esperar que uma observação esteja do valor típico para aquela variável. Existem diversas medidas de variabilidade, as quais veremos a seguir.

**Primeiro, graficamente, o quanto os nossos dados variam em relação ao valor médio:**

In [None]:
# media
df['Age'].mean()

In [None]:
# não se preocupe com isso até as próximas aulas!
plt.figure(figsize=(18,5))

plt.scatter(df['Age'], [0] * 891)
plt.plot([29.69911764705882], [0], color='red', marker='o', markersize=20)

In [None]:
# max

## SELECT MAX(AGE) from tabela
df['Age'].max()

In [None]:
# min
df['Age'].min()

In [None]:
# Outro exemplo do "problema" de analisar apenas as medidas de tendência central

df2 = pd.DataFrame(data = {'Fulano': [8, 10, 4, 8, 6, 10, 8],
                          'Beltrano': [10, 2, 0.5, 1, 3, 9.5, 10],
                          'Sicrano': [7.5, 8, 7, 8, 8, 8.5, 7]}, 
                  index = ['Matemática', 
                           'Português', 
                           'Inglês', 
                           'Geografia', 
                           'História', 
                           'Física', 
                           'Química'])
df2.rename_axis('Matérias', axis = 'columns', inplace = True)
df2

In [None]:
print(df2['Fulano'].mean())
print(df2['Beltrano'].mean())
print(df2['Sicrano'].mean())

### Amplitude

A amplitude é a diferença entre o maior e o menor valor observado. Esta medida de variabilidade é fortemente influenciada por valores extremos nas observações, como *outliers*.

In [None]:
dados

In [None]:
# max e min
dados_max = np.max(dados)
dados_min = np.min(dados)
print(dados_max, dados_min)

In [None]:
# amplitude
amplitude = dados_max - dados_min
amplitude

In [None]:
#media
np.mean(dados)

### Variância e Desvio Padrão

*Exemplo*: suponha que você precisa de uma máquina que fabrique parafusos com 5 cm de comprimento, e receba proposta de duas empresas interessadas em te vender uma máquina de fazer parafusos. Abaixo estão os resultados de um teste que foi realizado referente à produção de parafusos das duas máquinas:

$$ M_1 = [3,3,5,7,7] $$

$$ M_2 = [4,4,5,6,6] $$

Qual das duas máquinas você compraria?

---

Intuitivamente, podemos imaginar uma medida de variabilidade que calcule a média do quanto os dados desviam do centro. Se tomarmos como centro das observações a média, então podemos pensar no desvio da i-ésima observação como $D_i=X_i−\overline{X}$. Contudo, esta medida de desvio apresenta um problema.

Por exemplo, considere os dados: 0, 10, 20. A média das observações é 10 e os desvios são: -10, 0, 10. Assim, se tomarmos a média dos desvios obteremos o valor 0. 
O problema é que, ainda que o desvio de 0 e 20 sejam -10 e 10, estas observações estão igualmente distantes da média. Para corrigir este problema, podemos tomar a média dos desvios ao quadrado, isto é, a média de $D^2_i=(X_i−\overline{X})^2$.

No exemplo apresentado, os desvios ao quadrado são 100, 0 e 100 e a média destes valores é 200/3. Neste caso, as observações -10 e 10 contribuem igualmente para a variabilidade dos dados em relação à média. Formalmente, a variância, $s^2$, é definida como:

$$ s^2 = \sum_{i=1}^{n}\frac{(x-\overline{x})^{2}}{n - 1} $$

Note que a variância não está na mesma escala das observações. Quando os desvios são elevados ao quadrado, a unidade de medida é alterada para o quadrado da unidade de medida original. Assim, para obter uma medida mais interpretável de variabilidade, é comum tomar a raiz quadrada da variância. Esta medida é chamada de desvio padrão, $s$, e é definida como:

$$ s=\sqrt{s^2} $$



In [None]:
# média de M1
m1 = [3,3,5,7,7]
m1_mean = np.mean(m1)
m1_mean


In [None]:
# média de M2
np.mean([4,4,5,6,6])

In [None]:
# Di = Xi - Xi_bar

D1 = m1 - m1_mean
D1

In [None]:
D1_total = D1.sum()
D1_total

In [None]:
# média de M2
m2 = [4,4,5,6,6]
m2_mean = np.mean(m2)
m2_mean

In [None]:
# Di = Xi - Xi_bar

D2 = m2 - m2_mean
D2

In [None]:
D2_total = D2.sum()
D2_total

In [None]:
# variancia de M1
D1_quad = (m1 - m1_mean)**2
D1_quad

In [None]:
variancia_1 = D1_quad.sum() / (len(m1) - 1)
variancia_1 # em cm^2

In [None]:
# variancia de M2 [4,4,5,6,6]
variancia_2 =  ((4-5)**2 + (4-5)**2 + (5-5)**2 + (6-5)**2 + (6-5)**2 ) / (5 - 1)
variancia_2 # em cm^2

In [None]:
# desvio padrão M1

s_1 = np.sqrt(variancia_1)
s_1 # em cm (unidade da média)

In [None]:
# desvio padrão M2

s_2 = np.sqrt(variancia_2)
s_2 # em cm (unidade da média)

### Exemplo com numpy

In [None]:
# desvio padrão
np.std(m1)

In [None]:
# variancia
np.var(m1)

In [None]:
np.sqrt(3.2)

**Importante:** A diferença do numpy para o calculo manual vem do fator de [Bessel](https://pt.abcdef.wiki/wiki/Bessel's_correction), para n pequeno.

### Exemplos no pandas

In [None]:
# Desvio padrão
df['Age'].std()

In [None]:
# Variancia
df['Age'].var()

In [None]:
# desvio padrão do Fulano
print(df2['Fulano'].std(), df2['Beltrano'].std(), df2['Sicrano'].std() )

## Medidas Separatrizes

### Quartis, Decis e Percentis

Os quartis não são medidas de variabilidade, mas a partir deles, é possível construir o intervalo interquartilíco que é uma medida de variabilidade.
Quartis (Q1, Q2 e Q3): São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem os seus dados em quatro partes iguais. O primeiro quartil, Q1, é o número que deixa 25% das observações abaixo e 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% das observações abaixo e 25% acima. Já Q2 é a mediana, deixa 50% das observações abaixo e 50% das observações acima.

In [None]:
# Quartis
df['Age'].quantile([0.25, 0.5, 0.75])

In [None]:
df['Age'].median()

In [None]:
df['Age'].quantile(q=0.5)

In [None]:
# lembra da compreensão de listas?
[i/10 for i in range(1, 11)]

In [None]:
# Decis
df['Age'].quantile([i/10 for i in range(1, 11)])

In [None]:
# Percentis
df['Age'].quantile([i/100 for i in range(1, 101)])

### Função `.describe()`

As medidas de resumo e dispersão mais comuns!

In [None]:
# variável qualitatica
df['Sex'].describe()

In [None]:
# variável quantitativa
df['Age'].describe()

In [None]:
df.describe()

In [None]:
df[['Age','SibSp','Parch','Fare']]

In [None]:
df[['Age','SibSp','Parch','Fare']].describe()

### Intervalo Interquartílico (IQR)

Por construção, aproximadamente metade dos dados estão entre o 1º e o 3º quartil, isto é, este também pode ser interpretado como um intervalo de valores tipicamente assumidos pelas observações. 


In [None]:
q1 = df['Age'].quantile(q=0.25)
q1

In [None]:
q3 = df['Age'].quantile(0.75)
q3

In [None]:
# Intervalo Interquartilico (IIQ) ou Interquartile Range (IQR)
IQR = q3 - q1
IQR

In [None]:
idade_minima = q1 - 1.5*IQR
idade_minima

In [None]:
# redefinir idade_minima
idade_minima = max(idade_minima, df['Age'].min())
idade_minima

In [None]:
idade_maxima = q3 + 1.5*IQR
idade_maxima

### Boxplot

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img005.png' width='65%'>

<img src='https://caelum-online-public.s3.amazonaws.com/1177-estatistica-parte1/01/img006.png' width='65%'>

In [None]:
import seaborn as sns ## a ser estudada no datatoolbox

sns.boxplot(x='Age', data=df)

In [None]:
## criar o boxplot com a coluna Fare
import matplotlib.pyplot as plt

plt.figure(figsize=(18,5))

sns.boxplot(x='Fare', data=df)

### Histograma

In [None]:
# criar histograma da variável age

sns.histplot(data=df, x='Age')

In [None]:
sns.histplot(data=df, x='Age', stat='frequency')

## Distribuição de Frequências (Tabela de Frequência)

A distribuição de frequências é um agrupamento de dados em classes, de tal forma que contabilizamos o número de ocorrências em cada classe. O número de ocorrências de uma determinada classe recebe o nome de frequência absoluta. O objetivo é apresentar os dados de uma maneira mais concisa e que nos permita extrair informação sobre seu comportamento. A seguir, apresentamos algumas definições necessárias para a construção da distribuição de frequências.

- **Frequência absoluta ($f_i$):** É o número de observações correspondente a cada classe. A frequência absoluta é, geralmente, chamada apenas de frequência.

- **Frequência relativa ($f_{ri}$):** É o quociente entre a frequência absoluta da classe correspondente e a soma das frequências (total observado), isto é, $ \displaystyle f_{ri}=\frac{f_i}{\sum_{j}f_j} $ onde n representa o número total de observações.

- **Frequência percentual ($f_p$):** É obtida multiplicando a frequência relativa por 100%.

- **Frequência acumulada:** É o total acumulado (soma) de todas as classes anteriores até a classe atual. Pode ser: frequência acumulada absoluta (Fi), frequência acumulada relativa (Fri), ou frequência acumulada percentual (Pi).

A construção de uma tabela de distribuição de frequências pontual é equivalente à construção de uma tabela simples, onde se listam os diferentes valores observados da variável com suas frequências absolutas, denotadas por ($f_i$) (o índice i corresponde ao número de linhas da Tabela) como é mostrado na Tabela abaixo. Utilizamos a distribuição de frequência pontual quando se trabalha com dados discretos. 

Um gráfico utilizado para representar este tipo de distribuição de frequência é o Gráfico de Barras.

---

### Distribuição de Frequências para Variáveis Qualitativas

**1. Vamos fazer uma tabela e um gráfico de distribuição de frequências para a variável `Sex` do nosso dataset**

In [None]:
# frequencia absoluta: fi
fi = df['Sex'].value_counts()
fi

In [None]:
# frequencia relativa: fri (metodo 1)
df['Sex'].value_counts() / 891

In [None]:
# frequencia relativa: fri (metodo 2)
df['Sex'].value_counts() / df.shape[0] # df.shape[0] = numero de linhas do dataframe 

In [None]:
df.shape

In [None]:
# frequencia relativa: fri (metodo 3)
fri = df['Sex'].value_counts(normalize=True)
fri 

In [None]:
# frequencia percentual: fp
fp = fri * 100
fp

In [None]:
dist_freq_sex = pd.DataFrame({'Frequência Absoluta (fi)': fi, 'Frequência Percentual (fp)': fp})
dist_freq_sex

In [None]:
dist_freq_sex['Frequência Percentual (fp)'].cumsum()

In [None]:
# frequencia acumulada (fa)

dist_freq_sex['Frequência Acumulada (fa)']  = dist_freq_sex['Frequência Percentual (fp)'].cumsum()
dist_freq_sex

In [None]:
# grafico absoluto
sns.histplot(data=df, x='Sex')

In [None]:
# grafico percentual
sns.histplot(data=df, x='Sex', stat='density')

### Fazer o mesmo para a variável `Pclass`
Vamos fazer uma tabela e um gráfico de distribuição de frequências para a variável Pclass do nosso dataset

In [None]:
df['Pclass'].value_counts()

In [None]:
sns.histplot(data=df, x='Pclass', bins=3, discrete=True)

### Distribuição de Frequências para Variáveis Quantitativas

**Vamos fazer uma tabela e um gráfico de distribuição de frequências para a variável `Age` do nosso dataset**

In [None]:
fi = df['Age'].value_counts()
fi

In [None]:
fp = df['Age'].value_counts(normalize=True) * 100
fp

In [None]:
dist_freq_age = pd.DataFrame({'Frequência Absoluta (fi)': fi, 'Frequência Percentual (fp)': fp})
dist_freq_age

Para idades, é mais comum tratar a faixa etária. Como decidir as faixas?

### Definindo um número de classes

#### Regra de Sturges

$$k = 1 + \frac{10}{3}\log_{10}n$$

- $k$ é o número de classes  
- $n$ é o número de amostras

**Vamos aplicar essa regra para os dados da coluna `Age`:**

In [None]:
# 1. Definir o numero de amostras n
n = df.shape[0]
print('n: ', n)

# 2. calcular o k
k = round(1 + 10 / 3 * np.log10(n))
print('k: ', k)

In [None]:
# hist plot com 11 classes
sns.histplot(data=df, x='Age', bins=k)

In [None]:
sns.histplot(data=df, x='Age')

### Como criar os k intervalos de dados?

Usamos a função `pd.cut()`.

In [None]:
pd.cut(x=df['Age'], bins=k)

In [None]:
df['Age']

In [None]:
pd.cut(x=df['Age'], bins=k).unique().sort_values()

### Usando o .cut() para criar a tabela de frequência

In [None]:
# 1. criar categorias usando o cut

# 2. criar uma coluna com os BINS na tabela df

df['bins'] = pd.cut(x=df['Age'], bins=k)
df.head()

In [None]:
# 3. aplicar os mesmos passos de antes
df['bins'].value_counts()

In [None]:
fi = df['bins'].value_counts()
fri = df['bins'].value_counts(normalize=True)
fp = fri * 100
fa = fp.cumsum()

In [None]:
dist_freq_age_bin = pd.DataFrame({'Frequência Absoluta (fi)': fi, 
                                  'Frequência Relativa (fri)': fri,
                                  'Frequência Percentual (fp)': fp,
                                    'Frequência acumuluda % (pa)': fa})
dist_freq_age_bin

### Tabela de Frequência com Cruzamento de Dados

In [None]:
df['Age']

In [None]:
pd.crosstab(df['bins'], df['Sex'])

In [None]:
pd.crosstab(df['Sex'], df['bins'])