# <font color='blue'>Estatística Descritiva Univariada categórica</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show Pandas
matplotlibVersion = !pip show matplotlib
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])

## Estatística Descritiva
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
**Estatística Descritiva** descreve e sintetiza as características principais observadas em um conjunto de dados por meio de tabelas, gráficos e medidas de resumo, permitindo uma melhor compreensão do comportamento dos dados. <br>
A Estatística Descritiva pode ser: <br>
- **Univariada**: estuda uma única variável; <br>
- **Bivariada**: estuda duas variáveis; <br>
- **Multivariada**: estuda mais de duas variáveis. <br>

A estatística descritiva univariada contempla as seguintes técnicas: <br>
- Tabela de distribuição de frequências; <br>
- Representação da distribuição de uma variável por meio de gráficos; <br>
- Medidas de posição ou localização; <br>
- Medidas de dispersão ou variabilidade; <br>
- medidas de forma que são a assimetria e a curtose. <br>

Estatísticas descritivas utilizadas com variáveis **qualitativas** ou **categóricas**: <br>
- Tabelas de distribuição de frequências; <br>
- Gráficos de barra, de pizza e o diagrama de Pareto. <br>

Estatísticas descritivas utilizadas com variáveis **quantitativas**: <br>
- Gráficos de linhas, de dispersão, histograma e boxplot; <br>
- Medidas de posição ou localização; <br>
- Medidas de dispersão ou variabilidade; <br>
- medidas de forma que são a assimetria e a curtose; <br>
- Tabelas de distribuição de frequências. <br>
    
</details>


In [None]:
# Importando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Coletando os dados
df = pd.read_csv('Dados\\Tips\\tips.csv')
# Renomenando as colunas
df.columns = ["Total da Conta", "Valor da Gorjeta", "Sexo", "Fumante", "Dia", "Horário", "Quantidade de Pessoas"]
df

In [None]:
# Verificando informações sobre cada coluna do DataFrame.
df.info()

## Tabela de Distribuição de Frequências
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
No caso de variáveis categóricas, a tabela representa a frequência de ocorrências de cada categoria da variável.<br>
Uma tabela de distribuição de frequências compõe os seguintes cálculos: <br>
- **Frequência absoluta ( <em>Fi</em> )**: número de ocorrências de cada elemento <em>i</em> na amostra; <br>
- **Frequência relativa ( <em>Fri</em> )**: porcentagem relativa à frequência absoluta; <br>
- **Frequência acumulada ( <em>Fac</em> )**: soma de todas as ocorrências até o elemento analisado; <br>
- **Frequência relativa acumulada ( <em>Frac</em> )**: porcentagem relativa à frequência acumulada. 

</details>


### Frequência absoluta ( <em>Fi</em> )

In [None]:
# Frequência absoluta da variável Dia 
fiDia = df.Dia.value_counts()
fiDia

In [None]:
# Visualização gráfica da frequência absoluta da variável Dia

sns.set_theme(style="dark") # Define o tema utilizado

ax = sns.countplot(x=df["Dia"], palette = "Greens_d");
ax.set_title("Frequência absoluta da variável Dia", fontsize = 16)
for p in ax.patches: # Exibe os valores no gráfico
    _x = p.get_x() + p.get_width() - 0.5
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")

In [None]:
# Verificando o tipo de dados 
type(fiDia)

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# converte a série para um DataFrame
df2 = fiDia.to_frame()

# renomeia a coluna
df2.columns = ["Fi"]
df2

### Frequência relativa ( <em>Fri</em> )

In [None]:
# Frequência relativa da variável Dia
friDia = (fiDia / df.Dia.count())*100
friDia

In [None]:
# Visualização gráfica da frequência relativa da variável Dia

ax = friDia.plot.pie(autopct='%1.1f%%', startangle=90)
ax.set_title("Frequência relativa da variável Dia", fontsize = 16)
plt.show()

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# Criando uma nova coluna
df2["Fri %"] = round(friDia,2)
df2

### Frequência acumulada ( <em>Fac</em> )

In [None]:
# Frequência acumulada da variável Dia
facDia = fiDia.cumsum()
facDia

In [None]:
# Visualizando a frequência absoluta da variável Dia
fiDia

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# Criando uma nova coluna
df2["Fac"] = round(facDia,2)
df2

### Frequência relativa acumulada ( <em>Frac</em> )

In [None]:
# Frequência relativa acumulada da variável Dia
fracDia = (facDia / df.Dia.count())*100
fracDia

In [None]:
# Visualizando a frequência acumulada da variável Dia
facDia

In [None]:
# Criando uma nova coluna
df2["Frac %"] = round(fracDia,2)
df2

### Tabela de Distribuição de Frequências

In [None]:
# Reiniciando o índice da DataFrame
df3 = df2.reset_index()
df3.columns = ["Dia", "Fi", "Fri %", "Fac", "Frac %"]
df3

### Diagrama de Pareto
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
O diagrama de Pareto é um gráfico de barras em que as barras exibem as frequências absolutas em ordem decrescente e também a frequência relativa acumulada em um gráfico de linhas. <br>
É muito utilizado quando se deseja fazer um controle de qualidade sobre os produtos e serviços. <br>
Normalmente, utiliza-se o diagrama de Pareto para fazer o controle de defeitos e problemas. <br> Contudo, pode ser utilizado em diversas áreas, com o objetivo de obter insights e, consequentemente, melhorar a tomada de decisões. 

</details>


In [None]:
# Cria um gráfico de barras
ax = sns.barplot(x=df3.Dia, y=df3.Fi)
ax.set_title("Diagrama de Pareto")
# Define os valores do eixo y da esquerda
ax.set_yticks(np.arange(0, 100, 15))

# Cria un eixo secundário
ax2 = ax.twinx()

# Cria um gráfico de linhas
ax2 = sns.lineplot(x=df3.Dia, y=df3["Frac %"], marker="D", color="red" )
# Define os valores do eixo y da direita
ax2.set_yticks(np.arange(0, 120, 20))
plt.show()

### Exercício
1 - Construa a Tabela de Distribuição de Frequências da variável Survived do dataset Titanic.

In [None]:
# Importando os pacotes
import pandas as pd

In [None]:
# Coletando os dados
df = pd.read_csv('Dados\\Titanic\\train.csv')

# Renomeando a coluna Survived 
df.rename(columns = {"Survived":"Sobrevivente"}, inplace = True) 
df

In [None]:
# Frequência absoluta da variável Sobrevivente 
fiSobrevivente = df.Sobrevivente.value_counts()
fiSobrevivente

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# converte a série para um DataFrame
df2 = fiSobrevivente.to_frame()

# renomeia a coluna
df2.columns = ["Fi"]
df2

In [None]:
# Frequência relativa da variável Sobrevivente
friSobrevivente = (fiSobrevivente / df.Sobrevivente.count())*100
friSobrevivente

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# Criando uma nova coluna
df2["Fri %"] = round(friSobrevivente,2)
df2

In [None]:
# Frequência acumulada da variável Sobrevivente
facSobrevivente = fiSobrevivente.cumsum()
facSobrevivente

In [None]:
# Construindo a Tabela de Distribuição de Frequências

# Criando uma nova coluna
df2["Fac"] = round(facSobrevivente,2)
df2

In [None]:
# Frequência relativa acumulada da variável Sobrevivente
fracSobrevivente = (facSobrevivente / df.Sobrevivente.count())*100
fracSobrevivente

In [None]:
# Criando uma nova coluna
df2["Frac %"] = round(fracSobrevivente,2)
df2

### Tabela de Distribuição de Frequências

In [None]:
# Reiniciando o índice da DataFrame
df3 = df2.reset_index()
df3.columns = ["Sobrevivente", "Fi", "Fri %", "Fac", "Frac %"]
df3