# Aula 14 - Estatística Descritiva

A **Estatística Descritiva** é a área da estatística que se concentra na coleta, organização, descrição e apresentação dos dados de maneira informativa. O objetivo principal da estatística descritiva é resumir grandes quantidades de dados de forma clara e compreensível, facilitando a interpretação e o entendimento das informações disponíveis.

Ela é fundamental em qualquer análise de dados, pois fornece uma visão inicial dos dados antes de aplicar métodos estatísticos mais complexos, como a inferência estatística ou modelos preditivos. A estatística descritiva é amplamente utilizada em diversas áreas, incluindo negócios, saúde, ciências sociais e engenharia.


   <p align="center">
         <img src="https://analisemacro.com.br/wp-content/uploads/2023/05/stat_descritiva.jpg" alt="Estatistica Descritivas" width="40%">
   </p>

Média (Mean): A média é uma das medidas de tendência central mais comuns. É obtida somando todos os valores e dividindo pelo número de observações.

   - Exemplo: "Se tivermos cinco notas de 7, 8, 9, 6 e 10, a média seria a soma dessas notas (40), dividida por 5, que resulta em 8."
   A média nos dá uma ideia de onde os dados estão "concentrados".

Mediana (Median): A mediana é o valor que divide os dados ordenados em duas partes iguais.

   - Exemplo: Imagine que você ordenou os dados do menor para o maior. A mediana será o valor que está exatamente no meio, se houver um número ímpar de observações. Se for um número par, a mediana será a média dos dois valores centrais.
   - Exemplo: "Em um conjunto de valores 3, 5, 7, 8, 9, a mediana é 7, pois está no meio."

Moda (Mode): A moda é o valor que aparece com maior frequência no conjunto de dados.

   - Exemplo: "Se as notas de uma classe forem 6, 7, 7, 8, 9, a moda seria 7, pois é o valor que mais se repete."

Distribuição Simétrica (Exemplo com Curva Normal): Uma distribuição simétrica, como a distribuição normal mostrada na imagem, tem a média, mediana e moda no mesmo ponto central. Esse é o caso ideal, onde os dados são igualmente distribuídos em torno da média.

   - Exemplo prático: "Se você medir a altura de uma grande população, muitas pessoas terão alturas próximas da média, e poucas pessoas serão muito baixas ou muito altas."

Distribuição Assimétrica (Skewed Distribution): Aqui, você pode mostrar como a média, mediana e moda se comportam em uma distribuição assimétrica.

   - Assimetria positiva (skewness à direita): A cauda da distribuição se estende para a direita. A média é maior que a mediana.
   - Assimetria negativa (skewness à esquerda): A cauda se estende para a esquerda. A mediana será maior que a média.
   - Exemplo prático: "Pense nos salários de uma empresa. A maioria das pessoas ganha salários medianos, mas algumas poucas pessoas ganham salários extremamente altos, puxando a média para cima."


## Principais Conceitos da Estatística Descritiva

Abaixo estão alguns dos principais conceitos e medidas utilizados na estatística descritiva:

### 1. **Medidas de Tendência Central**
   As medidas de tendência central indicam o ponto em torno do qual os dados estão concentrados. As principais são:
   
   - **Média**: A soma de todos os valores dividida pelo número de observações. Representa o valor médio ou central dos dados, sendo sensível a valores extremos (outliers).
   - **Mediana**: O valor central quando os dados são ordenados. Ela é mais robusta a outliers e é uma medida adequada para dados assimétricos.
   - **Moda**: O valor que aparece com maior frequência no conjunto de dados. Pode ser útil em dados categóricos ou quando há repetições.

   <p align="center">
      <img src="http://www.enciclopediafinanciera.com/images/medidas-de-tendencia-central.jpg" alt="Medidas de Tendência Central" width="60%">
   </p>



### 2. **Medidas de Dispersão**
   As medidas de dispersão indicam o quanto os dados variam ou se espalham ao redor da tendência central. As principais são:
   
   - **Desvio Padrão**: Mede o quanto, em média, os dados se desviam da média. Ele quantifica a variabilidade ou dispersão dos dados.
   - **Variância**: O quadrado do desvio padrão. Embora menos intuitiva que o desvio padrão, a variância é importante em muitas fórmulas estatísticas.
   - **Amplitude**: A diferença entre o valor máximo e o mínimo no conjunto de dados. Representa a faixa total de variação.
   - **Quartis e Percentis**: Dividem os dados em partes iguais, como quartis (25%, 50%, 75%) ou percentis, ajudando a entender a distribuição e a dispersão.

### 3. **Distribuição de Frequências**
   As distribuições de frequências são uma forma de organizar os dados categóricos ou numéricos em diferentes classes ou categorias, mostrando a frequência com que cada valor ou classe ocorre. Gráficos de barras e histogramas são amplamente utilizados para visualizar essas distribuições.

### 4. **Visualização de Dados**
   A visualização é uma parte essencial da estatística descritiva, pois facilita a compreensão dos dados. Algumas técnicas comuns incluem:
   
   - **Gráficos de Barras**: Úteis para variáveis categóricas, mostrando a frequência ou a proporção de cada categoria.
   - **Histogramas**: Utilizados para variáveis numéricas, representando a distribuição dos dados em intervalos (bins).
   - **Boxplots**: Também conhecidos como gráficos de caixa, são usados para visualizar a distribuição dos dados, os quartis e identificar outliers.
   - **Gráficos de Dispersão (Scatterplots)**: Utilizados para observar a relação entre duas variáveis quantitativas.


   <p align="center">
      <img src="https://i.ibb.co/vHdypcS/Sem-t-tulo.png" alt="Medidas de Tendência Central" width="45%">
   </p>


## Exemplos de Aplicação

A estatística descritiva pode ser aplicada em várias situações. Por exemplo:

- Em **negócios**, pode ser usada para analisar o comportamento de clientes, como idade, nível de satisfação, ou quantos produtos eles compram.
- Na **saúde**, pode ser utilizada para entender a distribuição de idade ou taxas de recuperação de pacientes.
- Em **ciência de dados**, é a base para preparar os dados para análises mais avançadas, como modelagem preditiva ou agrupamento (clustering).

## Importância na Ciência de Dados

A Estatística Descritiva é essencial na **Ciência de Dados**, pois permite:

1. **Compreender os Dados**: Antes de aplicar qualquer modelo, é fundamental entender o comportamento dos dados, seus padrões e possíveis problemas, como valores ausentes ou outliers.
2. **Identificar Tendências e Padrões**: As estatísticas descritivas podem revelar padrões e tendências ocultas, ajudando na geração de insights.
3. **Tomar Decisões Informadas**: Mesmo sem análises complexas, a estatística descritiva pode fornecer informações valiosas para tomadas de decisão rápidas e baseadas em evidências.

---

# Objetivo de Negócio

Neste estudo, estamos focados em demonstrar o uso de **estatística descritiva** para entender melhor um conjunto de dados fictício, que contém informações sobre alunos. O **objetivo principal** é explorar esses dados para identificar padrões, tendências e possíveis insights que possam ser utilizados para tomar decisões informadas em um contexto educacional.

### Contexto do Negócio

Imagine que você trabalha em uma instituição educacional que está interessada em melhorar a experiência dos alunos e aumentar a retenção nos cursos. Para isso, você precisa entender melhor o perfil dos alunos, suas idades, quantos cursos concluíram, qual é o nível de satisfação com a instituição, e como essas variáveis podem se relacionar com diferentes grupos, como o gênero.

### Questões de Negócio

Com base nos dados disponíveis, algumas das principais perguntas de negócio que podemos responder são:

- **Qual é a distribuição de gênero entre os alunos?** Isso nos ajuda a entender se existe um equilíbrio ou se há necessidade de ações para atrair mais alunos de um determinado gênero.
  
- **Como é a distribuição do nível de satisfação entre os alunos?** Isso pode indicar a necessidade de melhorar a qualidade dos cursos ou a experiência educacional em geral.

- **Qual é a relação entre a idade dos alunos e o número de cursos concluídos?** Entender essa relação pode ajudar a identificar padrões de comportamento e engajamento dos alunos ao longo de suas jornadas acadêmicas.

- **Quais são as estatísticas descritivas para as variáveis quantitativas, como idade e número de cursos concluídos?** Isso pode revelar dados importantes sobre o perfil dos alunos, como a idade média e a variabilidade no número de cursos que concluem.

### Resultados Esperados

Ao final desta análise, esperamos obter uma visão mais clara dos seguintes pontos:

- A distribuição dos alunos por gênero e nível de satisfação.
- A faixa etária predominante entre os alunos e quantos cursos, em média, eles concluem.
- A presença de padrões ou comportamentos atípicos que possam sugerir melhorias no currículo ou na oferta de cursos.

Essa análise ajudará a instituição a tomar decisões estratégicas que impactem positivamente a satisfação dos alunos e seu sucesso acadêmico, promovendo uma experiência mais personalizada e eficaz.

---

In [None]:
!rm -rf fiap-graduacao-iachatbot/

In [None]:
!git clone https://github.com/FIAPON/fiap-graduacao-iachatbot.git

In [None]:
%cd fiap-graduacao-iachatbot/

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import random

Aqui, criamos um dataset didático representando dados de estudantes. Temos quatro colunas:

- **Gênero** (variável qualitativa nominal): Valores possíveis são "Masculino" e "Feminino".
- **Nível de Satisfação** (variável qualitativa ordinal): Valores ordenados de "Baixo", "Médio" e "Alto".
- **Idade** (variável quantitativa contínua): Idade dos alunos.
- **Número de Cursos Concluídos** (variável quantitativa discreta): Quantidade de cursos concluídos pelos alunos.

Esses dados servirão para demonstrar os conceitos de estatística descritiva.

In [None]:
# Criando o dataset didático
data = {
    'Gênero': random.choices(['Masculino', 'Feminino'], k=50),
    'Nível de Satisfação': random.choices(['Baixo', 'Médio', 'Alto'], k=50),
    'Idade': random.choices(range(18, 60), k=50),
    'Número de Cursos Concluídos': random.choices(range(1, 10), k=50),
    'Horas de Estudo por Semana': random.choices(range(1, 20), k=50),
    'Nota Média': [round(random.uniform(5.0, 10.0), 1) for _ in range(50)],
    'Anos de Experiência': random.choices(range(0, 10), k=50),
    'Participação em Atividades Extracurriculares': random.choices(['Sim', 'Não'], k=50),
    'Uso de Tecnologias Educacionais': random.choices(['Sim', 'Não'], k=50),
    'Região de Residência': random.choices(['Norte', 'Nordeste', 'Centro-Oeste', 'Sul', 'Sudeste'], k=50)
}

Nesta célula, os dados criados são convertidos em um **DataFrame** usando o `pandas`, que é uma estrutura de dados bidimensional com rótulos para linhas e colunas. O DataFrame facilita a manipulação e análise dos dados.


In [None]:
# Convertendo para DataFrame
df = pd.DataFrame(data)


Aqui calculamos as **estatísticas descritivas** para as variáveis quantitativas (`Idade` e `Número de Cursos Concluídos`). O método `describe()` do pandas gera automaticamente informações como:

- **Contagem** (quantidade de observações),
- **Média**,
- **Desvio padrão**,
- **Valores mínimos e máximos**,
- **Quartis** (25%, 50% ou mediana, 75%).

Essas medidas são essenciais para entender a distribuição e a variação dos dados numéricos.


In [None]:
# Estatísticas descritivas para variáveis quantitativas
estatisticas_quantitativas = df[['Idade', 'Número de Cursos Concluídos']].describe()
estatisticas_quantitativas


Esta célula conta a frequência de ocorrência das categorias para as variáveis qualitativas:

- **Gênero**: Conta o número de alunos do gênero "Masculino" e "Feminino".
- **Nível de Satisfação**: Conta o número de alunos em cada nível de satisfação ("Baixo", "Médio" ou "Alto").

Isso é importante para entender a distribuição das categorias nos dados e para avaliar a representatividade de cada grupo.


In [None]:
# Frequência para variáveis qualitativas
frequencia_genero = df['Gênero'].value_counts()
frequencia_satisfacao = df['Nível de Satisfação'].value_counts()

frequencia_genero, frequencia_satisfacao


Nesta célula, criamos gráficos de barras para visualizar as variáveis qualitativas:

- **Gráfico de barras para Gênero**: Mostra a distribuição dos gêneros no dataset.
- **Gráfico de barras para Nível de Satisfação**: Exibe a quantidade de pessoas em cada nível de satisfação.

Esses gráficos são ferramentas visuais úteis para entender a distribuição de categorias em uma variável qualitativa.


In [None]:
# Gráficos para variáveis qualitativas
plt.figure(figsize=(12, 5))

# Gráfico de barras para Gênero
plt.subplot(1, 2, 1)
sns.countplot(x='Gênero', data=df)
plt.title('Distribuição de Gênero')

# Gráfico de barras para Nível de Satisfação
plt.subplot(1, 2, 2)
sns.countplot(x='Nível de Satisfação', data=df, order=['Baixo', 'Médio', 'Alto'])
plt.title('Distribuição do Nível de Satisfação')

plt.tight_layout()
plt.show()


Aqui, visualizamos as variáveis quantitativas através de gráficos:

- **Histograma para Idade**: Mostra a distribuição da idade dos alunos. O histograma é útil para entender a forma da distribuição (simétrica, assimétrica, etc.) e identificar possíveis padrões ou outliers.
- **Boxplot para Número de Cursos Concluídos**: O boxplot ajuda a visualizar a dispersão dos dados, os quartis e identificar possíveis outliers.

Essas visualizações complementam as estatísticas descritivas e fornecem uma representação gráfica do comportamento das variáveis quantitativas.


In [None]:
# Gráficos para variáveis quantitativas
plt.figure(figsize=(12, 5))

# Histograma para Idade
plt.subplot(1, 2, 1)
plt.hist(df['Idade'], bins=5, color='skyblue')
plt.title('Distribuição da Idade')

# Boxplot para Número de Cursos Concluídos
plt.subplot(1, 2, 2)
sns.boxplot(y=df['Número de Cursos Concluídos'], color='lightgreen')
plt.title('Distribuição do Número de Cursos Concluídos')

plt.tight_layout()
plt.show()


Aqui, calculamos três medidas de tendência central para a variável **Idade**:

- **Média**: A soma de todos os valores dividida pelo número de observações. Representa o valor central da distribuição, mas pode ser sensível a outliers.
- **Mediana**: O valor central quando os dados são ordenados. É uma medida mais robusta em relação a outliers.
- **Moda**: O valor que aparece com mais frequência na distribuição.

Essas medidas ajudam a entender o comportamento típico da variável idade, sendo úteis em contextos onde queremos identificar padrões gerais de idade no grupo de alunos.


In [None]:
media = df['Idade'].mean()
mediana = df['Idade'].median()
moda = df['Idade'].mode()[0]
print(f"Média: {media}, Mediana: {mediana}, Moda: {moda}")

Aqui, calculamos três medidas de dispersão para a variável **Idade**:

- **Desvio Padrão**: Mede o quanto, em média, os dados se desviam da média. Quanto maior o desvio padrão, maior a variabilidade.
- **Variância**: É o quadrado do desvio padrão e também indica a dispersão dos dados, mas em uma escala maior.
- **Amplitude**: A diferença entre o valor máximo e o valor mínimo da variável. É uma medida simples de dispersão que indica o intervalo de variação dos dados.

Essas medidas mostram o quanto os valores de idade variam em torno da média, o que nos dá uma ideia da diversidade etária no grupo de alunos.


In [None]:
desvio_padrao = df['Idade'].std()
variancia = df['Idade'].var()
amplitude = df['Idade'].max() - df['Idade'].min()
print(f"Desvio Padrão: {desvio_padrao}, Variância: {variancia}, Amplitude: {amplitude}")

Aqui, visualizamos a distribuição da variável **Idade** através de um histograma:

- **Histograma**: Um gráfico de barras que mostra a frequência de diferentes intervalos de idade. O número de bins (intervalos) controla a granularidade da distribuição visualizada.
  
O histograma é útil para identificar a forma da distribuição (simétrica, assimétrica, etc.) e para observar se há concentração de alunos em determinadas faixas etárias.


In [None]:
plt.hist(df['Idade'], bins=10, color='skyblue')
plt.title('Histograma da Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

Aqui, calculamos os **quartis** para a variável **Idade**:

- **Quartis**: Dividem os dados em quatro partes iguais. O primeiro quartil (25%) representa o ponto abaixo do qual 25% dos dados estão localizados, e assim por diante para o segundo (50% ou mediana) e o terceiro (75%).

Esses valores são úteis para entender a distribuição dos dados e identificar a faixa em que a maioria dos alunos se encontra.


In [None]:
quartis = df['Idade'].quantile([0.25, 0.5, 0.75])
print(f"Quartis: {quartis}")

Aqui, visualizamos a variável **Idade** através de um **boxplot**:

- **Boxplot**: Também conhecido como gráfico de caixa, ele mostra os quartis da distribuição, a mediana, e possíveis outliers (valores fora do intervalo esperado).
  
O boxplot oferece uma visão clara da dispersão e dos outliers, facilitando a identificação de possíveis exceções ou alunos cuja idade está fora do padrão.


In [None]:
sns.boxplot(x=df['Idade'])
plt.title('Boxplot da Idade')
plt.show()


Aqui, visualizamos a relação entre **Idade** e **Número de Cursos Concluídos** através de um gráfico de dispersão:

- **Scatterplot**: Um gráfico que exibe pontos que representam pares de valores das duas variáveis. Cada ponto no gráfico mostra a idade de um aluno e quantos cursos ele concluiu.
  
Esse gráfico é útil para identificar visualmente a existência de uma correlação entre as variáveis. Podemos observar padrões como tendências lineares ou a ausência de relação clara entre idade e o número de cursos concluídos.


In [None]:
sns.scatterplot(x='Idade', y='Número de Cursos Concluídos', data=df)
plt.title('Correlação entre Idade e Número de Cursos Concluídos')
plt.show()



---

# Exercício: Análise Estatística Descritiva

## Objetivo do Exercício

Neste exercício, você será responsável por realizar uma **análise estatística descritiva** utilizando um novo conjunto de dados fictício. O objetivo principal é aplicar os conceitos de estatística descritiva que discutimos em aula, explorando as medidas de tendência central, dispersão, correlação e visualizações gráficas, com foco na geração de insights para a tomada de decisões estratégicas.

## Contexto do Negócio

Você trabalha como **analista de dados em uma academia de ginástica**. A administração da academia quer entender melhor o perfil de seus clientes para melhorar a oferta de serviços, como aulas e planos de exercícios personalizados. Para isso, foi coletado um conjunto de dados contendo informações sobre os clientes, incluindo:

- **Gênero** (Masculino, Feminino)
- **Idade** (anos)
- **Nível de Satisfação** (Baixo, Médio, Alto)
- **Horas Semanais de Exercício**
- **Número de Meses como Cliente**

O seu objetivo é realizar uma análise descritiva desses dados para responder às seguintes perguntas de negócio:

1. **Qual é o perfil geral dos clientes da academia?**
   - Quais são as idades médias e medianas dos clientes?
   - Qual é a média e a dispersão das horas semanais de exercício?
   - Como os clientes se distribuem por gênero e nível de satisfação?
   
2. **Existe uma relação entre a idade e o número de horas semanais de exercício?**
   - Clientes mais velhos se exercitam mais ou menos do que os mais jovens?

3. **O tempo de associação (em meses) influencia no nível de satisfação?**
   - Clientes que estão há mais tempo na academia tendem a ter um nível de satisfação mais alto?

## Dataset

Aqui está um exemplo do dataset que você deve utilizar:

| Gênero     | Idade | Nível de Satisfação | Horas Semanais de Exercício | Número de Meses como Cliente |
|------------|-------|---------------------|-----------------------------|------------------------------|
| Masculino  | 25    | Alto                | 5                           | 12                           |
| Feminino   | 32    | Médio               | 4                           | 8                            |
| Masculino  | 28    | Baixo               | 3                           | 6                            |
| Feminino   | 40    | Alto                | 6                           | 24                           |
| Masculino  | 22    | Médio               | 4                           | 10                           |
| Feminino   | 35    | Baixo               | 2                           | 4                            |
| Masculino  | 45    | Alto                | 7                           | 36                           |
| Feminino   | 30    | Médio               | 5                           | 18                           |

Você pode gerar este dataset diretamente no Python utilizando o código a seguir:

```python
import pandas as pd

# Criando o dataset fictício
data = {
    'Gênero': ['Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino', 'Masculino', 'Feminino'],
    'Idade': [25, 32, 28, 40, 22, 35, 45, 30],
    'Nível de Satisfação': ['Alto', 'Médio', 'Baixo', 'Alto', 'Médio', 'Baixo', 'Alto', 'Médio'],
    'Horas Semanais de Exercício': [5, 4, 3, 6, 4, 2, 7, 5],
    'Número de Meses como Cliente': [12, 8, 6, 24, 10, 4, 36, 18]
}

# Convertendo para DataFrame
df = pd.DataFrame(data)
df
```

## Instruções

1. **Medidas de Tendência Central e Dispersão**:
   - Calcule a **média**, **mediana** e **moda** para as variáveis quantitativas, como `Idade`, `Horas Semanais de Exercício` e `Número de Meses como Cliente`.
   - Calcule o **desvio padrão**, **variância** e **amplitude** dessas mesmas variáveis para avaliar a dispersão dos dados.

2. **Distribuição de Frequências**:
   - Calcule a **frequência** das variáveis qualitativas `Gênero` e `Nível de Satisfação` para entender a distribuição dos clientes nessas categorias.
   
3. **Análise Gráfica**:
   - Crie **gráficos de barras** para as variáveis qualitativas (`Gênero` e `Nível de Satisfação`).
   - Crie **histogramas** para as variáveis quantitativas (`Idade` e `Horas Semanais de Exercício`).
   - Crie **boxplots** para visualizar a dispersão dos dados de `Idade` e `Número de Meses como Cliente`.
   
4. **Correlação**:
   - Calcule a **correlação** entre a variável `Idade` e `Horas Semanais de Exercício`. Existe uma relação positiva ou negativa entre essas variáveis?
   - Visualize essa correlação utilizando um **gráfico de dispersão** (scatterplot).
   
5. **Insights e Conclusões**:
   - Com base nas análises realizadas, escreva uma breve conclusão sobre o perfil dos clientes da academia. Como a academia pode usar essas informações para melhorar a experiência dos clientes?

---