<a href="https://colab.research.google.com/github/MarcelaFerreiraR/AnaliseDeDados/blob/main/Analise_Descritiva_pynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Analise Descritiva**

Vamos estudar a análise descritiva e como fazer uma análise bem feita.  

A análise descritiva é o primeiro passo em qualquer processo de exploração de dados. Seu objetivo é **resumir, organizar e compreender as características principais de um conjunto de informações**, permitindo que possamos responder perguntas como:

- O que aconteceu nos dados?
- Quais são os valores típicos ou centrais?
- Existe muita variação ou os dados são consistentes?
- Há padrões, tendências ou outliers que chamam atenção?
- Como diferentes grupos se comportam dentro da base?

Nesta etapa, não buscamos prever o futuro ou explicar causalidades profundas, mas sim **entender o presente dos dados** de forma clara e estruturada.

# Sumário - Estudo de Análise Descritiva

1. Introdução à Análise Descritiva

2. Medidas de Tendência Central
   - Média (aritmética, ponderada, geométrica, harmônica)
   - Mediana
   - Moda

3. Medidas de Dispersão
   - Amplitude
   - Variância
   - Desvio Padrão
   - Coeficiente de Variação
   - Intervalo Interquartílico (IQR)

4. Distribuição dos Dados
   - Histogramas
   - Boxplots
   - Curva de Densidade

5. Análise de Correlação
   - Covariância
   - Correlação de Pearson
   - Correlação de Spearman

6. Análise Categórica
   - Tabelas de Frequência
   - Crosstab (tabelas cruzadas)
   - Gráficos de barras e setores

7. Visualização Exploratória
   - Quando usar cada tipo de gráfico
   - Exemplos práticos com matplotlib/seaborn

In [None]:
# Importando Bibliotecas necessarias #

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 2. **Medidas de Tendência Central**


As medidas de tendência central são utilizadas para identificar **valores representativos** de um conjunto de dados.  

Elas ajudam a responder: *“qual é o valor típico ou central dos meus dados?”*  

As principais medidas são:  
- **Média Aritmética**: valor aritmético médio.  
- **Média Ponderada**: cada valor recebe um peso diferente, útil quando algumas observações são mais importantes que outras.  
- **Média Geométrica**: raiz n-ésima do produto dos valores, indicada para taxas de crescimento, proporções ou indicadores multiplicativos.  
- **Média Harmônica**: número de observações dividido pela soma dos inversos dos valores, ideal para médias de taxas, velocidades ou razões.  
- **Mediana**: valor central da distribuição.  
- **Moda**: valor mais frequente.  

Cada uma tem seu papel:  
- **Média Aritmética** → funciona bem com dados simétricos e sem outliers.  
- **Média Ponderada** → quando cada valor tem importância diferente.  
- **Média Geométrica** → para crescimento percentual ou multiplicativo.  
- **Média Harmônica** → para médias de taxas, velocidades ou proporções.  
- **Mediana** → ideal quando existem outliers ou distribuições assimétricas.  
- **Moda** → usada em dados categóricos ou para identificar o valor mais comum.


In [None]:
# Importando bibliotecas
import numpy as np
import pandas as pd
from scipy.stats import gmean, hmean, mode

# Criando um conjunto de dados
dados = [5, 7, 8, 5, 6, 7, 8, 100]  # note o outlier (100)



Média Aritmética: 18.25
Média Ponderada: 7.9
Média Geométrica: 0.0600
Média Harmônica: 75.0
Mediana: 7.0
Moda: 5
