###Introdução a Estatística

População
- é o conjunto de elementos com pelo menos uma característica em comum. Esta característica comum deve delimitar claramente quais os elementos que não pertencem.

Amostra
- é um subconjunto de uma população, onde todos os seus elementos serão examinados para efeito da realização do estudo estatístico desejado

objetivo geral: tirar conclusões sobre populações com base nos resultados observados em amostras extraídas dessas populações


Observação
- é uma ocorrência de um item de dados específicos que é gravada sobre uma unidade de dados.

Variável
- é a característica de interesse que é medida em cada elemento da amostra ou população. Como o nome diz, seus valores variam de elemento para elemento. As variáveis podem ter valores numéricos ou não numéricos

- variáveis -> colunas
-                             idade   sexo    peso    cor dos olhos 
- observação -> linhas
-               indivíduo 1    42       M      59      verde
-               indivíduo 2    34       M      54      castanho
-               indivíduo 3    56       F      89      Azul

##variáveis

- Quantitativas (trabalha com números)
- -> Discretas - números inteiros (números de filhos, número de carros, número de acessos)
- -> Contínuas - números reais (altura, peso, salário)

- Qualitativas (trabalha com categorias textuais)
- -> Nominais - não existe uma ordem natural (profissão, sexo, religião)
- -> Ordinais - possuem uma ordem natural ( escolaridade, classe social, fila, aprovação como péssimo, ruim, regular, bom ou ótimo)

##Perspectiva de análises

Análise e ciência de dados
- Descritiva: o que aconteceu? -> BI tradicional / relacionado ao passado
- Diagnóstica: por que aconteceu? -> BI tradicional / relacionado ao passado
- Preditiva: o que acontecerá? / relacionado ao futuro
- Prescritiva: o que deve ser feito? / relacionado ao futuro

In [None]:
import pandas as pd

##Definindo os dados

In [None]:
dict_metrics = {'idade': [15,18,25,26,40,40,58,60],
                'altura': [160,165,149,168,172,174,174,178]}

In [None]:
df = pd.DataFrame(dict_metrics)

In [None]:
df

Unnamed: 0,idade,altura
0,15,160
1,18,165
2,25,149
3,26,168
4,40,172
5,40,174
6,58,174
7,60,178


####Medidas de Posição

- Média: Soma de todos os valores dividida pelo número de valores. É a medida mais comum de tendência central. Pode ser sensível a valores extremos
- Mediana: É o valor do meio quando os dados estão ordenados. Não sofre por valores exremos. É útil em distribuições assimétricas
- moda: É o valor que ocorre com maior frequência. É útil em dados categóricos ou quando deseja-se identificar valores com maior frequência.

In [None]:
df['idade'] #Também pode visualizar as colunas por df.idade

0    15
1    18
2    25
3    26
4    40
5    40
6    58
7    60
Name: idade, dtype: int64

In [None]:
df['idade'].mean() # média de idade

np.float64(35.25)

In [None]:
df['altura'].mean() #Média de altura

np.float64(167.5)

In [None]:
df['idade'].median() #Mediana de idade

33.0

In [None]:
df['altura'].median() #Mediana da latura

170.0

###Medidas de dispersão
- Variância: é a médida dos quadrados entre cada valor e a média. Informa quão distantes os valores estão da média
- Desvio Padrão: é a raiz quadrada da variância. Expressa a dispersão em termos da mesma unidade dos dados
- Coeficiente de variação: é o desvio padrão dividido pela média, expresso em porcentagem. Indica a variabilidade relativa dos dados em relação a média.

In [None]:
print(f'Variância de idade: {df['idade'].var()}') # Variância de idade
print(f'Variância de altura: {df['altura'].var()}') #Variância de altura

Variância de idade: 296.2142857142857
Variância de altura: 88.57142857142857


In [None]:
print(f'Desvio Padrão de idade: {df['idade'].std()}') # Desvio Padrão de idade
print(f'Desvio Padrão de altura: {df['altura'].std ()}') #Desvio pdrão de altura

Desvio Padrão de idade: 17.210876959477854
Desvio Padrão de altura: 9.411239481143202


In [None]:
#Coeficiente de variação - idade
df['idade'].std() / df['idade'].mean() * 100

np.float64(48.82518286376696)

In [None]:
#Coeficiente de variação - altura
df['altura'].std() / df['altura'].mean() * 100

np.float64(5.618650436503405)

###Medidas de forma (distribuição dos dados)
- Assimetria: indica o grau e direção da distorção da distribuição em relação à média. Se positiva, indica a cauda direita da distribuição mais longa, já o oposto indica a cauda esquerda mais longa.
- Curtose: mede o pico ou 'pontuação' da distribuição. Uma curtose alta indica uma distribuição mais concentrada, já o oposto indica uma distribuição mais achatada

In [None]:
df

Unnamed: 0,idade,altura
0,15,160
1,18,165
2,25,149
3,26,168
4,40,172
5,40,174
6,58,174
7,60,178


In [None]:
print(f'Assimetria de idade: {df['idade'].skew()}')
#Assimetria de idade positivo (valores maiores estão mais espalhados)
print(f'Assimetria de altura: {df['altura'].skew()}')
#Assimetria de altura negativa (valores maiores estão mais próximos)

Assimetria de idade: 0.44254516049230713
Assimetria de altura: -1.1359101638062434


In [None]:
print(f'Curtose de idade: {df['idade'].kurtosis()}')
#Curtose de idade negativa (dados mais espalhados)
print(f'Curtose de altura: {df['altura'].kurtosis()}')
#Curtose de altura positiva (dados mais concentrado na média)

Curtose de idade: -1.3083027995345171
Curtose de altura: 1.064502601456815


In [None]:
df.describe()

Unnamed: 0,idade,altura
count,8.0,8.0
mean,35.25,167.5
std,17.210877,9.411239
min,15.0,149.0
25%,23.25,163.75
50%,33.0,170.0
75%,44.5,174.0
max,60.0,178.0


### Correlação
- Mede a relação entre duas variáveis, se positiva (aumentam juntas) ou negativa (uma aumenta enquanto outra diminui) ou não há uma correlação
- Ajuda a selecionar caracerísticas relevantes para os modelos, melhorando a precisão e a interpretabilidade

    ####Índices de correlação
    - Coeficiente de Pearson: mede a relação linear entre duas variáveis, veriando de -1 a 1 e 0 para nenhuma correlação
    - Coeficiente de Spearman: é útil quando os dados não tem uma relação linear clara ou quando as variáveis não são numericamente escalonáveis 
    - Pearson para relação linear e variáveis contínuas e Spearman para relação não linear, ordinais ou com outliers

In [None]:
df.corr(method='pearson')

Unnamed: 0,idade,altura
idade,1.0,0.740852
altura,0.740852,1.0


In [None]:
df.corr(method='spearman')

Unnamed: 0,idade,altura
idade,1.0,0.909639
altura,0.909639,1.0


In [None]:
df['idade'].corr(df['altura'], method='pearson')

np.float64(0.7408519382898473)

In [None]:
df['idade'].corr(df['altura'], method='spearman')

np.float64(0.9096385542168675)

###Histograma

É usado para viriáveis numéricas, mostrando a distrubuição dos dados em intervalos

Ele ajuda a visualizar a frequência com que os valores ocorrem dentro de faixas específicas

###Gráfico de barra

Aplicado a variáveis categóricas, exibindo a contagem ou fequência de cada categoria

###Gráfico de dispersão

Mostra a relação entre duas variáveis numéricas, ajudando a identificar padrões ou tendências

###Box Plot

Adequado para variáveis numéricas ou categóricas ordinais, revelando a distribuição e valores atípicos

###Gráfico de linhas

Utilizado para viariáveis numéricas ao longo do tempo ou em uma sequência, destacando tendências temporais 