### Estatística descritiva - introdução
  
Usando:  
  - Pandas
  - Numpy
  - Matplotlib e Seaborn

In [None]:
import os, sys, math
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats

import matplotlib.pyplot as plt # matplotlib e seu alias plt
%matplotlib inline

### O que é média?

Vamos supor que temos:

sequencia = {x1, x2, x3 .... xn}

<font size="5">\<x> = E[x] = media de x = $\frac{\sum_{i=1}^n{x_i}}{n}$</font>

### media de X = valor esperado de X

media = soma de todos os elementos dividido pelo número de elementos

normalmente se utiliza
  - X (maiúsculo) para a lista, série de dados
  - x (minúsculo) para um determinado (particular) dado

### O que é desvio padrão populacional?
   
Dado que conheço uma população, dada uma medida

**Desvio Parão Populacional ($\sigma$) é a dispersão de `todos` os dados centrados na média populacional**

### O que é desvio padrão (amostral)?

**Desvio padrão amostral (SSD) é a dispersão de dados amostrais centrados na média amostral**
   
Importante, quando realizamos **3 experimentos distintos completos**, cada um com N amostras, geramos 3 desvios-padrão amostrais distintos e obviamente 3 médias distintas. Isto é interessante para reprodutibilidade.

Se forem experimentos biológicos/medicina:
  - Se as amostras vêm de uma mesma fonte (p.ex., cultivo celular)
     - A isto se chama replicata sistêmica (3 experimentos similares em  triplicata)
  - Se as amostras vêm de fontes distintas (cultivo celular de células com doadores distintos)
     - A isto se chama replicata biológica (3 experimentos em triplicata com variabilidade)

### O que influencia o número amostral?

Dado que tenho acesso a amostras de uma população (pop) (n amostral 
  - Um n amostral sempre é << $N_{pop}$
    - pequeno, ruim (N < 30): gera erros ao estimar a média e o desvio padrão amostral - usar estatística não paramétrica
    - razoavelmente bom  (30 >= N >= 100): minimiza estes erros - depende do tamanho de efeito
    - possivelmente muito bom (N >> 30): valores esperados (média e desvio padrão) muito próximos dos valores esperados populacionais.


<font size="5">Var[X] \= variança de x \= $\frac{\sum_{i=1}^n{ (x_i - <x>)^2 }}{n}$</font>

<font size="5">SSD[X] = SQRT(Var[X])</font>

#### Por que o desvio padrão é a soma das diferenças entre cada valor e a média ao quadrado?

In [None]:
x = [2, 5, 17, 9, 11, 15, 8, 23]

# posso utilizar numpy para achar media, SD ....
x, len(x), np.mean(x), np.round(np.std(x), 2)

In [None]:
n = len(x)

# inicialização, com valor 0
media = 0
for xi in x:
    media += xi

media = media / n
media

In [None]:
# inicialização, com valor 0
sd = 0

for xi in x:
    sd += (xi - media)**2

sd /= n
sd = np.sqrt(sd)
np.round(sd, 2)

### Mediana

#### O valor que separa metade da amostra inferior e metade superior

Analisar o peso 100 camundongos após um dado tratamento:
  - ordeno os camundos por peso (menor --> maior peso)
    - vou ter os 50 primeiros
    - vou ter os 50 últimos mais pesados
    - o valor intermediário = MEDIANA

#### Importante: quando a distribuição não é simétrica ou há dúvidas, use sempre a Mediana e não a Media

#### Mediana é o melhor parâmetro para avaliar o valor central de uma distribuição

(mais adiante vamos ver o que é distribuição)

In [None]:
x

In [None]:
x.sort()
x, len(x)

In [None]:
np.median(x), "é o valor entre 9 e 11"

### Moda

#### é o valor com mais alta frequência

#### uma distriuição pode ter múltiplas modas (multimodal)

In [None]:
MU = 20
SSD = 2
N = 100

x = np.random.normal(MU, SSD, N)
x[:10]

In [None]:
plt.hist(x)

In [None]:
# na distribuição normal: media == mediana == moda
ret = plt.hist(x);
plt.title("Histograma: barplot de frequências");

In [None]:
ret

In [None]:
# frequencia
counts = ret[0]

# bins do eixo x ~ posx
posx   = ret[1]
posx   = [float(np.round((posx[i]+posx[i+1])/2, 1)) for i in range(len(posx)-1)]
posx

In [None]:
len(posx), len(counts)

In [None]:
counts = [int(count) for count in counts]
counts

In [None]:
# comprehension: tuplica os valores de posx
vals = [ [posx[i]]*counts[i] for i in range(len(posx))]
vals[0:2]

In [None]:
def flatten(lista:list) -> list:

    ret_lista = []
    for lista_int in lista:
        if isinstance(lista_int, list):
            lista_int = [float(x) for x in lista_int]
            ret_lista += lista_int
        elif isinstance(lista_int, int) or isinstance(lista_int, float):
            ret_lista += [float(lista_int)]
        else:
            raise ValueError(f"Parte interna da lista é uma lista ou string e não {type(lista_int)} -> '{lista_int}'")

    return ret_lista

In [None]:
vals2 = flatten(vals)
len(vals2), vals2[:10]

### Contador de elementos

In [None]:
from collections import Counter

In [None]:
dic = Counter(vals2)
dic

In [None]:
from statistics import mode

mu = np.mean(vals2)
ssd = np.std(vals2)
med = np.median(vals2)
mod = mode(vals2)

#-- cálculo dos parametros
f"media = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {ssd:.2f}"

In [None]:
# distplot do seaborn = histograma
ax = sns.displot(vals2)

title = f"Uma distribuição com média = {mu:.2f}  median = {med:.2f}  moda = {mod:.2f} e  SSD = {ssd:.2f}"

ax.set_titles(title);

In [None]:
g = sns.displot(vals2, kde=True,
                height=6,     # altura em polegadas
                aspect=1.4    # largura = height × aspect
            )

g.fig.suptitle(title, fontsize=16)
g.fig.subplots_adjust(top=0.9);

### Mistturando seaborn e matplotlib

In [None]:
# usando figure(figsize)
plt.figure(figsize=(10, 6))
sns.histplot(vals2, kde=True)
plt.title(title, fontsize=14, color='darkred')
plt.grid();

### Localizando media, mediana, moda

In [None]:
plt.figure(figsize=(10, 6))
ax = sns.histplot(vals2, kde=True)

# linha vertical - axvline - com a media em vermelho
# a distribuição é bimodal?
ax.axvline(mu, color="red", linestyle="--",  linewidth=2, label=f"media = {mu:.2f}")

ax.legend()
ax.set_title(title)

In [None]:
plt.figure(figsize=(12, 6))
ax = sns.histplot(vals2, kde=True)

ax.set_title(title)

# linha vertical - axvline - com a media em vermelho, mediana em azul, e a moda em amarelo
ax.axvline(mu, color='red', label=f"media = {mu:.2f}")
ax.axvline(med, color='navy', label=f"mediana = {med:.2f}")
ax.axvline(mod, color='yellow', label=f"moda = {mod:.2f}")

ax.legend()

### Desvio padrão

In [None]:
plt.figure(figsize=(12, 6))
ax = sns.histplot(vals2, kde=True)

ax.set_title(title)
ax.axvline(mu, color='red', label=f"media = {mu:.2f}")
# qq que seja a distribuição posso obter o desvio padrão, incluso bimodais e assimétricas
ax.axvline(mu-ssd, color='orange', label=f"SSD = {ssd:.2f}")
ax.axvline(mu+ssd, color='orange')

ax.legend()

### Vamos utilizar a tabela das cobras

In [None]:
root_data = '../data/'
os.listdir(root_data)

In [None]:
[x for x in os.listdir(root_data) if 'Snake' in x]

In [None]:
# merge: path + filename via join()
from os.path import join, exists

In [None]:
root_data = '../data/'
fname = 'Snake Morphotaxonomy.xlsx'

filename = join(root_data, fname)
exists(filename), filename

In [None]:
try:
    # df = pd.DataFrame()
    df = pd.read_excel(filename)
    print(f"Read df shape {df.shape} -> '{filename}'")
except Exception  as e:
    print(f"#Error {e} - tentando abrir '{filename}'")

In [None]:
# !pip install openpyxl

In [None]:
type(df)

In [None]:
print(df.shape)
print(list(df.columns))

In [None]:
# cabeçalho: default 5 linhas
df.head()

In [None]:
# cabeçalho: ler 3 linhas
df.head(3)

In [None]:
# rabo - fim da tabela: ler 3 linhas
df.tail(3)

### Colunas
  - species = espécie
  - population = população
  - sex = gênero
  - RDS = Row of Dorsal Scales - qtd de escamas dorsais
  - VS = Ventral Scales - qtd de escamas ventrais
  - HL = comprimento da cabeça
  - TL = comprimento do rabo

In [None]:
df.sex.unique()

In [None]:
df.species.unique()

In [None]:
df.population.unique()

### Parâmetros: media (mu) e desvio padrão amostral (SSD) - via pandas
  - df.HL é denominada a Série HL
  - Série em pandas, são os valores de cada coluna

In [None]:
mu = df.HL.mean()
ssd = df.HL.std()
n  = len(df)

f"Há {n} serpentes como HL (comprimento da cabeça) medio = {mu:.2f}  ({ssd:.2f})"

### Parâmetros via numpy

In [None]:
mu = np.mean(df.HL)
ssd = np.std(df.HL)
n  = len(df)

f"Há {n} serpentes como HL (comprimento da cabeça) medio = {mu:.2f}  ({ssd:.2f})"

### Mas, lembre-se que há várias espécies

  - Como consigo fazer uma estatística descritiva por espécie?

In [None]:
# lista na ordem que vai aparecendo
spec_list = df.species.unique()
spec_list

In [None]:
# ordena nos nomes das espécies
spec_list = np.unique(df.species)
spec_list

### Filtrando espécies

In [None]:
# slice = corte nos dados ~   filtro

species = 'B_jararaca'
df_jar = df[df.species == species]

mu_jar = df_jar.HL.mean()
sd_jar = df_jar.HL.std()
n_jar  = len(df_jar)

f"Há {n_jar} serpentes da espécie {species} como HL (comprimento da cabeça) medio = {mu_jar:.2f}  ({sd_jar:.2f})"

### Podemos criar um método para usar para qualquer medida e qualque espécie

In [None]:
def describe_species_measue(df, species:str='B_jararaca', measure:str='HL'):
    df2 = df[df.species == species].copy()
    df2.reset_index(drop=True, inplace=True)
    
    mu  = df2[measure].mean()
    ssd = df2[measure].std()
    n   = len(df2)
    
    title = f"Há {n} serpentes da espécie {species} como {measure} medio = {mu:.2f}  ({ssd:.2f})"

    return df2, mu, ssd, n, title


In [None]:
measure = 'HL'
species = 'B_terrificus'

df2, mu, ssd, n, title = describe_species_measue(df, species=species, measure=measure)
title

In [None]:
df2

### Todas as especies

In [None]:
for species in spec_list:
    df2, mu, ssd, n, title = describe_species_measue(df, species=species, measure=measure)
    print(title)

### Posso fazer algo mais simples? SIM

In [None]:
df.head(2)

#### Colunas

In [None]:
df.columns

### Pegar as colunas numéricas

In [None]:
cols = ['RDS', 'VS', 'HL', 'TaL', 'temperature', 'elevation']

### Filtrar um dataframe com estas colunas

In [None]:
df3 = df[ cols ]
df3.head(2)

In [None]:
df3.describe()

In [None]:
df.groupby('species')

In [None]:
from tabulate import tabulate

In [None]:
# !pip install tabulate

In [None]:
dfdesc = df3.describe()
dfdesc

In [None]:
for species, dfg in df.groupby('species'):
    df3 = dfg[ cols ]
    print(species)
    print(tabulate(df3.describe(), headers='keys', tablefmt='psql'))
    print("\n")

### Como você faria para analisar a estatística de gêneros?

#### Transformando variável nominal (sexo/genero) em quantitativa
  - Tem algum significado obter estatístca da mesma?

In [None]:
df.head(2)

In [None]:
df.sex.isna()

### Falta dados?

In [None]:
# is not available
dff = df[ ~df.sex.isna() ]
len(df), len(dff)

In [None]:
df['genero'] = [1 if x=='Female' else 0 for x in df.sex]
df.head(6)

In [None]:
df.genero.unique()

### Outra forma

In [None]:
df['genero'] =  df.sex == 'Female'
df.head(6)

In [None]:
## inclui genero
cols = ['genero', 'RDS', 'VS', 'HL', 'TaL', 'temperature', 'elevation']

In [None]:
# não aceita booleano
for species, dfg in df.groupby('species'):
    df3 = dfg[ cols ]
    print(species)
    print(tabulate(df3.describe(), headers='keys', tablefmt='psql'))
    print("\n")

### Há diferenças entre populações

In [None]:
df.population.unique()

### Discuta a media e desvio padrão das espécies