# Análise Estatistica

In [None]:
# Importar bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carregar dataframe com o conteúdo do arquivo

caminho do arquivo para ler  
**sep** ([str] ','): Separador de colunas  
**delimiter** ([str], None): Delimitador de texto  
**header** ([int, list of int], 'infer'): Quantidade de cabeçalho 

In [None]:
df_happy = pd.read_csv('./wh-2017.csv')

### Visualizar todos os registros

In [None]:
df_happy

### Visualizar 5 primeiros registros

In [None]:
df_happy.head()

### Visualizar 5 últimos registros

In [None]:
df_happy.tail()

### Remover colunas

In [None]:
df_happy = df_happy.drop(columns=['Whisker.high', 'Whisker.low'])
df_happy.head()

### Ordenar os dados

In [None]:
df_happy_ordem_exp = df_happy.sort_values(by='Health..Life.Expectancy.', ascending=False)
df_happy_ordem_exp.head()

---

![Questão](question-solid.svg)

Quais os cinco países mais e menos Generosos?

---

### Listar tipos das colunas

In [None]:
df_happy.dtypes

### Analizar Felicidade - Análise descritiva

Para grande conjunto de dados a análise descritiva ajuda a entender os dados sem a necessidade de analise individual

## Medidas de Síntese

* Tamanho
* Soma
* Máximo
* Minimo
* Quantis  
...

In [None]:
felicidade = df_happy['Happiness.Score']

sum = felicidade.sum()
count = felicidade.count()
min = felicidade.min()
max = felicidade.max()

print("Contagem", count)
print("Soma", sum)
print("Mínimo", min)
print("Máximo", max)

In [None]:
quantile = 15
percentil = felicidade.quantile(quantile / 100)
print("Percentil ", quantile, percentil)

## Medidas de Tendência ao Centro

* Média
* Mediana
* Moda  
...

In [None]:
felicidade = df_happy['Happiness.Score']

mean = felicidade.mean()
median = felicidade.median()
moda = felicidade.mode()

print("Média", mean)
print("Mediana", median)
print("Moda", moda)

## Medidas de dispersão

* Covariância  
* Desvio padrão

#### Variância

Medida dispersão da média a amostra

![Variance](variance.svg)

In [None]:
var = df_happy['Happiness.Score'].var()
print("Variância", var)

#### Desvio Padrão 

Raiz da medida dispersão da média a amostra

![Desvio Padrão](standard_deviation.svg)

In [None]:
dp = df_happy['Happiness.Score'].std()
print("Desvio Padrão", dp)

### Distribuição de dados

In [None]:
felicidade = df_happy['Happiness.Score']
min = felicidade.min()
max = felicidade.max()
intervalos = np.arange(min, max, (max - min) / 20)

rotulos = []
distribuicao = []

for i in range(len(intervalos) - 1):
    qtd = felicidade[(felicidade >= intervalos[i]) & (felicidade < intervalos[i + 1])].count()
    rotulos.append(intervalos[i])
    distribuicao.append(qtd)
    
plt.title('Distribuição da Felicidade por Quantidade')    
plt.bar(rotulos, distribuicao)
plt.show()

### Tendência a média

Crescimento de empresas  
Pilotos de aviões  
Jogadores de futebol  

---

![Questão](question-solid.svg)

Renda per Capita também tende a média?

---

## BoxPlot

Cinco números de resumo 

In [None]:
boxplot_happy = df_happy.boxplot(column=['Happiness.Score'])
quartiles = np.percentile(df_happy['Happiness.Score'], [0, 25, 50, 75, 100])

print("Quartis", quartiles)

---

![Questão](question-solid.svg)

Como são os outros boxplot?

---

In [None]:
boxplot_outros = df_happy.boxplot(column=['Economy..GDP.per.Capita.', 'Family', 'Health..Life.Expectancy.', 'Freedom', 'Generosity', 'Trust..Government.Corruption.', 'Dystopia.Residual'])

## Outliers

In [None]:
boxplot = df_happy.boxplot(column=['Trust..Government.Corruption.'])
quartiles = np.percentile(df_happy['Trust..Government.Corruption.'], [0, 25, 50, 75, 100])

print("Min", quartiles[0])
print("Q1", quartiles[1])
print("Mediana", quartiles[2])
print("Q3", quartiles[3])
print("Max", quartiles[4])

In [None]:
df_happy['Trust..Government.Corruption.']

In [None]:
confianca = df_happy['Trust..Government.Corruption.']
q1 = confianca.quantile(0.25)
q3 = confianca.quantile(0.75)

iqr = q3 - q1
limit_bottom = q1 - 1.5 * iqr
limit_top = q3 + 1.5 * iqr

print("IQR", iqr) # Intervalo Interquatil
print("Limit Bottom", limit_bottom)
print("Limit Top", limit_top)

In [None]:
df_happy.loc[(df_happy['Trust..Government.Corruption.'] >= limit_top)]

In [None]:
df_happy.loc[(df_happy['Trust..Government.Corruption.'] <= limit_bottom)]

---

![Questão](question-solid.svg)

Quais países possuem são outliner de renda per capita?

---

## Correlações

Pearson

In [None]:
plt.scatter(df_happy['Happiness.Score'], df_happy['Trust..Government.Corruption.'])
plt.show()

In [None]:
pd.plotting.scatter_matrix(df_happy, figsize=(18, 18))
plt.show()

---

![Questão](question-solid.svg)

Qual dos valores possuem uma correlação maior com a felicidade?

---

In [None]:
df_happy.corr()

In [None]:
correlacoes = df_happy.corr()

plt.matshow(correlacoes)
plt.xticks(range(len(correlacoes.columns)), correlacoes)
plt.yticks(range(len(correlacoes.columns)), correlacoes)
plt.colorbar()
plt.show()

In [None]:
plt.scatter(df_happy['Happiness.Score'], df_happy['Generosity'])
plt.show()

In [None]:
plt.scatter(df_happy['Happiness.Score'], df_happy['Economy..GDP.per.Capita.'])
plt.show()

### Problema com correlações

* Correlação não é causa
* Correlação espúria
* Variável de confusão

##### Exemplos

* Tubarão e Sorvetes
* Nicholas Cage e suicídios