<a href="https://colab.research.google.com/github/triatebr/aprenda-python/blob/master/Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logos](https://cdn.iconscout.com/icon/premium/png-256-thumb/statistics-287-796424.png)

O que é **Estatística Descritiva?**
Estatística descritiva é o ramo da estatística que visa sumarizar e descrever qualquer conjunto de dados. Em outras palavras, é aquela estatística que está preocupada em sintetizar os dados de maneira direta, se preocupando menos com variações e intervalos de confiança dos dados. Exemplos de estatísticas descritivas são a média, o desvio padrão, a mediana, etc.<p>
Fonte: [link](https://www.fm2s.com.br/estatistica-descritiva-basica-e-centralidade/)

No momento estou lendo um **Super Livro** (se existir esse termo!?!) sobre **análise de dados**, logo me senti motivado, resolvi criar esse pequeno **Tutorial** sobre Estatística Descritiva.<p>
    Bora lá ... aprender sobre usando python e **Pandas** <p>
    Inspiração para o material: [link](http://felipegalvao.com.br/blog/2016/03/31/estatistica-descritiva-com-python)

In [0]:
# vamos importar as bibliotecas que utilizaremos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime 
%matplotlib inline

In [0]:
from google.colab import files
uploaded = files.upload()

Saving bank-full.csv to bank-full.csv


In [0]:
# Dataframes
dados = pd.read_csv('bank-full.csv', delimiter=';')

**Dados utilizados**

Para o exempçlo de árvore de descisão iremo utilizar um [dataset de Marketing](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing).<p>Ele demonstra valores de campanha de telemarketing de banco portugues.

In [0]:
dados.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


In [0]:
dados.count()

age          45211
job          45211
marital      45211
education    45211
default      45211
balance      45211
housing      45211
loan         45211
contact      45211
day          45211
month        45211
duration     45211
campaign     45211
pdays        45211
previous     45211
poutcome     45211
y            45211
dtype: int64

In [0]:
#vamos começar embaralhando o conjunto de dados, pois ele pode estar ordenado de alguma forma
dados = dados.sample(frac=1)

A Estatística trabalha com diversas informações que são apresentadas por meio de gráficos e tabelas e com diversos números que representam e caracterizam um determinado conjunto de dados. Dentre todas as informações, podemos retirar valores que representem, de algum modo, todo o conjunto. Esses valores são denominados **“Medidas de Tendência Central ou Medidas de Centralidade”**.<p>
As medidas de centralidade que apresentaremos são a **Média Aritmética**, a **Moda** e a **Mediana**.
Vamos mostrar a seguir o que vem a ser cada uma delas.

![logos](https://slideplayer.com.br/slide/9042260/27/images/3/Medidas+de+Tend%C3%AAncia+Central.jpg)

# Média

In [0]:
# Vamos começar pela MÉDIA ARITMÉTICA, mais simples e fácil de aprender / conceituar
# É determinada pelo resultado da divisão do somatório dos números dados pela quantidade de números somados.
# No python usamos a função 'mean()'
print(dados['duration'].mean())

258.1630797814691


In [0]:
# Agora vamos calcular/exibir a media da informação de 'age' (idade) dos clietnes 
print(dados['age'].mean())

40.93621021432837


# Mediana

In [0]:
# Agora chegou a vez da MEDIANA, vc já deve ter visto alguma vez! Senão viu ... aprende ae
# Mediana é a medida de tendência central que indica exatamente o valor central de um conjunto 
# de dados quando organizados em ordem crescente ou decrescente.
print(dados['duration'].median())

180.0


In [0]:
print(dados['age'].median())

39.0


A Mediana é um conceito menos suscetível a valores discrepantes do que a média.<p>
Vamos imaginar que analisando o sálário de um grupo de amigos (18 pessoas), 4 deles recebam mensalmente valores muitos altos
comparados ao restante. <p>A Média nesse caso pode ser 'facilmente' contaminada por tais valores.<p>
Mais pra frente abordaremos algo sobre **'OUTLIERS'**, os valores citados.

# Moda

In [0]:
# É a medida de tendência central que consiste no valor observado com mais frequência em um conjunto de dados.
# Moda, uma medida de frequência
print(dados['duration'].mode())

0    124
dtype: int64


In [0]:
print(dados['age'].mode())

0    32
dtype: int64


![logos](https://image2.slideserve.com/4577505/medidas-de-dispers-o1-n.jpg)

# Amplitude

In [0]:
# A amplitude nada mais é do que a diferença entre o maior e o menor valor de um conjunto de dados.
print(dados['duration'].max() - dados['duration'].min())

4918


In [0]:
print(dados['age'].max() - dados['age'].min())

77


In [0]:
print(dados['age'].max())

95


In [0]:
print(dados['age'].min())

18


# Variância

In [0]:
# Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto 
# está do valor central (médio)
print(dados['duration'].var())

66320.57409008557


Nossa 1ª fórmula por aqui! Não se assuste ...<p>
![logos](https://calculareconverter.com.br/wp-content/uploads/2018/08/formula-variancia.jpg)

In [0]:
print(dados['age'].var())

112.75810728286037


# Desvio Padrão

In [0]:
# O desvio padrão também é uma medida de dispersão, que indica quanto os dados estão afastados da média. 
# Um valor de desvio padrão alto indica que os valores estão mais espalhados, mais longe da média, e 
# um desvio padrão baixo indica que os valores estão mais próximos da média. 

In [0]:
print(dados['duration'].std())

257.5278122651718


In [0]:
print(dados['age'].std())

10.618762040975415


# Desvio Absoluto

In [0]:
# Em estatística, o desvio absoluto de um elemento de um conjunto de dados é a diferença absoluta entre este 
#elemento e um ponto dado. Tipicamente o ponto do qual o desvio é medido é medida de uma tendência central, 
#mais frequentemente a mediana ou algumas vezes a média do conjunto de dados.
print(dados['duration'].mad())

170.96779919598646


In [0]:
print(dados['age'].mad())

8.737267827190975


# Quartil

Na **estatística descritiva**, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.

Assim, no caso duma amostra ordenada:
Primeiro quartil (designado por **Q1/4**) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil<P>
Segundo quartil (designado por **Q2/4**) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil.<P>
Terceiro quartil (designado por **Q3/4**) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil<P>
A diferença entre os quartis superior e inferior chama-se **amplitude inter-quartil**.<P>
    Fonte: [link](https://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html)

In [0]:
# 1º quartil
dados.age.quantile(0.25)

33.0

In [0]:
# Média .... 2º quartil
dados.age.quantile(0.5)

39.0

In [0]:
# 3º quartil
dados.age.quantile(0.75)

48.0

# Outliers

Em estatística, **outlier** , valor aberrante ou valor atípico, é uma observação que apresenta <p> um grande afastamento das demais da série (que está "fora" dela), ou que é inconsistente. <p>A existência de outliers implica, tipicamente, em prejuízos a interpretação dos resultados dos **testes estatísticos** aplicados às amostras.

In [0]:
#Nº de linhas e colunas
dados.shape

(45211, 17)

Exemplo:
![logos](https://psucd8.files.wordpress.com/2011/10/outlierscatterplot_10001.gif)

In [0]:
# Lista com as colunas numéricas que não são necessariamente contínuas
numerical_columns = [col for col in dados.columns if (dados[col].dtype=='int64' or dados[col].dtype=='float64')]

In [0]:
numerical_columns

['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous']

In [0]:
# vamos extrair info's dessas colunas
dados[numerical_columns].describe().loc[['min', 'max', 'mean', '50%'],:]

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
min,18.0,-8019.0,1.0,0.0,1.0,-1.0,0.0
max,95.0,102127.0,31.0,4918.0,63.0,871.0,275.0
mean,40.93621,1362.272058,15.806419,258.16308,2.763841,40.197828,0.580323
50%,39.0,448.0,16.0,180.0,2.0,-1.0,0.0


Repara-se que há no **Balance** um valor de '-8019' ! Estranho neh<p>
Com certeza há um registro 'bagunçando' **tudo**<p>
    Vamos analisa-lo!

In [0]:
dados[dados['balance'] == dados['balance'].min ()]

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
12909,26,blue-collar,single,secondary,yes,-8019,no,yes,cellular,7,jul,299,3,-1,0,unknown,no


O registro '12909' está muito diferente dos demais, se usássemos para algum modelo ou estudo estatístico caberia a nós decidirmos a **deleção** do mesmo.<p> Caso escolhessemos por apagar o registro, a sintaxe é **simples**.

In [0]:
dados.drop(dados.index[12909], inplace=True)

# Covariância

Em alguns momentos, queremos saber se **duas variáveis** possuem alguma relação entre si dentro de um conjunto de dados. <p>Para estes casos, calculamos a covariância e a correlação.

A **covariância** é uma medida numérica que indica a inter-dependência entre duas variáveis. A covariância indica como duas variáveis se comportam conjuntamente em relação às suas médias. Uma covariância igual a 0 indica que as duas variáveis são totalmente independentes, enquanto que uma covariância alta e positiva indica que uma variável é grande quando a outra é grande. <p>Analogamente, uma covariância negativa e com valor absoluto alto indica que uma variável é pequena quando a outra é grande. 

In [0]:
# Uma matriz com as colunas é gerada, comparando quanto uma possuí de Covariância em relação a outra 
print(dados.cov())

                  age       balance  ...         pdays    previous
age        112.760601  3.161545e+03  ...    -25.261051    0.031513
balance   3161.544819  9.270768e+06  ...   1048.514736  116.958593
day         -0.806016  1.136949e+02  ...    -77.524184   -0.991147
duration   -12.711747  1.691116e+04  ...    -40.511413    0.711395
campaign     0.156605 -1.374946e+02  ...    -27.493691   -0.234474
pdays      -25.261051  1.048515e+03  ...  10025.949995  104.901694
previous     0.031513  1.169586e+02  ...    104.901694    5.305951

[7 rows x 7 columns]


# Correlação

A **covariância**, entretanto, pode ser difícil de ser compreendida e comparada, pois ela nos dá valores em escalas que serão diferentes conforme as variáveis mudem. Para uma melhor comparação, normalizamos a covariância para ter um valor que sempre estará entre 1 e -1, que é a correlação. <p>Logo, a **correlação** também é outra medida que indica o quanto duas variáveis estão relacionadas. Seu valor fica sempre entre -1, que indica uma anti-correlação perfeita, e 1, que indica uma correlação perfeita.

In [0]:
# Outra matriz é gerada para comparação das colunas entre si
print(dados.corr())

               age   balance       day  duration  campaign     pdays  previous
age       1.000000  0.097783 -0.009121 -0.004648  0.004760 -0.023758  0.001288
balance   0.097783  1.000000  0.004487  0.021567 -0.014576  0.003439  0.016676
day      -0.009121  0.004487  1.000000 -0.030182  0.162505 -0.093032 -0.051703
duration -0.004648  0.021567 -0.030182  1.000000 -0.084574 -0.001571  0.001199
campaign  0.004760 -0.014576  0.162505 -0.084574  1.000000 -0.088630 -0.032857
pdays    -0.023758  0.003439 -0.093032 -0.001571 -0.088630  1.000000  0.454819
previous  0.001288  0.016676 -0.051703  0.001199 -0.032857  0.454819  1.000000


![logos](http://www.redacao.org/wp-content/uploads/2016/09/conclus%C3%A3o.png)

Entretanto, é necessário cuidado ao **avaliar as correlações**. Alguns dados podem indicar uma correlação que não existe de fato, e é apenas obra do acaso, o que é possível em certos casos onde variáveis apresentam algum tipo de padrão que pode levar a este valor de correlação.<p>

Por fim, também é importante atentar para o famoso conceito que diz que “**correlação não implica causalidade**”. O que isso quer dizer é, quando duas variáveis apresentam um alto valor de correlação, pode ser que a primeira variável cause este comportamento na segunda, que a segunda causa este comportamento na primeira, que ambas causam o comportamento na outra ou isso também pode não dizer nada, como nos casos que mencionamos acima. <p>O segredo para não cair nesta armadilha é conhecer bem os dados, para que se possa fazer sempre uma avaliação criteriosa, caso a caso.