<a href="https://colab.research.google.com/github/triatebr/aprenda-python/blob/master/CPDigital_10-07-2020.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![texto alternativo](https://imagens-voitto.s3.amazonaws.com/imagens-blog/meta/963b9ed4a8402803a51366d488f444b5.jpg)

O que é **Estatística Descritiva?**<p>
Estatística descritiva é o ramo da estatística que visa sumarizar e descrever <p>qualquer conjunto de dados. <p>Em outras palavras, é aquela estatística que está preocupada <p>em sintetizar os dados de maneira direta, se preocupando menos com variações <p>e intervalos de confiança dos dados. <p>Exemplos de estatísticas descritivas são a média, o desvio padrão, a mediana, etc.<p>


In [None]:
# vamos importar as bibliotecas que utilizaremos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime 
%matplotlib inline

In [None]:
#upload do arquivo dados.csv
from google.colab import files
uploaded = files.upload()

In [3]:
# geração do Dataframe
dados = pd.read_csv('bank-full.csv', delimiter=';')

**Dados utilizados**

Para o exemplo da aula de hoje utilizaremos um [dataset de Marketing](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing).<p>Ele demonstra valores de campanha de telemarketing de banco portugues.

In [None]:
# visualizar as 5 primeiras linhas
dados.head()

In [None]:
# mas poderiam ser a 5 últimas
dados.tail()

In [None]:
# vamos analisar o Dataframe gerado
# listar os tipos de campos envovlidos
dados.info()

In [None]:
# descritivo estatístico do Dataframe
dados.describe()

**Dados --> Informação/Conhecimento --> Inteligência**



![alt text](https://miro.medium.com/max/1400/0*LLW8pyeOVTYZjGpJ.png)

[link da imagem](https://medium.com/@henriquebraga_18075/estat%C3%ADstica-descritiva-conceitos-b%C3%A1sicos-f715e5ae7fe2)

A Estatística trabalha com diversas informações que são apresentadas por meio de gráficos e tabelas <p>e com diversos números que representam e caracterizam um determinado conjunto de dados. <p>Dentre todas as informações, podemos retirar valores que representem, de algum modo, todo <p>o conjunto. Esses valores são denominados <p>**“Medidas de Tendência Central ou Medidas de Centralidade”**.<p>
As medidas de centralidade que apresentaremos são a **Média Aritmética**, a **Moda** e a **Mediana**.

# Média

In [None]:
# Vamos começar pela MÉDIA ARITMÉTICA, mais simples e fácil de aprender / conceituar
# É determinada pelo resultado da divisão do somatório dos números dados pela quantidade de números somados.
# No python usamos a função 'mean()'
print(dados['duration'].mean())

In [None]:
# Agora vamos calcular/exibir a media da informação de 'age' (idade) dos clietnes 
print(dados['age'].mean())

# Mediana

In [None]:
# Agora chegou a vez da MEDIANA, vc já deve ter visto alguma vez! Senão viu ... aprende ae
# Mediana é a medida de tendência central que indica exatamente o valor central de um conjunto 
# de dados quando organizados em ordem crescente ou decrescente.
print(dados['duration'].median())

In [None]:
print(dados['age'].median())

A Mediana é um conceito menos suscetível a valores discrepantes do que a média.<p>
Vamos imaginar que analisando o sálário de um grupo de amigos (18 pessoas), <p>4 deles recebam mensalmente valores muitos altos
comparados ao restante. <p>A Média nesse caso pode ser 'facilmente' contaminada por tais valores.<p>
Mais pra frente abordaremos algo sobre **'OUTLIERS'**, os valores citados.

# Amplitude

In [None]:
# A amplitude nada mais é do que a diferença entre o maior e o menor valor de um conjunto de dados.
print(dados['duration'].max() - dados['duration'].min())

In [None]:
print(dados['age'].max() - dados['age'].min())

In [None]:
print(dados['age'].max())

In [None]:
print(dados['age'].min())

# Variância

In [None]:
# Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto 
# está do valor central (médio)
print(dados['duration'].var())

In [None]:
print(dados['age'].var())

# Desvio Padrão

In [None]:
# O desvio padrão também é uma medida de dispersão, que indica quanto os dados estão afastados da média. 
# Um valor de desvio padrão alto indica que os valores estão mais espalhados, mais longe da média, e 
# um desvio padrão baixo indica que os valores estão mais próximos da média. 
print(dados['duration'].std())

In [None]:
print(dados['age'].std())

# Outliers

Em estatística, **outlier** , valor aberrante ou valor atípico, é uma observação que apresenta <p> um grande afastamento das demais da série (que está "fora" dela), ou que é inconsistente. <p>A existência de outliers implica, tipicamente, em prejuízos a interpretação <p>dos resultados dos **testes estatísticos** aplicados às amostras.

In [None]:
#Nº de linhas e colunas
dados.shape

Exemplo:
![logos](https://psucd8.files.wordpress.com/2011/10/outlierscatterplot_10001.gif)

In [21]:
# Lista com as colunas numéricas que não são necessariamente contínuas
numerical_columns = [col for col in dados.columns if (dados[col].dtype=='int64' or dados[col].dtype=='float64')]

In [22]:
numerical_columns

['age', 'balance', 'day', 'duration', 'campaign', 'pdays', 'previous']

In [None]:
# vamos extrair info's dessas colunas
dados[numerical_columns].describe().loc[['min', 'max', 'mean', '50%'],:]

Repara-se que há no **Balance** um valor de '-8019' ! Estranho neh<p>
Com certeza há um registro 'bagunçando' **tudo**<p>
    Vamos analisa-lo!

In [None]:
dados[dados['balance'] == dados['balance'].min ()]

O registro '12909' está muito diferente dos demais, se usássemos ,<p>para algum modelo ou estudo estatístico caberia a nós decidirmos <p>a **deleção** do mesmo.<p> Caso escolhessemos por apagar o registro, a sintaxe é **simples**.

In [25]:
dados.drop(dados.index[12909], inplace=True)

# Covariância

Em alguns momentos, queremos saber se **duas variáveis** possuem alguma relação <p>entre si dentro de um conjunto de dados. Para estes casos, calculamos a covariância <p>e a correlação.

A **covariância** é uma medida numérica que indica a inter-dependência entre duas <p>variáveis. A covariância indica como duas variáveis se comportam conjuntamente <p>em relação às suas médias. Uma covariância igual a 0 indica que as duas variáveis <p>são totalmente independentes, enquanto que uma covariância alta e positiva indica <p>que uma variável é grande quando a outra é grande. <p>Analogamente, uma covariância negativa e com valor absoluto alto indica que <p>uma variável é pequena quando a outra é grande. 

In [None]:
# Uma matriz com as colunas é gerada, comparando quanto uma possuí de Covariância em relação a outra 
print(dados.cov())

# Correlação

A **covariância**, entretanto, pode ser difícil de ser compreendida e comparada<p>, pois ela nos dá valores em escalas que serão diferentes conforme as variáveis <p>mudem. Para uma melhor comparação, normalizamos a covariância para <p>ter um valor que sempre estará entre 1 e -1, que é a correlação. <p>Logo, a **correlação** também é outra medida que indica o quanto duas variáveis <p>estão relacionadas. Seu valor fica sempre entre -1, que indica uma anti-correlação <p>perfeita, e 1 que indica uma correlação perfeita.

In [None]:
# Outra matriz é gerada para comparação das colunas entre si
print(dados.corr())

Entretanto, é necessário cuidado ao **avaliar as correlações**. Alguns dados podem indicar uma correlação que não existe de fato, e é apenas obra do acaso, o que é possível em certos casos onde variáveis apresentam algum tipo de padrão que pode levar a este valor de correlação.<p>

Por fim, também é importante atentar para o famoso conceito que diz que “**correlação não implica causalidade**”. O que isso quer dizer é, quando duas variáveis apresentam um alto valor de correlação, pode ser que a primeira variável cause este comportamento na segunda, que a segunda causa este comportamento na primeira, que ambas causam o comportamento na outra ou isso também pode não dizer nada, como nos casos que mencionamos acima. <p>O segredo para não cair nesta armadilha é conhecer bem os dados, para que se possa fazer sempre uma avaliação criteriosa, caso a caso.