![logos](https://cdn.iconscout.com/icon/premium/png-256-thumb/statistics-287-796424.png)

O que é **Estatística Descritiva?**
Estatística descritiva é o ramo da estatística que visa sumarizar e descrever qualquer conjunto de dados. Em outras palavras, é aquela estatística que está preocupada em sintetizar os dados de maneira direta, se preocupando menos com variações e intervalos de confiança dos dados. Exemplos de estatísticas descritivas são a média, o desvio padrão, a mediana, etc.<p>
Fonte: [link](https://www.fm2s.com.br/estatistica-descritiva-basica-e-centralidade/)

![logos](https://images-na.ssl-images-amazon.com/images/I/51FL1wZaYuL.jpg)

Motivado pela leitura do livro acima, resolvi criar esse pequeno **Tutorial** sobre Estatística Descritiva.<p>
    Bora lá ... aprender sobre usando python e **Pandas** <p>
    Inspiração para o material: [link](http://felipegalvao.com.br/blog/2016/03/31/estatistica-descritiva-com-python)

In [2]:
# vamos importar as bibliotecas que utilizaremos
import pandas as pd
import numpy as np

In [3]:
# Dataframes 
train_df = pd.read_csv('train.csv')
example_series =  pd.Series([1,25,10,30,35,30,5,60,45])

In [4]:
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
example_series

0     1
1    25
2    10
3    30
4    35
5    30
6     5
7    60
8    45
dtype: int64

A Estatística trabalha com diversas informações que são apresentadas por meio de gráficos e tabelas e com diversos números que representam e caracterizam um determinado conjunto de dados. Dentre todas as informações, podemos retirar valores que representem, de algum modo, todo o conjunto. Esses valores são denominados **“Medidas de Tendência Central ou Medidas de Centralidade”**.<p>
As medidas de centralidade que apresentaremos são a **Média Aritmética**, a **Moda** e a **Mediana**.
Vamos mostrar a seguir o que vem a ser cada uma delas.

![logos](https://slideplayer.com.br/slide/9042260/27/images/3/Medidas+de+Tend%C3%AAncia+Central.jpg)

# Média

In [6]:
# Vamos começar pela MÉDIA ARITMÉTICA, mais simples e fácil de aprender / conceituar
# É determinada pelo resultado da divisão do somatório dos números dados pela quantidade de números somados.
# No python usamos a função 'mean()'
print(example_series.mean())

26.77777777777778


In [7]:
# Agora vamos calcular/exibir a media das idades do dataframes que importamos
print(train_df['Age'].mean())

29.69911764705882


In [13]:
example_series.sort_values()

0     1
6     5
2    10
1    25
3    30
5    30
4    35
8    45
7    60
dtype: int64

# Mediana

In [8]:
# Agora chegou a vez da MEDIANA, vc já deve ter visto alguma vez! Senão viu ... aprende ae
# Mediana é a medida de tendência central que indica exatamente o valor central de um conjunto 
# de dados quando organizados em ordem crescente ou decrescente.
print(example_series.median())

30.0


In [14]:
print(train_df['Age'].median())

28.0


In [None]:
# A Mediana é um conceito menos suscetível a valores discrepantes do que a média.
# Vamos imaginar que analisando o sálário de um grupo de amigos (18 pessoas), 4 deles recebam mensalmente valores muitos altos
# comparados ao restante. A Média nesse caso pode ser 'facilmente' contaminada por tais valores.
# Mais pra frente abordaremos algo sobre 'OUTLIERS', os valores citados.

# Moda

In [15]:
# É a medida de tendência central que consiste no valor observado com mais frequência em um conjunto de dados.
# Moda, uma medida de frequência
print(example_series.mode())

0    30
dtype: int64


In [18]:
# Há a possibilidades de 2 ou mais valores diferentes para a Moda
example_series_2 =  pd.Series([1,5,10,30,50,30,15,40,45,45])

In [23]:
example_series_2.sort_values()

0     1
1     5
2    10
6    15
3    30
5    30
7    40
8    45
9    45
4    50
dtype: int64

In [20]:
print(example_series_2.mode())

0    30
1    45
dtype: int64


In [16]:
print(train_df['Age'].mode())

0    24.0
dtype: float64


![logos](https://image2.slideserve.com/4577505/medidas-de-dispers-o1-n.jpg)

# Amplitude

In [21]:
# A amplitude nada mais é do que a diferença entre o maior e o menor valor de um conjunto de dados.
print(example_series.max() - example_series.min())

59


In [22]:
print(example_series_2.max() - example_series_2.min())

49


In [24]:
print(train_df['Age'].max() - train_df['Age'].min())

79.58


# Variância

In [25]:
# Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto 
# está do valor central (médio)
print(example_series.var())

368.4444444444444


Nossa 1ª fórmula por aqui! Não se assuste ...
![logos](https://calculareconverter.com.br/wp-content/uploads/2018/08/formula-variancia.jpg)

In [26]:
print(example_series_2.var())

328.5444444444445


In [27]:
print(train_df['Age'].var())

211.0191247463081


# Desvio Padrão

In [None]:
# O desvio padrão também é uma medida de dispersão, que indica quanto os dados estão afastados da média. 
# Um valor de desvio padrão alto indica que os valores estão mais espalhados, mais longe da média, e 
# um desvio padrão baixo indica que os valores estão mais próximos da média. 
# Lá em cima calculamos a média do 'example_series' que ficou em '26.77777777777778'
# Já para o 'train_df', campo Age (idade) foi de '29.69911764705882'

In [28]:
print(example_series.std())

19.194906731850622


In [29]:
print(train_df['Age'].std())

14.526497332334044


# Desvio Absoluto

In [30]:
# Em estatística, o desvio absoluto de um elemento de um conjunto de dados é a diferença absoluta entre este 
#elemento e um ponto dado. Tipicamente o ponto do qual o desvio é medido é medida de uma tendência central, 
#mais frequentemente a mediana ou algumas vezes a média do conjunto de dados.
print(train_df['Age'].mad())

11.322944471906405


In [31]:
print(example_series.mad())

14.69135802469136


In [32]:
print(example_series_2.mad())

15.480000000000004


# Quartil

Na **estatística descritiva**, um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população.

Assim, no caso duma amostra ordenada:
Primeiro quartil (designado por **Q1/4**) = quartil inferior = é o valor aos 25% da amostra ordenada = 25º percentil<P>
Segundo quartil (designado por **Q2/4**) = mediana = é o valor até ao qual se encontra 50% da amostra ordenada = 50º percentil, ou 5º decil.<P>
Terceiro quartil (designado por **Q3/4**) = quartil superior = valor a partir do qual se encontram 25% dos valores mais elevados = valor aos 75% da amostra ordenada = 75º percentil<P>
A diferença entre os quartis superior e inferior chama-se **amplitude inter-quartil**.<P>
    Fonte: [link](https://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html)

In [33]:
example_series.describe()

count     9.000000
mean     26.777778
std      19.194907
min       1.000000
25%      10.000000
50%      30.000000
75%      35.000000
max      60.000000
dtype: float64

In [38]:
np.percentile(example_series, 25)

10.0

In [39]:
# Média .... 2º quartil
np.percentile(example_series, 50)

30.0

In [40]:
np.percentile(example_series, 75)

35.0

In [34]:
example_series_2.describe()

count    10.000000
mean     27.100000
std      18.125795
min       1.000000
25%      11.250000
50%      30.000000
75%      43.750000
max      50.000000
dtype: float64

In [41]:
np.percentile(example_series_2, 25)

11.25

In [42]:
# Média .... 2º quartil
np.percentile(example_series_2, 50)

30.0

In [43]:
np.percentile(example_series_2, 75)

43.75

# Covariância

Em alguns momentos, queremos saber se **duas variáveis** possuem alguma relação entre si dentro de um conjunto de dados. Para estes casos, calculamos a covariância e a correlação.

A **covariância** é uma medida numérica que indica a inter-dependência entre duas variáveis. A covariância indica como duas variáveis se comportam conjuntamente em relação às suas médias. Uma covariância igual a 0 indica que as duas variáveis são totalmente independentes, enquanto que uma covariância alta e positiva indica que uma variável é grande quando a outra é grande. <p>Analogamente, uma covariância negativa e com valor absoluto alto indica que uma variável é pequena quando a outra é grande. 

In [45]:
# Uma matriz com as colunas é gerada, comparando quanto uma possuí de Covariância em relação a outra 
print(train_df.cov())

              PassengerId  Survived     Pclass         Age      SibSp  \
PassengerId  66231.000000 -0.626966  -7.561798  138.696504 -16.325843   
Survived        -0.626966  0.236772  -0.137703   -0.551296  -0.018954   
Pclass          -7.561798 -0.137703   0.699015   -4.496004   0.076599   
Age            138.696504 -0.551296  -4.496004  211.019125  -4.163334   
SibSp          -16.325843 -0.018954   0.076599   -4.163334   1.216043   
Parch           -0.342697  0.032017   0.012429   -2.344191   0.368739   
Fare           161.883369  6.221787 -22.830196   73.849030   8.748734   

                Parch         Fare  
PassengerId -0.342697   161.883369  
Survived     0.032017     6.221787  
Pclass       0.012429   -22.830196  
Age         -2.344191    73.849030  
SibSp        0.368739     8.748734  
Parch        0.649728     8.661052  
Fare         8.661052  2469.436846  


# Correlação

A **covariância**, entretanto, pode ser difícil de ser compreendida e comparada, pois ela nos dá valores em escalas que serão diferentes conforme as variáveis mudem. Para uma melhor comparação, normalizamos a covariância para ter um valor que sempre estará entre 1 e -1, que é a correlação. <p>Logo, a **correlação** também é outra medida que indica o quanto duas variáveis estão relacionadas. Seu valor fica sempre entre -1, que indica uma anti-correlação perfeita, e 1, que indica uma correlação perfeita.

In [47]:
# Outra matriz é gerada para comparação das colunas entre si
print(train_df.corr())

             PassengerId  Survived    Pclass       Age     SibSp     Parch  \
PassengerId     1.000000 -0.005007 -0.035144  0.036847 -0.057527 -0.001652   
Survived       -0.005007  1.000000 -0.338481 -0.077221 -0.035322  0.081629   
Pclass         -0.035144 -0.338481  1.000000 -0.369226  0.083081  0.018443   
Age             0.036847 -0.077221 -0.369226  1.000000 -0.308247 -0.189119   
SibSp          -0.057527 -0.035322  0.083081 -0.308247  1.000000  0.414838   
Parch          -0.001652  0.081629  0.018443 -0.189119  0.414838  1.000000   
Fare            0.012658  0.257307 -0.549500  0.096067  0.159651  0.216225   

                 Fare  
PassengerId  0.012658  
Survived     0.257307  
Pclass      -0.549500  
Age          0.096067  
SibSp        0.159651  
Parch        0.216225  
Fare         1.000000  


![logos](http://www.redacao.org/wp-content/uploads/2016/09/conclus%C3%A3o.png)

Entretanto, é necessário cuidado ao **avaliar as correlações**. Alguns dados podem indicar uma correlação que não existe de fato, e é apenas obra do acaso, o que é possível em certos casos onde variáveis apresentam algum tipo de padrão que pode levar a este valor de correlação.<p>

Por fim, também é importante atentar para o famoso conceito que diz que “**correlação não implica causalidade**”. O que isso quer dizer é, quando duas variáveis apresentam um alto valor de correlação, pode ser que a primeira variável cause este comportamento na segunda, que a segunda causa este comportamento na primeira, que ambas causam o comportamento na outra ou isso também pode não dizer nada, como nos casos que mencionamos acima. <p>O segredo para não cair nesta armadilha é conhecer bem os dados, para que se possa fazer sempre uma avaliação criteriosa, caso a caso.