<a href="https://colab.research.google.com/github/manoelpajr/projeto_data_science/blob/master/proj_dol_resumo_estatistico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Extraindo informaçõe estatística com o Pandas para o Projeto - Dólar Futuro**

Iremos dar continuidade ao projeto **Dólar Futuro**. Nesse *notebook* iremos extrair algumas informações estatísticas referentes ao nosso *dataset*.

In [2]:
#importação dos pacotes necessários
import pandas as pd

#importar o dataset
df = pd.read_csv("https://raw.githubusercontent.com/manoelpajr/dataframes/master/DOLFUT_Diario.csv", sep=';')

In [4]:
#visualiar as cinco primeiras entradas
df.head()

Unnamed: 0,Data,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
0,01/07/2020,"5.472,50","5.482,00","5.305,50","5.324,50",7548255737500,281.19
1,30/06/2020,"5.430,00","5.513,50","5.410,50","5.463,00",8962980712500,327.865
2,29/06/2020,"5.457,98","5.470,98","5.388,01","5.407,00",7350269937500,270.445
3,26/06/2020,"5.379,51","5.491,47","5.366,52","5.482,97",9154720462500,335.75
4,25/06/2020,"5.380,01","5.386,01","5.266,05","5.354,52",9269360350000,347.475


## **Conversão das variáveis**

Sabemos que as variáveis de nosso *dataset* encontram-se todas, com exceção da coluna Volume, em formato `Str`. Como queremos manipular as camadas numéricas, devemos fazer as transformações necessárias para poder explorar e analisar cada uma delas.

In [8]:
#transformando a coluna Data para Datetime

df.Data = pd.to_datetime(df.Data, format="%Y/%m?%d")

#visualizando a camada no formato Datetime
df.Data

0     2020-01-07
1     2020-06-30
2     2020-06-29
3     2020-06-26
4     2020-06-25
         ...    
489   2018-06-07
490   2018-05-07
491   2018-04-07
492   2018-03-07
493   2018-02-07
Name: Data, Length: 494, dtype: datetime64[ns]

In [9]:
#transformando as outras camadas numéricas para float
#Abertura
df['Abertura'] = df['Abertura'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [10]:
#Maximo
df['Maximo'] = df['Maximo'].apply(lambda x: float(x.replace('.', '').replace(',','.')))

In [12]:
#Minimo
df['Minimo'] = df['Minimo'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [13]:
#Fechamento
df['Fechamento'] = df['Fechamento'].apply(lambda x: float(x.replace('.','').replace(',','.')))

In [14]:
#Volume
df['Volume'] = df['Volume'].apply(lambda x: float(x.replace(',','.')))

Importante agora verificar se nossas colunas apresentam os formatdos desejados, para isso podemos utilizar o `type` ou o `info`.

In [18]:
#verificando o formato das nossas colunas
df.dtypes

Data          datetime64[ns]
Abertura             float64
Maximo               float64
Minimo               float64
Fechamento           float64
Volume               float64
Quantidade           float64
dtype: object

In [20]:
#verificando os tipos e os valores nulos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 494 entries, 0 to 493
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Data        494 non-null    datetime64[ns]
 1   Abertura    494 non-null    float64       
 2   Maximo      494 non-null    float64       
 3   Minimo      494 non-null    float64       
 4   Fechamento  494 non-null    float64       
 5   Volume      494 non-null    float64       
 6   Quantidade  494 non-null    float64       
dtypes: datetime64[ns](1), float64(6)
memory usage: 27.1 KB


Agora sabemos que as nossas colunas encontram-se no formato que queremos. Vamos então iniciar nosso resumo estatístico.

##**Resumo das informações estatística**

Uma das maneiras mais simples de se iniciar uma análise exploratória das variáveis numéricas é utilizado o método `describe`. Imediatamente você obtém um resumo contendo algumas das principais informações estatísticas relevantes:

   *   **count** - quantidade de entradas válidas
   *   **mean** - média dos valores
   *   **std** - desvio padrão
   *   **min** - menor valor da coluna
   *   **25%** - percentil 25
   *   **50%** -percential 50 (e mediana)
   *   **75%** - percentil 75
   *   **max** - maior valor da coluna

É possível identificar de cara colunas com valores ausentes e possíveis *outliers*.


In [21]:
#visualiar o resumo estatístico
df.describe()

Unnamed: 0,Abertura,Maximo,Minimo,Fechamento,Volume,Quantidade
count,494.0,494.0,494.0,494.0,494.0,494.0
mean,4297.933462,4330.364757,4268.200769,4300.094069,76714770000.0,367.728917
std,478.479249,490.848797,466.079956,479.409671,20730240000.0,91.180761
min,3784.8,3857.41,3781.1,3818.71,23385930000.0,118.285
25%,4007.4775,4029.55,3988.0275,4012.575,63294300000.0,307.08375
50%,4129.81,4161.6,4102.205,4135.32,74077280000.0,359.4325
75%,4298.4125,4324.1275,4270.7425,4301.145,87698180000.0,412.435
max,5936.77,5986.34,5832.61,5903.72,161800700000.0,754.215


###**Média**

Se quisermos obter a média de alguma variável numérica, basta executar o método `mean()`. OU seja, basta selecionar a columa e executar a função.

In [22]:
#ver a média da coluna Abertura
df.Abertura.mean()

4297.933461538469

###**Mediana**

Mediana é o valor que separa a metade maior e a metade menor de um conjunto de dados. Por exemplo, considere o conjunto `meus_dados = [1,1,2,4,9]`. O valor que está no meio é o número 2. Não confunda com a média, que é a soma de todos os valores dividido pela sua quantidade.

In [23]:
#calcular a mediana da Abertura
df.Abertura.median()

4129.81

###**Desvio Padrão**

Desvio padrão é uma medida de dispersão em torno da média populacional de uma variável.

$$SD = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x}) ^ 2}$$

Falando simplicadamente, um número alto do desvio padrão indica que os dados estão bem espalhados em relação a sua média. Já um desvio padrão baixo mostra que os valores estão mais agrupado, mais "juntos".

Na figura abaixo temos um exemplo de valores altos e baixos para o desvio padrão. Em vermelho os dados estão mais próximos à sua média e em azul estão bem mais espalhados.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/Comparison_standard_deviations.svg/400px-Comparison_standard_deviations.svg.png">

Para calcular o desvio padrão de qualquer coluna, basta executar o método `std()` para a variável.


In [24]:
#calculando o desvio padrão para a coluna Abertura
df.Abertura.std()

478.47924895600516

###**Valores máximo e mínimo**

Para calcular o valor máximo, basta executar  o método `max()`, enquanto para o valor mínimo basta executar `min()`.

In [25]:
#valor maximo
df.Abertura.max()

5936.77

In [26]:
#valor minimo
df.Abertura.min()

3784.8

###**Quartis**

Os quartis são valores dados a partir do conjunto de observaçoes ordenados em ordem crescente, que dividem a distruibuição em quatro partes iguais. O primeiro Quartil (Q1), é o número que deixa 25% das observações abaixo e 75% acima, enquanto o terceiro Quartil (Q3), deixa 75% das observações abaixo e 25% acima. Já o segundo Quartil (Q2), é a mediana, deixa 50% das observações abaixo e 50% das observações acima. 

Uma medida de dispersão alternativa ao desvio padrão é a distância ou intervalo interquartil, definida como a diferença entre o terceiro e o primeiro quartil, isto é,

*inter_interquartil = Q3 - Q1*

Foi desenvolvido no âmbito da estatística a fim de avaliar o grau de espalhamento dos dados (dispersão) e é uma excelente forma de acharmos valores *outliers*.

Para visualizarmos os quartis iremos utilizar o método `quantile(q=0.25)` para o primeiro quartil. Para o Q2 utiliza-se `q=0.5` e para o Q3 `q=0.75`.

In [27]:
#calculando os quartis para a coluna abertura
#Q1
df.Abertura.quantile(q=0.25)

4007.4775

In [28]:
#Q2
df.Abertura.quantile(q=0.5)

4129.81

In [29]:
#Q3 
df.Abertura.quantile(q=0.75)

4298.412499999999

In [34]:
#Intervalo interquartil
inter_interquartil = df.Abertura.quantile(q=0.75) - df.Abertura.quantile(q=0.25)
inter_interquartil

290.9349999999995