<a href="https://colab.research.google.com/github/guilhermeaugusto9/sigmoidal/blob/master/Informa%C3%A7%C3%B5es_Estat%C3%ADsticas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Informações Estatísticas com Pandas

Como cientista de dados, você vai ter que mergulhar cada vez mais no campo da Estatística.

Por trás das nossas análises e modelos de *machine learning*, estão pilares baseados na teoria da matemática e estatística. Você não precisa conhecer todos, porém é obrigatório dominar os conceitos dos principais.

A estatística revela muitas coisas imediatamente, validando ou descartando hipóteses logo na fase inicial de um projeto de *Data Science*.

<center><img src="http://maisbikecompartilhada.com.br/img/logo_bike.png"></center>

Para conhecer algumas das principais funções do Pandas, vou utilizar o *dataset* do projeto **[+BIKE](http://maisbikecompartilhada.com.br)**, que distribui bicicletas em pontos estratégicos de Brasília-DF, oferecendo uma solução de transporte que contribui com a mobilidade das pessoas na capital.

Caso deseje conhecer a base de dados original, basta acessar [este link](https://www.kaggle.com/joseguilhermelopes/bike-sharing-system-in-brasilia-brazil/downloads/bike-sharing-system-in-brasilia-brazil.zip/1#df_rides.csv).

In [None]:
# importar os pacotes necessários
import pandas as pd

# importar o dataset
df = pd.read_csv("http://dl.dropboxusercontent.com/s/yyfeoxqw61o3iel/df_rides.csv")

In [None]:
# ver as 5 primeiras entradas
df.head()

Unnamed: 0,user_gender,user_birthdate,user_residence,ride_date,time_start,time_end,station_start,station_end,ride_duration,ride_late
0,M,1971-06-08,,2018-01-01,06:05:18,06:21:33,11 - Rodoviária 2,41 - Instituto de Artes,16.25,0.0
1,M,1989-02-11,DF,2018-01-01,06:27:01,06:32:17,26 - Ministério da Saude,28 - CNMP - Conselho Nacional do Ministério Pú...,5.266667,0.0
2,M,1968-07-19,,2018-01-01,06:29:33,06:44:57,11 - Rodoviária 2,43 - Biblioteca Central,15.4,0.0
3,M,1991-12-19,,2018-01-01,06:53:53,06:59:45,10 - Ministério dos Transportes,6 - Rodoviária,5.866667,0.0
4,M,1969-03-03,DF,2018-01-01,06:58:56,17:40:04,15 - Brasil 21,11 - Rodoviária 2,641.133333,1.0


## Resumo das informações estatísticas

Uma das maneiras mais simples de se iniciar uma análise exploratória das variáveis numéricas é utilizando o método `describe()`.

Imediatamente você obtém um resumo contendo algumas das principais informações estatísticas relevantes:

* **count** - quantidade de entradas válidas
* **mean** - média dos valores
* **std** - desvio padrão
* **min** - menor valor da coluna
* **25%** - percentil 25
* **50%** - percentil 50 (e mediana)
* **75%** - percentil 75
* **max** - maior valor da coluna

É possível identificar de cara colunas com valores ausentes e possíveis *outliers* (por exemplo, olhando o valor da mediana e comparando com valores máximos e mínimos)

In [None]:
df.describe()

Unnamed: 0,ride_duration,ride_late
count,214148.0,214148.0
mean,29.915932,0.098829
std,58.857297,0.298433
min,3.0,0.0
25%,8.083333,0.0
50%,14.2,0.0
75%,33.766667,0.0
max,999.6,1.0


## Média

Se quisermos obter a média de alguma variável numéricas, basta executar o método `mean()` na *Series*. Ou seja, basta selecionar aquele coluna em especial e executar `mean()`.

In [None]:
# ver a média da coluna ride_duration
df.ride_duration.mean()

29.915931894453134

## Mediana

Mediana é o valor que separa a metade maior e a metade menor de um conjunto de dados. Por exemplo, considere o conjunto `meus_dados = [1,1,2,4,9]`.

O valor que "está no meio" é o número 2. Não confunda com a média, que é a soma de todos os valores dividido pela sua quantidade.

In [None]:
# calcular a mediana
pd.Series([1,1,2,4,9]).median()

2.0

## Desvio Padrão

Desvio padrão é uma medida de dispersão em torno da média populacional de uma variável.

$$SD = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \overline{x}) ^ 2}$$

Falando simplificadamente, um número alto do desvio padrão indica que os dados estão bem espelhados em relação à sua média. Já um desvio padrão baixo mostra que os valores estão mais agrupados, mais "juntos".

Por exemplo, na figura abaixo temos um exemplo de valores altos e baixos para o desvio padrão. Em vermelho os dados estão mais próximos à sua média, e em azul estão bem mais espalhados.

<center><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f9/Comparison_standard_deviations.svg/400px-Comparison_standard_deviations.svg.png"></center>

Para quem não está acostumado com gráficos de distribuições, um exemplo que funciona muito bem é o do tiro ao alvo.

Olhe na figura abaixo como os tiros estão localizados em cada uma das situações. Identifique mentalmente quais tem maior ou menor dispersão, ou seja, desvio padrão.

<center><img src="https://raw.githubusercontent.com/carlosfab/dsnp2/master/img/precisao_exatidao.jpg" height="250px"></center>

O conceito que eu quero que você se atente é o achatamento da curva. Como os valores se "aglomeram" em torno da média ou se dispersam em torno dela. Veja também mais essa outra figura abaixo, colocando as distribuições lado a lado.

<center><img src="https://raw.githubusercontent.com/carlosfab/dsnp2/master/img/precisao_vs_exatidao2.jpg" height="200px"></center>

Para calcular o desvio padrão de qualquer coluna, basta executar o método `std()` para a variável.

In [None]:
# calcular o desvio padrão para ride_calculation
df.ride_duration.mean()

29.915931894453134

## Valores máximos e mínimos

Para calcular o valor máximo, basta executar o método `max()`, enquanto para o valor mínimo basta executar `min()`.

In [None]:
# valor máximo
df.ride_duration.max()

999.6

In [None]:
# valor mínimo
df.ride_duration.min()

3.0