<center>
    <img src="../imagens/logo_APL.png" width="300" alt="APL logo"  />
</center>

<h1>Estatística Básica em Python</h1>

**Bem vindo!** Neste material serão abordados como alguns dos conceitos de estátistica podem ser codificados em `Python`. Ao final, espera-se que você seja capaz de você usar algumas ferramentas de análise estatística com `Python`.

<h2>Conteúdo:</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
        <li> Introdução </li>
        <li> Estimativas de Medidas de Tendência Central </li>     
        <li> Estimativas de Variabilidade </li>   
        <li> Percentis e Boxplots </li> 
        <li> Histogramas e Tabelas de Frequência </li>     
        <li> Correlação </li>   
</div>

<hr>

# Introdução

Vamos codificar algumas das principais ferramentas estatísticas, como cálculo da média, desvio padrão, correlação, entre outros. 

Iniciamos carregando os pacotes `Python` necessários:

In [None]:
%matplotlib inline

import pandas as pd
import numpy as np
from scipy.stats import trim_mean
from statsmodels import robust

import seaborn as sns
import matplotlib.pylab as plt

# Estimativas de Medidas de Tendência Central

Vamos começar lendo o nosso **dataset**. 

Os campos em cada registro se referem a informações de residências na cidade do Rio de Janeiro e são listados a seguir:

| Nome        | Descrição                          |
| ----------- | ---------------------------        |
| condominio  | Valor (R\$) do Condomínio          |
| quartos     | Numero de quartos                  |
| suites      | Numero de suítes                   |
| vagas       | Numero de vagas de garagem         |
| area        | Tamanho da área construída (m2)    |
| bairro      | Nome do bairro                     |
| preco       | Preço (R\$) do imóvel              |
| pm2         | Preço (R\$) por metro quadrado     |

Inicialmente, carregamos o dataset no dataframe `df`:

In [None]:
df = pd.read_csv("dados.csv")
print(df.head())

Calcule a média, a média truncada e a mediana para o **Preço**. Para cálculo da média e mediana podemos usar, respectivamente, os métodos `mean` e` median` da biblioteca **Pandas**. Entretanto, a média truncada requer a função `trim_mean` da biblioteca **Scipy.Stats**.

Para facilitar a visualização, apresentamos apenas duas casas decimais usando o método `round()`.

In [None]:
print("Media = R$ {}.".format(round(df['preco'].mean(),2)))

In [None]:
print("Media Truncada = R$ {}.".format(round(trim_mean(df['preco'], 0.1),2)))

In [None]:
print("Mediana = R$ {}.".format(round(df['preco'].median(),2)))

Para cálculo da média ponderada usamos a biblioteca **Numpy**. Nesse exemplo, vamos calcular o **Preço** ponderado pela **Área**.

In [None]:
print("Media do Preço ponderado pela Área = R$ {}.".format(round(np.average(df['preco'], weights=df['area']),2)))

# Estimativas de Variabilidade

Vamos continuar usando a coluna **Preço** do nosso dataset. Para cálculo do **Desvio Padrão**:

In [None]:
print("Desvio Padrão = R$ {}.".format(round(df['preco'].std(),2)))

O intervalo interquartil é calculado como a diferença do quantil 75% e 25%.

In [None]:
intervalo_interquartil = df['preco'].quantile(0.75) - df['preco'].quantile(0.25)
print("Intervalo interquartil entre 75% e 25% = R$ {}.".format(round(intervalo_interquartil,2)))

O desvio absoluto da mediana da mediana pode ser calculado com um método da biblioteca `statsmodels`.

In [None]:
print("Desvio Padrão = R$ {}.".format(round(robust.scale.mad(df['preco']),2)))

# Percentis e Boxplots
A biblioteca **Pandas** disponibiliza o método `quantile`, de acordo com:

In [None]:
print(df['preco'].quantile([0.05, 0.25, 0.5, 0.75, 0.95]))

A biblioteca **Pandas** fornece diversos gráficos para análise exploratória básica; um deles são _boxplots_. Nesse exemplo, vamos analisar a distribuição dos valores de _Preço/m2_:

In [None]:
ax = (df['pm2']).plot.box(figsize=(3, 4))
ax.set_ylabel('Preço/m2')

plt.tight_layout()
plt.show()

Como vimos na aula sobre **Pandas**, agrupar os dados se baseando em certos critérios, por meio do comando `.groupby()`, pode ser usado para resolver diversos problemas. Abaixo agrupamos o nosso DataFrame pelos valores da coluna `"bairro"`, e em seguida aplicamos o `.mean()` para termos informação das médias agrupadas pelos valores da coluna bairros. 

In [None]:
df.groupby("bairro").mean()

Os gráficos boxplot da biblioteca **Pandas** não se restringem a apresentar uma única variável. No exemplo a seguir, os dados relativos ao Preço foram agrupados por uma coluna diferente, o bairro.

In [None]:
ax = df.boxplot(by='bairro', column='preco',
                           figsize=(5, 5))
ax.set_xlabel('')
ax.set_ylabel('Preço (R$)')
ax.get_figure().gca().set_title("")
plt.suptitle('Variação do Preço por Bairro')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Histogramas

No exemplo a seguir vemos o histograma para a _feature_ Preço/m2, usando o método `plot.hist` do `Pandas`.

In [None]:
ax = (df['pm2']).plot.hist(bins=50, edgecolor='black', figsize=(4, 4))
ax.set_xlabel('Preço por metro quadrado (R$)')
ax.set_ylabel('No de Ocorrências')
ax.set_xlim(-500, 50000)

plt.tight_layout()
plt.show()

O gráfico de _densidade_ é uma alternativa aos histogramas, uma vez que pode fornecer diferentes insights acerca da distribuição dos dados, podendo ser entendido como uma versão _suavizada_ do histrograma.

In [None]:
ax = (df['pm2']).plot.hist(density=True, bins=50, edgecolor='black', figsize=(4, 4))
df['pm2'].plot.density(ax=ax, linewidth=4)
ax.set_xlabel('Preço por metro quadrado (R$)')
ax.set_ylabel('No de Ocorrências')
ax.set_xlim(-500, 50000)
plt.tight_layout()
plt.show()

# Correlação
**Correlação**: uma medida da extensão da interdependência linear entre as variáveis.
    
Calculando a **correlação** entre as features do nosso dataset, usando o método `corr` da bilbioteca `Pandas`.

In [None]:
df.corr().round(2)

Pela análise dessa tabela pode-se observar que existe uma **correlação alta** entre a _area_ e o _preco_, assim como entre o valor do _condominio_ e _preço_. Por outro lado,  existe uma **correlação fraca** entre a variável _vagas_ e _pm2_ (preço/m2). E uma **correlação mais fraca ainda (quase nula)** entre _quartos_ e _pm2_. Uma discussão mais detalhada a respeito do conceito de **correlação** será feita no Módulo de **Análise Exploratória dos Dados**.

<hr>

## Direitos Autorais

[APL Data Intelligence](https://linktr.ee/APLdataintelligence)&#8482;  2021. Este notebook Python e seu código fonte estão liberados sob os termos da [Licença do MIT](https://bigdatauniversity.com/mit-license/).