<center>
<img src=logo.png/>

   ---
# Introdução a Análise Exploratória de Dados com Python
## ERCAS-PI & ENUCOMPI 2019
</center>

   ---

__Conteúdo:__

- Pandas - Parte I:
  - Visão Geral
  - Terminologia
  - Estruturas de Dados

- Medidas de Tendência Central - Parte II:
  - Média
  - Mediana
  - Moda
  - Outras médias
      - Média geométrica
      - Média harmônica

- Medidas de Dispersão - Parte III:
  - Amplitude
  - Variância
  - Desvio Padrão

- Visualização Gráfica - Parte IV:
- Correlação - Parte V:

### Bibliotecas necessárias para AED.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#need to set backe of matplotlib to inline to view visual in Jupyter Notebook
%matplotlib inline

---
## Pandas - Parte I
---

O Pandas é uma biblioteca licenciada com código aberto que oferece estruturas de dados de alto desempenho e de fácil utilização voltado a análise de dados para a linguagem de programação Python.
- Transforma dados de entrada em uma tabela de dados
- Componentes chave
  - Series (Séries)
  - DataFrame

### Séries (Series)
- Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices), criado sobre o numpy
- Se um índice não for informado explicitamente, Pandas cria um automaticamente (equivalente a `range(N)`, sendo N é o tamanho dos seus dados)
- O índice é usado para implementar buscas rápidas, alinhamento de dados e operações de junção (como join em SQL)
- Suporta índices hierárquicos, onde cada label é uma tupla

In [None]:
# Criando uma série
my_serie = pd.Series([10,20,30,40,50])
print(my_serie)
print(my_serie[2])
my_serie.index = ['A', 'B', 'C', 'D', 'E']
print(my_serie)

- Conteúdos podem ser acessados via um ou mais índices

In [None]:
print(my_serie['A'])
print(my_serie[['C','E']])

- slicing funciona para índices numéricos e nominais

In [None]:
print(my_serie[0])
print(my_serie[0:2])
print(my_serie['B':'E']) # slicing com índice nominal é inclusivo
                       # (último elemento é incluido na fatia)

- máscaras boolenas também podem ser usadas

In [None]:
mask = (my_serie >= 30)
print(my_serie[mask])

- reindex
  - modifica o valor do índice, adiciona valores faltantes ou preenche valores faltantes

In [None]:
s = pd.Series(np.arange(3)) # neste caso o indice é criado automaticamente
print('original')
print(s)

print('\nreindexado')
s_nan = s.reindex([4,3,2,1,0])
print(s_nan)

In [None]:
print('\n reindexado (tratando valores faltantes, método 1)')
s_fvalue = s.reindex([4,3,2,1,0], fill_value=-1)
print(s_fvalue)

print('\nreindexado (tratando valores faltantes, método 2)')
s_auto = s.reindex([3,2,1,0,5,6], method='nearest')
print(s_auto)

- Operações aritméticas (realizada de acordo com o "match" dos indices)

In [None]:
print(s_fvalue) 
print(s_auto) 
print(s_fvalue+s_auto)

- é possívle organizar os elementos de uma série pelo índice ou pelos valores

In [None]:
r = pd.Series(np.random.rand(4), index=['d','a','b','c'])
print(r)
print(r.sort_index())
print(r.sort_values())

- Há muitos métodos implementados para operar nos valores. Alguns exemplo, são:
  - unique()
  - value_counts()
  - isin()
  - ...(muito mais na parte II, próxima aula)

In [None]:
s = pd.Series(['c','a','d','a','a','b','b','c','c'])
print(s.unique())
print(s.value_counts())
print(s.isin(['b','d']))

### DataFrames
Dataframe é uma estrutura de dados tabular bidimensional e mutável em tamanho, potencialmente heterogênea, com eixos rotulados (linhas e colunas).
- Possui índices de linhas e colunas
- Pode ser interpretado como um dicionário de Séries (cada série em uma linha) em que todas as Séries compartilham o mesmo conjunto de índices (os índices das colunas)

Dataframes podem ser criados de muitas maneiras diferentes:
- __2-D NumPy array:__ Uma matriz de dados, podendo passar os índices de linha e coluna
- __Dict of arrays, lists, or tuples:__ Cada sequência se torna uma coluna. As sequências devem ter o mesmo número de elementos
- __Dict of Series:__ Cada séries se torna uma coluna. Índices de cada séries são unidos para formar o índice das linhas
- __Dict of dicts:__ Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os índices das linhas
- __List of dicts or Series:__ Cada item se torna uma linha no DataFrame. A unidão das chaves (para dicionário) ou índices (para Séries) gera o índice das colunas
- __List of lists or tuples:__	Similar a uma matriz do numpy
- __DataFrame:__ O índice do DataFrame é mantido a não ser que um novo seja fornecido 
- __NumPy masked array:__ Matriz de dados em que valores falso se tornam NaN


In [None]:
# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}
 
# Create DataFrame
df = pd.DataFrame(data)
 
# Print the output.
df

**Atenção:** Duas funções são muito úteis para analisar rapidamente um novo DataFrame: df.head() e df.dtypes()

In [None]:
df.head()

In [None]:
df.dtypes

#### Manipulando e Acessando Colunas

- Colunas podem ser acessadas:
  - usando seus rótulos dentro de []
  - usando rótulo como atributo
  - usando lista de rótulos dentro de [] (acessa várias colunas)

In [None]:
# Criando um dataframe com um dicionário de listas
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA'],
     'year' :  [2010, 2011, 2008, 2010, 2011],
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

df_d = pd.DataFrame(d)
df_d

In [None]:
print(df_d.columns.values)  # imprime o nome das colunas
print(5*'-')
print(df_d['pop'])
print(5*'-')
print(df_d.state)
print(5*'-')
print(df_d[['pop','year']])

- Colunas podem ser criadas simplesmente criando um novo rótulo
- Colunas podem ser removidas usando o método `drop` ou `del`

In [None]:
print(df_d)
# criando uma nova coluna
df_d['new_col'] = np.zeros((df_d.shape[0])) # o comando shape funciona como no numpy
print(df_d)
# removendo a nova coluna
df_d = df_d.drop(['new_col'], axis=1) # OU del df_d['new_col']
print(df_d)

#### Manipulando e Acessando Linhas

- linhas podem ser acessadas usando:
  - iloc: manipula o DataFrame como uma matriz com índices inteiros, assim como no Numpy
  - loc: seleciona linhas pelos rótulos (índices) ou por máscara booleana

In [None]:
print(df_d)
print(5*'-')
print(df_d.iloc[2]) # retorna uma linha como uma série (rótulo da linha se torna o rótulo de coluna)
print(5*'-')
print(type(df_d.iloc[2]))
print(5*'-')
print(df_d.iloc[2:4,1:])  
print(5*'-')
print(type(df_d.iloc[2:4,1:]))

In [None]:
# Criando um dataframe com um dicionário de dicionários
dod = {'FL' : {2010:18.1, 2011:19.1},
       'GA' : {2008: 9.7, 2010: 9.7, 2011:9.8}}

df_dod = pd.DataFrame(dod)
print(df_dod)

In [None]:
print(df_dod)
print()
print(df_dod.loc[2008])
print()
print(df_dod.loc[[2010, 2011]])
print()
print(df_dod.loc[df_dod['GA'] == 9.7]) # loc aceita expressoes booleanas

In [None]:
# as expressoes booleanas podem ser combinadas
# & é o operador lógico AND
# Existe também o operador lógico OR | (barra vertical)
print(df_d.loc[(df_d['state'] == 'GA') & (df_d['year'] >= 2010)])

In [None]:
# retornando uma lista tipo 'mascara booleana'
print('cond 1')
print(df_d['state'] == 'GA') 

print('\ncond 2')
print(df_d['year'] >= 2010)

print('\nand (&)')
print((df_d['state'] == 'GA') & (df_d['year'] >= 2010))

print('\nor (&)')
print((df_d['state'] == 'GA') | (df_d['year'] >= 2010))

In [None]:
# Uma outra forma é utilizar a função query
print(df_d.query("state == 'GA' and year >= 2010"))

- Assim como nas Séries, também é possível ordernar por índice, mas ao ordernar por valor é necessário definir a coluna

In [None]:
df_d.sort_values('year')

In [None]:
df_d.sort_values('pop')

**Atenção:** sort_values, gera uma cópia. Para modificar o DataFrame, deve-se passar o parâmetro `inplace = True`

In [None]:
print(df_d.sort_values('pop'))
print(df_d)
df_d.sort_values('pop',inplace=True)
print(df_d)

## Carregando arquivos
Pandas permite diversas maneiras de carregas arquivos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

In [None]:
pnad_df = pd.read_csv("pnad.csv")
pnad_df.head()

In [None]:
bolsa_df = pd.read_csv('bolsa.csv')
bolsa_df.head()

In [None]:
pnad_df.shape

In [None]:
pnad_df['sexo'].value_counts()

---
# Medidas de Tendência Central - Parte II
---
As medidas de tendência central ou "de posição" procuram caracterizar a tendência do conjunto (valor "típico") a um valor numérico que "represente" o conjunto. Esse valor pode ser calculado levando em conta todos os valores do conjunto ou apenas alguns valores ordenados.

## Média
A média aritmética simples é a soma dos valores observados dividida pelo número desses valores, definida da seguinte forma:

$$\overline{x} = \frac{x_{1} + x_{2} + \ldots + x_{n}}{n} = \frac{\displaystyle\sum_{i=1}^{n} x_{i}}{n}$$

- Existem duas formas de se calcular a média.

In [None]:
media_idade = pnad_df['idade'].sum() / len(pnad_df['idade'])
print(media_idade)

In [None]:
pnad_df['idade'].mean()

**Atenção:** Tenha certeza que não exista na coluna valores nulos.

In [None]:
media_rendimento = pnad_df['rendimento'].sum() / len(pnad_df['rendimento'])
print(media_rendimento)

In [None]:
pnad_df['rendimento'].mean()

## Mediana
A mediana é o valor médio ou a média aritmética de dois valores centrais de um conjunto de números ordenados (crescente ou decrescente).

In [None]:
pnad_df['idade'].median()

In [None]:
pnad_df['rendimento'].median()

## Moda
A moda é o valor que ocorre com maior frequência em um dado conjunto de dados.

In [None]:
pnad_df['idade'].mode()

In [None]:
pnad_df['rendimento'].mode()

**Atenção:** A moda pode não existir

In [None]:
bolsa_df['VOL'].mode()

## Outras médias
Algumas vezes é interessante calcular médias de forma diferente para dados com características especiais.

### Média Geométrica
As médias geométricas são bastante empregadas para observações positivas referentes a crescimentos exponenciais, definida da seguinte forma:

$$ G = \sqrt[n]{x_{1} \times x_{2} \times \ldots \times x_{n}} = \sqrt[n]{\prod_{i=1}^{n} x_{i}} $$

### Média Harmônica
Para fenômenos que dependem fortemente do menor dos dados, em geral, utiliza-se médias harmônicas calculadas como o inverso da média dos inversos de um conjunto de dados, definida da seguinte forma:

$$ H = \frac{1}{\frac{\displaystyle \frac{1}{x_{1}} + \frac{1}{x_{2}} +\ldots + \frac{1}{x_{n}}}{\displaystyle n}} = \frac{n}{\displaystyle \sum_{i=1}^{n}\frac{1}{x_{i}}} $$

Para o cálculo das médias geometricas e harmônicas utilizaremos as funções $gmean()$ e $hmean()$, respectivamente, do módulo $scipy.stats$ da biblioteca SciPy . O módulo $scipy.stats$ contém um grande número de distribuições de probabilidade, bem como uma crescente biblioteca de funções estatísticas.


In [None]:
#importanto o modulo do scipy para calculo da media geometrica e harmonica
from scipy import stats

#Definindo o dataset para o calculo da media geometrica e harmonica
var = {'t1':[2,6,15,59],'t2':[2000,20,250,1500]}
other_means_df = pd.DataFrame(var)

other_means_df.head()

In [None]:
#calculo da media geometrica
geometric_mean = stats.gmean(other_means_df['t1'],axis=0)
print("Media Geometrica:", geometric_mean)

#calculo da media harmonica
harmonic_mean = stats.hmean(other_means_df['t2'],axis=0)
print("Media Harmonica:", harmonic_mean)

---
# Medidas de Dispersão ou Variabilidade - Parte III
---

As medidas de dispersão ou variabilidade indicam se os valores de conjunto de dados estão relativamente próximos uns dos outros, ou separados. Todas elas têm na média o ponto de referência.

## Amplitude
A amplitude ou intervalo total ($I_{t}$) de um conjunto de dados ($x_{1}, x_{2},\ldots,x_{n}$) é a diferença entre o maior valor e o menor valor, definido da seguinte forma:

$$ I_{t} = x_{max} - x_{min}, $$

onde

$x_{max} = $ valor máximo do conjunto de dados, isto é, $max\{x_{1}, x_{2},\ldots,x_{n}\}$;

$x_{min} = $ valor mínimo do conjunto de dados, isto é, $min\{x_{1}, x_{2},\ldots,x_{n}\}$.

In [None]:
pnad_df['rendimento'].min()

In [None]:
pnad_df['idade'].min()

In [None]:
pnad_df['rendimento'].max()

In [None]:
pnad_df['idade'].max()

In [None]:
amplitude_rendimento = pnad_df['rendimento'].max() - pnad_df['rendimento'].min()
print(amplitude_rendimento)

In [None]:
amplitude_idade = pnad_df['idade'].max() - pnad_df['idade'].min()
print(amplitude_idade)

## Variância
A variância de uma amostra de valores (dados não agrupados), $x_{1}, x_{2},\ldots,x_{n}$, é definida como sendo a média dos quadrados dos desvios das medidas em relação à sua média $\overline{x}$.

$$ S^{2} = \frac{\displaystyle \sum_{i=1}^{n}(x_{i} - \overline{x})^{2}}{n} $$

In [None]:
pnad_df['rendimento'].var()

In [None]:
pnad_df['idade'].var()

## Desvio Padrão
O desvio padrão é definido como a raiz quadrada da média aritmética dos quadrados dos desvios em relação à média. É a mais importante medida de variabilidade, dada pela seguinte fórmula:

$$ S = \sqrt{ \frac{\displaystyle \sum_{i=1}^{n}(x_{i} - \overline{x})^{2}}{n}} $$

In [None]:
pnad_df['rendimento'].std()

In [None]:
pnad_df['idade'].std()

**Atenção:** O $pandas$ disponibiliza a função $describe()$ que gera as estatísticas descritivas que resumem a tendência central, a dispersão e a forma da distribuição de um conjunto de dados, excluindo os valores de NaN. Analisa séries numéricas e de objetos, bem como conjuntos de colunas DataFrame de tipos de dados mistos.

In [None]:
pnad_df['rendimento'].describe()

In [None]:
pnad_df['idade'].describe()

---
# Visualização gráfica de dados - Parte IV
---

A apresentação dos dados estatísticos através de tabelas ou medidas de centralidade e variabiliadade nem sempre proporciona um entendimento adequado dos dados. Assim, com a finalidade de melhorar esse processo, muitos recorrem ao uso dos gráficos.

## Histograma
O histograma representa a distribuição dos dados, formando compartimentos ao longo do intervalo dos dados, desenhados por barras para mostrar a frequência de observações dos dados em cada compartimento.

In [None]:
#configurando o estilo das imagens geradas pelo seaborn
sns.set(style='darkgrid')

In [None]:
sns.distplot(pnad_df['idade'])

In [None]:
sns.distplot(bolsa_df['OPEN'])

In [None]:
sns.distplot(bolsa_df['CLOSE'])

## Gráfico de barras e linhas

In [None]:
sns.catplot(data=pnad_df, kind='count', x = 'sexo')

In [None]:
titanic = sns.load_dataset("titanic")
sns.catplot(x="sex", y="survived", hue="class", kind="bar", data=titanic, aspect=2)

In [None]:
sns.relplot(data=(pnad_df['idade']), kind='line', aspect=3)

In [None]:
sns.relplot(data=bolsa_df['OPEN'], kind='line', aspect=3)

## Gráficos de setores

In [None]:
txtLabels = 'Cats', 'Dogs', 'Frogs', 'Others'
fractions = [45, 30, 15, 10]
offsets =(0, 0.05, 0, 0)
plt.pie(fractions, explode=offsets, labels=txtLabels,
autopct='%1.1f%%', shadow=True, startangle=90,
colors=sns.color_palette('muted') )
plt.axis('equal')

In [None]:
df = pd.DataFrame(3 * np.random.rand(4, 2), index=['a', 'b', 'c', 'd'], 
                  columns=['x', 'y'])
df.plot.pie(subplots=True, figsize=(8, 4))

## Boxplot

In [None]:
sns.boxplot(data=bolsa_df, order=['OPEN', 'CLOSE', 'HIGH', 'LOW'])

In [None]:
iris = sns.load_dataset("iris")
ax = sns.boxplot(data=iris, orient="h", palette="Set2")

## Gráfico de dispersão

In [None]:
sns.catplot(data=iris)

**Atenção:** abordagem que ajusta os pontos ao longo do eixo categórico usando um algoritmo que os impede de se sobrepor.

In [None]:
sns.catplot(data=iris, kind='swarm')

---
# Correlação - Parte V
---

O termo correlação representa, sob o ponto de vista da estatística, uma medida de associação entre duas ou mais variáveis. Por definição, se forem considerados numa população, os pares de valores de duas variáveis $(x_{i}, y_{i})$, a correlação pode ser definida da sequinte forma:

$$ \rho = \frac{\displaystyle\sum_{i=1}^{n}(x_{i} - \overline{x})(y_{i} - \overline{y})}{\sqrt{\left[\displaystyle\sum_{i=1}^{n}(x_{i} - \overline{x})^2\right]\left[\displaystyle\sum_{i=1}^{n}(y_{i} - \overline{y})^2\right]}} $$

O valor da correção, conhecido como coeficiente de correlação, assume valores no intervalo de $-1$ a $1$, de acordo com o grau de associação entre as variáveis em questão. Este grau de associação pode ser interpretado da seguinte forma:
- 0,9 a 1 positivo ou negativo indica uma correlação muito forte.
- 0,7 a 0,9 positivo ou negativo indica uma correlação forte.
- 0,5 a 0,7 positivo ou negativo indica uma correlação moderada.
- 0,3 a 0,5 positivo ou negativo indica uma correlação fraca.
- 0 a 0,3 positivo ou negativo indica uma correlação desprezível.


In [None]:
mpg_df = sns.load_dataset('mpg')
mpg_df.head()

In [None]:
mpg_df.info()

In [None]:
mpg_df['mpg'].corr(mpg_df['weight'])

É possível também verificar todas as correlações de forma simultânea.

In [None]:
mpg_df.corr()

In [None]:
mpg_df.corr().style.background_gradient(cmap=plt.get_cmap('coolwarm'), axis=1)

---

__Licensa__

![](https://drive.google.com/uc?export=view&id=1Uq7UxJPT9ytP0ABv8hYNWo9ciDZB7guX)

*This work is licensed under the Creative Commons Attribution-NonCommercial 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.*