<center> <h1>Análise Exploratória de Dados - Parte 1</h1> </center>
<center> <h3>Pré-processamento de dados usando Python</h3> </center>

### O que é Análise Exploratória de Dados?

Conjunto de técnicas, numéricas e gráficas, que permite:

* maximizar a percepção de um conjunto de dados;
* descobrir estrutura subjacente;
* extrair variáveis importantes;
* detectar outliers e anomalias;
* testar premissas subjacentes;
* desenvolver modelos parcimoniosos; e
* determinar configurações ideais de fatores.

Em AED, a sequência de ação para resolução de problemas é sempre: 

__Problema => Dados => Análise => Conclusões__

#### Nosso enfoque...

1. Como ler os dados;
2. Como identificar os dados;
3. Como manipular os dados;
4. Como analisar os dados.

### Como ler os dados

Python tem diversas estruturas para armazenamento de dados. 

Algumas delas são "internas": listas, tuplas, conjuntos, dicionários.

Outras, precisam de bibliotecas específicas: ndarray (Numpy), Series e DataFrames (Pandas).

##### Listas

* mutáveis
* ordenadas
* heterogêneas
* indexada por posição
* delimitada por colchetes [ ]

In [None]:
lista = ['casa', 1.0, 3, [1,2,3]]
lista

In [None]:
type(lista)

Indexação feita por posição

In [None]:
lista[0]

In [None]:
lista[2]

In [None]:
lista[-1]

In [None]:
lista[-1][0]

Um problema sério: operações com listas

In [None]:
a = [1,2,3]

In [None]:
a*3

In [None]:
b = []
for i in a:
    b.append(i*3)
b

#### Dicionários

* mutáveis
* não ordenados
* heterogêneos
* indexada por chaves
* delimitada por chaves { }

In [None]:
Dicionario = {"Nome": "Zé", "Idade": 10, "Cidade": "Nazarezinho"}
Dicionario

In [None]:
type(Dicionario)

Indexação por chaves

In [None]:
Dicionario['Nome']

#### ndarray - Numpy

A biblioteca Numpy é a biblioteca numérica do Python, e é a base de todas as grandes bibliotecas do ecossistema Python de computação científica e análise de dados, como Scipy, Matplotlib e a própria Pandas. 

A biblioteca Numpy cria uma nova estrutura de dados, chamada de ndarray, que possue algumas similaridades com listas, mas alguns poderes a mais, com destaque para a capacidade de vetorização, que possibilita que qualquer operação feita com a estrutura seja feita elemento a elemento sem a necessidade de um laço para acessar esses elementos, tornando, assim, a operação computacionalmente mais eficiente.

In [None]:
import numpy as np

Existem várias formas de criar arrays, pode ser através do método np.array(): 

1. usando uma lista:

In [None]:
arr = np.array([-2, 4.3, 7, 9])
arr

2. usando o método arange

In [None]:
arr = np.arange(1, 32, 2)
arr

3. usando o método linspace

In [None]:
arr = np.linspace(1, 100, 10)
arr

4. outros métodos

In [None]:
arr1 = np.empty((6,4)) # Array vazia com o método empty() normalmente a saída é lixo de memória ou zeros
print(arr1, '\n')

arr2 = np.eye(4) # eye cria uma array de duas dimensões com 1 na da diagnoal e 0 nos outros elementos
print(arr2, '\n')

arr3 = np.zeros(8) # array contendo 8 'zeros'
print (arr3, '\n')

arr4 = np.ones((4,3)) # array contendo 12 'uns', no formato 4 x 3
print(arr4)

Vetorização

In [None]:
# vamos criar as arrays A e B para fazer operações com elas

A = np.arange(10)
B = np.arange(10,38,3)

print (' A: ', A, '\n', 'B: ', B)

In [None]:
somar = A + B
subtrair = A - B
dividir = A / B
multiplicar = A * B

print('somar: ', somar )
print('subtrair: ', subtrair )
print('dividir: ', dividir )
print('multiplicar: ', multiplicar)

Indexação

![Image of Yaktocat](http://www.scipy-lectures.org/_images/numpy_indexing.png)

## A biblioteca Pandas

A biblioteca Pandas oferece duas novas estruturas de dados: Series (unidimensional) e DataFrame (bidimensional), que une o melhor dos mundos vistos antes:

* mutáveis
* heterogêneas
* vetorizáveis
* indexadas por índices específicos

In [None]:
import pandas as pd    

As unidades básicas de trabalho com Pandas são as <b>'Series'</b> e os <b>'DataFrames'</b>. 

Series nada mais são do que um conjunto de elementos de 1 dimensão com índices. Series podem conter basicamente qualquer objeto: int , float, string, etc...
A forma mais fácil para criar uma series é através da função <i>pd.Series(data=, index=):</i>

In [None]:
s1 = pd.Series(data = [10, 20, 30, 40, 50], index =['a', 'b', 'c', 'd','e'])
s1

In [None]:
s1 = pd.Series(data = [10, 20, 30, 40, 50], index =['a', 'b', 'c', 'd', 'e','f'])

In [None]:
# usando um dicionário
d = {'Campeão': 'Flamengo', 'Vice':'Vasco', 'Terceiro':'Bangu'}
s2 = pd.Series(d)
s2

In [None]:
d = {'b': 1, 'a': 0, 'c': 2}
s3 = pd.Series(d, index=['a','b'])
s3

In [None]:
# usando um numpy array
dados = np.random.random(4)
indices = np.arange(0, 8, 2)
s4 = pd.Series(data = dados, index = indices)
s4

In [None]:
# usando uma variável escalável
s5 = pd.Series(-9, index=['a', 'b', 'c', 'd'])
s5

## <u>DataFrames: </u>

 são simplesmente um conjunto de séries que compartilham o mesmo índice. Similiar a uma tabela ou planilha do excel. É objeto Pandas mais utilizado! Por isso é muito importante dominar todas as operações que envolvam dataframes. Existem várias formas de criar dataframes, vamos ver as mais importantes:

1)  Através da função:   <i>pd.DataFrame(data= , index= , columns=)

In [None]:
# Data aceita diferentes inputs:

# Dicionário
d = {'Times Paulistas': ['São Paulo', 'Santos', 'Corinthians'], 
     'Times Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times Ruins': ['Palmeiras', 'Vasco', 'Remo']}
df = pd.DataFrame(d)
print(df, '\n')

# Arrays
dados = np.random.random((5,3))
df2 = pd.DataFrame(data = dados, index = np.arange(5), columns = np.random.randint(1, 100, 3))
print (df2, '\n')

# Listas ou Tuplas
listas = [[9,3,6], [6,2,9], [6,1,6]]
df3 = pd.DataFrame(listas, index = (2,3,4), columns = ['A', 'B', 'C'])
print (df3)

\begin{exercise}
Como alterar índices, valores e nome de colunas de um dataframe? Dê um exemplo usando um dos criados acima.
\end{exercise}


\begin{exercise}
Como juntar as duas séries a seguir em um únido dataframe?
\end{exercise}

In [None]:
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

2)   Por leitura de arquivo de diferentes formatos com os métodos:  
    <i>pd.read_csv();
    pd.read_excel();
    pd.read_pickle();
    pd.read_sql();
    pd.read_json();
    pd.read_html() e outros...
    

In [None]:
# basta passar a localização do arquivo para criar um novo dataframe

df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
df.head()      #  o método head() retorna as primeiras cinco linhas do dataframe

Veja que só passamos como argumento 'iris.csv', isso porque o arquivo csv estava na mesma pasta que o nosso código, caso contrário seria necessário passar todo o caminho, exemplo: "c:/users/exemplo/pasta/arquivo.csv".
O dataset (conjunto de dados) iris.csv foi baixado de kaggle.com e contém características de três espécies de flores.

Todos os outros métodos são bem semelhantes, o que muda um pouco é o read_html(). Veja o exemplo:

In [None]:
# Criamos um dataframe chamado fut e passamos o link que contém a tabela que queremos:
fut = pd.read_html("https://pt.wikipedia.org/wiki/Campeonato_Carioca_de_Futebol")
print("Quantidade de tabelas:", len(fut))

Perceba que o Pandas pega todas as tabelas presentes na página, como só queremos uma delas, selecionamos a escolhida:

In [None]:
fut = fut[5]   
fut.head()

### Output:

Pandas dá a opção de salvar nosso df em diferentes formatos: (análogo aos métodos de leitura)

    to_csv(); to_excel(), to_pickle(), to_json(), to_sql(), to_html e outros...

In [None]:
# Aquela tabela que lemos no formato .html, podemos salvar assim:

fut.to_excel('Tabela dos Campeões.xlsx')           # Excel
fut.to_csv('Tabela dos Campeões.csv')              # Arquivo .csv
fut.to_pickle('Tabela dos Campeões.pickle')        # Pickle

# Atributos e Funções:

Podemos obter muitas informações dos nossos dataframes, para isso basta conhecer as principais funções disponíveis:

.head() e .tail()

In [None]:
# Criamos nosso dataframe
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')

# Como já vimos, para retornar as n primeiras usamos:
print(df.head(4))   # se não passar nenhum valor, o padrão é 5

# Para ver as últimas linhas do nosso df:
print(df.tail(3))

In [None]:
# Para obter as colunas de seu dataframe:

print (df.columns)

# Para obter os índices de seu dataframe:

print (df.index)

Para obter informações rápidas, use os métodos .info() e .describe()

In [None]:
# Retorna quantidade de linhas, colunas, tipo de dados...

df.info()

#### Para ser aplicado nas colunas (lembre que cada coluna de um df é um Series):

In [None]:
# Para saber quais são os valores únicos que determinada coluna possui, use .unique()

df['species'].unique()

In [None]:
# Existem duas formas de saber a quantidade de valores únicos:

print(len(df['species'].unique()))
print(df['species'].nunique())

In [None]:
# Outro método importante é o .value_counts() , retorna a contagem de cada valor presente na coluna:

df['species'].value_counts()

# Seleção e Indexação:

In [None]:
# Dataframe de Exemplo
df = pd.DataFrame({'Times_Paulistas': ['São Paulo', 'Santos', 'Corinthians'], 
     'Times_Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times_Ruins': ['Palmeiras', 'Vasco', 'Remo']}, index = ['Campeão', 'Vice', 'Terceiro'])
df

Existem duas formas de selecionar <u>colunas</u> do seu df:

In [None]:
df.Times_Paulistas

# ou, a minha preferência pessoal:

df['Times_Paulistas']

In [None]:
# Para pegar mais de uma coluna, basta:

df[['Times_Paulistas', 'Times_Cariocas']]    # perceba que estamos passando uma lista de colunas ao invés de uma coluna,
                                             # por isso os colchetes duplos... Retorna um dataframe!

Existem duas formas para selecionar <u>linhas</u>:  pela posição ou pelo nome do index

In [None]:
# Pela posição, com iloc[]:

df.iloc[0]

In [None]:
# Pelo nome do índice:

df.loc['Vice']

In [None]:
# Para escolher uma única célula, use os rótulos da coluna e da linha:

df['Times_Ruins']['Vice']

In [None]:
# Adicionar colunas é muito simples

df['Nova Coluna'] = [1,2,3]

### Índices:

In [None]:
# Para mudar o índice - escolhemos como índice a nova coluna

df.set_index('Nova Coluna')  

ATENÇÃO!!! A maioria das mudanças que fizermos nos dataframes não é permanente, na verdade o Pandas cria um novo objeto
e retorna o mesmo. 
Isso evita a perda de informação acidental. Para que a mudança seja permanente, use o parâmetro <i>inplace = True

In [None]:
# Nesse caso não tem sentido mudar o índice, mas veja que a mudança não é permanente

df

In [None]:
# Para resetar o índice, fazendo com que a mudança seja permanente

df.reset_index(inplace = True)
df

### SELEÇÃO CONDICIONAL:

In [None]:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'year': [2012, 2012, 2013, 2014, 2014], 
        'reports': [4, 24, 31, 2, 3],
        'coverage': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, index = ['Cochice', 'Pima', 'Santa Cruz', 'Maricopa', 'Yuma'])
df

Vendo somente as linhas em que cobertura é maior que 50

In [None]:
df[df.coverage > 50]

Vendo as linhas em que coverage é maior que 50 e reports menos que 4

In [None]:
df[(df.coverage  > 50) & (df.reports < 4)]

Outros exemplos

In [None]:
raw_data = {'first_name': ['Jason', 'Molly', np.nan, np.nan, np.nan], 
        'nationality': ['USA', 'USA', 'France', 'UK', 'UK'], 
        'age': [42, 52, 36, 24, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'nationality', 'age'])
df

In [None]:
# Create variable with TRUE if nationality is USA
american = df['nationality'] == "USA"

# Create variable with TRUE if age is greater than 50
elderly = df['age'] > 50

# Select all cases where nationality is USA and age is greater than 50
df[american & elderly]

In [None]:
# Select all cases where the first name is not missing and nationality is USA 
df[df['first_name'].notnull() & (df['nationality'] == "USA")]

### Aplicando funções e Operações nos dataframes:

In [None]:
df = pd.DataFrame({'cor': ['preto','preto','preto','branco','branco','branco'],
                       'letra': ['A', 'E', 'I', 'A', 'E', 'I'],
                       'num': [1, 2, 3, 4, 5, 6]})
df

In [None]:
# Vamos usar a coluna 'num' para aplicar algumas funções

df['num']

In [None]:
# Primeiro passo é escrever uma função

def dobrar(x):      # função simples que retorna o dobro do número passado
    return x * 2

In [None]:
# Agora é só aplicar na coluna desejada com .apply(), passando a nossa função como argumento

df['num'] = df['num'].apply(dobrar)    # para tornar a alteração permanente, atribuímos o resultado a nossa coluna

In [None]:
df['num']

Acredito que deu pra trazer pelo menos o básico da biblioteca Pandas nesse tutorial. Eu sei que é muita coisa, mas tem muito mais
coisa ainda para ser estudado! Se quiser se aprofundar mais, leia a documentação oficial, links abaixo.

<b>FONTES:</b>

1 - http://pandas.pydata.org/ <br>
2 - http://pandas.pydata.org/pandas-docs/stable/<br>
3 - http://pandas.pydata.org/pandas-docs/stable/10min.html#min<br>
4 - http://pandas.pydata.org/pandas-docs/stable/api.html#general-functions<br>