<center> <h1>Análise Exploratória de Dados - Parte 1</h1> </center>
<center> <h3>Pré-processamento de dados usando Python</h3> </center>

### O que é Análise Exploratória de Dados?

Conjunto de técnicas, numéricas e gráficas, que permite:

* maximizar a percepção de um conjunto de dados;
* descobrir estrutura subjacente;
* extrair variáveis importantes;
* detectar outliers e anomalias;
* testar premissas subjacentes;
* desenvolver modelos parcimoniosos; e
* determinar configurações ideais de fatores.

Em AED, a sequência de ação para resolução de problemas é sempre: 

__Problema => Dados => Análise => Conclusões__

#### Nosso enfoque...

1. Como ler os dados;
2. Como identificar os dados;
3. Como manipular os dados;
4. Como analisar os dados.

### Como ler os dados

Python tem diversas estruturas para armazenamento de dados. 

Algumas delas são "internas": listas, tuplas, conjuntos, dicionários.

Outras, precisam de bibliotecas específicas: ndarray (Numpy), Series e DataFrames (Pandas).

##### Listas

* mutáveis
* ordenadas
* heterogêneas
* indexada por posição
* delimitada por colchetes [ ]

In [1]:
lista = ['casa', 1.0, 3, [1,2,3]]
lista

['casa', 1.0, 3, [1, 2, 3]]

In [2]:
type(lista)

list

Indexação feita por posição

In [3]:
lista[0]

'casa'

In [4]:
lista[2]

3

In [6]:
lista[-1]

[1, 2, 3]

In [7]:
lista[-1][0]

1

Um problema sério: operações com listas

In [8]:
a = [1,2,3]

In [9]:
a*3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

In [10]:
b = []
for i in a:
    b.append(i*3)
b

[3, 6, 9]

#### Dicionários

* mutáveis
* não ordenados
* heterogêneos
* indexada por chaves
* delimitada por chaves { }

In [11]:
Dicionario = {"Nome": "Zé", "Idade": 10, "Cidade": "Nazarezinho"}
Dicionario

{'Nome': 'Zé', 'Idade': 10, 'Cidade': 'Nazarezinho'}

In [12]:
type(Dicionario)

dict

Indexação por chaves

In [14]:
Dicionario['Nome']

'Zé'

#### ndarray - Numpy

A biblioteca Numpy é a biblioteca numérica do Python, e é a base de todas as grandes bibliotecas do ecossistema Python de computação científica e análise de dados, como Scipy, Matplotlib e a própria Pandas. 

A biblioteca Numpy cria uma nova estrutura de dados, chamada de ndarray, que possue algumas similaridades com listas, mas alguns poderes a mais, com destaque para a capacidade de vetorização, que possibilita que qualquer operação feita com a estrutura seja feita elemento a elemento sem a necessidade de um laço para acessar esses elementos, tornando, assim, a operação computacionalmente mais eficiente.

In [15]:
import numpy as np

Existem várias formas de criar arrays, pode ser através do método np.array(): 

1. usando uma lista:

In [16]:
arr = np.array([-2, 4.3, 7, 9])
arr

array([-2. ,  4.3,  7. ,  9. ])

2. usando o método arange

In [17]:
arr = np.arange(1, 32, 2)
arr

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31])

3. usando o método linspace

In [18]:
arr = np.linspace(1, 100, 10)
arr

array([  1.,  12.,  23.,  34.,  45.,  56.,  67.,  78.,  89., 100.])

4. outros métodos

In [19]:
arr1 = np.empty((6,4)) # Array vazia com o método empty() normalmente a saída é lixo de memória ou zeros
print(arr1, '\n')

arr2 = np.eye(4) # eye cria uma array de duas dimensões com 1 na da diagnoal e 0 nos outros elementos
print(arr2, '\n')

arr3 = np.zeros(8) # array contendo 8 'zeros'
print (arr3, '\n')

arr4 = np.ones((4,3)) # array contendo 12 'uns', no formato 4 x 3
print(arr4)

[[ 2.24037731e-301  2.21673647e-301  3.67234052e-306  2.26635193e-301]
 [ 2.21673647e-301  2.24037731e-301  2.21673648e-301  2.24037731e-301]
 [ 2.21673649e-301  2.29186895e-301  3.56873558e-306  2.21810147e-301]
 [ 3.84781287e-008 -2.76798102e-109  2.56116256e-292  6.90101628e-310]
 [ 6.90103230e-310  7.16395186e-322  4.65459833e-310  6.90103316e-310]
 [ 6.90103228e-310  6.90103228e-310  6.90101711e-310  4.79243676e-322]] 

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]] 

[0. 0. 0. 0. 0. 0. 0. 0.] 

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


Vetorização

In [20]:
# vamos criar as arrays A e B para fazer operações com elas

A = np.arange(10)
B = np.arange(10,38,3)

print (' A: ', A, '\n', 'B: ', B)

 A:  [0 1 2 3 4 5 6 7 8 9] 
 B:  [10 13 16 19 22 25 28 31 34 37]


In [21]:
somar = A + B
subtrair = A - B
dividir = A / B
multiplicar = A * B

print('somar: ', somar )
print('subtrair: ', subtrair )
print('dividir: ', dividir )
print('multiplicar: ', multiplicar)

somar:  [10 14 18 22 26 30 34 38 42 46]
subtrair:  [-10 -12 -14 -16 -18 -20 -22 -24 -26 -28]
dividir:  [0.         0.07692308 0.125      0.15789474 0.18181818 0.2
 0.21428571 0.22580645 0.23529412 0.24324324]
multiplicar:  [  0  13  32  57  88 125 168 217 272 333]


Indexação

![Image of Yaktocat](http://www.scipy-lectures.org/_images/numpy_indexing.png)

## A biblioteca Pandas

A biblioteca Pandas oferece duas novas estruturas de dados: Series (unidimensional) e DataFrame (bidimensional), que une o melhor dos mundos vistos antes:

* mutáveis
* heterogêneas
* vetorizáveis
* indexadas por índices específicos

In [22]:
import pandas as pd    

As unidades básicas de trabalho com Pandas são as <b>'Series'</b> e os <b>'DataFrames'</b>. 

Series nada mais são do que um conjunto de elementos de 1 dimensão com índices. Series podem conter basicamente qualquer objeto: int , float, string, etc...
A forma mais fácil para criar uma series é através da função <i>pd.Series(data=, index=):</i>

In [24]:
s1 = pd.Series(data = [10, 20, 30, 40, 50], index =['a', 'b', 'c', 'd','e'])
s1

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [25]:
s1 = pd.Series(data = [10, 20, 30, 40, 50], index =['a', 'b', 'c', 'd', 'e','f'])

ValueError: Length of passed values is 5, index implies 6

In [33]:
# usando um dicionário
d = {'Campeão': 'Flamengo', 'Vice':'Vasco', 'Terceiro':'Bangu'}
s2 = pd.Series(d)
s2

Campeão     Flamengo
Vice           Vasco
Terceiro       Bangu
dtype: object

In [35]:
d = {'b': 1, 'a': 0, 'c': 2}
s3 = pd.Series(d, index=['a','b'])
s3

a    0
b    1
dtype: int64

In [38]:
# usando um numpy array
dados = np.random.random(4)
indices = np.arange(0, 8, 2)
s4 = pd.Series(data = dados, index = indices)
s4

0    0.217960
2    0.953743
4    0.414294
6    0.431533
dtype: float64

In [37]:
# usando uma variável escalável
s5 = pd.Series(-9, index=['a', 'b', 'c', 'd'])
s5

a   -9
b   -9
c   -9
d   -9
dtype: int64

## <u>DataFrames: </u>

 são simplesmente um conjunto de séries que compartilham o mesmo índice. Similiar a uma tabela ou planilha do excel. É objeto Pandas mais utilizado! Por isso é muito importante dominar todas as operações que envolvam dataframes. Existem várias formas de criar dataframes, vamos ver as mais importantes:

1)  Através da função:   <i>pd.DataFrame(data= , index= , columns=)

In [None]:
# Data aceita diferentes inputs:

# Dicionário
d = {'Times Paulistas': ['São Paulo', 'Santos', 'Corinthians'], 
     'Times Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times Ruins': ['Palmeiras', 'Vasco', 'Remo']}
df = pd.DataFrame(d)
print(df, '\n')

# Arrays
dados = np.random.random((5,3))
df2 = pd.DataFrame(data = dados, index = np.arange(5), columns = np.random.randint(1, 100, 3))
print (df2, '\n')

# Listas ou Tuplas
listas = [[9,3,6], [6,2,9], [6,1,6]]
df3 = pd.DataFrame(listas, index = (2,3,4), columns = ['A', 'B', 'C'])
print (df3)

\begin{exercise}
Como alterar índices, valores e nome de colunas de um dataframe? Dê um exemplo usando um dos criados acima.
\end{exercise}


\begin{exercise}
Como juntar as duas séries a seguir em um únido dataframe?
\end{exercise}

In [None]:
ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
ser2 = pd.Series(np.arange(26))

2)   Por leitura de arquivo de diferentes formatos com os métodos:  
    <i>pd.read_csv();
    pd.read_excel();
    pd.read_pickle();
    pd.read_sql();
    pd.read_json();
    pd.read_html() e outros...
    

In [None]:
# basta passar a localização do arquivo para criar um novo dataframe

df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')
df.head()      #  o método head() retorna as primeiras cinco linhas do dataframe

Veja que só passamos como argumento 'iris.csv', isso porque o arquivo csv estava na mesma pasta que o nosso código, caso contrário seria necessário passar todo o caminho, exemplo: "c:/users/exemplo/pasta/arquivo.csv".
O dataset (conjunto de dados) iris.csv foi baixado de kaggle.com e contém características de três espécies de flores.

Todos os outros métodos são bem semelhantes, o que muda um pouco é o read_html(). Veja o exemplo:

In [3]:
# Criamos um dataframe chamado fut e passamos o link que contém a tabela que queremos:
fut = pd.read_html("https://pt.wikipedia.org/wiki/Campeonato_Carioca_de_Futebol")
print("Quantidade de tabelas:", len(fut))

Quantidade de tabelas: 58


Perceba que o Pandas pega todas as tabelas presentes na página, como só queremos uma delas, selecionamos a escolhida:

In [4]:
fut = fut[5]   
fut.head()

Unnamed: 0,Ano,Campeão,Placar(es),Vice-campeão,3º lugar,4º lugar
0,1979detalhes,Flamengo (20),Campeão dos dois turnos,Fluminense,Vasco da Gama,Botafogo
1,1980detalhes,Fluminense (24),1 – 0,Vasco da Gama,Flamengo,Bangu
2,1981detalhes,Flamengo (21),2 – 1,Vasco da Gama,Botafogo,Bangu
3,1982detalhes,Vasco da Gama (15),Triangular final,Flamengo,America,Botafogo
4,1983detalhes,Fluminense (25),Triangular final,Flamengo,Bangu,America


### Output:

Pandas dá a opção de salvar nosso df em diferentes formatos: (análogo aos métodos de leitura)

    to_csv(); to_excel(), to_pickle(), to_json(), to_sql(), to_html e outros...

In [5]:
# Aquela tabela que lemos no formato .html, podemos salvar assim:

fut.to_excel('Tabela dos Campeões.xlsx')           # Excel
fut.to_csv('Tabela dos Campeões.csv')              # Arquivo .csv
fut.to_pickle('Tabela dos Campeões.pickle')        # Pickle

# Atributos e Funções:

Podemos obter muitas informações dos nossos dataframes, para isso basta conhecer as principais funções disponíveis:

.head() e .tail()

In [6]:
# Criamos nosso dataframe
df = pd.read_csv('https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv')

# Como já vimos, para retornar as n primeiras usamos:
print(df.head(4))   # se não passar nenhum valor, o padrão é 5

# Para ver as últimas linhas do nosso df:
print(df.tail(3))

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
     sepal_length  sepal_width  petal_length  petal_width    species
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [7]:
# Para obter as colunas de seu dataframe:

print (df.columns)

# Para obter os índices de seu dataframe:

print (df.index)

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')
RangeIndex(start=0, stop=150, step=1)


Para obter informações rápidas, use os métodos .info() e .describe()

In [8]:
# Retorna quantidade de linhas, colunas, tipo de dados...

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float64
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


#### Para ser aplicado nas colunas (lembre que cada coluna de um df é um Series):

In [9]:
# Para saber quais são os valores únicos que determinada coluna possui, use .unique()

df['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [10]:
# Existem duas formas de saber a quantidade de valores únicos:

print(len(df['species'].unique()))
print(df['species'].nunique())

3
3


In [11]:
# Outro método importante é o .value_counts() , retorna a contagem de cada valor presente na coluna:

df['species'].value_counts()

setosa        50
virginica     50
versicolor    50
Name: species, dtype: int64

# Seleção e Indexação:

In [12]:
# Dataframe de Exemplo
df = pd.DataFrame({'Times_Paulistas': ['São Paulo', 'Santos', 'Corinthians'], 
     'Times_Cariocas': ['Flamengo', 'Fluminense', 'Botafogo'], 
     'Times_Ruins': ['Palmeiras', 'Vasco', 'Remo']}, index = ['Campeão', 'Vice', 'Terceiro'])
df

Unnamed: 0,Times_Paulistas,Times_Cariocas,Times_Ruins
Campeão,São Paulo,Flamengo,Palmeiras
Vice,Santos,Fluminense,Vasco
Terceiro,Corinthians,Botafogo,Remo


Existem duas formas de selecionar <u>colunas</u> do seu df:

In [13]:
df.Times_Paulistas

# ou, a minha preferência pessoal:

df['Times_Paulistas']

Campeão       São Paulo
Vice             Santos
Terceiro    Corinthians
Name: Times_Paulistas, dtype: object

In [14]:
# Para pegar mais de uma coluna, basta:

df[['Times_Paulistas', 'Times_Cariocas']]    # perceba que estamos passando uma lista de colunas ao invés de uma coluna,
                                             # por isso os colchetes duplos... Retorna um dataframe!

Unnamed: 0,Times_Paulistas,Times_Cariocas
Campeão,São Paulo,Flamengo
Vice,Santos,Fluminense
Terceiro,Corinthians,Botafogo


Existem duas formas para selecionar <u>linhas</u>:  pela posição ou pelo nome do index

In [15]:
# Pela posição, com iloc[]:

df.iloc[0]

Times_Paulistas    São Paulo
Times_Cariocas      Flamengo
Times_Ruins        Palmeiras
Name: Campeão, dtype: object

In [16]:
# Pelo nome do índice:

df.loc['Vice']

Times_Paulistas        Santos
Times_Cariocas     Fluminense
Times_Ruins             Vasco
Name: Vice, dtype: object

In [17]:
# Para escolher uma única célula, use os rótulos da coluna e da linha:

df['Times_Ruins']['Vice']

'Vasco'

In [18]:
# Adicionar colunas é muito simples

df['Nova Coluna'] = [1,2,3]

### Índices:

In [19]:
# Para mudar o índice - escolhemos como índice a nova coluna

df.set_index('Nova Coluna')  

Unnamed: 0_level_0,Times_Paulistas,Times_Cariocas,Times_Ruins
Nova Coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,São Paulo,Flamengo,Palmeiras
2,Santos,Fluminense,Vasco
3,Corinthians,Botafogo,Remo


ATENÇÃO!!! A maioria das mudanças que fizermos nos dataframes não é permanente, na verdade o Pandas cria um novo objeto
e retorna o mesmo. 
Isso evita a perda de informação acidental. Para que a mudança seja permanente, use o parâmetro <i>inplace = True

In [20]:
# Nesse caso não tem sentido mudar o índice, mas veja que a mudança não é permanente

df

Unnamed: 0,Times_Paulistas,Times_Cariocas,Times_Ruins,Nova Coluna
Campeão,São Paulo,Flamengo,Palmeiras,1
Vice,Santos,Fluminense,Vasco,2
Terceiro,Corinthians,Botafogo,Remo,3


In [21]:
# Para resetar o índice, fazendo com que a mudança seja permanente

df.reset_index(inplace = True)
df

Unnamed: 0,index,Times_Paulistas,Times_Cariocas,Times_Ruins,Nova Coluna
0,Campeão,São Paulo,Flamengo,Palmeiras,1
1,Vice,Santos,Fluminense,Vasco,2
2,Terceiro,Corinthians,Botafogo,Remo,3


### SELEÇÃO CONDICIONAL:

In [22]:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'year': [2012, 2012, 2013, 2014, 2014], 
        'reports': [4, 24, 31, 2, 3],
        'coverage': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, index = ['Cochice', 'Pima', 'Santa Cruz', 'Maricopa', 'Yuma'])
df

Unnamed: 0,name,year,reports,coverage
Cochice,Jason,2012,4,25
Pima,Molly,2012,24,94
Santa Cruz,Tina,2013,31,57
Maricopa,Jake,2014,2,62
Yuma,Amy,2014,3,70


Vendo somente as linhas em que cobertura é maior que 50

In [23]:
df[df.coverage > 50]

Unnamed: 0,name,year,reports,coverage
Pima,Molly,2012,24,94
Santa Cruz,Tina,2013,31,57
Maricopa,Jake,2014,2,62
Yuma,Amy,2014,3,70


Vendo as linhas em que coverage é maior que 50 e reports menos que 4

In [24]:
df[(df.coverage  > 50) & (df.reports < 4)]

Unnamed: 0,name,year,reports,coverage
Maricopa,Jake,2014,2,62
Yuma,Amy,2014,3,70


Outros exemplos

In [25]:
raw_data = {'first_name': ['Jason', 'Molly', np.nan, np.nan, np.nan], 
        'nationality': ['USA', 'USA', 'France', 'UK', 'UK'], 
        'age': [42, 52, 36, 24, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'nationality', 'age'])
df

Unnamed: 0,first_name,nationality,age
0,Jason,USA,42
1,Molly,USA,52
2,,France,36
3,,UK,24
4,,UK,70


In [26]:
# Create variable with TRUE if nationality is USA
american = df['nationality'] == "USA"

# Create variable with TRUE if age is greater than 50
elderly = df['age'] > 50

# Select all cases where nationality is USA and age is greater than 50
df[american & elderly]

Unnamed: 0,first_name,nationality,age
1,Molly,USA,52


In [27]:
# Select all cases where the first name is not missing and nationality is USA 
df[df['first_name'].notnull() & (df['nationality'] == "USA")]

Unnamed: 0,first_name,nationality,age
0,Jason,USA,42
1,Molly,USA,52


### Aplicando funções e Operações nos dataframes:

In [28]:
df = pd.DataFrame({'cor': ['preto','preto','preto','branco','branco','branco'],
                       'letra': ['A', 'E', 'I', 'A', 'E', 'I'],
                       'num': [1, 2, 3, 4, 5, 6]})
df

Unnamed: 0,cor,letra,num
0,preto,A,1
1,preto,E,2
2,preto,I,3
3,branco,A,4
4,branco,E,5
5,branco,I,6


In [29]:
# Vamos usar a coluna 'num' para aplicar algumas funções

df['num']

0    1
1    2
2    3
3    4
4    5
5    6
Name: num, dtype: int64

In [30]:
# Primeiro passo é escrever uma função

def dobrar(x):      # função simples que retorna o dobro do número passado
    return x * 2

In [31]:
# Agora é só aplicar na coluna desejada com .apply(), passando a nossa função como argumento

df['num'] = df['num'].apply(dobrar)    # para tornar a alteração permanente, atribuímos o resultado a nossa coluna

In [32]:
df['num']

0     2
1     4
2     6
3     8
4    10
5    12
Name: num, dtype: int64

Acredito que deu pra trazer pelo menos o básico da biblioteca Pandas nesse tutorial. Eu sei que é muita coisa, mas tem muito mais
coisa ainda para ser estudado! Se quiser se aprofundar mais, leia a documentação oficial, links abaixo.

<b>FONTES:</b>

1 - http://pandas.pydata.org/ <br>
2 - http://pandas.pydata.org/pandas-docs/stable/<br>
3 - http://pandas.pydata.org/pandas-docs/stable/10min.html#min<br>
4 - http://pandas.pydata.org/pandas-docs/stable/api.html#general-functions<br>