In [2]:
import numpy as np
import pandas as pd

# Pandas Series e Dataframes - Análise de Dados

## O que são?

Pandas Series são NumPy Arrays indexados. Pensem em NumPy Arrays como listas comuns de Python porém com maior capacidade 

NumPy é uma biblioteca de **álgebra linear** para Python. Pandas é uma biblioteca de **manipulação de dados**.

https://webcourses.ucf.edu/courses/1249560/pages/python-lists-vs-numpy-arrays-what-is-the-difference

Para criar uma Series e visualizarmos, usaremos o método Series, presente em pd.

Primeiro, faremos uma Series simples:

In [88]:
pd.Series(data=['a','b','c'])

0    a
1    b
2    c
dtype: object

Vemos que essa Series nada mais é que um array [a,b,c] indexado com [0,1,2].

**Os índices podem ser também strings, ou até mesmo funções(por mais que não sejam utilizadas funções). O importante é entender a liberdade garantida ao programador.**

In [89]:
pd.Series(data=['a','b','c'],index=['PR','PE','MG'])

PR    a
PE    b
MG    c
dtype: object

In [90]:
#A Series acima é agora chamada "ser"
ser = pd.Series(data=['a','b','c'],index=['PR','PE','MG'])

In [91]:
#Apenas mostrando que é uma Series.
type(ser)

pandas.core.series.Series

In [92]:
#Consultando os valores da Series
ser.values

array(['a', 'b', 'c'], dtype=object)

In [93]:
#Consultando o índice da Series
ser.index

Index(['PR', 'PE', 'MG'], dtype='object')

**Dataframes** são como matrizes em que cada linha e coluna é uma Series. Iremos explorar o assunto melhor nos tópicos seguintes.

## Lendo e Escrevendo dataframes (index=False)

No caso iremos ler arquivos CSV. Mas o Pandas suporta a leitura de diversos tipos de fonte. Desde HTML até SQL. Se estiver utilizando o Jupyter Notebook, basta digitar **pd.read_ e pressionar TAB** para verificar as diversas possibilidades. Há também a possibilidade de minerar dados presentes em um website, mas isso já é mais avançado e existem bibliotecas melhores para isso. 

In [94]:
#Lendo a base de dados "911.csv", que está na mesma pasta do Notebook.
df = pd.read_csv('911.csv')

A base de dados 911 é uma base de dados(dataset) presente no [Kaggle](https://www.kaggle.com/), uma rede social para cientistas de dados.

Link para baixarem o dataset: https://www.kaggle.com/mchirico/montcoalert

In [95]:
type(df)

pandas.core.frame.DataFrame

In [96]:
#Método head() vê por padrão as 5 primeiras linhas do dataset.
df.head()

Unnamed: 0,lat,lng,desc,zip,title,timeStamp,twp,addr,e
0,40.297876,-75.581294,REINDEER CT & DEAD END; NEW HANOVER; Station ...,19525.0,EMS: BACK PAINS/INJURY,2015-12-10 17:40:00,NEW HANOVER,REINDEER CT & DEAD END,1
1,40.258061,-75.26468,BRIAR PATH & WHITEMARSH LN; HATFIELD TOWNSHIP...,19446.0,EMS: DIABETIC EMERGENCY,2015-12-10 17:40:00,HATFIELD TOWNSHIP,BRIAR PATH & WHITEMARSH LN,1
2,40.121182,-75.351975,HAWS AVE; NORRISTOWN; 2015-12-10 @ 14:39:21-St...,19401.0,Fire: GAS-ODOR/LEAK,2015-12-10 17:40:00,NORRISTOWN,HAWS AVE,1
3,40.116153,-75.343513,AIRY ST & SWEDE ST; NORRISTOWN; Station 308A;...,19401.0,EMS: CARDIAC EMERGENCY,2015-12-10 17:40:01,NORRISTOWN,AIRY ST & SWEDE ST,1
4,40.251492,-75.60335,CHERRYWOOD CT & DEAD END; LOWER POTTSGROVE; S...,,EMS: DIZZINESS,2015-12-10 17:40:01,LOWER POTTSGROVE,CHERRYWOOD CT & DEAD END,1


## Lembrem-se de utilizar das features que o Jupyter os proporciona. Usem SHIFT+TAB dentro de métodos para ver quais argumentos podem ser passados e checar a sua Docstring. As Docstrings podem lhe proporcionar exemplos de como utilizar o método e que tipos de valores podem ser passados para cada argumento disponível. Para mais informações, checar a documentação Pandas.

Vamos agora explorar como ESCREVER um dataframe modificado.

In [97]:
#Deletando a coluna de latitude. Não se preocupe em entender este código agora.
df.drop('lat',axis=1,inplace=True)

Note que agora não há mais a coluna de latitude.

In [98]:
df.head()

Unnamed: 0,lng,desc,zip,title,timeStamp,twp,addr,e
0,-75.581294,REINDEER CT & DEAD END; NEW HANOVER; Station ...,19525.0,EMS: BACK PAINS/INJURY,2015-12-10 17:40:00,NEW HANOVER,REINDEER CT & DEAD END,1
1,-75.26468,BRIAR PATH & WHITEMARSH LN; HATFIELD TOWNSHIP...,19446.0,EMS: DIABETIC EMERGENCY,2015-12-10 17:40:00,HATFIELD TOWNSHIP,BRIAR PATH & WHITEMARSH LN,1
2,-75.351975,HAWS AVE; NORRISTOWN; 2015-12-10 @ 14:39:21-St...,19401.0,Fire: GAS-ODOR/LEAK,2015-12-10 17:40:00,NORRISTOWN,HAWS AVE,1
3,-75.343513,AIRY ST & SWEDE ST; NORRISTOWN; Station 308A;...,19401.0,EMS: CARDIAC EMERGENCY,2015-12-10 17:40:01,NORRISTOWN,AIRY ST & SWEDE ST,1
4,-75.60335,CHERRYWOOD CT & DEAD END; LOWER POTTSGROVE; S...,,EMS: DIZZINESS,2015-12-10 17:40:01,LOWER POTTSGROVE,CHERRYWOOD CT & DEAD END,1


Para escrever um dataframe num arquivo, basta usar o método **to_'x'** e lembrar de usar o mesmo recurso do TAB para verificar os tipos disponíveis.

In [99]:
df.to_csv('911_sem_lat.csv')

In [100]:
df = pd.read_csv('911_sem_lat.csv')

Ótimo, agora vamos checar novamente a cabeça do dataframe.

In [101]:
df.head()

Unnamed: 0.1,Unnamed: 0,lng,desc,zip,title,timeStamp,twp,addr,e
0,0,-75.581294,REINDEER CT & DEAD END; NEW HANOVER; Station ...,19525.0,EMS: BACK PAINS/INJURY,2015-12-10 17:40:00,NEW HANOVER,REINDEER CT & DEAD END,1
1,1,-75.26468,BRIAR PATH & WHITEMARSH LN; HATFIELD TOWNSHIP...,19446.0,EMS: DIABETIC EMERGENCY,2015-12-10 17:40:00,HATFIELD TOWNSHIP,BRIAR PATH & WHITEMARSH LN,1
2,2,-75.351975,HAWS AVE; NORRISTOWN; 2015-12-10 @ 14:39:21-St...,19401.0,Fire: GAS-ODOR/LEAK,2015-12-10 17:40:00,NORRISTOWN,HAWS AVE,1
3,3,-75.343513,AIRY ST & SWEDE ST; NORRISTOWN; Station 308A;...,19401.0,EMS: CARDIAC EMERGENCY,2015-12-10 17:40:01,NORRISTOWN,AIRY ST & SWEDE ST,1
4,4,-75.60335,CHERRYWOOD CT & DEAD END; LOWER POTTSGROVE; S...,,EMS: DIZZINESS,2015-12-10 17:40:01,LOWER POTTSGROVE,CHERRYWOOD CT & DEAD END,1


**Note que uma estranha coluna chamada 'Unnamed: 0' foi criada.** Essa coluna é criada pelo Pandas por padrão para que se evite ao máximo perder dados que talvez fossem importantes. Nessa coluna, estão os índices anteriores.

Para explicar isso melhor, usaremos outro exemplo:

In [102]:
#Não se preocupem em entender esse código agora.

np.random.seed(99) #Seed para que a aleatoriedade do NumPy nos dê os mesmos valores (eu e você).
df = pd.DataFrame(np.random.randn(5,4), ['A','B','C','D','E'], ['W','X','Y','Z'])

In [103]:
df 
#Não foi necessário utilizar o head() pois o dataset já é muito pequeno. Para testar, tentem visualizar o '911.csv' 
#sem usar o método head. Juro que não quebra o computador, só ocupa muito espaço na tela.

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


Ok, agora vamos fazer uma mudança: Vamos colocar novos índices e então escrever utilizando o mesmo método visto.

In [104]:
df.index #Para consultarmos os índices de um dataframe.

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [105]:
#O Pandas é esperto o suficiente para deixar nós fazermos isso:

df.index = ['PE','PR','MG','RN','SC']

In [106]:
df

Unnamed: 0,W,X,Y,Z
PE,-0.142359,2.057222,0.283262,1.329812
PR,-0.154622,-0.069031,0.75518,0.825647
MG,-0.113069,-2.367838,-0.167049,0.685398
RN,0.0235,0.456201,0.270493,-1.435008
SC,0.882817,-0.580082,-0.501565,0.590953


In [107]:
df.index.name = 'Estados BR' #Antes não tinhamos nome.

In [108]:
#Consultando o nome
df.index.name

'Estados BR'

In [109]:
df

Unnamed: 0_level_0,W,X,Y,Z
Estados BR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PE,-0.142359,2.057222,0.283262,1.329812
PR,-0.154622,-0.069031,0.75518,0.825647
MG,-0.113069,-2.367838,-0.167049,0.685398
RN,0.0235,0.456201,0.270493,-1.435008
SC,0.882817,-0.580082,-0.501565,0.590953


Ok, agora vamos escrever esse dataframe.

In [110]:
df.to_csv('estados.csv')

Agora, se lermos ele da mesma forma, veremos o que eu estava querendo dizer.

In [111]:
df = pd.read_csv('estados.csv')

In [112]:
df

Unnamed: 0,Estados BR,W,X,Y,Z
0,PE,-0.142359,2.057222,0.283262,1.329812
1,PR,-0.154622,-0.069031,0.75518,0.825647
2,MG,-0.113069,-2.367838,-0.167049,0.685398
3,RN,0.0235,0.456201,0.270493,-1.435008
4,SC,0.882817,-0.580082,-0.501565,0.590953


Note agora mais claramente que foi criada uma coluna chamada "Estados BR", antes era 'Unnamed' porque não havia nome para os índices. 

Note agora também que as linhas dessa coluna são os índices antigos do dataset.

**Como fazer para resolver esse "problema"?**

Podemos definir index=False ao chamarmos o método to_csv

Primeiro, recriaremos o nosso dataframe anterior (Lembre-se que o Jupyter é interativo)

In [113]:
np.random.seed(99) #Não era necessário dizer isso novamente. Basta uma vez em todo seu documento.
#Mas quis colocar a linha acima só para esclarecer que estou apenas recriando o mesmo dataframe.
df = pd.DataFrame(np.random.randn(5,4), ['A','B','C','D','E'], ['W','X','Y','Z'])
df.index = ['PE','PR','MG','RN','SC']
df.index.name = 'Estados BR'

In [114]:
df #Só para mostrar que não estou mentindo

Unnamed: 0_level_0,W,X,Y,Z
Estados BR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PE,-0.142359,2.057222,0.283262,1.329812
PR,-0.154622,-0.069031,0.75518,0.825647
MG,-0.113069,-2.367838,-0.167049,0.685398
RN,0.0235,0.456201,0.270493,-1.435008
SC,0.882817,-0.580082,-0.501565,0.590953


In [115]:
df.to_csv('estados_novo.csv',index=False)

#Se fizer SHIFT+TAB no método to_csv pode perceber que index é True por padrão. Agora estamos forçando que ele não salve
#O index antigo.

Agora, se lermos o dataframe, deve estar tudo como esperado

In [116]:
df = pd.read_csv('estados_novo.csv')

In [117]:
df

Unnamed: 0,W,X,Y,Z
0,-0.142359,2.057222,0.283262,1.329812
1,-0.154622,-0.069031,0.75518,0.825647
2,-0.113069,-2.367838,-0.167049,0.685398
3,0.0235,0.456201,0.270493,-1.435008
4,0.882817,-0.580082,-0.501565,0.590953


### A mesma lógica se aplica ao dataset '911.csv'. Pode testar em casa para ver que ao forçar index=False a coluna 'Unnamed' vai desaparecer.

## Dataframes - Indexing/Selection, Create/Remove Columns

In [118]:
np.random.seed(99)

#O método DataFrame cria um DataFrame a partir de dados cedidos pelo programador.
#Aqui deixei claro o que era cada argumento, mas se usar SHIFT+TAB pode ver que não precisaria colocar o nome de cada
#argumento, já que todos estão na ordem correta.
#Por exemplo, isso aqui seria suficiente:
#df = pd.DataFrame(np.random.randn(5,4), ['A','B','C','D','E'], ['W','X','Y','Z'])

df = pd.DataFrame(data=np.random.randn(5,4), index=['A','B','C','D','E'], columns=['W','X','Y','Z'])

O método **randn** do NumPy pega números aleatórios de uma distribuição normal centrada em 0. Nesse caso, eu pedi para me retornar uma matriz 5x4. Por isso passei 5 índices e 4 colunas. Lembrem-se que Dataframes são quase como matrizes.

In [119]:
#Apenas ilustrando. Aqui uma matriz 3x2
np.random.randn(3,2)

array([[-0.73161625,  0.26175546],
       [-0.85579558, -0.18752591],
       [-0.37348629, -0.46197097]])

Voltando para o foco:

In [120]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


Para consultar uma coluna, basta passá-la como se estivesse a consultar um valor num dicionário Python, ou o valor numa hash table. 

In [121]:
df['W']

A   -0.142359
B   -0.154622
C   -0.113069
D    0.023500
E    0.882817
Name: W, dtype: float64

Outro método, menos convencional, é consultar a coluna como se fosse um "atributo". **Não é recomendado usar esse método porque pode ser confundido com um método de dataframes**.

In [122]:
#Mesma coisa
df.W

A   -0.142359
B   -0.154622
C   -0.113069
D    0.023500
E    0.882817
Name: W, dtype: float64

In [123]:
type(df['W'])

pandas.core.series.Series

Note que a coluna de um dataframe é uma Series, se ainda não havia reparado.

Para consultar mais de uma coluna, basta passar uma lista das colunas desejadas.

In [124]:
df[ ['W','Z'] ]

Unnamed: 0,W,Z
A,-0.142359,1.329812
B,-0.154622,0.825647
C,-0.113069,0.685398
D,0.0235,-1.435008
E,0.882817,0.590953


In [125]:
type(df[ ['W','Z'] ])

pandas.core.frame.DataFrame

In [126]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


**Para selecionar linhas, utilizaremos os métodos .loc e .iloc**

In [127]:
#Mesma lógica de selecionar colunas
df.loc['A']

W   -0.142359
X    2.057222
Y    0.283262
Z    1.329812
Name: A, dtype: float64

In [128]:
df.loc[ ['A','B'] ]

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647


In [129]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


Para selecionar um valor específico, por exemplo o valor de A na coluna Y, basta passar **a linha e a coluna.**

**PRO-TIP: Lembre-se que definimos uma matriz como Linhas x Colunas, por isso a ordem.**

In [130]:
df.loc['A','Y']

0.2832619411060342

In [131]:
#Apenas reforçando a ideia da matriz
df.shape

(5, 4)

**Para selecionar linhas e colunas específicas basta passar duas listas. Uma para as linhas e outra para as colunas.**

In [132]:
df.loc[ ['C','D'], ['Y','Z'] ]

Unnamed: 0,Y,Z
C,-0.167049,0.685398
D,0.270493,-1.435008


In [133]:
df.loc['A']

W   -0.142359
X    2.057222
Y    0.283262
Z    1.329812
Name: A, dtype: float64

O método **iloc** consulta uma linha pelo seu ÍNDICE ao invés de pelo seu NOME.

In [134]:
df.iloc[0] #linha 0, que no caso é a linha com índice de nome A
#Compare com a consulta feita na célula acima (não há diferença)

W   -0.142359
X    2.057222
Y    0.283262
Z    1.329812
Name: A, dtype: float64

In [135]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


Para criar novas colunas, basta declará-las. Nesse caso, queremos que seja a soma dos valores das colunas W e X.

In [136]:
df['New'] = df['W'] + df['X']

In [137]:
df

Unnamed: 0,W,X,Y,Z,New
A,-0.142359,2.057222,0.283262,1.329812,1.914863
B,-0.154622,-0.069031,0.75518,0.825647,-0.223653
C,-0.113069,-2.367838,-0.167049,0.685398,-2.480907
D,0.0235,0.456201,0.270493,-1.435008,0.479701
E,0.882817,-0.580082,-0.501565,0.590953,0.302735


### E se quisermos agora retirar essa coluna 'New'?

Podemos utilizar o método drop.

In [138]:
df.drop('New')

KeyError: "['New'] not found in axis"

Por que deu erro? Note que o Pandas não encontrou 'New' no axis (eixo em inglês).

Lembre-se do seguinte:

In [140]:
df.shape

(5, 5)

**(5,5)**. Chamamos as **LINHAS de 0 e as COLUNAS de 1.** Faz sentido?

**Vamos tentar novamente e dessa vez note, consultando o SHIFT+TAB, que o argumento "axis" por padrão é 0. Por isso 'New' não estava sendo encontrado. O Pandas estava procurando uma LINHA chamada 'New'.**

In [141]:
df.drop('New',axis=1)

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


AEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE... e agora, retiramos a coluna New definitivamente?

**NÃO.** Lembre-se que o Pandas faz de tudo para que você não perca informação.

In [142]:
df

Unnamed: 0,W,X,Y,Z,New
A,-0.142359,2.057222,0.283262,1.329812,1.914863
B,-0.154622,-0.069031,0.75518,0.825647,-0.223653
C,-0.113069,-2.367838,-0.167049,0.685398,-2.480907
D,0.0235,0.456201,0.270493,-1.435008,0.479701
E,0.882817,-0.580082,-0.501565,0.590953,0.302735


A coluna 'New' ainda está lá. O que precisamos fazer é utilizar o argumento **INPLACE**, para que a operação aconteça "em tempo real". Note inclusive que o output (retorno) do drop sem o inplace foi um dataframe.

In [143]:
df.drop('New',axis=1,inplace=True)

Note que agora nada foi retornado. Mas agora a coluna 'New' foi removida de uma vez por todas.

In [144]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


#### Por que isso é útil? Para Machine Learning, muitas vezes queremos separar as colunas de alvo (TARGET COLUMNS) das que usaremos para treinamento. Para isso, o drop sem o inplace é extremamente útil. Não se preocupe em entender isso agora se ainda não sabe nada de Machine Learning.

## Dataframes - Conditional Selection, Index

In [145]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


In [146]:
df['W']

A   -0.142359
B   -0.154622
C   -0.113069
D    0.023500
E    0.882817
Name: W, dtype: float64

Ok, nós consultamos o nosso dataframe **df** inteiro e a coluna **W**, mas e se tentarmos comparar isso e tentar retornar um booleano?

In [147]:
df['W'] > 0

A    False
B    False
C    False
D     True
E     True
Name: W, dtype: bool

Note que recebemos uma Series em que agora os valores (.values) são True para caso o valor seja maior do que zero.

Podemos, assim como no NumPy (que não tivemos tempo de falar sobre, mas é bom lembrar que tudo isso vem do NumPy), utilizar isso a nosso favor.

In [148]:
df[ df['W'] > 0 ]

Unnamed: 0,W,X,Y,Z
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


Note que ao passarmos aquilo para dentro do DataFrame, como se aquela expressão fosse um "índice", o Pandas nos retorna as linhas em que aquela condição é verdadeira.

No caso acima, retornou um dataframe com as linhas onde os valores de W foram maiores que 0. Caso você não tenha utilizado a mesma seed (99) (np.random.seed(99)) que eu, o seu resultado pode ter sido diferente, mas nesse caso foram as linhas D e E.

E se agora quisermos colocar mais de uma condição? Muito simples, porém pode ser confuso no início.

**Observação: Não podemos utilizar os operadores "and" e "or" do Python, eles não servem pra esse tipo de objeto.**

Isto é inválido: 

```
df[ (df['W'] > 0) and (df['Y'] > 0) ]
```

**Observação 2: Não esquecer de usar os parênteses!**

Isto é inválido:

```
df[ df['W'] > 0 & df['Y'] > 0 ]
```


**Devemos utilizar os operadores & para "and" (similar ao && das linguagens de programação convencionais. E o operador "|" (pipe), similar ao "||" das linguagens de programação convencionais.**

In [152]:
#Linhas onde W é maior que 0 E Y é maior que 0
df[ (df['W'] > 0) & (df['Y'] > 0) ]

Unnamed: 0,W,X,Y,Z
D,0.0235,0.456201,0.270493,-1.435008


In [153]:
df

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
C,-0.113069,-2.367838,-0.167049,0.685398
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


In [154]:
#Linhas onde W é maior que 0 OU Y é maior que 0.
df[ (df['W']>0) | (df['Y']>0) ]

Unnamed: 0,W,X,Y,Z
A,-0.142359,2.057222,0.283262,1.329812
B,-0.154622,-0.069031,0.75518,0.825647
D,0.0235,0.456201,0.270493,-1.435008
E,0.882817,-0.580082,-0.501565,0.590953


## Operações - unique, nunique, apply, sort_values, value_counts, isnull, pivot_table (talvez), groupby(muito talvez, drinksbycountry)

Vamos agora dar uma olhada em algumas operações que podemos fazer com dataframes / Series.

In [155]:
#Podemos também criar dataframes com dicionários, onde as chaves do dicionário são as colunas.
df = pd.DataFrame({'col1':[1,2,3,4],
                   'col2':[444,555,666,444],
                   'col3':['abc','def','ghi','xyz']})

In [156]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


Para ver uma lista dos valores únicos do dataframe, basta utilizar o método **unique**.

In [157]:
df['col2'].unique()

array([444, 555, 666])

Notamos que na coluna 'col2' realmente só há 3 valores únicos, que são 444,555 e 666.

**Para saber QUANTOS valores únicos existem, podemos usar duas maneiras principais:**

A **DESELEGANTE**:

In [158]:
len(df['col2'].unique())

3

Ou a **ELEGANTE** (com o método **nunique**): 

Obs: Esses não são nomes verdadeiramente dados a esses métodos, eu apenas estou tentando ser simpático.

In [160]:
#É só colocar um "n" na frente do "unique"
df['col2'].nunique()

3

Ok, agora vamos supor que queremos aplicar uma função em cada valor de uma Series. Para isso, utilizaremos uma das ferramentas mais poderosas do Pandas, que é o método **apply**. 

Primeiro, definiremos a função que iremos aplicar, nesse caso, queremos dobrar os valores:

In [161]:
def dobrar(x):
    return x * 2

In [162]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


In [164]:
df['col2']

0    444
1    555
2    666
3    444
Name: col2, dtype: int64

In [163]:
df['col2'].apply(dobrar)

0     888
1    1110
2    1332
3     888
Name: col2, dtype: int64

Note que os valores da coluna 'col2' foram dobrados!

In [165]:
#Se quiséssemos deixar a mudança permanente (que é o caso muitas vezes)

#df['col2'] = df['col2'].apply(dobrar)

Antes de aplicar, vamos fazer isso de uma forma mais elegante. Utilizando **funções lambda**. Saber Python é uma verdadeira mão na roda quando se trata desse tipo de coisa. Note a simplicidade:

In [169]:
#Mesma coisa. Mas agora usamos só uma linha. Não tivemos que definir uma função "dobrar"
#Se não entender, estudar funções lambda em Python.
df['col2'].apply(lambda x: x*2)

0     888
1    1110
2    1332
3     888
Name: col2, dtype: int64

Claro que tem vezes que é melhor definir uma função "de verdade" ao invés de utilizarmos funções lambda, porque em alguns casos mais complexos a leitura fica muito mais fácil quando não utilizamos funções lambda mas sim definimos as nossas funções "manualmente", ou como diriam meus amigos, **"na tora"**.

In [172]:
#De maneira similar, podemos deixar as nossas mudanças permanentes (nesse caso decidi não o fazer):
#df['col2'] = df['col2'].apply(lambda x: x*2)

In [174]:
#Não "apliquei" definitivamente as operações em 'col2', por isso continua o mesmo dataframe.
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


Muitas vezes, analisando dados, é útil ordená-los. E para isso o Pandas possui uma função **sort_values**, que é bem autoexplicativa.

In [176]:
df.sort_values('col2') #passa a coluna que você quer ordenar por.

Unnamed: 0,col1,col2,col3
0,1,444,abc
3,4,444,xyz
1,2,555,def
2,3,666,ghi


In [175]:
df.sort_values('col2', ascending=False) #ascending=True por default.

Unnamed: 0,col1,col2,col3
2,3,666,ghi
1,2,555,def
0,1,444,abc
3,4,444,xyz


#### Note que os índices não deixam de ficar ligados  com seus respectivos dados. Então, ao ordenar, os índices ficaram fora de ordem.

In [180]:
df.sort_values('col2', ascending=False).loc[0]
#Consultando a linha com nome 0 (nesse caso é um inteiro então passamos o número 0)
#Note que é a terceira linha do dataframe da célula acima.

#Essa foi a primeira vez (eu acho), que chamamos uma operação após a outra numa só linha. Isso é comum, porque é 
#extremamente conveniente. Lembre-se que df.sort_values('col2', ascending=False) retorna um dataframe.
#Por retornar um dataframe, podemos fazer operações de dataframe em cima disso.

#O código é equivalente a:
#df_temp = df.sort_values('col2', ascending=False)
#df_temp.loc[0]

col1      1
col2    444
col3    abc
Name: 0, dtype: object

In [181]:
df

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


E se agora quisermos contar quantas vezes cada valor único (unique) aparece? Podemo utilizar o método **value_counts**.

In [182]:
df['col2'].value_counts()

444    2
555    1
666    1
Name: col2, dtype: int64

E se, agora, dando uma entrada no próximo tópico, quiséssemos os valores nulos de um dataframe? Para isso existe o método **isnull**

In [183]:
df.isnull()

Unnamed: 0,col1,col2,col3
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False


Nesse caso, nosso dataframe não possui valor nulo e podemos ver com facilidade. Porém, use seu poder da imaginação para imaginar uma base de dados com 100.000 linhas, de dados reais. Em dados reais, geralmente há campos faltantes.

Porém, imagine visualizar 100.000 linhas e ficar procurando por Trues e Falses? Seria um **CAOS!**.

É por isso que eu trago a vocês a seguinte dica, utilizem o método **sum**

In [184]:
df.isnull().sum()

col1    0
col2    0
col3    0
dtype: int64

Ele vai nos mostrar a soma de todos os valores "True" de cada coluna. Nesse caso, nenhuma coluna tem valores nulos, e isso nos foi mostrado na célula acima.

## Dados Faltantes - dropna, fillna

Vamos criar um DataFrame a partir de um dicionário, como fizemos antes. Podemos representar valores nulos com o valor "nan" do NumPy. (**np.nan**)

In [3]:
df = pd.DataFrame({'A':[1,2,np.nan],'B':[5,np.nan,np.nan],'C':[1,2,3]})

In [5]:
#Apenas olhando o Dataframe
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


Quase sempre (para não dizer sempre) ao analisarmos dados verificamos a quantidade de dados nulos em cada coluna da nossa base de dados (aqui representados como dataframes), para tomar alguma decisão sobre esses dados.

Uma dica para verificar quantos valores nulos existem em cada coluna:

In [6]:
df.isnull().sum()

A    1
B    2
C    0
dtype: int64

**Às vezes existem tantos valores nulos numa coluna, que é melhor você desconsiderá-la completamente!** 

Normalmente esses valores são escolhidos pelo próprio cientista de dados. No meu caso, geralmente(não sempre), quando menos de 30% do total dos dados da coluna são nulos, iremos considerar que **x%** da coluna é nula, eu tento preencher esses **x%** com a média dos outros valores, por exemplo.

É claro que podemos preencher com algo mais complexo do que apenas uma "simples" média (médias são poderosas), podemos fazer uma média mas considerar outros fatores na média também. Tudo depende do caso de uso.

#### Enfim, vamos primeiro considerar que queremos tirar todas as linhas nulas do nosso dataframe, ok?

Para isso, utilizaremos o método **dropna**.

In [7]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


Apenas a primeira linha ficou, pois ela é a única sem valores nulos. Faz sentido?

E se agora quisermos estabelecer uma **tolerância (limiar)**? Podemos fazer isso com o argumento **thresh** (do inglês threshold).

Se quisermos apenas desconsiderar uma linha se ela tiver **pelo menos** 2 valores nulos, podemos escrever:

In [10]:
df.dropna(thresh=2)
#Note que apenas a última linha ficou de fora, pois possuía 2 valores nulos, que estabelecemos como sendo nosso limite.

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


##### Ok, mas e se agora quisermos fazer o que eu propus anteriormente e preencher os valores nulos de uma coluna com a média de seus valores?

Faremos isso com a coluna A, pois com a coluna B a média obviamente é 5, que é seu único valor.

In [11]:
#Relembrando do nosso dataframe
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


Para o preenchimento de valores, utilizamos o método **fillna**.

In [14]:
df['A'].fillna('Eu era um valor nulo')

0                       1
1                       2
2    Eu era um valor nulo
Name: A, dtype: object

Ok, preenchemos. Mas convenhamos que o valor que passamos não é muito útil, não é mesmo? Podemos substituir pela média dos valores.

In [17]:
df['A'].mean() #uma das funções agregadas que podemos chamar em Series

#Logo, vamos passar isso para o método fillna.

1.5

In [18]:
df['A'].fillna( df['A'].mean() )

0    1.0
1    2.0
2    1.5
Name: A, dtype: float64

In [19]:
#Apenas mostrando que essa mudança não foi feita "inplace"
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [20]:
#Agora sim

df['A'] = df['A'].fillna( df['A'].mean() )

Agora, se checarmos o nosso dataframe:

In [21]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,1.5,,3


In [22]:
df.isnull().sum()

A    0
B    2
C    0
dtype: int64

Agora não há mais valores nulos na coluna A.

## Bônus

Esse tipo de coisa é extremamente útil para Machine Learning, por exemplo. Às vezes não queremos perder a informação daqueles **x%** que mencionei e não queremos alterar muito o nosso modelo final, então usamos a média (geralmente, como disse antes).


Muitas vezes é interessante, em Machine Learning, que se faça um "fillna" mais inteligente. Este aqui é o código que eu fiz para preencher os valores de Idade faltantes quando fui resolver o clássico problema do Titanic há 2 anos:

In [23]:
def impute_age(cols):
    # print(type(cols))... Pandas Series
    Age = cols[0]
    Pclass = cols[1]

    if pd.isnull(Age):
        
        if Pclass == 1:
            return 37#train[train['Pclass' == 1]]['Age'].mean()
        elif Pclass == 2:
            return 29#train[train['Pclass' == 2]]['Age'].mean()
        else: 
            return 24#train[train['Pclass' == 3]]['Age'].mean()
    else:
        return Age

In [None]:
train['Age'] = train[ ['Age','Pclass'] ].apply(impute_age, axis=1)

Claramente a célula acima não irá "rodar", pois não estou com o dataset aqui. Mas basicamente fiz uma função que preenchia os valores nulos da coluna de Idade (Age) de acordo com a classe do passageiro (Pclass). Ou seja, a média foi "mais bem feita".

Claro que sempre temos que ponderar as melhores opções, mas quis apenas mostrar um exemplo.

##### Por outro lado...

No projeto do Titanic, havia uma coluna das cabines de cada passageiro, que havia muitos dados faltantes (chuto que mais de 70%), então, para fins de Machine Learning, apenas tirei ela com o método **drop** que vimos anteriormente.