# Pandas !!


![Pandas](https://static.independent.co.uk/s3fs-public/thumbnails/image/2019/01/31/14/panda-bamboo.jpg)

## Pandas,

### Além desses animaizinhos simpátivos, também é o nome de uma biblioteca Open Source para Python, provavelmente a mais utilizada para DataScience no mundo todo!

### Ela traz ferramentas de análise e manipulação de dados de alta performance e fáceis de usar.

### Seu principal componetes são os chamados DataFrames, que vamos trabalhar nesse notebook


#### Links interessantes:

    Documentação:

https://pandas.pydata.org/pandas-docs/stable/

    Link com algumas dicas:

https://github.com/donnemartin/data-science-ipython-notebooks#pandas

# Introdução aos Pandas

Nesta seção do curso, aprenderemos a usar pandas para análise de dados. Você deve enxergar o pandas como uma versão extremamente poderosa do Excel, com muito mais recursos. Nesta seção do curso, você deve passar pelos notebooks nesta ordem:

* Entrada e saída de dados
* Dados ausentes
* GroupBy
* Mesclar,Juntar, e Concatenar
* Operações


# DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [3]:
import numpy as np
import pandas as pd

In [55]:
lista = [
    ['Jake', 'Cachorro', 10],
    ['Finn', 'Humano', 10],
    ['Bubblegum', 'Doce', 8],
    ['Marceline', 'Vampira', 8],
    ['Lich', 'Demônio', 5],
    ['Ice King', 'Mago', 5]
]

In [57]:
df = pd.DataFrame(lista)

In [7]:
df

Unnamed: 0,0,1,2
0,Jake,Cachorro,10
1,Finn,Humano,10
2,Bubblegum,Doce,8
3,Marceline,Vampira,8
4,Lich,Demônio,5
5,Ice King,Mago,5


In [58]:
df = pd.DataFrame(lista, columns=['Nome', 'Classe', 'Relevância'])

In [59]:
df

Unnamed: 0,Nome,Classe,Relevância
0,Jake,Cachorro,10
1,Finn,Humano,10
2,Bubblegum,Doce,8
3,Marceline,Vampira,8
4,Lich,Demônio,5
5,Ice King,Mago,5


In [60]:
df.set_index('Relevância')

Unnamed: 0_level_0,Nome,Classe
Relevância,Unnamed: 1_level_1,Unnamed: 2_level_1
10,Jake,Cachorro
10,Finn,Humano
8,Bubblegum,Doce
8,Marceline,Vampira
5,Lich,Demônio
5,Ice King,Mago


In [61]:
df = df.set_index('Relevância')

#Ou

#   df.set_index('Relevância', inplace=True)

In [62]:
# Para remover
df.reset_index(inplace=True)
df

Unnamed: 0,Relevância,Nome,Classe
0,10,Jake,Cachorro
1,10,Finn,Humano
2,8,Bubblegum,Doce
3,8,Marceline,Vampira
4,5,Lich,Demônio
5,5,Ice King,Mago


In [63]:
#Como faço para reordenar as colunas?

#Primeiro, pego todas as colunas em uma lista:
col = df.columns
col

Index(['Relevância', 'Nome', 'Classe'], dtype='object')

In [65]:
#Agora eu reordeno do jeito que quero:

col = ['Nome', 'Classe', 'Relevância']

# então passamos a nova ordem para o DataFrame:

df = df[col]
df

Unnamed: 0,Nome,Classe,Relevância
0,Jake,Cachorro,10
1,Finn,Humano,10
2,Bubblegum,Doce,8
3,Marceline,Vampira,8
4,Lich,Demônio,5
5,Ice King,Mago,5


In [66]:
#Adicionando uma nova coluna
gênero = ['M', 'M', 'F', 'F', 'N/A', 'M']
df['Gênero'] = gênero

In [67]:
df

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,Jake,Cachorro,10,M
1,Finn,Humano,10,M
2,Bubblegum,Doce,8,F
3,Marceline,Vampira,8,F
4,Lich,Demônio,5,
5,Ice King,Mago,5,M


In [68]:
#Adicionando uma nova linha
linha = ['Fire Princess', 'Living-Fire', 3, 'F']

In [70]:
df.loc[len(df), :] = linha
df

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,Jake,Cachorro,10.0,M
1,Finn,Humano,10.0,M
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F
4,Lich,Demônio,5.0,
5,Ice King,Mago,5.0,M
6,Fire Princess,Living-Fire,3.0,F


## Seleção e indexação

Vamos aprender os vários métodos para pegar dados de um DataFrame

In [72]:
#Selecionando uma Coluna
df['Classe']

0       Cachorro
1         Humano
2           Doce
3        Vampira
4        Demônio
5           Mago
6    Living-Fire
Name: Classe, dtype: object

In [89]:
#Selecionando mais de uma Coluna
df[['Classe', 'Gênero']]

Unnamed: 0,Classe,Gênero
0,Cachorro,M
1,Humano,M
2,Doce,F
3,Vampira,F
4,Demônio,
5,Mago,M
6,Living-Fire,F


In [87]:
#Selecionando uma linha
df.loc[2]

Nome          Bubblegum
Classe             Doce
Relevância            8
Gênero                F
Name: 2, dtype: object

In [81]:
#Selecionando mais de uma linha usando Slicing
df.iloc[5:]

Unnamed: 0,Nome,Classe,Relevância,Gênero
5,Ice King,Mago,5.0,M
6,Fire Princess,Living-Fire,3.0,F


In [82]:
#Selecionando mais de uma linha usando Slicing
df.iloc[2:5]

Unnamed: 0,Nome,Classe,Relevância,Gênero
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F
4,Lich,Demônio,5.0,


In [124]:
#Selecionando um pedaço de coluna e um pedaço de linha ao mesmo tempo

#Dataframe.loc[['linhas'], ['colunas']]

df.loc[[1,2],['Nome','Classe']]

Unnamed: 0,Nome,Classe
1,Finn,Humano
2,Bubblegum,Doce


### Diferença loc e iloc
    loc gets rows (or columns) with particular labels from the index.
    iloc gets rows (or columns) at particular positions in the index (so it only takes integers).
    
        Referência: https://stackoverflow.com/questions/31593201/how-are-iloc-ix-and-loc-different

In [99]:
exemplo = pd.Series(np.linspace(1,10,10), index=['a','b','c','d','e', 1, 2, 3, 4, 5])
exemplo

a     1.0
b     2.0
c     3.0
d     4.0
e     5.0
1     6.0
2     7.0
3     8.0
4     9.0
5    10.0
dtype: float64

In [101]:
exemplo.iloc[4]

5.0

In [102]:
exemplo.loc[4]

9.0

In [108]:
try:
    print(exemplo.loc['d'])
except:
    print('erro')

4.0


In [109]:
try:
    print(exemplo.iloc['d'])
except:
    print('erro')

erro


#### Criando uma coluna com base em outra:

In [116]:
df['nova coluna'] = df['Relevância']*10
df

Unnamed: 0,Nome,Classe,Relevância,Gênero,nova coluna
0,Jake,Cachorro,10.0,M,100.0
1,Finn,Humano,10.0,M,100.0
2,Bubblegum,Doce,8.0,F,80.0
3,Marceline,Vampira,8.0,F,80.0
4,Lich,Demônio,5.0,,50.0
5,Ice King,Mago,5.0,M,50.0
6,Fire Princess,Living-Fire,3.0,F,30.0


In [117]:
df['outra coluna'] = df['Relevância'] + df['nova coluna']
df

Unnamed: 0,Nome,Classe,Relevância,Gênero,nova coluna,outra coluna
0,Jake,Cachorro,10.0,M,100.0,110.0
1,Finn,Humano,10.0,M,100.0,110.0
2,Bubblegum,Doce,8.0,F,80.0,88.0
3,Marceline,Vampira,8.0,F,80.0,88.0
4,Lich,Demônio,5.0,,50.0,55.0
5,Ice King,Mago,5.0,M,50.0,55.0
6,Fire Princess,Living-Fire,3.0,F,30.0,33.0


#### Deletando uma coluna:

In [118]:
df.drop(['nova coluna', 'outra coluna'], axis=1, inplace=True)
df

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,Jake,Cachorro,10.0,M
1,Finn,Humano,10.0,M
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F
4,Lich,Demônio,5.0,
5,Ice King,Mago,5.0,M
6,Fire Princess,Living-Fire,3.0,F


In [120]:
df.drop(6 ,axis=0)

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,Jake,Cachorro,10.0,M
1,Finn,Humano,10.0,M
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F
4,Lich,Demônio,5.0,
5,Ice King,Mago,5.0,M


### Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [126]:
df>6

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,False,True
5,True,True,False,True
6,True,True,False,True


In [130]:
df['Relevância']>6

0     True
1     True
2     True
3     True
4    False
5    False
6    False
Name: Relevância, dtype: bool

In [129]:
df[df['Relevância']>6]

Unnamed: 0,Nome,Classe,Relevância,Gênero
0,Jake,Cachorro,10.0,M
1,Finn,Humano,10.0,M
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F


In [138]:
df[(df['Relevância']>6) & (df['Relevância']<9)]

Unnamed: 0,Nome,Classe,Relevância,Gênero
2,Bubblegum,Doce,8.0,F
3,Marceline,Vampira,8.0,F


In [134]:
df['Relevância']<8

0    False
1    False
2    False
3    False
4     True
5     True
6     True
Name: Relevância, dtype: bool