In [18]:
import numpy as np
import pandas as pd

## Iniciando com Pandas

Pandas trabalha essencialmente com tabelas, semelhantes a uma tabela de excel, com linhas (1, 2, 3 …) e colunas (A, B, C …).
|  | A | B | … | Z |
| --- | --- | --- | --- | --- |
| 1 | Data A1 | Data B1 | … | Data Z1 |
| 2 | Data A2 | Data B2 | … | Data Z2 |
| … | … | … | … | … |
| n | Data An | Data Bn | … | Data Zn |

Sendo assim, uma tabela no Pandas, é um conjunto de Series. Uma Series é uma coluna com vários índices, 

|  | Series1 | Series2 | … | Seriesn |
| --- | --- | --- | --- | --- |
| Index1 | Data S1I1 | Data S2I1 | … | Data SnI1 |
| Index2 | Data S1D2 | Data S2I2 | … | Data SnI2 |
| … | … | … | … | … |
| Indexn | Data S1In | Data S2In | … | Data SnIn |

É possível criar uma Series simples com o seguinte comando:

`pd.Series(data, index)`

Onde o parâmetro data, pode ser uma lista com os valores daquela Series (coluna), e index pode ser uma lista com os índices (linhas) daquele valor.

Exemplo:

In [19]:
disks_name = ['Heartbreak On A Full Moon', 'Indigo', 'Breezy']
disks_index = [1, 2, 3]  
CB_Disks = pd.Series(data=disks_name, index=disks_index, name='Chris Brown Disk Name')

In [20]:
CB_Disks

1    Heartbreak On A Full Moon
2                       Indigo
3                       Breezy
Name: Chris Brown Disk Name, dtype: object

## DataFrames

Para criar um Dataframe usamos o comando DataFrame do Pandas

`pd.DataFrame(data, index, columns)`

Exemplo:

In [21]:
data = [[1, 2, 3, 4],
        [5, 6, 7, 8],
        [9, 10, 11, 12],
        [13, 14, 15, 16],
        [17, 18, 19, 20]]

index = ['A', 'B', 'C', 'D', 'E']
columns = ['W', 'X', 'Y', 'Z']
df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [22]:
df1 = df.copy()
df1

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


Para criar uma nova coluna é simples, basta usar o *dataframe* com a notação de colchete passando o nome da nova coluna

`df['new_column']`

In [23]:
df1['new_column'] = df['W'] + df['X']
df1

Unnamed: 0,W,X,Y,Z,new_column
A,1,2,3,4,3
B,5,6,7,8,11
C,9,10,11,12,19
D,13,14,15,16,27
E,17,18,19,20,35


Para deletar uma coluna ou uma linha, usamos o comando `drop`, passando o axis e o nome da coluna ou índice da linha

In [24]:
df1.drop('new_column', axis=1)

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [25]:
df1.drop('E', axis=0)

Unnamed: 0,W,X,Y,Z,new_column
A,1,2,3,4,3
B,5,6,7,8,11
C,9,10,11,12,19
D,13,14,15,16,27


Ao deletar linhas ou colunas, as alterações só ocorrem naquele momento, sendo assim, o _dataframe_ continua contendo as linhas ou colunas deletadas.
Para que sejam deletados de fato, usamos o parâmetro `inplace=True` para realizar a persistência dos dados.

In [26]:
df1.drop('new_column', axis=1, inplace=True)
df1.drop('E', axis=0, inplace=True)
df1

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16


## Selection

Para selecionar um registro específico usamos o comando `loc`, passando o index dentro de uma notação de colchetes

In [27]:
df2 = df.copy()
df2

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [28]:
df2.loc['A']

W    1
X    2
Y    3
Z    4
Name: A, dtype: int64

Para um ou mais registros específicos, usamos anotação de colchetes duplo

In [29]:
df2.loc[['A', 'C']]

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
C,9,10,11,12


Também é possível encontrar registros específicos através de um índice numérico com o comando `iloc`, passando o index dentro de uma notação de colchetes

In [30]:
df2.iloc[1]

W    5
X    6
Y    7
Z    8
Name: B, dtype: int64

Para um ou mais registros específicos, usamos anotação de colchetes duplo

In [31]:
df2.iloc[[1, 3]]

Unnamed: 0,W,X,Y,Z
B,5,6,7,8
D,13,14,15,16


_(Obs.: A notação de colchete duplo é melhor para visualização, seja para 1 ou mais registros)_

## Subselection

Para selecionar apenas uma informação especifica de um registro especifico, ainda podemos usar o `loc` e `iloc` com a notação de colchete simples

`df.loc[index, column]`

Para buscar apenas a coluna Z do registro A, executamos o comando da seguinte forma:

In [32]:
df3 = df.copy()
df3

Unnamed: 0,W,X,Y,Z
A,1,2,3,4
B,5,6,7,8
C,9,10,11,12
D,13,14,15,16
E,17,18,19,20


In [33]:
df3.loc['A', 'Z']

4

Para buscar mais registros ou mais colunas, usamos a notação de colchetes duplo, tanto para o index quanto para a coluna

In [34]:
df3.loc[['A', 'B', 'C'], ['X', 'Z']]

Unnamed: 0,X,Z
A,2,4
B,6,8
C,10,12


O mesmo citado acima, vale para o `iloc`

In [35]:
df3.iloc[0, 1]

2

In [36]:
df3.iloc[[0, 2, 3], [0, 1]]

Unnamed: 0,W,X
A,1,2
C,9,10
D,13,14


_(Obs.: A notação de colchete duplo é melhor para visualização, seja para 1 ou mais registros)_