# **Criando uma serie de dados**

Vamos importar a biblioteca pandas para podemos utilizar seus
recursos.

In [1]:
# biblioteca para modelagem de dados
import pandas as pd

A partir de agora os recursos do pandas foram apelidado de ``pd``. 

**Vamos criar nossa serie de dados**

In [2]:
# lista com os rótulos
rotulos = ['1º', '2º', '3º']

# lista com os valores
valores = [10, 20, 30]

# criando a base de dados com as listas
serie = pd.Series( data = valores, index = rotulos)
serie

1º    10
2º    20
3º    30
dtype: int64

Definimos uma variável chamada ``serie`` e nela chamamos a função ``pd.Series`` e
passamos como parâmetros as listas que criamos.

**Podemos selecionar apenas um rotulo da serie**

In [3]:
serie['1º']

10

**Podemos fazer operações matemáticas na serie**

In [4]:
serie * 2

1º    20
2º    40
3º    60
dtype: int64

Nesse caso estamos aplicando um multiplicação na serie inteira.


In [7]:
# divisão
serie / 15.5

1º    0.645161
2º    1.290323
3º    1.935484
dtype: float64

**Podemos criar outra serie e somar junto a serie anterior**

In [8]:
serie_nova = pd.Series(data = [50, 100, 150], 
                       index = rotulos)

In [9]:
serie + serie_nova

1º     60
2º    120
3º    180
dtype: int64

# **Criando uma base de dados**

Vamos criar uma base dados.

In [10]:
# criando um dicionário
dicionario = {
    'A': [1, 2, 3],
    'B': [-3, -2, -1],
    'C': [0, 10, 20]
}

dicionario

{'A': [1, 2, 3], 'B': [-3, -2, -1], 'C': [0, 10, 20]}

In [11]:
# criando uma lista com os rótulos
rotulos = ['1ª linha', '2ª linha', '3ª linha']
rotulos

['1ª linha', '2ª linha', '3ª linha']

In [12]:
# criando um data frame com o dicionário e os rótulos
dataFrame_01 = pd.DataFrame(dicionario, index = rotulos)
dataFrame_01

Unnamed: 0,A,B,C
1ª linha,1,-3,0
2ª linha,2,-2,10
3ª linha,3,-1,20


**Selecionar apenas uma coluna**

In [13]:
dataFrame_01['A']

1ª linha    1
2ª linha    2
3ª linha    3
Name: A, dtype: int64

**Selecionar duas colunas**

In [14]:
dataFrame_01[['A', 'C']]

Unnamed: 0,A,C
1ª linha,1,0
2ª linha,2,10
3ª linha,3,20


**Criando uma nova coluna e fazendo operações matemáticas entre as
colunas**

In [15]:
# somando o valor de cada coluna na sua respectiva linha
# e instanciando o resultado em uma nova coluna "Total"
dataFrame_01['Total_adição'] = dataFrame_01['A'] + dataFrame_01['B'] + dataFrame_01['C']
dataFrame_01

Unnamed: 0,A,B,C,Total_adição
1ª linha,1,-3,0,-2
2ª linha,2,-2,10,10
3ª linha,3,-1,20,22


**Podemos realizar quaisquer operações matemáticas com o método acima. Vamos para mais um exemplo!**

In [16]:
# multiplicação
dataFrame_01['Total_multiplicação'] = dataFrame_01['A'] * dataFrame_01['B'] * dataFrame_01['C'] 
dataFrame_01

Unnamed: 0,A,B,C,Total_adição,Total_multiplicação
1ª linha,1,-3,0,-2,0
2ª linha,2,-2,10,10,-40
3ª linha,3,-1,20,22,-60


In [17]:
# divisão
dataFrame_01['Total_divisão'] = dataFrame_01['A'] / dataFrame_01['B'] / dataFrame_01['C'] 
dataFrame_01

Unnamed: 0,A,B,C,Total_adição,Total_multiplicação,Total_divisão
1ª linha,1,-3,0,-2,0,-inf
2ª linha,2,-2,10,10,-40,-0.1
3ª linha,3,-1,20,22,-60,-0.15


# **Comandos sobre a base de dados**

In [18]:
# excluindo uma coluna
dataFrame_01.drop('Total_multiplicação', axis=1, inplace=True)
dataFrame_01

Unnamed: 0,A,B,C,Total_adição,Total_divisão
1ª linha,1,-3,0,-2,-inf
2ª linha,2,-2,10,10,-0.1
3ª linha,3,-1,20,22,-0.15


Nesse caso estamos excluindo uma coluna definitivamente da base de dados.

O parâmetro ``inplace=True`` quer dizer que vamos excluir da base origem, caso
fosse ``inplace=False`` iria excluir apenas na situação atual.

O parâmetro ``axis=1`` quer dizer que vamos excluir a coluna. Quando quiser excluir uma linha é usado ``axis=0``.


In [19]:
# excluindo duas coluna
dataFrame_01.drop(['Total_adição', 'Total_divisão'], axis=1, inplace=True)
dataFrame_01

Unnamed: 0,A,B,C
1ª linha,1,-3,0
2ª linha,2,-2,10
3ª linha,3,-1,20


**Localizar uma linha inteira**

In [20]:
dataFrame_01.loc['1ª linha']

A    1
B   -3
C    0
Name: 1ª linha, dtype: int64

In [21]:
# duas linhas
dataFrame_01.loc[['2ª linha', '3ª linha']]

Unnamed: 0,A,B,C
2ª linha,2,-2,10
3ª linha,3,-1,20


**Localizar diversas linhas e colunas**

In [22]:
dataFrame_01.loc[['1ª linha', '3ª linha'], ['B', 'C']]

Unnamed: 0,B,C
1ª linha,-3,0
3ª linha,-1,20


**Localizar diversas linhas e colunas usando parâmetros numéricos
através da posição da base de dados**

    DataFrame_01.iloc[2:3, 1:]
                  linhas | colunas

In [23]:
dataFrame_01.iloc[2:3, 1:]

Unnamed: 0,B,C
3ª linha,-1,20


In [24]:
dataFrame_01.iloc[:1, :2]

Unnamed: 0,A,B
1ª linha,1,-3


In [25]:
dataFrame_01.iloc[1:, 2:3]

Unnamed: 0,C
2ª linha,10
3ª linha,20


In [26]:
dataFrame_01.iloc[1:2, 1:3]

Unnamed: 0,B,C
2ª linha,-2,10


In [27]:
dataFrame_01.iloc[:, 2:]

Unnamed: 0,C
1ª linha,0
2ª linha,10
3ª linha,20


**Verificando se há valores menores de 0 na base inteira**





In [28]:
dataFrame_01 > 0

Unnamed: 0,A,B,C
1ª linha,True,False,False
2ª linha,True,False,True
3ª linha,True,False,True


Nesse caso estamos verificando em toda a base de dados se há valores maiores
que zero.

Nesse contexto o pandas retorna se é verdadeiro ou false quanto a condição que
passamos.

**Filtrando dados na base de dados**

In [29]:
dataFrame_01[dataFrame_01['A'] > 0]['C']

1ª linha     0
2ª linha    10
3ª linha    20
Name: C, dtype: int64

Nesse caso estamos :
- 1º Passando um parâmetro para verificar todos os casos maiores que 0 na coluna A
- 2º Retornando apenas os valores da coluna C

**Filtrando dados na base de dados com parâmetros em variáveis**

In [30]:
filtro = dataFrame_01['C'] > 0

dataFrame_02 = dataFrame_01[filtro]
dataFrame_02['A']

2ª linha    2
3ª linha    3
Name: A, dtype: int64

Nesse caso estamos :
- 1º Criando uma variável na qual estamos passando como parâmetro todos os
casos da coluna C maior que 0
  * Lembrando que nesse caso o pandas irá retornar verdadeiro ou falso
- 2º Criamos uma nova base de dados e passamos como filtro a variável definida na
etapa 1
- 3º Retornando apenas os valores da coluna A

**Filtrando os dados com diversos parâmetros e condições**

In [31]:
dataFrame_01[
             (dataFrame_01['A'] > 1) & (dataFrame_01['C'] > 0)
]

Unnamed: 0,A,B,C
2ª linha,2,-2,10
3ª linha,3,-1,20


Nesse caso estamos filtrando todos os casos da coluna A maior que 1 e passando
outro parâmetro para filtrar todos os casos da coluna C maior 0.


**Transformando o index em uma coluna**

In [32]:
dataFrame_01.reset_index()

Unnamed: 0,index,A,B,C
0,1ª linha,1,-3,0
1,2ª linha,2,-2,10
2,3ª linha,3,-1,20


Nesse caso transportamos o index das linhas para virar uma coluna na base de
dados. Assim o index foi resetado e ficou como numérico a partir de agora.

Se colocar o comando ``inplace=True`` entre os parênteses, esse comando será
aplicado para a base de origem.

# **Concatenar, Juntar e Mesclar**

**Criando as bases de dados para o exemplo**

In [33]:
# criando três dicionários

dic_01 = {
    'A': [1, 2, 3],
    'B': [-32, -21, -15],
    'C': [60, 10, 20],
    'Chave': ['AA', 'BB', 'CC']
}

dic_01

{'A': [1, 2, 3],
 'B': [-32, -21, -15],
 'C': [60, 10, 20],
 'Chave': ['AA', 'BB', 'CC']}

In [34]:
dic_02 = {
    'A': [6, 7, 8],
    'B': [-39, -28, -17],
    'C': [1000, 10, 60],
    'Chave': ['AA', 'BB', 'CC']
}

dic_02

{'A': [6, 7, 8],
 'B': [-39, -28, -17],
 'C': [1000, 10, 60],
 'Chave': ['AA', 'BB', 'CC']}

In [35]:
dic_03 = {
    'A': [11, 12, 13],
    'B': [-39, -22, -11],
    'C': [30, 10, 20],
    'Chave': ['AA', 'BB', 'CC']
}

dic_03

{'A': [11, 12, 13],
 'B': [-39, -22, -11],
 'C': [30, 10, 20],
 'Chave': ['AA', 'BB', 'CC']}

In [36]:
# criando várias listas para serem os rótulos
rotulo_01 = ['1ª linha', '2ª linha', '3ª linha']
rotulo_02 = ['4ª linha', '5ª linha', '6ª linha']
rotulo_03 = ['7ª linha', '8ª linha', '9ª linha']

In [40]:
# estruturando as bases de dados
dataFrame_01 = pd.DataFrame(dic_01, index=rotulo_01)
dataFrame_02 = pd.DataFrame(dic_02, index=rotulo_02)
dataFrame_03 = pd.DataFrame(dic_03, index=rotulo_03)

**Agora, vamos visualizar os nossos data frames criados**

In [41]:
print(dataFrame_01)
print('')
print(dataFrame_02)
print('')
print(dataFrame_03)

          A   B   C Chave
1ª linha  1 -32  60    AA
2ª linha  2 -21  10    BB
3ª linha  3 -15  20    CC

          A   B     C Chave
4ª linha  6 -39  1000    AA
5ª linha  7 -28    10    BB
6ª linha  8 -17    60    CC

           A   B   C Chave
7ª linha  11 -39  30    AA
8ª linha  12 -22  10    BB
9ª linha  13 -11  20    CC


**Empilhando os dados**

In [42]:
pd.concat(
    [dataFrame_01, dataFrame_02, dataFrame_03]
)

Unnamed: 0,A,B,C,Chave
1ª linha,1,-32,60,AA
2ª linha,2,-21,10,BB
3ª linha,3,-15,20,CC
4ª linha,6,-39,1000,AA
5ª linha,7,-28,10,BB
6ª linha,8,-17,60,CC
7ª linha,11,-39,30,AA
8ª linha,12,-22,10,BB
9ª linha,13,-11,20,CC


**Função Mesclar permite que mescle os dados de diferentes base de
dados.**

**Essa função é semelhante a mesclagem de ``tabelas do SQL``**


In [43]:
pd.merge(
    dataFrame_01, dataFrame_02, how='inner', on='Chave'
)

Unnamed: 0,A_x,B_x,C_x,Chave,A_y,B_y,C_y
0,1,-32,60,AA,6,-39,1000
1,2,-21,10,BB,7,-28,10
2,3,-15,20,CC,8,-17,60


O comando merge uni as colunas baseando em uma chave, muito similar ao SQL.
O parâmetro ‘how’ há diversas forma:

- ``inner`` = apenas os casos que localizou em ambos os lados
- ``left`` = apenas os dados da base de dados do lado esquerdo
- ``right`` = apenas os dados da base de dados do lado direito
- ``outer`` = união das chaves em ambos os lados
- ``cross`` = cria o produto cartesiano de ambos os quadros

In [45]:
pd.merge(
    dataFrame_01, dataFrame_03, how='outer', on='Chave'
)

Unnamed: 0,A_x,B_x,C_x,Chave,A_y,B_y,C_y
0,1,-32,60,AA,11,-39,30
1,2,-21,10,BB,12,-22,10
2,3,-15,20,CC,13,-11,20


**Função Juntar combina as colunas de ambas as bases de dados**

In [46]:
# criando dois dicionários

dic_01 = {
    'A': [1, 2, 3],
    'B': [-32, -21, -15],
    'C': [60, 10, 20],
}

dic_02 = {
    'D': [6, 7, 8],
    'E': [-39, -28, -17],
    'F': [1000, 10, 60],
}

In [47]:
# criando uma lista para serem os rótulos
rotulo_01 = ['1ª linha', '2ª linha', '3ª linha']

In [48]:
# estruturando as bases de dados
dataFrame_01 = pd.DataFrame(dic_01, index=rotulo_01)
dataFrame_02 = pd.DataFrame(dic_02, index=rotulo_01)

In [49]:
# aplicando a função join
dataFrame_01.join(dataFrame_02)

Unnamed: 0,A,B,C,D,E,F
1ª linha,1,-32,60,6,-39,1000
2ª linha,2,-21,10,7,-28,10
3ª linha,3,-15,20,8,-17,60


Colunas `A, B, C` eram da base de
dados 1 e as colunas ``D, E, F`` eram
da base de dados 2. 

Assim o join uniu todas elas.

**Final**

Esse guia é super rápido e apenas uma introdução sobre o tema.

- Guia da documentação caso queira mais detalhes
 - https://pandas.pydata.org/docs/reference/io.html
