In [6]:
import pandas as pd

# Criando DataFrame - pd.DataFrame()
<p> Para criar um dataframe utilizaremos o comando pd.DataFrame, porém antes será necessário a criação de um dicionário de listas que representará, os valores e colunas. </p>

In [46]:
# Dicionário de listas
dataset_produtos = {
    'Produto':['Produto 1','Produto 1','Produto 2','Produto 3','Produto 4','Produto 5','Produto 6','Produto 6','Produto 7'],
    'Preco':[25000,28000,30000,35000,33000,30000,12000,50000,40000],
    'Desconto':['20%','30%','40%','10%','30%','40%','80%','35%','44%']
}

In [47]:
dataset_produtos

{'Produto': ['Produto 1',
  'Produto 1',
  'Produto 2',
  'Produto 3',
  'Produto 4',
  'Produto 5',
  'Produto 6',
  'Produto 6',
  'Produto 7'],
 'Preco': [25000, 28000, 30000, 35000, 33000, 30000, 12000, 50000, 40000],
 'Desconto': ['20%', '30%', '40%', '10%', '30%', '40%', '80%', '35%', '44%']}

In [15]:
# Comando para criação DataFrame
df_produtos = pd.DataFrame(dataset_produtos)

In [16]:
# .head() mostra top 5 linhas df
df_produtos.head()

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%
4,Produto 4,33000,30%


# Seleção De Dados - .loc[] - .iloc[] - .isin() - .query() - [(bool1)]

In [17]:
df_produtos.head(4)

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%


## .loc 
<p> Com .loc poderemos efetuar uma seleção de dados baseada em seus indices e colunas.</p>
<p>
    <b>loc[[seleção eixo x(indice)][seleção eixo y(coluna)]]</b>
</p>

In [18]:
# Selecionando o indice 2 até o 3
df_produtos.loc[2:3]

Unnamed: 0,Produto,Preco,Desconto
2,Produto 2,30000,40%
3,Produto 3,35000,10%


In [19]:
# Seleção dos 3 primeiros produtos, apenas a coluna Produto e Preco
df_produtos.loc[0:2][['Produto','Preco']]

Unnamed: 0,Produto,Preco
0,Produto 1,25000
1,Produto 1,28000
2,Produto 2,30000


## .iloc 
<p> Com .iloc podemos efetuar uma seleção pelo indice da coluna diretamente.</p>
<p>     <b>iloc[[numero indice x(indice)][numero indice y(indice)]]</b> </p>

In [21]:
# Selecionando o nome do primeiro item
df_produtos.iloc[0][0]

'Produto 1'

## Seleção com clausulas lógicas & | 
<p> Sem o uso do loc ou iloc, podemos ainda utilizar operações booleanas para encontrar nos dados </p>
<p> Tendo os operadores lógicos<b> & (and) </b>para determinar situações que acontecem simultaneamente, ou <b> | (or) </b> para situações que ocorram individualmente. </p>

In [31]:
# Selecionando os Produtos 1 que tenham valor maior que 26000 ou produtos com preco maior que 39000
df_produtos[
            (df_produtos['Preco']>=26000) & \
            (df_produtos['Produto'] == 'Produto 1') | \
            (df_produtos['Preco']>39000)
] 

Unnamed: 0,Produto,Preco,Desconto
1,Produto 1,28000,30%
7,Produto 6,50000,35%
8,Produto 7,40000,44%


## .isin() 
<p> O .isin pode efetuar uma seleção dos dados de maneira direta, sendo capaz de selecionar os dados diretamente por seus valores. </p>
<p> <b> Dica: </b> Podemos usar o isin para fazer a checkagem de valores iguais entre dois dataframes, passando para o isin a coluna de um dataframe. </p>

In [35]:
# Selecionando na coluna Produto os produtos 1 e 2
df_produtos[df_produtos['Produto'].isin(['Produto 1','Produto 2'])]

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%


## .query
<p> Com Query podemos fazer uma seleção que imite a seleção do SQL, efetuando querys para uma ou mais seleções. </p>

In [36]:
# Selecionando o produto 1
df_produtos.query("Produto == 'Produto 1'")

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%


In [37]:
# Selecionando o produto 1 ou produtos com preco maior igual 32000
df_produtos.query("Produto == 'Produto 1' or Preco >= 32000")

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
7,Produto 6,50000,35%
8,Produto 7,40000,44%


# Loops Em DataFrames - .iterrows()

In [38]:
df_produtos

Unnamed: 0,Produto,Preco,Desconto
0,Produto 1,25000,20%
1,Produto 1,28000,30%
2,Produto 2,30000,40%
3,Produto 3,35000,10%
4,Produto 4,33000,30%
5,Produto 5,30000,40%
6,Produto 6,12000,80%
7,Produto 6,50000,35%
8,Produto 7,40000,44%


## for normal
<p> Um for normal dentro de um DataFrame só nos retornará as colunas do DataFrame, com isso será necessário utilizar de algum método que nos forneça uma seleção melhor. </p>

In [41]:
# Retorna o nome das colunas
for i in df_produtos:
    print(i)

Produto
Preco
Desconto


## .iterrows()
<p> O iterrows tem objetivo de fazer uma divisão de linhas no nosso dataset, criando assim uma seleção mais utilizavel. </p>

In [42]:
# Retornando os produtos de cada linha
for indices,valores in df_produtos.iterrows():
    print(valores['Produto'])

Produto 1
Produto 1
Produto 2
Produto 3
Produto 4
Produto 5
Produto 6
Produto 6
Produto 7


In [43]:
# Criando uma nova coluna com iterrows
for lin,col in df_produtos.iterrows():
    df_produtos.loc[lin,'iterrows_len'] = len(col['Produto'])

In [44]:
df_produtos

Unnamed: 0,Produto,Preco,Desconto,iterrows_len
0,Produto 1,25000,20%,9.0
1,Produto 1,28000,30%,9.0
2,Produto 2,30000,40%,9.0
3,Produto 3,35000,10%,9.0
4,Produto 4,33000,30%,9.0
5,Produto 5,30000,40%,9.0
6,Produto 6,12000,80%,9.0
7,Produto 6,50000,35%,9.0
8,Produto 7,40000,44%,9.0
