#  Seleção de colunas e linhas
***

Ao trabalhar com análise de dados, muitas vezes precisamos extrair informações específicas de um grande conjunto de dados. Para isso, é fundamental saber como selecionar colunas e linhas relevantes em um dataframe do Pandas. 

A seleção de colunas e linhas nos permite filtrar e visualizar dados específicos em um dataframe, tornando mais fácil identificar tendências, anomalias e padrões em um conjunto de dados. Além disso, a seleção de dados permite a criação de subconjuntos de dados que podem ser mais facilmente analisados, visualizados e comparados.

O Pandas oferece várias opções para seleção de colunas e linhas, como o uso do loc e iloc para acessar linhas e colunas por meio de rótulos ou índices, respectivamente. Além disso, o Pandas oferece outras funções úteis, como at, iat, head, tail e sample, que podem ser usadas para acessar dados específicos dentro de um dataframe.

Ao selecionar colunas e linhas, é possível filtrar dados com base em valores específicos, como em uma consulta SQL, tornando mais fácil e intuitivo extrair informações relevantes de um grande conjunto de dados. Com a seleção adequada de colunas e linhas, podemos visualizar e analisar facilmente nossos dados, tomando decisões informadas e precisas com base em informações relevantes.

### Importação das bibliotecas


In [2]:
import numpy as np
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [3]:
# Criando um dataframe a partir de uma lista de listas
lista_vendas = [['João', 'Arroz', 2, 10.50],
                ['Maria', 'Feijão', 3, 8.00],
                ['Leandro', 'Carne', 1, 25.00],
                ['Ana', 'Frango', 2, 15.00],
                ['Luiza', 'Leite', 4, 5.00],
                ['Paulo', 'Arroz', 1, 10.50],
                ['Fernanda', 'Feijão', 2, 8.00],
                ['Ricardo', 'Carne', 3, 25.00],
                ['Carlos', 'Frango', 1, 15.00],
                ['Sara', 'Leite', 2, 5.00]]

df = pd.DataFrame(lista_vendas, columns=['Cliente', 'Produto', 'Quantidade', 'Valor_Unitário'])
df

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
1,Maria,Feijão,3,8.0
2,Leandro,Carne,1,25.0
3,Ana,Frango,2,15.0
4,Luiza,Leite,4,5.0
5,Paulo,Arroz,1,10.5
6,Fernanda,Feijão,2,8.0
7,Ricardo,Carne,3,25.0
8,Carlos,Frango,1,15.0
9,Sara,Leite,2,5.0


### Método Loc
***
É usado para selecionar linhas e colunas por meio de rótulos. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base nos rótulos dos índices das linhas e das colunas.

#### Selecionando colunas específicas:
Podemos selecionar uma ou mais colunas específicas utilizando o método loc e especificando os nomes das colunas desejadas. Por exemplo, para selecionar apenas as colunas "Cliente" e "Produto", podemos fazer:

In [4]:
# Seleção de todos os dados de Clientes e Produto
df.loc[:, ['Cliente', 'Produto']]

Unnamed: 0,Cliente,Produto
0,João,Arroz
1,Maria,Feijão
2,Leandro,Carne
3,Ana,Frango
4,Luiza,Leite
5,Paulo,Arroz
6,Fernanda,Feijão
7,Ricardo,Carne
8,Carlos,Frango
9,Sara,Leite


#### Selecionando linhas específicas:
Podemos selecionar uma ou mais linhas específicas utilizando o método loc e especificando os índices das linhas desejadas. Por exemplo, para selecionar as linhas de índices 1 e 3, podemos fazer:

In [5]:
df.loc[[1, 3], :]

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
1,Maria,Feijão,3,8.0
3,Ana,Frango,2,15.0


#### Selecionando linhas e colunas específicas:
Podemos combinar as seleções de linhas e colunas para obter apenas as informações desejadas. Por exemplo, para selecionar as linhas de índices 2 a 4 e as colunas "Produto" e "Valor_Unitário", podemos fazer:

In [6]:
df.loc[2:4, ['Produto', 'Valor_Unitário']]

Unnamed: 0,Produto,Valor_Unitário
2,Carne,25.0
3,Frango,15.0
4,Leite,5.0


#### Selecionando linhas através de um produto específico 
Para selecionar apenas o nome da pessoa e a quantidade do produto "Feijão", você pode fazer o seguinte:

In [7]:
# Selecionando todos as colunas 
df.loc[df['Produto'] == 'Feijão']

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
1,Maria,Feijão,3,8.0
6,Fernanda,Feijão,2,8.0


In [8]:
# Selecionando colunas específicas 
df.loc[df['Produto'] == 'Feijão', ['Cliente', 'Quantidade']]

Unnamed: 0,Cliente,Quantidade
1,Maria,3
6,Fernanda,2


### Método iloc: 
***
É usado para selecionar linhas e colunas por meio de índices inteiros. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base em índices inteiros.

#### Selecionando as linhas nas posições 0 e 2 e as colunas nas posições 1 e 3

In [9]:
df.iloc[[0, 2], [1, 3]]

Unnamed: 0,Produto,Valor_Unitário
0,Arroz,10.5
2,Carne,25.0


#### Selecionando todas as linhas e as colunas nas posições 0 e 1

In [10]:
df.iloc[:, [0, 1]]

Unnamed: 0,Cliente,Produto
0,João,Arroz
1,Maria,Feijão
2,Leandro,Carne
3,Ana,Frango
4,Luiza,Leite
5,Paulo,Arroz
6,Fernanda,Feijão
7,Ricardo,Carne
8,Carlos,Frango
9,Sara,Leite


#### Selecionando a linha na posição 0 e todas as colunas

In [11]:
df.iloc[0, :]

Cliente            João
Produto           Arroz
Quantidade            2
Valor_Unitário     10.5
Name: 0, dtype: object

#### Selecionando todos os dados de linhas com índices de 2 a 4

In [12]:
df.iloc[2:5, :]

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
2,Leandro,Carne,1,25.0
3,Ana,Frango,2,15.0
4,Luiza,Leite,4,5.0


### Método at e iat
***
É usado para acessar um valor específico em um dataframe por meio de rótulos específicos para a linha e a coluna.

#### Selecionando elementos específicos
Podemos utilizar os métodos at e iat para selecionar um único elemento do dataframe, utilizando seus rótulos ou índices numéricos, respectivamente. Por exemplo, para selecionar o valor da quantidade comprada por Leandro, podemos fazer:

In [19]:
print(df)

    Cliente Produto  Quantidade  Valor_Unitário
0      João   Arroz           2            10.5
1     Maria  Feijão           3             8.0
2   Leandro   Carne           1            25.0
3       Ana  Frango           2            15.0
4     Luiza   Leite           4             5.0
5     Paulo   Arroz           1            10.5
6  Fernanda  Feijão           2             8.0
7   Ricardo   Carne           3            25.0
8    Carlos  Frango           1            15.0
9      Sara   Leite           2             5.0


In [21]:
df.at[2, 'Quantidade']

1

In [None]:
df.at()

In [15]:
# acessando o valor na linha na posição 0 e coluna na posição 1
df.iat[0, 1]

'Arroz'

### Método head
*** 
É usado para mostrar as primeiras linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [16]:
df.head()

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
0,João,Arroz,2,10.5
1,Maria,Feijão,3,8.0
2,Leandro,Carne,1,25.0
3,Ana,Frango,2,15.0
4,Luiza,Leite,4,5.0


### Método tail
***
É usado para mostrar as últimas linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [17]:
df.tail()

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
5,Paulo,Arroz,1,10.5
6,Fernanda,Feijão,2,8.0
7,Ricardo,Carne,3,25.0
8,Carlos,Frango,1,15.0
9,Sara,Leite,2,5.0


### Método sample
*** 
É usado para mostrar uma amostra aleatória de linhas do dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 1).

In [18]:
df.sample(3)

Unnamed: 0,Cliente,Produto,Quantidade,Valor_Unitário
1,Maria,Feijão,3,8.0
0,João,Arroz,2,10.5
9,Sara,Leite,2,5.0
