####  Seleção de Linhas e Colunas
***

Ao trabalhar com análise de dados, muitas vezes precisamos extrair informações específicas de um grande conjunto de dados. Para isso, é fundamental saber como selecionar colunas e linhas relevantes em um dataframe do Pandas. 

A seleção de colunas e linhas nos permite filtrar e visualizar dados específicos em um dataframe, tornando mais fácil identificar tendências, anomalias e padrões em um conjunto de dados. Além disso, a seleção de dados permite a criação de subconjuntos de dados que podem ser mais facilmente analisados, visualizados e comparados.

O Pandas oferece várias opções para seleção de colunas e linhas, como o uso do loc e iloc para acessar linhas e colunas por meio de rótulos ou índices, respectivamente. Além disso, o Pandas oferece outras funções úteis, como at, iat, head, tail e sample, que podem ser usadas para acessar dados específicos dentro de um dataframe.

Ao selecionar colunas e linhas, é possível filtrar dados com base em valores específicos, como em uma consulta SQL, tornando mais fácil e intuitivo extrair informações relevantes de um grande conjunto de dados. Com a seleção adequada de colunas e linhas, podemos visualizar e analisar facilmente nossos dados, tomando decisões informadas e precisas com base em informações relevantes.

#### Importando as Bibliotecas


In [4]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [5]:
df = pd.read_csv('../datasets/perfil_clientes.csv', sep=';')

In [6]:
df

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
...,...,...,...,...,...,...,...,...,...,...,...
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100


#### Método Loc
***
É usado para selecionar linhas e colunas por meio de rótulos. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base nos rótulos dos índices das linhas e das colunas.

#### Selecionando Colunas Específicas
Podemos selecionar uma ou mais colunas específicas utilizando o método loc e especificando os nomes das colunas desejadas.

Note: ":" para selecionar todas as linhas, e depois mencionar as colunas que você deseja visualizar.

In [7]:
df.loc[:, ['idade', 'anos_estudo']]

Unnamed: 0,idade,anos_estudo
0,39,13
1,50,13
2,38,9
3,53,7
4,28,13
...,...,...
7994,23,10
7995,19,9
7996,44,10
7997,20,9


Note: Outra maneira...

In [8]:
colunas = ['idade', 'anos_estudo', 'classe_trabalho']
df.loc[:, colunas]

Unnamed: 0,idade,anos_estudo,classe_trabalho
0,39,13,Servidor Público
1,50,13,Autônomo
2,38,9,Funcionário Setor Privado
3,53,7,Funcionário Setor Privado
4,28,13,Funcionário Setor Privado
...,...,...,...
7994,23,10,Funcionário Setor Privado
7995,19,9,Funcionário Setor Privado
7996,44,10,
7997,20,9,Funcionário Setor Privado


#### Selecionando Linhas Específicas
Podemos selecionar uma ou mais linhas específicas utilizando o método loc e especificando os índices das linhas desejadas. Por exemplo, para selecionar as linhas de índices 1 e 3, podemos fazer:

Note: Aqui mencionamos primeiros as linhas que queremos visualizar, e depois as colunas. Nesse exemplo, quero visualizar a linha 1 e 3, e todas as colunas (:).

In [9]:
df.loc[[1,3], :]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100


Ou:

In [10]:
indices = [1,3]
df.loc[indices, :]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100


Ou também:

In [11]:
indices = [1,3]
colunas = ['idade', 'anos_estudo', 'classe_trabalho']
df.loc[indices, colunas]

Unnamed: 0,idade,anos_estudo,classe_trabalho
1,50,13,Autônomo
3,53,7,Funcionário Setor Privado


#### Selecionando Linhas e Colunas Específicas
Podemos combinar as seleções de linhas e colunas para obter apenas as informações desejadas. 

Note: nesse exeplo, definimos um intervalo de linhas que desejamos visualizar (2 a 6).

In [12]:
df.loc[2:6, colunas]

Unnamed: 0,idade,anos_estudo,classe_trabalho
2,38,9,Funcionário Setor Privado
3,53,7,Funcionário Setor Privado
4,28,13,Funcionário Setor Privado
5,37,14,Funcionário Setor Privado
6,49,5,Funcionário Setor Privado


#### Selecionando Linhas Através de um Critério
***
Selecionar todas as pessoas cujo o estado civil é casado

In [13]:
# Selecionando todos as colunas 
filtro = df['estado_civil'] == 'Casado'
df.loc[filtro]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


In [14]:
# Selecionando colunas específicas 


#### Método iloc: 
***
É usado para selecionar linhas e colunas por meio de índices inteiros. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base em índices inteiros.

#### Selecionando as Linhas nas Posições 0 e 2 e as Colunas nas Posições 1 e 3

In [17]:
linhas = [0, 2]
colunas = [1, 3, 5]

df.iloc[linhas, colunas]

Unnamed: 0,classe_trabalho,anos_estudo,raca
0,Servidor Público,13,Branco
2,Funcionário Setor Privado,9,Branco


In [18]:
df

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
...,...,...,...,...,...,...,...,...,...,...,...
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100


#### Selecionando Todas as Linhas e as Colunas nas Posições 0 e 1

In [19]:
df.iloc[:, [0,1]]

Unnamed: 0,idade,classe_trabalho
0,39,Servidor Público
1,50,Autônomo
2,38,Funcionário Setor Privado
3,53,Funcionário Setor Privado
4,28,Funcionário Setor Privado
...,...,...
7994,23,Funcionário Setor Privado
7995,19,Funcionário Setor Privado
7996,44,
7997,20,Funcionário Setor Privado


#### Selecionando a Linha na Posição 0 e Todas as Colunas

In [20]:
df.iloc[0,:]

idade                                 39
classe_trabalho         Servidor Público
escolaridade       Ensino Médio Completo
anos_estudo                           13
estado_civil                    Solteiro
raca                              Branco
sexo                           Masculino
UF                                    RO
região                             Norte
qtde_filhos                          2.0
salario                             4754
Name: 0, dtype: object

#### Selecionando Todos os Dados de Linhas com Índices de 2 a 4

In [21]:
df.iloc[2:4, :]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100


#### Método Head
*** 
É usado para mostrar as primeiras linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [25]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Tail
***
É usado para mostrar as últimas linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [26]:
df.tail()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100
7998,41,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,AP,Norte,1.0,2579


#### Método Sample
*** 
É usado para mostrar uma amostra aleatória de linhas do dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 1).

In [28]:
df.sample()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
2914,42,Autônomo,Ensino Médio Completo,11,Casado,Branco,Masculino,MA,Nordeste,5.0,2312
