####  Seleção de Linhas e Colunas
***

Ao trabalhar com análise de dados, muitas vezes precisamos extrair informações específicas de um grande conjunto de dados. Para isso, é fundamental saber como selecionar colunas e linhas relevantes em um dataframe do Pandas. 

A seleção de colunas e linhas nos permite filtrar e visualizar dados específicos em um dataframe, tornando mais fácil identificar tendências, anomalias e padrões em um conjunto de dados. Além disso, a seleção de dados permite a criação de subconjuntos de dados que podem ser mais facilmente analisados, visualizados e comparados.

O Pandas oferece várias opções para seleção de colunas e linhas, como o uso do loc e iloc para acessar linhas e colunas por meio de rótulos ou índices, respectivamente. Além disso, o Pandas oferece outras funções úteis, como at, iat, head, tail e sample, que podem ser usadas para acessar dados específicos dentro de um dataframe.

Ao selecionar colunas e linhas, é possível filtrar dados com base em valores específicos, como em uma consulta SQL, tornando mais fácil e intuitivo extrair informações relevantes de um grande conjunto de dados. Com a seleção adequada de colunas e linhas, podemos visualizar e analisar facilmente nossos dados, tomando decisões informadas e precisas com base em informações relevantes.

#### Importando as Bibliotecas


In [1]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [27]:
df = pd.read_csv('../datasets/perfil_clientes.csv', sep = ';')

In [7]:
df

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
...,...,...,...,...,...,...,...,...,...,...,...
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100


#### Método Loc
***
É usado para selecionar linhas e colunas por meio de rótulos. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base nos rótulos dos índices das linhas e das colunas.

#### Selecionando Colunas Específicas
Podemos selecionar uma ou mais colunas específicas utilizando o método loc e especificando os nomes das colunas desejadas.

In [12]:
colunas = ['idade','anos_estudo']
df.loc[:,colunas]

Unnamed: 0,idade,anos_estudo
0,39,13
2,38,9
4,28,13


#### Selecionando Linhas Específicas
Podemos selecionar uma ou mais linhas específicas utilizando o método loc e especificando os índices das linhas desejadas. Por exemplo, para selecionar as linhas de índices 1 e 3, podemos fazer:

In [19]:
indices = [0,4,2]
df.loc[indices,:]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100


#### Selecionando Linhas e Colunas Específicas
Podemos combinar as seleções de linhas e colunas para obter apenas as informações desejadas. 

In [21]:
df.loc[0:6:2,colunas]

Unnamed: 0,idade,anos_estudo
0,39,13
2,38,9
4,28,13
6,49,5


#### Selecionando Linhas Através de um Critério
***
Selecionar todas as pessoas cujo o estado civil é casado

In [31]:
# Selecionando todos as colunas 
filtro = df['estado_civil'] == 'Casado'
df.loc[filtro]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


In [32]:
df[filtro]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


In [None]:
# Selecionando colunas específicas 


#### Método iloc: 
***
É usado para selecionar linhas e colunas por meio de índices inteiros. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base em índices inteiros.

#### Selecionando as Linhas nas Posições 0 e 2 e as Colunas nas Posições 1 e 3

In [33]:
linhas = [0, 2]
colunas = [1, 3]
df.iloc[linhas, colunas]

Unnamed: 0,classe_trabalho,anos_estudo
0,Servidor Público,13
2,Funcionário Setor Privado,9


#### Selecionando a Linha na Posição 0 e Todas as Colunas

In [40]:
df.iloc[0,:]

idade                                 39
classe_trabalho         Servidor Público
escolaridade       Ensino Médio Completo
anos_estudo                           13
estado_civil                    Solteiro
raca                              Branco
sexo                           Masculino
UF                                    RO
região                             Norte
qtde_filhos                          2.0
salario                             4754
Name: 0, dtype: object

#### Selecionando Todos os Dados de Linhas com Índices de 2 a 4

In [42]:
df.iloc[2:5,:]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Head
*** 
É usado para mostrar as primeiras linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [45]:
df.head(10)

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
6,49,Funcionário Setor Privado,Ensino Fundamental Completo,5,União Estável,Negro,Feminino,TO,Norte,1.0,1100
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
8,31,Funcionário Setor Privado,Mestrado,14,Solteiro,Branco,Feminino,PI,Nordeste,4.0,6031
9,42,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,CE,Nordeste,5.0,3798


#### Método Tail
***
É usado para mostrar as últimas linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [46]:
df.tail(10)

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
7989,33,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Masculino,PI,Nordeste,5.0,6063
7990,45,Funcionário Setor Privado,Ensino Médio Completo,10,Divorciado,Branco,Feminino,CE,Nordeste,2.0,3208
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7992,35,Autônomo,Ensino Médio Incompleto,9,Solteiro,Negro,Feminino,PB,Nordeste,5.0,1100
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100
7998,41,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,AP,Norte,1.0,2579


#### Método Sample
*** 
É usado para mostrar uma amostra aleatória de linhas do dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 1).

In [47]:
df.sample(10)

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
3770,63,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,DF,Centro-Oeste,5.0,1100
1700,24,Funcionário Setor Privado,Ensino Médio Completo,13,Solteiro,Pardo,Masculino,MA,Nordeste,2.0,2066
969,40,Servidor Público,Mestrado,14,Casado,Branco,Masculino,AP,Norte,5.0,9139
3635,25,Funcionário Setor Privado,Ensino Fundamental Completo,5,Casado,Branco,Masculino,DF,Centro-Oeste,3.0,1100
3079,20,,Ensino Médio Completo,10,Solteiro,Branco,Masculino,RN,Nordeste,2.0,3705
4260,22,Funcionário Setor Privado,Ensino Médio Completo,10,Solteiro,Branco,Masculino,RR,Norte,2.0,2342
4101,25,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,TO,Norte,2.0,1100
4723,23,Funcionário Setor Privado,Ensino Fundamental Incompleto,4,Solteiro,Amarelo,Masculino,MA,Nordeste,1.0,1100
166,46,Servidor Público,Mestrado,14,Viúvo,Amarelo,Masculino,AP,Norte,2.0,8107
2229,37,Servidor Público,Ensino Médio Completo,13,Casado,Branco,Masculino,MS,Centro-Oeste,0.0,4303
