####  Seleção de Linhas e Colunas
***

Ao trabalhar com análise de dados, muitas vezes precisamos extrair informações específicas de um grande conjunto de dados. Para isso, é fundamental saber como selecionar colunas e linhas relevantes em um dataframe do Pandas. 

A seleção de colunas e linhas nos permite filtrar e visualizar dados específicos em um dataframe, tornando mais fácil identificar tendências, anomalias e padrões em um conjunto de dados. Além disso, a seleção de dados permite a criação de subconjuntos de dados que podem ser mais facilmente analisados, visualizados e comparados.

O Pandas oferece várias opções para seleção de colunas e linhas, como o uso do loc e iloc para acessar linhas e colunas por meio de rótulos ou índices, respectivamente. Além disso, o Pandas oferece outras funções úteis, como at, iat, head, tail e sample, que podem ser usadas para acessar dados específicos dentro de um dataframe.

Ao selecionar colunas e linhas, é possível filtrar dados com base em valores específicos, como em uma consulta SQL, tornando mais fácil e intuitivo extrair informações relevantes de um grande conjunto de dados. Com a seleção adequada de colunas e linhas, podemos visualizar e analisar facilmente nossos dados, tomando decisões informadas e precisas com base em informações relevantes.

#### Importando as Bibliotecas


In [2]:
import pandas as pd

#### Coletando Dados de Perfil
***

In [3]:
df = pd.read_csv('./datasets/perfil_clientes.csv' , sep=';')
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Loc
***
É usado para selecionar linhas e colunas por meio de rótulos. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base nos rótulos dos índices das linhas e das colunas.

#### Selecionando Colunas Específicas
Podemos selecionar uma ou mais colunas específicas utilizando o método loc e especificando os nomes das colunas desejadas.

In [4]:
colunas = ['classe_trabalho' , 'escolaridade','estado_civil']
df.loc[:, colunas]

Unnamed: 0,classe_trabalho,escolaridade,estado_civil
0,Servidor Público,Ensino Médio Completo,Solteiro
1,Autônomo,Superior Incompleto,Casado
2,Funcionário Setor Privado,Ensino Médio Incompleto,Divorciado
3,Funcionário Setor Privado,Ensino Médio Incompleto,Casado
4,Funcionário Setor Privado,Ensino Médio Completo,Casado
...,...,...,...
7994,Funcionário Setor Privado,Ensino Médio Completo,Casado
7995,Funcionário Setor Privado,Ensino Médio Incompleto,Solteiro
7996,,Ensino Médio Completo,Casado
7997,Funcionário Setor Privado,Ensino Médio Incompleto,Solteiro


#### Selecionando Linhas Específicas
Podemos selecionar uma ou mais linhas específicas utilizando o método loc e especificando os índices das linhas desejadas. Por exemplo, para selecionar as linhas de índices 1 e 3, podemos fazer:

In [5]:
linhas = [1,3]
df.loc[linhas, :]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100


#### Selecionando Linhas e Colunas Específicas
Podemos combinar as seleções de linhas e colunas para obter apenas as informações desejadas. 

In [6]:
linhas = [1,3,4,6]
colunas = ['idade','anos_estudo','sexo']
df.loc[linhas , colunas]

Unnamed: 0,idade,anos_estudo,sexo
1,50,13,Masculino
3,53,7,Masculino
4,28,13,Feminino
6,49,5,Feminino


#### Selecionando Linhas Através de um Critério
***
Selecionar todas as pessoas cujo o estado civil é casado

In [28]:
# Selecionando todos as colunas 
filtro = df['estado_civil'] == 'Casado'
df.loc[filtro]




Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430
5,37,Funcionário Setor Privado,Mestrado,14,Casado,Branco,Feminino,AP,Norte,1.0,10787
7,52,Autônomo,Ensino Médio Incompleto,9,Casado,Branco,Masculino,MA,Nordeste,4.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7991,66,Aposentado,Ensino Médio Completo,10,Casado,Branco,Masculino,RN,Nordeste,0.0,4178
7993,32,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Branco,Masculino,PE,Nordeste,4.0,1100
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729


In [7]:
filtro = df['estado_civil'] == 'Casado'
colunas = ['raca','região']
df.loc[filtro, colunas]

Unnamed: 0,raca,região
1,Branco,Norte
3,Negro,Norte
4,Negro,Norte
5,Branco,Norte
7,Branco,Nordeste
...,...,...
7991,Branco,Nordeste
7993,Branco,Nordeste
7994,Negro,Nordeste
7996,Branco,Nordeste


In [8]:
# Selecionando colunas específicas 

filtro = (df['estado_civil'] == 'Casado') & (df['sexo'] =='Masculino')
colunas = ['raca','região','sexo']
df.loc[filtro, colunas]


Unnamed: 0,raca,região,sexo
1,Branco,Norte,Masculino
3,Negro,Norte,Masculino
7,Branco,Nordeste,Masculino
9,Branco,Nordeste,Masculino
10,Negro,Nordeste,Masculino
...,...,...,...
7991,Branco,Nordeste,Masculino
7993,Branco,Nordeste,Masculino
7994,Negro,Nordeste,Masculino
7996,Branco,Nordeste,Masculino


#### Método iloc: 
***
É usado para selecionar linhas e colunas por meio de índices inteiros. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base em índices inteiros.

#### Selecionando as Linhas nas Posições 0 e 2 e as Colunas nas Posições 1 e 3

In [9]:
df.iloc[[0,2] , [2,3]]

Unnamed: 0,escolaridade,anos_estudo
0,Ensino Médio Completo,13
2,Ensino Médio Incompleto,9


#### Selecionando Todas as Linhas e as Colunas nas Posições 0 e 1

In [10]:
df.iloc[:, [0,5]]


Unnamed: 0,idade,raca
0,39,Branco
1,50,Branco
2,38,Branco
3,53,Negro
4,28,Negro
...,...,...
7994,23,Negro
7995,19,Branco
7996,44,Branco
7997,20,Negro


#### Selecionando a Linha na Posição 0 e Todas as Colunas

In [11]:
df.iloc[0,:]


idade                                 39
classe_trabalho         Servidor Público
escolaridade       Ensino Médio Completo
anos_estudo                           13
estado_civil                    Solteiro
raca                              Branco
sexo                           Masculino
UF                                    RO
região                             Norte
qtde_filhos                          2.0
salario                             4754
Name: 0, dtype: object

#### Selecionando Todos os Dados de Linhas com Índices de 2 a 4

In [12]:
df.iloc[2:5 , :]

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Head
*** 
É usado para mostrar as primeiras linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [13]:
df.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Tail
***
É usado para mostrar as últimas linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

In [14]:
df.tail()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
7994,23,Funcionário Setor Privado,Ensino Médio Completo,10,Casado,Negro,Masculino,AL,Nordeste,3.0,2856
7995,19,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,SE,Nordeste,1.0,1100
7996,44,,Ensino Médio Completo,10,Casado,Branco,Masculino,BA,Nordeste,0.0,3729
7997,20,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,MG,Sudeste,0.0,1100
7998,41,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,AP,Norte,1.0,2579


#### Método Sample
*** 
É usado para mostrar uma amostra aleatória de linhas do dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 1).

In [15]:
df.sample()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
2700,23,Funcionário Setor Privado,Ensino Médio Incompleto,9,Solteiro,Branco,Feminino,CE,Nordeste,4.0,1100


In [16]:
df.sample(10)

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
309,26,Funcionário Setor Privado,Ensino Médio Completo,13,Solteiro,Branco,Masculino,AL,Nordeste,5.0,2230
1566,49,,Ensino Fundamental Completo,6,Separado,Branco,Masculino,PI,Nordeste,3.0,1100
7941,48,Funcionário Setor Privado,Ensino Médio Completo,13,Divorciado,Negro,Feminino,SE,Nordeste,3.0,2167
3219,32,,Ensino Médio Incompleto,9,Solteiro,Negro,Masculino,BA,Nordeste,0.0,1100
6479,29,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Branco,Masculino,PI,Nordeste,5.0,2485
7145,32,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,DF,Centro-Oeste,0.0,1100
2973,43,MEI,Ensino Médio Completo,10,Casado,Branco,Masculino,PE,Nordeste,4.0,2721
1193,30,Empresário,Ensino Médio Completo,13,Casado,Branco,Masculino,AL,Nordeste,1.0,6894
4314,22,Autônomo,Ensino Médio Completo,10,Solteiro,Branco,Masculino,RR,Norte,5.0,2316
3784,19,Funcionário Setor Privado,Ensino Médio Completo,10,Solteiro,Branco,Masculino,AL,Nordeste,1.0,3305
