####  Seleção de Linhas e Colunas
***

Ao trabalhar com análise de dados, muitas vezes precisamos extrair informações específicas de um grande conjunto de dados. Para isso, é fundamental saber como selecionar colunas e linhas relevantes em um dataframe do Pandas. 

A seleção de colunas e linhas nos permite filtrar e visualizar dados específicos em um dataframe, tornando mais fácil identificar tendências, anomalias e padrões em um conjunto de dados. Além disso, a seleção de dados permite a criação de subconjuntos de dados que podem ser mais facilmente analisados, visualizados e comparados.

O Pandas oferece várias opções para seleção de colunas e linhas, como o uso do loc e iloc para acessar linhas e colunas por meio de rótulos ou índices, respectivamente. Além disso, o Pandas oferece outras funções úteis, como at, iat, head, tail e sample, que podem ser usadas para acessar dados específicos dentro de um dataframe.

Ao selecionar colunas e linhas, é possível filtrar dados com base em valores específicos, como em uma consulta SQL, tornando mais fácil e intuitivo extrair informações relevantes de um grande conjunto de dados. Com a seleção adequada de colunas e linhas, podemos visualizar e analisar facilmente nossos dados, tomando decisões informadas e precisas com base em informações relevantes.

#### Importando as Bibliotecas


In [24]:
import pandas as pd     

#### Coletando Dados de Perfil
***

In [25]:

df_perfil_clientes = pd.read_csv('../../source_data/perfil_clientes.csv', sep=';')#, encoding='latin1')

In [26]:
df_perfil_clientes.head()

Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
0,39,Servidor Público,Ensino Médio Completo,13,Solteiro,Branco,Masculino,RO,Norte,2.0,4754
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
2,38,Funcionário Setor Privado,Ensino Médio Incompleto,9,Divorciado,Branco,Masculino,AM,Norte,0.0,1100
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100
4,28,Funcionário Setor Privado,Ensino Médio Completo,13,Casado,Negro,Feminino,PA,Norte,0.0,3430


#### Método Loc
***
É usado para selecionar linhas e colunas por meio de rótulos. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base nos rótulos dos índices das linhas e das colunas.

#### Selecionando Colunas Específicas
Podemos selecionar uma ou mais colunas específicas utilizando o método loc e especificando os nomes das colunas desejadas.

In [28]:
#df_perfil_clientes.loc[:,'idade', 'anos_estudo']
df_perfil_clientes.loc[:, ['idade', 'anos_estudo']]   


Unnamed: 0,idade,anos_estudo
0,39,13
1,50,13
2,38,9
3,53,7
4,28,13
...,...,...
7994,23,10
7995,19,9
7996,44,10
7997,20,9


#### Selecionando Linhas Específicas
Podemos selecionar uma ou mais linhas específicas utilizando o método loc e especificando os índices das linhas desejadas. Por exemplo, para selecionar as linhas de índices 1 e 3, podemos fazer:

In [30]:
colunas =['idade', 'anos_estudo', 'classe_trabalho']

df_perfil_clientes.loc[:, colunas]


Unnamed: 0,idade,anos_estudo,classe_trabalho
0,39,13,Servidor Público
1,50,13,Autônomo
2,38,9,Funcionário Setor Privado
3,53,7,Funcionário Setor Privado
4,28,13,Funcionário Setor Privado
...,...,...,...
7994,23,10,Funcionário Setor Privado
7995,19,9,Funcionário Setor Privado
7996,44,10,
7997,20,9,Funcionário Setor Privado


#### Selecionando Linhas e Colunas Específicas
Podemos combinar as seleções de linhas e colunas para obter apenas as informações desejadas. 

In [31]:
# recuperar indices 1 e 3 com todas as colunas
df_perfil_clientes.iloc[[1,3], :]


Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
1,50,Autônomo,Superior Incompleto,13,Casado,Branco,Masculino,AC,Norte,1.0,3923
3,53,Funcionário Setor Privado,Ensino Médio Incompleto,7,Casado,Negro,Masculino,RR,Norte,1.0,1100


In [36]:
indices = [1, 2, 33, 45]
colunas = ['idade', 'anos_estudo', 'classe_trabalho']
df_perfil_clientes.loc[indices, colunas]

Unnamed: 0,idade,anos_estudo,classe_trabalho
1,50,13,Autônomo
2,38,9,Funcionário Setor Privado
33,30,10,Funcionário Público
45,57,13,Funcionário Público


In [39]:
#range
df_perfil_clientes.loc[2:8, colunas]

Unnamed: 0,idade,anos_estudo,classe_trabalho
2,38,9,Funcionário Setor Privado
3,53,7,Funcionário Setor Privado
4,28,13,Funcionário Setor Privado
5,37,14,Funcionário Setor Privado
6,49,5,Funcionário Setor Privado
7,52,9,Autônomo
8,31,14,Funcionário Setor Privado


#### Selecionando Linhas Através de um Critério
***
Selecionar todas as pessoas cujo o estado civil é casado

In [49]:
# Selecionando todos as colunas 
filtro = df_perfil_clientes['idade'] < 18
df_perfil_clientes.loc[filtro]




Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
105,17,Menor Aprendiz,Ensino Fundamental Completo,6,Solteiro,Branco,Feminino,GO,Centro-Oeste,1.0,1100
208,17,Menor Aprendiz,Ensino Médio Incompleto,7,Solteiro,Branco,Feminino,PR,Sul,2.0,1100
261,17,Menor Aprendiz,Ensino Médio Incompleto,7,Solteiro,Branco,Masculino,SP,Sudeste,2.0,1100
270,17,Menor Aprendiz,Ensino Fundamental Completo,5,Solteiro,Branco,Masculino,AC,Norte,0.0,1100
334,17,Menor Aprendiz,Ensino Fundamental Incompleto,3,Solteiro,Branco,Masculino,PB,Nordeste,2.0,1100
...,...,...,...,...,...,...,...,...,...,...,...
7633,17,Menor Aprendiz,Ensino Fundamental Completo,5,Casado,Branco,Masculino,RR,Norte,0.0,1100
7652,17,Menor Aprendiz,Ensino Médio Incompleto,7,Solteiro,Negro,Feminino,RS,Sul,1.0,1100
7744,17,Menor Aprendiz,Ensino Médio Incompleto,7,Solteiro,Negro,Masculino,TO,Norte,1.0,1100
7768,17,Menor Aprendiz,Ensino Médio Incompleto,7,Solteiro,Branco,Feminino,RR,Norte,1.0,1100


In [46]:
# Selecionando colunas específicas 
filtro_casado = df_perfil_clientes['estado_civil'] == 'Separado'

df_perfil_clientes.loc[filtro_casado]



Unnamed: 0,idade,classe_trabalho,escolaridade,anos_estudo,estado_civil,raca,sexo,UF,região,qtde_filhos,salario
21,54,Funcionário Setor Privado,Ensino Médio Incompleto,9,Separado,Negro,Feminino,SC,Sul,2.0,1100
43,49,Funcionário Setor Privado,Ensino Médio Incompleto,9,Separado,Branco,Feminino,MG,Sudeste,5.0,1100
71,31,Funcionário Setor Privado,Ensino Médio Completo,13,Separado,Negro,Feminino,ES,Sudeste,4.0,3805
156,71,Aposentado,Ensino Médio Completo,10,Separado,Negro,Masculino,RS,Sul,5.0,5075
158,42,Funcionário Setor Privado,Ensino Médio Completo,13,Separado,Negro,Masculino,MT,Centro-Oeste,5.0,3511
...,...,...,...,...,...,...,...,...,...,...,...
7858,50,Funcionário Público,Ensino Fundamental Completo,6,Separado,Branco,Masculino,PE,Nordeste,5.0,1787
7902,29,Empresário,Ensino Médio Incompleto,9,Separado,Branco,Feminino,AM,Norte,5.0,3976
7911,25,Funcionário Setor Privado,Ensino Médio Incompleto,9,Separado,Branco,Feminino,PB,Nordeste,5.0,1100
7980,37,Funcionário Setor Privado,Ensino Médio Completo,13,Separado,Branco,Feminino,DF,Centro-Oeste,3.0,2659


#### Método iloc: 
***
É usado para selecionar linhas e colunas por meio de índices inteiros. Ou seja, você pode usar este método para selecionar linhas específicas, colunas específicas ou um subconjunto de linhas e colunas, tudo com base em índices inteiros.

#### Selecionando as Linhas nas Posições 0 e 2 e as Colunas nas Posições 1 e 3

#### Selecionando Todas as Linhas e as Colunas nas Posições 0 e 1

#### Selecionando a Linha na Posição 0 e Todas as Colunas

#### Selecionando Todos os Dados de Linhas com Índices de 2 a 4

#### Método Head
*** 
É usado para mostrar as primeiras linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

#### Método Tail
***
É usado para mostrar as últimas linhas de um dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 5).

#### Método Sample
*** 
É usado para mostrar uma amostra aleatória de linhas do dataframe. O número de linhas a serem mostradas pode ser especificado como argumento (padrão é 1).