## Como seleciono um subconjunto de um DataFrame?

Lembre-se de inicializar o pandas e ler o arquivo titanic.csv

In [None]:
# Inicializando o pandas e lendo o arquivo titanic.csv
import pandas as pd
titanic = pd.read_csv("data/titanic.csv")
titanic.head()

Para selecionar uma única coluna, use colchetes []com o nome da coluna de interesse.  
Cada coluna em a DataFrameé um Series. Como uma única coluna é selecionada, o objeto retornado é um pandas Series.  
Podemos verificar isso verificando o tipo de saída:

In [None]:
ages = titanic["Age"]
ages.head()

In [None]:
type(titanic["Age"])

Você pode ver o numero de linhas usando o atributo shape

In [None]:
titanic["Age"].shape

Para selecionar várias colunas, use uma lista de nomes de colunas dentro dos colchetes de seleção [].  
Os colchetes internos definem uma lista Python com nomes de colunas, enquanto os colchetes externos são usados ​​para selecionar os dados de um pandas, DataFramecomo visto no exemplo anterior.

In [None]:
age_sex = titanic[["Age", "Sex"]]
age_sex.head()

A seleção retornou um DataFrame com 891 linhas e 2 colunas.  
Lembre-se de que um DataFrame é bidimensional, com dimensões de linha e coluna.

In [None]:
type(titanic[["Age", "Sex"]])

In [None]:
titanic[["Age", "Sex"]].shape

## Como posso filtrar linhas específicas de um DataFrame?

Para selecionar linhas com base em uma expressão condicional, use uma condição dentro dos colchetes de seleção [].  

Selecionando passagerios com mais de 35 anos.

In [None]:
above_35 = titanic[titanic["Age"] > 35]
above_35.head()

A condição dentro dos colchetes de seleção verifica em quais linhas a coluna tem um valor maior que 35  
titanic["Age"] > 35

In [None]:
titanic["Age"] > 35

A saída da expressão condicional ( >, mas também ==, !=, <, <=,… funcionaria) é, na verdade,  
um conjunto Seriesde valores booleanos (ou True) False com o mesmo número de linhas que o original DataFrame.  

Esse conjunto Seriesde valores booleanos pode ser usado para filtrar o valor DataFrame, colocando-o entre colchetes de seleção [].  
Somente as linhas para as quais o valor for True serão selecionadas.  

Sabemos, por experiência própria, que o Titanic original DataFrameconsiste em 891 linhas.  
Vamos dar uma olhada no número de linhas que satisfazem a condição, verificando o shapeatributo do resultado DataFrame

In [None]:
above_35.shape

Desta forma, podemos filtrar somente os passageiros da classe 2 e 3.

In [None]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Semelhante à expressão condicional, a função condicional isin(), retorna um Truevalor para cada linha na lista fornecida.  
Para filtrar as linhas com base nessa função, use a função condicional dentro dos colchetes de seleção [].  
Nesse caso, a condição dentro dos colchetes de seleção verifica em quais linhas a coluna é 2 ou 3.  
titanic["Pclass"].isin([2, 3])

O procedimento acima é equivalente a filtrar por linhas cuja classe é 2 ou 3 e combinar as duas instruções com um operador | (ou):

In [None]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]
class_23.head()

Quero trabalhar com dados de passageiros cuja idade é conhecida.

A função condicional notna(), retorna um valor True para cada linha em que os valores não são um valor nulo (Null).  
Dessa forma, isso pode ser combinado com os colchetes de seleção [], para filtrar a tabela de dados.

In [None]:
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

Você pode estar se perguntando o que realmente mudou, já que as primeiras 5 linhas ainda apresentam os mesmos valores.  
Uma maneira de verificar é verificar se o formato mudou:

In [None]:
age_no_na.shape, titanic.shape

**Como seleciono linhas e colunas específicas de um DataFrame?**  

Ao usar nomes de colunas, rótulos de linhas ou uma expressão condicional, use o locoperador antes dos colchetes de seleção [].  
Tanto para a parte anterior quanto posterior à vírgula, você pode usar:  
* um único rótulo
* uma lista de rótulos
* uma fatia de rótulos
* uma expressão condicional
* ou dois pontos 

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()

Usar dois pontos especifica que você deseja selecionar todas as linhas ou colunas.  

Novamente, um subconjunto de linhas e colunas é criado de uma só vez, e usar apenas colchetes de seleção []não é mais suficiente.  
Quando estiver interessado especificamente em determinadas linhas e/ou colunas com base em sua posição na tabela,  
 use o ilocoperador antes dos colchetes de seleção [].

In [None]:
titanic.iloc[9:25, 2:5]

Ao selecionar linhas e/ou colunas específicas com locou iloc, novos valores podem ser atribuídos aos dados selecionados.  
Por exemplo, para atribuir o nome anonymousaos 3 primeiros elementos da quarta coluna:

In [None]:
titanic.iloc[0:3, 3] = "anonymous"
titanic.head()

**LEMBRAR**  

* Ao selecionar subconjuntos de dados, colchetes [] são usados.
* Dentro desses colchetes, você pode usar um único rótulo de coluna/linha, uma lista de rótulos de coluna/linha, uma fatia de rótulos, uma expressão condicional ou dois pontos.
* Selecione linhas e/ou colunas específicas usando locos nomes de linhas e colunas.
* Selecione linhas e/ou colunas específicas usando ilocao usar as posições na tabela.
* Você pode atribuir novos valores a uma seleção com base em loc/ iloc.