## Como seleciono um subconjunto de um DataFrame?

Lembre-se de inicializar o pandas e ler o arquivo titanic.csv

In [2]:
# Inicializando o pandas e lendo o arquivo titanic.csv
import pandas as pd
titanic = pd.read_csv("../data/titanic.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Para selecionar uma única coluna, use colchetes []com o nome da coluna de interesse.  
Cada coluna em a DataFrameé um Series. Como uma única coluna é selecionada, o objeto retornado é um pandas Series.  
Podemos verificar isso verificando o tipo de saída:

In [7]:
ages = titanic["Age"]
ages.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [8]:
type(titanic["Age"])

pandas.core.series.Series

Você pode ver o numero de linhas usando o atributo shape

In [11]:
titanic["Age"].shape

(891,)

Para selecionar várias colunas, use uma lista de nomes de colunas dentro dos colchetes de seleção [].  
Os colchetes internos definem uma lista Python com nomes de colunas, enquanto os colchetes externos são usados ​​para selecionar os dados de um pandas, DataFramecomo visto no exemplo anterior.

In [12]:
age_sex = titanic[["Age", "Sex"]]
age_sex.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


A seleção retornou um DataFrame com 891 linhas e 2 colunas.  
Lembre-se de que um DataFrame é bidimensional, com dimensões de linha e coluna.

In [13]:
type(titanic[["Age", "Sex"]])

pandas.core.frame.DataFrame

In [14]:
titanic[["Age", "Sex"]].shape

(891, 2)

## Como posso filtrar linhas específicas de um DataFrame?

Para selecionar linhas com base em uma expressão condicional, use uma condição dentro dos colchetes de seleção [].  

Selecionando passagerios com mais de 35 anos.

In [15]:
above_35 = titanic[titanic["Age"] > 35]
above_35.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


A condição dentro dos colchetes de seleção verifica em quais linhas a coluna tem um valor maior que 35  
titanic["Age"] > 35

In [16]:
titanic["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

A saída da expressão condicional ( >, mas também ==, !=, <, <=,… funcionaria) é, na verdade,  
um conjunto Seriesde valores booleanos (ou True) False com o mesmo número de linhas que o original DataFrame.  

Esse conjunto Seriesde valores booleanos pode ser usado para filtrar o valor DataFrame, colocando-o entre colchetes de seleção [].  
Somente as linhas para as quais o valor for True serão selecionadas.  

Sabemos, por experiência própria, que o Titanic original DataFrameconsiste em 891 linhas.  
Vamos dar uma olhada no número de linhas que satisfazem a condição, verificando o shapeatributo do resultado DataFrame

In [17]:
above_35.shape

(217, 12)

Desta forma, podemos filtrar somente os passageiros da classe 2 e 3.

In [19]:
class_23 = titanic[titanic["Pclass"].isin([2, 3])]
class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Semelhante à expressão condicional, a função condicional isin(), retorna um Truevalor para cada linha na lista fornecida.  
Para filtrar as linhas com base nessa função, use a função condicional dentro dos colchetes de seleção [].  
Nesse caso, a condição dentro dos colchetes de seleção verifica em quais linhas a coluna é 2 ou 3.  
titanic["Pclass"].isin([2, 3])

O procedimento acima é equivalente a filtrar por linhas cuja classe é 2 ou 3 e combinar as duas instruções com um operador | (ou):

In [20]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]
class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master Gosta Leonard",male,2.0,3,1,349909,21.075,,S


Quero trabalhar com dados de passageiros cuja idade é conhecida.

A função condicional notna(), retorna um valor True para cada linha em que os valores não são um valor nulo (Null).  
Dessa forma, isso pode ser combinado com os colchetes de seleção [], para filtrar a tabela de dados.

In [21]:
age_no_na = titanic[titanic["Age"].notna()]
age_no_na.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Você pode estar se perguntando o que realmente mudou, já que as primeiras 5 linhas ainda apresentam os mesmos valores.  
Uma maneira de verificar é verificar se o formato mudou:

In [26]:
age_no_na.shape, titanic.shape

((714, 12), (891, 12))

**Como seleciono linhas e colunas específicas de um DataFrame?**  

Ao usar nomes de colunas, rótulos de linhas ou uma expressão condicional, use o locoperador antes dos colchetes de seleção [].  
Tanto para a parte anterior quanto posterior à vírgula, você pode usar:  
* um único rótulo
* uma lista de rótulos
* uma fatia de rótulos
* uma expressão condicional
* ou dois pontos 

In [27]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                              Bonnell, Miss Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

Usar dois pontos especifica que você deseja selecionar todas as linhas ou colunas.  

Novamente, um subconjunto de linhas e colunas é criado de uma só vez, e usar apenas colchetes de seleção []não é mais suficiente.  
Quando estiver interessado especificamente em determinadas linhas e/ou colunas com base em sua posição na tabela,  
 use o ilocoperador antes dos colchetes de seleção [].

In [28]:
titanic.iloc[9:25, 2:5]

Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss Marguerite Rut",female
11,1,"Bonnell, Miss Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


Ao selecionar linhas e/ou colunas específicas com locou iloc, novos valores podem ser atribuídos aos dados selecionados.  
Por exemplo, para atribuir o nome anonymousaos 3 primeiros elementos da quarta coluna:

In [29]:
titanic.iloc[0:3, 3] = "anonymous"
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,anonymous,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,anonymous,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,anonymous,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**LEMBRAR**  

* Ao selecionar subconjuntos de dados, colchetes [] são usados.
* Dentro desses colchetes, você pode usar um único rótulo de coluna/linha, uma lista de rótulos de coluna/linha, uma fatia de rótulos, uma expressão condicional ou dois pontos.
* Selecione linhas e/ou colunas específicas usando locos nomes de linhas e colunas.
* Selecione linhas e/ou colunas específicas usando ilocao usar as posições na tabela.
* Você pode atribuir novos valores a uma seleção com base em loc/ iloc.