# Seleção de Dados usando Pandas

<img src='https://pandas.pydata.org/docs/_images/03_subset_rows.svg'>

- Resumo
    - 1. Criando e apresentando um Dataframe
    - 2. Seleção de Dados
    - 3. Seleção Condicional
    - 4. Seleção por Tipos
    - 5. Seleção a partir de uma lista

In [None]:
import numpy as np
import pandas as pd
import random

from numpy.random import randn
np.random.seed(101)

## 1. Criando e apresentando DataFrame

In [None]:
df = pd.DataFrame(randn(20,4),columns='W X Y Z'.split())

In [None]:
df.head(5)

In [None]:
df.tail()

In [None]:
df.sample(10)

In [None]:
df.sample(frac=0.3)

## 2. Seleção de Dados

Vamos aprender os vários métodos para pegar dados de um DataFrame

Existem três abordagens principais de seleção de dados usando um dataframe
- 1. Selecionando colunas
- 2. Seleção de dados usando `loc` e `iloc`
- 3. Seleção condicional
- 4. Seleção de dados por tipo de dados

In [None]:
df.index

In [None]:
df.columns

In [None]:
df

#### 2.1 Selecionar uma coluna

In [None]:
df['W']

In [None]:
# Sintaxe SQL (Não recomendado!)
df.W

#### Selecionar mais de uma coluna

In [None]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

In [None]:
type(df['W'])

As colunas dos DataFrames são Series

### 2.1 Seleção com loc e Iloc

In [None]:
df.head()

O método ``loc`` faz seleção usando o index do data frame, tanto para linha como para coluna. 

``df.loc[rows, cols]``

In [None]:
df.loc[5:10]

In [None]:
df.loc[10:12, ['X','Z']]

In [None]:
df

O método ``iloc`` faz seleção usando a posição dos dados no data frame, tanto para linha como para coluna. 

In [None]:
df.iloc[2]

In [None]:
df.iloc[5:10]

In [None]:
df.iloc[5:10, 2]

#### Diferenciando LOC x ILOC

In [None]:
n_rows = df.shape[0]
meses = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'out', 'nov', 'dez'] * 2
df['mes'] = random.sample(meses, n_rows)

In [None]:
df

In [None]:
%%time
df.set_index('mes', inplace=True)

In [None]:
df.head()

In [None]:
df.loc['fev', ['X','W']]

In [None]:
df.reset_index(inplace=True)

### 2.2 Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [None]:
df.head()

In [None]:
filter_W_positivo = df['W'] > 0
filter_W_negativo = df['W'] < 0

In [None]:
df[filter_W_positivo]

Para duas condições, você pode usar ``|`` e ``&`` com parênteses:

In [None]:
filter_W_Y_positivo = (df['W']>0) & (df['Y'] > 0)

In [None]:
df[filter_W_Y_positivo]

Você pode selecionar dados fazendo verificações de dados de texto baseado em regex

In [None]:
df[df['mes'].str.contains('a')]

Mêses que começa com a ``letra a``

In [None]:
df[df['mes'].str.contains('^a')]

In [None]:
df[df['mes'].str.contains('^[a-z]')]

### 2.3 Seleção por tipos de dados

In [None]:
df['J'] = df['W'].astype(int)

In [None]:
df.info()

In [None]:
df.select_dtypes(exclude=['object','int'])

In [None]:
df.select_dtypes(include='int')

In [None]:
df.select_dtypes(include='float')

### 2.4 Seleção a partir de uma lista de valores

In [None]:
lista_mes = ['jun', 'fev', 'jul']

In [None]:
df[df['mes'].isin(lista_mes)]