# Aula 08 - Consulta e Manipulação de Dataframes

## Consulta a Dataframes

- Podemos fazer **consultas** em um dataframe. Isso se assemelha à linhagem SQL

- Existem métodos interessantes para fazer consultas usando operadores lógicos ( > , < , == , != , >= , <= )

- Além disso, podemos fazer consultas usando instruções de agrupamento, por exemplo

In [0]:
import pandas as pd

In [2]:
path = '/content/drive/My Drive/Colab Notebooks/Data Science do ZERO/5 - Python para Análise de Dados/Materiais Disponibilizados/Pandas - Materiais de Apoio/kc_house_data.csv'
df = pd.read_csv(path,sep=',')
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3.0,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2.0,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4.0,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3.0,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### pd.value_counts (df.feature)

- Retorna a quantidade de cada valor único de determinada feature
- Retorna a contagem de cada valor único pertencente a uma coluna
- Esse método se aplica a SERIES e não à dataframes
- Esse método não persiste na memória (não altera o df)

In [3]:
pd.value_counts(df.bedrooms) # pd.value_counts(df['bedrooms'])

3.0     9822
4.0     6881
2.0     2759
5.0     1601
6.0      272
1.0      199
7.0       38
8.0       13
0.0       13
9.0        6
10.0       3
11.0       1
33.0       1
Name: bedrooms, dtype: int64

### df.loc [ df [ 'feature' ] == n ]

- O método "loc" realiza consultas através de operadores lógicos
- As informações desse método não persistem na memória (não alteram o df). Deve-se declarar uma variável para tal

In [4]:
# Consulta dos imóveis com número de quartos igual a 3
df.loc[df['bedrooms'] == 3]

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3.0,1.00,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
4,1954400510,20150218T000000,510000.0,3.0,2.00,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
6,1321400060,20140627T000000,257500.0,3.0,2.25,1715,6819,2.0,0,0,3,7,1715,0,1995,0,98003,47.3097,-122.327,2238,6819
7,2008000270,20150115T000000,291850.0,3.0,1.50,1060,9711,1.0,0,0,3,7,1060,0,1963,0,98198,47.4095,-122.315,1650,9711
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21603,7852140040,20140825T000000,507250.0,3.0,2.50,2270,5536,2.0,0,0,3,8,2270,0,2003,0,98065,47.5389,-121.881,2270,5731
21604,9834201367,20150126T000000,429000.0,3.0,2.00,1490,1126,3.0,0,0,3,8,1490,0,2014,0,98144,47.5699,-122.288,1400,1230
21607,2997800021,20150219T000000,475000.0,3.0,2.50,1310,1294,2.0,0,0,3,8,1180,130,2008,0,98116,47.5773,-122.409,1330,1265
21608,263000018,20140521T000000,360000.0,3.0,2.50,1530,1131,3.0,0,0,3,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509


In [5]:
# Consulta de número de quartos igual a 3 e (&) número de banheiros maior que 2
df.loc[(df['bedrooms'] == 3) & (df['bathrooms'] > 2)]

# & --> AND (interseção)
# | --> OR (união)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
6,1321400060,20140627T000000,257500.0,3.0,2.25,1715,6819,2.0,0,0,3,7,1715,0,1995,0,98003,47.3097,-122.327,2238,6819
9,3793500160,20150312T000000,323000.0,3.0,2.50,1890,6560,2.0,0,0,3,7,1890,0,2003,0,98038,47.3684,-122.031,2390,7570
10,1736800520,20150403T000000,662500.0,3.0,2.50,3560,9796,1.0,0,0,3,8,1860,1700,1965,0,98007,47.6007,-122.145,2210,8925
21,2524049179,20140826T000000,2000000.0,3.0,2.75,3050,44867,1.0,0,4,3,9,2330,720,1968,0,98040,47.5316,-122.233,4110,20336
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21601,5100403806,20150407T000000,467000.0,3.0,2.50,1425,1179,3.0,0,0,3,8,1425,0,2008,0,98125,47.6963,-122.318,1285,1253
21603,7852140040,20140825T000000,507250.0,3.0,2.50,2270,5536,2.0,0,0,3,8,2270,0,2003,0,98065,47.5389,-121.881,2270,5731
21607,2997800021,20150219T000000,475000.0,3.0,2.50,1310,1294,2.0,0,0,3,8,1180,130,2008,0,98116,47.5773,-122.409,1330,1265
21608,263000018,20140521T000000,360000.0,3.0,2.50,1530,1131,3.0,0,0,3,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509


## df.sort_values (by = 'feature' , ascending = bool)

- Ordena o df de acordo com a feature selecionada no parâmetro "by"
- Parâmetro "ascending":
    - True --> ordem crescente (default)
    - False --> ordem decrescente
- As informações desse método não persistem na memória. Deve-se salvar em uma variável para persistir

In [6]:
df.sort_values (by='price',ascending = False)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
7252,6762700020,20141013T000000,7700000.0,6.0,8.00,12050,27600,2.5,0,3,4,13,8570,3480,1910,1987,98102,47.6298,-122.323,3940,8800
3914,9808700762,20140611T000000,7062500.0,5.0,4.50,10040,37325,2.0,1,2,3,11,7680,2360,1940,2001,98004,47.6500,-122.214,3930,25449
9254,9208900037,20140919T000000,6885000.0,6.0,7.75,9890,31374,2.0,0,4,3,13,8860,1030,2001,0,98039,47.6305,-122.240,4540,42730
4411,2470100110,20140804T000000,5570000.0,5.0,5.75,9200,35069,2.0,0,0,3,13,6200,3000,2001,0,98039,47.6289,-122.233,3560,24345
1448,8907500070,20150413T000000,5350000.0,5.0,5.00,8000,23985,2.0,0,4,3,12,6720,1280,2009,0,98004,47.6232,-122.220,4600,21750
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8274,3883800011,20141105T000000,82000.0,3.0,1.00,860,10426,1.0,0,0,3,6,860,0,1954,0,98146,47.4987,-122.341,1140,11250
16198,3028200080,20150324T000000,81000.0,2.0,1.00,730,9975,1.0,0,0,1,5,730,0,1943,0,98168,47.4808,-122.315,860,9000
465,8658300340,20140523T000000,80000.0,1.0,0.75,430,5050,1.0,0,0,2,4,430,0,1912,0,98014,47.6499,-121.909,1200,7500
15293,40000362,20140506T000000,78000.0,2.0,1.00,780,16344,1.0,0,0,1,5,780,0,1942,0,98168,47.4739,-122.280,1700,10387


### df [ df [ 'feature' ] == n ].count( )

- Faz a contagem de linhas resultantes (para cada atributo) de uma busca por operadores lógicos em um df

In [7]:
df [df['bedrooms'] == 3].count()

id               9822
date             9822
price            9822
bedrooms         9822
bathrooms        9822
sqft_living      9822
sqft_lot         9822
floors           9822
waterfront       9822
view             9822
condition        9822
grade            9822
sqft_above       9822
sqft_basement    9822
yr_built         9822
yr_renovated     9822
zipcode          9822
lat              9822
long             9822
sqft_living15    9822
sqft_lot15       9822
dtype: int64

## Manipulação de Dataframes

- Podemos manipular/alterar dataframes

- Podemos adicionar novas colunas, remover colunas, etc

In [8]:
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3.0,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2.0,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4.0,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3.0,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### df [ ' new_col ' ] = (df [ ' old_col' ] ) * n

- Criação de uma nova coluna a partir da operação de uma antiga coluna por uma constante (por exemplo)
- A criação de colunas persiste na memória (altera o df)

In [0]:
# Adição da coluna 'size' ao df. Essa nova coluna é resultado da multiplicação
# de cada elemento da coluna antiga 'bedrooms' por 20
df['size'] = (df['bedrooms'] * 20)

In [10]:
# Impressão das 5 primeiras linhas da nova coluna 'size'
df['size'].head()

# OBS.: não funciona df.size.head()

0    60.0
1    60.0
2    40.0
3    80.0
4    60.0
Name: size, dtype: float64

### Criação de Colunas a partir de Funções e Método "apply"

- Pode-se, inicialmente, criar uma função com estruturas condicionais (por exemplo)
- Com o método "apply" é possível chamar a função criada para cada linha de uma nova coluna criada
    
    **df [ 'new_col' ] = df [ 'col' ].apply (function_name)**

- Cria-se uma função para percorrer determinada coluna pré-existente de um df. Cria-se uma nova coluna cujos valores serão resultado da aplicação da função em cada linha da coluna pré-existente

In [0]:
# Criação de uma função para processamento dos dados
def cat (s):
  if s >= 80:
    return 'Big'
  elif s >= 60:
    return 'Medium'
  elif s >= 40:
    return 'Small'

In [0]:
# Criação de coluna 'cat_size'. Para cada linha da coluna antiga 'size',
# chama-se a função para categorizar o valor em 'big','medium' ou 'small'
df['cat_size'] = df['size'].apply(cat)

In [13]:
# Visualização das 5 primeiras linhas da nova coluna criada
df['cat_size'].head()

0    Medium
1    Medium
2     Small
3       Big
4    Medium
Name: cat_size, dtype: object

In [14]:
# Verificando a contagem dos valores únicos da nova coluna 'cat_size'
pd.value_counts(df['cat_size'])

Medium    9822
Big       8816
Small     2759
Name: cat_size, dtype: int64

### df.drop ( [ 'feature' ] , axis = 0/1 , inplace = bool)

- Remove linha/coluna de um df
- O primeiro parâmetro desse método é uma lista (no caso, a lista é constituída por todos os elementos da coluna "feature")
- Parâmetro "axis":
    - = 1 --> apaga coluna
    - = 0 --> apaga linha (default)
- Parâmetro "inplace":
    - = True --> a remoção PERSISTE na memória
    - = False --> a remoção NÃO PERSISTE na memória (default)

In [0]:
# Remoção definitiva da coluna 'cat_size'
df.drop(['cat_size'],axis=1,inplace=True)

In [0]:
# Remoção definitiva da coluna 'size'
df.drop(['size'],axis=1,inplace=True)

In [17]:
# Verificação do df após a remoção das colunas. De fato, ambas foram removidas
df.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3.0,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2.0,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4.0,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3.0,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


### df.drop( df [df.feature == n ].index ,inplace = bool)

- Remoção de LINHAS de um df a partir do método drop combinado com condições lógicas
- Remove as linhas de índice igual a "n" da coluna "feature"
- É o "delete" do SQL
- O primeiro parâmetro deste método é uma lista (no caso, uma lista de índices resultantes de um query)
- Parâmetro "inplace":
    - = True --> a remoção PERSISTE na memória
    - = False --> a remoção NÃO PERSISTE na memória (default)


In [0]:
# Dropa as linhas do df em que o número de quartos é igual a zero
df.drop(df[df.bedrooms == 0].index,inplace=True)

In [0]:
# Dropa as linhas do df, em que o número de quartos é maior que 30
df.drop(df[df.bedrooms > 30].index,inplace=True)

In [20]:
# Consulta aos valores únicos da coluna "bedrooms" após à remoção
pd.value_counts(df['bedrooms'])

3.0     9822
4.0     6881
2.0     2759
5.0     1601
6.0      272
1.0      199
7.0       38
8.0       13
9.0        6
10.0       3
11.0       1
Name: bedrooms, dtype: int64

# Aula 09 - Percorrendo Linhas de um Dataframe com os Métodos " iterrows ( ) " e " itertuples ( ) "

- Para percorrer as linhas de um df, um loop do tipo "for linha in df" não funciona. Nesse sentido, devemos usar o método **iterrows**
- Este método retorna um objeto do tipo ITERATOR. Esse objeto é uma SERIES e retorna o **índice** de cada linha e os **valores** presentes em cada linha
- Aplicando-se o método "iterrows" sobre um df, ele se torna um objeto do tipo iterável e, assim, podemos fazer loops com esse objeto
- O objeto retornado quando aplicamos esse método é uma TUPLA, cujo primeiro elemento é o índice da linha e o segundo elemento é uma series contendo o nome e valor de cada coluna
- Portanto, como uma tupla é IMUTÁVEL, o objeto iterator também o será. Para alterar valores de um objeto iterator, devemos usar o método **at [ ]**

In [22]:
# O tipo de objeto é "generator", ou seja, um tipo de "iterator"
type(df.iterrows())

generator

## next (df.iterrows ( ) )

- Imprime a primeira linha (índice 0) do objeto do tipo iterator

In [24]:
# Imprime a primeira linha(índice 0) do objeto iterator
next(df.iterrows())

(0, id                    7129300520
 date             20141013T000000
 price                     221900
 bedrooms                       3
 bathrooms                      1
 sqft_living                 1180
 sqft_lot                    5650
 floors                         1
 waterfront                     0
 view                           0
 condition                      3
 grade                          7
 sqft_above                  1180
 sqft_basement                  0
 yr_built                    1955
 yr_renovated                   0
 zipcode                    98178
 lat                      47.5112
 long                    -122.257
 sqft_living15               1340
 sqft_lot15                  5650
 Name: 0, dtype: object)

## Iterando sobre as 10 primeiras linhas de um df e imprimindo cada linha (valores e nomes das colunas) - iterrows ( )

In [25]:
for indice,linha in df.head(10).iterrows():
  print (indice,linha)

0 id                    7129300520
date             20141013T000000
price                     221900
bedrooms                       3
bathrooms                      1
sqft_living                 1180
sqft_lot                    5650
floors                         1
waterfront                     0
view                           0
condition                      3
grade                          7
sqft_above                  1180
sqft_basement                  0
yr_built                    1955
yr_renovated                   0
zipcode                    98178
lat                      47.5112
long                    -122.257
sqft_living15               1340
sqft_lot15                  5650
Name: 0, dtype: object
1 id                    6414100192
date             20141209T000000
price                     538000
bedrooms                       3
bathrooms                   2.25
sqft_living                 2570
sqft_lot                    7242
floors                         2
waterfront      

## Iterando sobre as 10 primeiras linhas de um df e imprimindo apenas alguns valores para determinadas colunas definidas (não imprime os nomes das colunas, só os valores) - iterrows ( )

- Aparentemente quando selecionamos os valores de apenas algumas colunas para serem impressos (fazendo isso a partir do nome das colunas), o loop imprime apenas os valores e não os nomes das colunas de cada valor

In [26]:
# Imprimindo APENAS OS VALORES das 10 primeiras linhas, para as colunas
# especificadas. Note que os NOMES das colunas não foram impressos
for indice,linha in df.head(10).iterrows():
  print(indice,linha['bedrooms'],linha['floors'],linha['price'])

0 3.0 1.0 221900.0
1 3.0 2.0 538000.0
2 2.0 1.0 180000.0
3 4.0 1.0 604000.0
4 3.0 1.0 510000.0
5 4.0 1.0 1225000.0
6 3.0 2.0 257500.0
7 3.0 1.0 291850.0
8 3.0 1.0 229500.0
9 3.0 2.0 323000.0


## Alterando Valores de Linhas de um Dataframe com método "at [ ] " em conjunto com "iterrows ( )"

- Como o objeto iterator é IMUTÁVEL (é tipo uma TUPLA), deve-se utilizar um método especial para efetuar modificações nesse tipo de objeto
- Esse método especial é o "at [ ] "
- Note que esse método recebe COLCHETES e não áspas
- Sintaxe do método:
      df.at [ index , 'col_name' ] = row [ 'col_name' ] * n

    - "index" e "row" são parâmetros do loop "for". No exemplo abaixo, eles são chamados de "indice" e "linha"

In [32]:
# Imprimindo os 5 primeiros valores de preço do df
# Note que a saída é uma series do Pandas
df.price.head()

0    221900.0
1    538000.0
2    180000.0
3    604000.0
4    510000.0
Name: price, dtype: float64

In [0]:
# Percorrendo e atualizando linhas de um dataframe
# Atualiza o valor da coluna "price", multiplicando seu valor por 2
for indice,linha in df.iterrows():
  df.at[indice, 'price'] = linha['price']*2

# NO (at) índice, o valor da coluna "price" será o valor de "price" * 2

In [34]:
# Imprimindo os 5 primeiros valores de preço após a alteração
df.price.head()

0     443800.0
1    1076000.0
2     360000.0
3    1208000.0
4    1020000.0
Name: price, dtype: float64

## Percorrendo Dataframes com Método " itertuples ( ) "

- Esse método retorna índices e linhas em formato de TUPLA, assim como o método "iterrows ( )". Entretanto, a saída é um pouco diferente
- Normalmente, é mais rápido que o método "iterrows ( )"
- Em bases pequenas para atualizar/editar linhas, o "iterrows( )" funciona bem, mas para bases grandes, o "iterrows ( )" é mais válido
- Outra diferença é que este método só recebe uma variável no loop "for" (i.e. a variável linha). Já no método "iterrows ( )", o loop "for" recebe duas variáveis (i.e. as variáveis indice e linha)

In [35]:
# Imprimindo cada linha do df. Repare que a saída é do tipo TUPLA, em que cada
# elemento da tupla é: col_name = value. O primeiro elemento é: index = n
for linha in df.head().itertuples():
  print (linha)

Pandas(Index=0, id=7129300520, date='20141013T000000', price=443800.0, bedrooms=3.0, bathrooms=1.0, sqft_living=1180, sqft_lot=5650, floors=1.0, waterfront=0, view=0, condition=3, grade=7, sqft_above=1180, sqft_basement=0, yr_built=1955, yr_renovated=0, zipcode=98178, lat=47.5112, long=-122.257, sqft_living15=1340, sqft_lot15=5650)
Pandas(Index=1, id=6414100192, date='20141209T000000', price=1076000.0, bedrooms=3.0, bathrooms=2.25, sqft_living=2570, sqft_lot=7242, floors=2.0, waterfront=0, view=0, condition=3, grade=7, sqft_above=2170, sqft_basement=400, yr_built=1951, yr_renovated=1991, zipcode=98125, lat=47.721000000000004, long=-122.319, sqft_living15=1690, sqft_lot15=7639)
Pandas(Index=2, id=5631500400, date='20150225T000000', price=360000.0, bedrooms=2.0, bathrooms=1.0, sqft_living=770, sqft_lot=10000, floors=1.0, waterfront=0, view=0, condition=3, grade=6, sqft_above=770, sqft_basement=0, yr_built=1933, yr_renovated=0, zipcode=98028, lat=47.7379, long=-122.23299999999999, sqft_li

In [39]:
# Imprimindo apenas valores das colunas especificadas para as 5 primeiras linhas
for linha in df.head().itertuples():
  print (linha.id, linha.price, linha.bedrooms)

# Repare que, quando se explicita o nome das colunas, nem o index, nem os nomes
# das colunas são impressos

7129300520 443800.0 3.0
6414100192 1076000.0 3.0
5631500400 360000.0 2.0
2487200875 1208000.0 4.0
1954400510 1020000.0 3.0
