<a href="https://colab.research.google.com/github/FGalvao77/-DICAS-Uso-de-ferramentas-para-Data-Science-e-afins/blob/main/%5BDICAS%5D_Compara%C3%A7%C3%A3o_de_comandos_SQL_com_a_biblioteca_PandaSQL_e_o_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **[DICAS] - Comparação de comandos `SQL` com a biblioteca _PandaSQL_ e o _Pandas_**
---

Nesse notebook, iremos realizar a comparação de comandos **SQL** utilizando as bibliotecas [PandaSQL](https://pypi.org/project/pandasql/) e o próprio _Pandas_ para realizar consultas (queries) de uma base de dados. 

Veremos as particularidades de cada _library_ e, entender a sintaxe básica para realizar as consultas.

E para nossa atividade prática utilizaremos o _dataset_ `tips.csv`.

In [1]:
# importando as bibliotecas iniciais
import pandas as pd         
import numpy as np          

In [2]:
# importando o conjunto de dados da url
url = (
    'https://raw.github.com/pandas-dev'
    '/pandas/main/pandas/tests/io/data/csv/tips.csv'
)

In [3]:
# instanciando o conjunto de dados no objeto "tips"
tips = pd.read_csv(url)

In [4]:
# visualizando as 5 primeiras observações
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [5]:
# informações gerais do conjunto dre dados
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


Agora iremos realizar a instalação da biblioteca _pandasql_.

In [6]:
!pip install pandasql

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [7]:
# importando a biblioteca
import pandasql as ps

- **Sintaxe para uso do _pandasql_.**

 - 1o: iremos definir nossa _query_:
 ```python
 query = (
     '''
     SELECT *
     FROM data
     '''
 )
 ```

 - 2o: visualizando o retorno da _query_:
 ```python
 ps.sqldf(query, locals())
 ```


 Vamos pra prática!

<font size=4>**SELECT**</font>

No SQL, a seleção é feita usando uma lista de colunas separadas por vírgulas que você gostaria de selecionar (ou um "*" para selecionar todas as colunas):

In [8]:
# instanciando nossa primeira "query" e selecionando todas as colunas com o uso do "*"
query = (
    '''
    SELECT *
    FROM tips;
    '''
)

In [9]:
# visualizando o retorno da consulta
ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [10]:
# selecionando algumas colunas de interesse
query = (
    '''
    SELECT total_bill, tip , smoker, time
    FROM tips;
    '''
)

In [11]:
# visualizando o retorno da consulta
ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,smoker,time
0,16.99,1.01,No,Dinner
1,10.34,1.66,No,Dinner
2,21.01,3.50,No,Dinner
3,23.68,3.31,No,Dinner
4,24.59,3.61,No,Dinner
...,...,...,...,...
239,29.03,5.92,No,Dinner
240,27.18,2.00,Yes,Dinner
241,22.67,2.00,Yes,Dinner
242,17.82,1.75,No,Dinner


Com pandas, a seleção de coluna é feita passando uma lista de nomes de coluna para seu DataFrame:

In [12]:
tips[['total_bill', 'tip', 'smoker', 'time']]

Unnamed: 0,total_bill,tip,smoker,time
0,16.99,1.01,No,Dinner
1,10.34,1.66,No,Dinner
2,21.01,3.50,No,Dinner
3,23.68,3.31,No,Dinner
4,24.59,3.61,No,Dinner
...,...,...,...,...
239,29.03,5.92,No,Dinner
240,27.18,2.00,Yes,Dinner
241,22.67,2.00,Yes,Dinner
242,17.82,1.75,No,Dinner


Chamar o DataFrame sem a lista de nomes de coluna exibiria todas as colunas (semelhante ao SQL "*").

No SQL, você pode adicionar uma coluna calculada:

In [13]:
query = (
    '''
    SELECT *, tip/total_bill as tip_rate
    FROM tips;
    '''
)

In [14]:
ps.sqldf(query, locals()).head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_rate
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


Com pandas, você pode usar o método de um DataFrame `DataFrame.assign()` para anexar uma nova coluna:

In [15]:
tips.assign(tip_rate=tips['tip'] / tips['total_bill']).head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_rate
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


<font size=4>**WHERE**</font>

A filtragem no SQL é feita por meio de uma cláusula `WHERE`.

In [16]:
query = (
    '''
    SELECT *
    FROM tips
    WHERE time = 'Dinner';
    '''
)

In [17]:
ps.sqldf(query, locals()).head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


Os DataFrames podem ser filtrados de várias maneiras; o mais intuitivo é usar a indexação booleana .

In [18]:
tips[tips['total_bill'] > 10].head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2
10,10.27,1.71,Male,No,Sun,Dinner,2


A instrução acima está simplesmente passando uma _Series_ de objetos `True/False` para o DataFrame, retornando todas as linhas com `True`.

In [19]:
is_dinner = tips['time'] == 'Dinner'

In [20]:
is_dinner

0      True
1      True
2      True
3      True
4      True
       ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool

In [21]:
is_dinner.value_counts()

True     176
False     68
Name: time, dtype: int64

In [22]:
tips[is_dinner].head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


Assim como o `OR` e `AND` do _SQL_, várias condições podem ser passadas para um DataFrame usando | OR (OU) e & (E).

Gorjetas de mais de $ 5 nas refeições do jantar:

In [23]:
query = (
    '''
    SELECT *
    FROM tips
    WHERE time = 'Dinner' AND tip > 5.00;
    '''
)

In [24]:
ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,39.42,7.58,Male,No,Sat,Dinner,4
1,30.4,5.6,Male,No,Sun,Dinner,4
2,32.4,6.0,Male,No,Sun,Dinner,4
3,34.81,5.2,Female,No,Sun,Dinner,4
4,48.27,6.73,Male,No,Sat,Dinner,4
5,29.93,5.07,Male,No,Sun,Dinner,4
6,29.85,5.14,Female,No,Sun,Dinner,5
7,50.81,10.0,Male,Yes,Sat,Dinner,3
8,7.25,5.15,Male,Yes,Sun,Dinner,2
9,23.33,5.65,Male,Yes,Sun,Dinner,2


In [25]:
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
23,39.42,7.58,Male,No,Sat,Dinner,4
44,30.4,5.6,Male,No,Sun,Dinner,4
47,32.4,6.0,Male,No,Sun,Dinner,4
52,34.81,5.2,Female,No,Sun,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
116,29.93,5.07,Male,No,Sun,Dinner,4
155,29.85,5.14,Female,No,Sun,Dinner,5
170,50.81,10.0,Male,Yes,Sat,Dinner,3
172,7.25,5.15,Male,Yes,Sun,Dinner,2
181,23.33,5.65,Male,Yes,Sun,Dinner,2


Gorjetas de grupos de pelo menos 5 clientes OU o total da conta foi superior a US$ 45:

In [26]:
query = (
    '''
    SELECT *
    FROM tips
    WHERE size >= 5.00 OR total_bill > 45.00;
    '''
)

In [27]:
ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,48.27,6.73,Male,No,Sat,Dinner,4
1,29.8,4.2,Female,No,Thur,Lunch,6
2,34.3,6.7,Male,No,Thur,Lunch,6
3,41.19,5.0,Male,No,Thur,Lunch,5
4,27.05,5.0,Female,No,Thur,Lunch,6
5,29.85,5.14,Female,No,Sun,Dinner,5
6,48.17,5.0,Male,No,Sun,Dinner,6
7,50.81,10.0,Male,Yes,Sat,Dinner,3
8,45.35,3.5,Male,Yes,Sun,Dinner,3
9,20.69,5.0,Male,No,Sun,Dinner,5


In [28]:
tips[(tips['size'] >= 5.00) | (tips['total_bill'] > 45.00)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
59,48.27,6.73,Male,No,Sat,Dinner,4
125,29.8,4.2,Female,No,Thur,Lunch,6
141,34.3,6.7,Male,No,Thur,Lunch,6
142,41.19,5.0,Male,No,Thur,Lunch,5
143,27.05,5.0,Female,No,Thur,Lunch,6
155,29.85,5.14,Female,No,Sun,Dinner,5
156,48.17,5.0,Male,No,Sun,Dinner,6
170,50.81,10.0,Male,Yes,Sat,Dinner,3
182,45.35,3.5,Male,Yes,Sun,Dinner,3
185,20.69,5.0,Male,No,Sun,Dinner,5


A verificação de **NULL** é feita usando os métodos `notna()` e `isna()`.

In [29]:
frame = pd.DataFrame(
    {'col_1': ['A', 'B', np.NaN, 'C', 'D'],
     'col_2': ['F', np.NaN, 'G', 'H', 'I']}
)

frame

Unnamed: 0,col_1,col_2
0,A,F
1,B,
2,,G
3,C,H
4,D,I


Suponha que temos uma tabela com a mesma estrutura do nosso DataFrame acima. Podemos ver apenas os registros onde **col_2** `IS NUL` com a seguinte consulta:

In [30]:
query = (
    '''
    SELECT *
    FROM frame
    WHERE col_2 IS NULL;
    '''
)

In [31]:
ps.sqldf(query, locals())

Unnamed: 0,col_1,col_2
0,B,


In [32]:
frame[frame['col_2'].isna()]

Unnamed: 0,col_1,col_2
1,B,


Obtendo itens onde **col_1** `IS NOT NULL` pode ser feito com `notna()`.

In [33]:
query = (
    '''
    SELECT *
    FROM frame
    WHERE col_1 IS NOT NULL;
    '''
)

In [34]:
ps.sqldf(query, locals())

Unnamed: 0,col_1,col_2
0,A,F
1,B,
2,C,H
3,D,I


In [35]:
frame[frame['col_1'].notna()]

Unnamed: 0,col_1,col_2
0,A,F
1,B,
3,C,H
4,D,I


<font size=4>**GROUP BY**</font>

Nos _pandas_, as operações `GROUP BY` do **SQL** são executadas usando o método `groupby()` de nome semelhante. `groupby()` normalmente se refere a um processo em que gostaríamos de dividir um conjunto de dados em grupos, aplique alguma função (normalmente agregação) e, em seguida, combine os grupos.


Uma operação SQL comum seria obter a contagem de registros em cada grupo em um conjunto de dados. Por exemplo, uma consulta que nos dá o número de dicas deixadas por sexo:

In [36]:
query = (
    '''
    SELECT sex, COUNT(*)
    FROM tips
    GROUP BY sex;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,sex,COUNT(*)
0,Female,87
1,Male,157


O equivalente dos pandas seria:

In [37]:
tips.groupby('sex').size()

sex
Female     87
Male      157
dtype: int64

Observe que no código do pandas usamos `size()` e não `count()`. Isso ocorre porque `count()` aplica a função a cada coluna, retornando o número de registros `NOT NULL` em cada uma.

In [38]:
tips.groupby('sex').count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,87,87,87,87,87,87
Male,157,157,157,157,157,157


Alternativamente, poderíamos ter aplicado o método `count()` a uma coluna individual:

In [39]:
tips.groupby('sex')['total_bill'].count()

sex
Female     87
Male      157
Name: total_bill, dtype: int64

Várias funções também podem ser aplicadas de uma só vez. Por exemplo, digamos que gostaríamos de ver como o valor da gorjeta difere por dia da semana - `agg()` permite que você passe um dicionário para seu DataFrame agrupado, indicando quais funções aplicar a colunas específicas.

In [40]:
query = (
    '''
    SELECT day, AVG(tip), COUNT(*)
    FROM tips
    GROUP BY day;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,day,AVG(tip),COUNT(*)
0,Fri,2.734737,19
1,Sat,2.993103,87
2,Sun,3.255132,76
3,Thur,2.771452,62


In [41]:
tips.groupby('day').agg({'tip': np.mean,
                         'day': np.size})

Unnamed: 0_level_0,tip,day
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,2.734737,19
Sat,2.993103,87
Sun,3.255132,76
Thur,2.771452,62


O agrupamento por mais de uma coluna é feito passando uma lista de colunas para o método `groupby()`.

In [42]:
query = (
    '''
    SELECT smoker, day, COUNT(*), AVG(tip)
    FROM tips
    GROUP BY smoker, day;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,smoker,day,COUNT(*),AVG(tip)
0,No,Fri,4,2.8125
1,No,Sat,45,3.102889
2,No,Sun,57,3.167895
3,No,Thur,45,2.673778
4,Yes,Fri,15,2.714
5,Yes,Sat,42,2.875476
6,Yes,Sun,19,3.516842
7,Yes,Thur,17,3.03


In [43]:
tips.groupby(['smoker', 'day']).agg({'tip': [np.size, np.mean]})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip,tip
Unnamed: 0_level_1,Unnamed: 1_level_1,size,mean
smoker,day,Unnamed: 2_level_2,Unnamed: 3_level_2
No,Fri,4,2.8125
No,Sat,45,3.102889
No,Sun,57,3.167895
No,Thur,45,2.673778
Yes,Fri,15,2.714
Yes,Sat,42,2.875476
Yes,Sun,19,3.516842
Yes,Thur,17,3.03


<font size=4>**JOIN**</font>

**JOIN's** podem ser executados com `join()` ou `merge()`. Por padrão, `join()` unirá os DataFrames em seus índices. Cada método tem parâmetros que permitem especificar o tipo de junção a ser executada (_LEFT, RIGHT, INNER, FULL_) ou as colunas para junção (nomes de colunas ou índices).

⚠ **Aviso**

Se ambas as colunas de chave contiverem linhas em que a chave é um valor nulo, essas linhas serão comparadas entre si. Isso é diferente do comportamento normal de junção do SQL e pode levar a resultados inesperados.

In [44]:
df_1 = pd.DataFrame(
    {'key': ['A', 'B', 'C', 'D'], 
     'value': np.random.randn(4)}, 
     np.random.seed(42)
)

df_2 = pd.DataFrame(
    {'key': ['B', 'D', 'D', 'E'], 
     'value': np.random.randn(4)},
     np.random.seed(25)
)

In [45]:
display(df_1)
print()
display(df_2)

Unnamed: 0,key,value
0,A,0.769543
1,B,1.108743
2,C,0.258253
3,D,0.538865





Unnamed: 0,key,value
0,B,0.496714
1,D,-0.138264
2,D,0.647689
3,E,1.52303


Suponha que temos duas tabelas de banco de dados com o mesmo nome e estrutura de nossos DataFrames. 

Agora vamos ver os vários tipos de `JOINs`.

<font size=4>**INNER JOIN**</font>

In [46]:
query = (
    '''
    SELECT *
    FROM df_1
    INNER JOIN df_2
        ON df_1.key = df_2.key
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,key,value,key.1,value.1
0,B,1.108743,B,0.496714
1,D,0.538865,D,-0.138264
2,D,0.538865,D,0.647689


In [47]:
# o método "merge" executa um INNER JOIN por padrão
pd.merge(df_1, df_2, on='key')

Unnamed: 0,key,value_x,value_y
0,B,1.108743,0.496714
1,D,0.538865,-0.138264
2,D,0.538865,0.647689


`merge()` também oferece parâmetros para casos em que você deseja unir a coluna de um DataFrame com o índice de outro DataFrame.

In [48]:
indexed_df_2 = df_2.set_index('key')

pd.merge(df_1, indexed_df_2, left_on='key', right_index=True)

Unnamed: 0,key,value_x,value_y
1,B,1.108743,0.496714
3,D,0.538865,-0.138264
3,D,0.538865,0.647689


<font size=4>**LEFT OUTER JOIN**</font>

Mostrar todos os registros de df_1.

In [49]:
query = (
    '''
    SELECT *
    FROM df_1
    LEFT OUTER JOIN df_2
        ON df_1.key = df_2.key;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,key,value,key.1,value.1
0,A,0.769543,,
1,B,1.108743,B,0.496714
2,C,0.258253,,
3,D,0.538865,D,-0.138264
4,D,0.538865,D,0.647689


In [50]:
pd.merge(df_1, df_2, on='key', how='left')

Unnamed: 0,key,value_x,value_y
0,A,0.769543,
1,B,1.108743,0.496714
2,C,0.258253,
3,D,0.538865,-0.138264
4,D,0.538865,0.647689


<font size=4>**RIGHT JOIN**</font>

Mostrar todos os registros de df2.



```sql
--- método não presente no "pandasql"
SELECT *
FROM df_1
RIGHT OUTER JOIN df_2
  ON df_1.key = df_2.key;
```

⚠ _Uma solução possível é utilizar a_ `LEFT OUTER JOIN`.

In [51]:
query = (
    '''
    SELECT *
    FROM df_2
    LEFT OUTER JOIN df_1
        ON df_2.key = df_1.key;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,key,value,key.1,value.1
0,B,0.496714,B,1.108743
1,D,-0.138264,D,0.538865
2,D,0.647689,D,0.538865
3,E,1.52303,,


In [52]:
pd.merge(df_1, df_2, on='key', how='right')

Unnamed: 0,key,value_x,value_y
0,B,1.108743,0.496714
1,D,0.538865,-0.138264
2,D,0.538865,0.647689
3,E,,1.52303


<font size=4>**FULL JOIN**</font>

O pandas também permite `FULL JOINs`, que exibem ambos os lados do conjunto de dados, independentemente de as colunas unidas encontrarem uma correspondência. Até o momento, `FULL JOINs` não são suportados em todos os RDBMS (MySQL).

Mostra todos os registros de ambas as tabelas.

```sql
--- outro método não presente no "pandasql"
SELECT *
FROM df1
FULL OUTER JOIN df2
  ON df1.key = df2.key;
```

In [53]:
pd.merge(df_1, df_2, on='key', how='outer')

Unnamed: 0,key,value_x,value_y
0,A,0.769543,
1,B,1.108743,0.496714
2,C,0.258253,
3,D,0.538865,-0.138264
4,D,0.538865,0.647689
5,E,,1.52303


<font size=4>**UNION**</font>

`UNION ALL` pode ser realizado usando `concat()`.

In [54]:
df_1 = pd.DataFrame(
    {'city': ['São Paulo', 'Belo Horizonte', 
              'Porto Alegre', 'Rio de Janeiro'], 
     'rank': range(1, 5)}
)

df_2 = pd.DataFrame(
    {'city': ['São Paulo', 'Curitiba', 'João Pessoa'], 
     'rank': [1, 5, 6]}
)

In [55]:
df_1

Unnamed: 0,city,rank
0,São Paulo,1
1,Belo Horizonte,2
2,Porto Alegre,3
3,Rio de Janeiro,4


In [56]:
df_2

Unnamed: 0,city,rank
0,São Paulo,1
1,Curitiba,5
2,João Pessoa,6


In [57]:
query = (
    '''
    SELECT city, rank
    FROM df_1
    UNION ALL
    SELECT city, rank
    FROM df_2
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,city,rank
0,São Paulo,1
1,Belo Horizonte,2
2,Porto Alegre,3
3,Rio de Janeiro,4
4,São Paulo,1
5,Curitiba,5
6,João Pessoa,6


In [58]:
pd.concat([df_1, df_2])

Unnamed: 0,city,rank
0,São Paulo,1
1,Belo Horizonte,2
2,Porto Alegre,3
3,Rio de Janeiro,4
0,São Paulo,1
1,Curitiba,5
2,João Pessoa,6


O `UNION` do SQL é semelhante ao `UNION ALL`, porém o `UNION ` removerá as linhas duplicadas.

In [59]:
query = (
    '''
    SELECT rank, city
    FROM df_1
    UNION
    SELECT rank, city
    FROM df_2
    '''
)

# observe que há apenas um registro de São Paulo desta vez
ps.sqldf(query, locals())

Unnamed: 0,rank,city
0,1,São Paulo
1,2,Belo Horizonte
2,3,Porto Alegre
3,4,Rio de Janeiro
4,5,Curitiba
5,6,João Pessoa


Em pandas, você pode usar `concat()` em conjunto com `drop_duplicates()`.

In [60]:
pd.concat([df_1, df_2]).drop_duplicates()

Unnamed: 0,city,rank
0,São Paulo,1
1,Belo Horizonte,2
2,Porto Alegre,3
3,Rio de Janeiro,4
1,Curitiba,5
2,João Pessoa,6


<font size=4>**LIMIT**</font>

In [61]:
query = (
    '''
    SELECT *
    FROM tips
    LIMIT 10;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


**equivalentes de pandas para algumas funções analíticas e agregadas SQL**

N linhas superiores com deslocamento

In [62]:
query = (
    '''
    SELECT *
    FROM tips
    ORDER BY tip DESC
    LIMIT 10 OFFSET 5;
    '''
)

ps.sqldf(query, locals())

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,23.17,6.5,Male,Yes,Sun,Dinner,4
1,28.17,6.5,Female,Yes,Sat,Dinner,3
2,32.4,6.0,Male,No,Sun,Dinner,4
3,29.03,5.92,Male,No,Sat,Dinner,3
4,24.71,5.85,Male,No,Thur,Lunch,2
5,23.33,5.65,Male,Yes,Sun,Dinner,2
6,30.4,5.6,Male,No,Sun,Dinner,4
7,34.81,5.2,Female,No,Sun,Dinner,4
8,34.83,5.17,Female,No,Thur,Lunch,4
9,25.89,5.16,Male,Yes,Sat,Dinner,4


N linhas superiores por grupo

```sql
-- função analítica ROW_NUMBER() do Oracle
SELECT * FROM (
  SELECT
    t.*,
    ROW_NUMBER() OVER(PARTITION BY day ORDER BY total_bill DESC) AS rn
  FROM tips t
)
WHERE rn < 3
ORDER BY day, rn;
```

In [63]:
(
    tips.assign(
        rn=tips.sort_values(['total_bill'], 
                            ascending=False)
        .groupby(['day'])
        .cumcount()
        + 1
    )
    .query('rn < 3')
    .sort_values(['day', 'rn'])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rn
95,40.17,4.73,Male,Yes,Fri,Dinner,4,1
90,28.97,3.0,Male,Yes,Fri,Dinner,2,2
170,50.81,10.0,Male,Yes,Sat,Dinner,3,1
212,48.33,9.0,Male,No,Sat,Dinner,4,2
156,48.17,5.0,Male,No,Sun,Dinner,6,1
182,45.35,3.5,Male,Yes,Sun,Dinner,3,2
197,43.11,5.0,Female,Yes,Thur,Lunch,4,1
142,41.19,5.0,Male,No,Thur,Lunch,5,2


o mesmo usando a função `rank(method='first')`

In [64]:
(
    tips.assign(
        rnk=tips.groupby(['day'])['total_bill']
        .rank(
            method='first', ascending=False
        )
    )
    .query('rnk < 3')
    .sort_values(['day', 'rnk'])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rnk
95,40.17,4.73,Male,Yes,Fri,Dinner,4,1.0
90,28.97,3.0,Male,Yes,Fri,Dinner,2,2.0
170,50.81,10.0,Male,Yes,Sat,Dinner,3,1.0
212,48.33,9.0,Male,No,Sat,Dinner,4,2.0
156,48.17,5.0,Male,No,Sun,Dinner,6,1.0
182,45.35,3.5,Male,Yes,Sun,Dinner,3,2.0
197,43.11,5.0,Female,Yes,Thur,Lunch,4,1.0
142,41.19,5.0,Male,No,Thur,Lunch,5,2.0


```sql
-- função analítica RANK() do Oracle
SELECT * FROM (
  SELECT
    t.*,
    RANK() OVER(PARTITION BY sex ORDER BY tip) AS rnk
  FROM tips t
  WHERE tip < 2
)
WHERE rnk < 3
ORDER BY sex, rnk;
```

Vamos encontrar _tips_ com (classificação < 3) por grupo de gênero para (tips < 2). Observe que ao usar a função `rank(method='min')`, _rnk_min_ permanece o mesmo para a mesma _tip_ (como a função `RANK()` do Oracle)

In [65]:
(
    tips[tips['tip'] < 2]
    .assign(rnk_min=tips.groupby(['sex'])['tip'].rank(method='min'))
    .query('rnk_min < 3')
    .sort_values(['sex', 'rnk_min'])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rnk_min
67,3.07,1.0,Female,Yes,Sat,Dinner,1,1.0
92,5.75,1.0,Female,Yes,Fri,Dinner,2,1.0
111,7.25,1.0,Female,No,Sat,Dinner,1,1.0
236,12.6,1.0,Male,Yes,Sat,Dinner,2,1.0
237,32.83,1.17,Male,Yes,Sat,Dinner,2,2.0


<font size=4>**UPDATE**</font>

```sql
UPDATE tips
SET tip = tip*2
WHERE tip < 2;
```

In [66]:
tips_copy = tips.copy()

In [67]:
tips_copy.loc[tips_copy["tip"] < 2, "tip"] *= 2

In [68]:
display(tips, tips_copy)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,2.02,Female,No,Sun,Dinner,2
1,10.34,3.32,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,3.50,Male,No,Sat,Dinner,2


<font size=4>**DELETE**</font>

In [69]:
query = (
    '''
    DELETE FROM tips
    WHERE tip > 9;
    '''
)

ps.sqldf(query, locals())

In [70]:
tips['tip'] == 9

0      False
1      False
2      False
3      False
4      False
       ...  
239    False
240    False
241    False
242    False
243    False
Name: tip, Length: 244, dtype: bool

Nos pandas, selecionamos as linhas que devem permanecer em vez de excluí-las:

In [71]:
tips = tips.loc[tips["tip"] <= 9]

**CONSIDERAÇÕES FINAIS:**

Note que a utilização do pandas para realizar consultas as vezes apresenta uma sintaxe um tanto "complexa" em relação ao SQL. Portanto a utilização da biblioteca (pandas) depende do nível de conhecimento da mesma.

Particularmente, acho a sintaxe do SQL, para realização de algumas _queries_ muito mais intuitiva e de leitura mais fácil.




**REFERÊNCIA:**

- https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html