# Comparação com SQL

Como muitos usuários de pandas em potencial têm alguma familiaridade com SQL, esta página destina-se a fornecer alguns exemplos de como várias operações SQL seriam executadas usando pandas.

In [34]:
# Importamos pandas e NumPy da seguinte forma:
import pandas as pd

import numpy as np

A maioria dos exemplos utilizará o tips que é o conjunto de dados encontrado nos testes do pandas. Iremos ler os dados em um DataFrame chamado tips assumiremos que temos uma tabela de banco de dados com o mesmo nome e estrutura.

In [35]:
url = (
    "https://raw.github.com/pandas-dev"
    "/pandas/master/pandas/tests/io/data/csv/tips.csv"
)


tips = pd.read_csv(url)

tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


# Cópias vs. operações no local

A maioria das operações de pandas retorna cópias do Series/ DataFrame. 

Para fazer as alterações “fixarem”, você precisará atribuir a uma nova variável:

sorted_df = df.sort_values("col1")

ou sobrescreva o original:

df = df.sort_values("col1")

# SELECIONAR

No SQL, a seleção é feita usando uma lista de colunas separadas por vírgulas que você gostaria de selecionar (ou um * para selecionar todas as colunas):

SELECT total_bill, tip, smoker, time
FROM tips;

Com pandas, a seleção de coluna é feita passando uma lista de nomes de coluna para seu DataFrame:

In [36]:
tips[["total_bill", "tip", "smoker", "time"]]

Unnamed: 0,total_bill,tip,smoker,time
0,16.99,1.01,No,Dinner
1,10.34,1.66,No,Dinner
2,21.01,3.50,No,Dinner
3,23.68,3.31,No,Dinner
4,24.59,3.61,No,Dinner
...,...,...,...,...
239,29.03,5.92,No,Dinner
240,27.18,2.00,Yes,Dinner
241,22.67,2.00,Yes,Dinner
242,17.82,1.75,No,Dinner


Chamar o DataFrame sem a lista de nomes de coluna exibiria todas as colunas (semelhante ao SQL *).

No SQL, você pode adicionar uma coluna calculada:

SELECT *, tip/total_bill as tip_rate
FROM tips;

Com pandas, você pode usar o DataFrame.assign() método de um DataFrame para anexar uma nova coluna:

In [37]:
tips.assign(tip_rate=tips["tip"] / tips["total_bill"])

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_rate
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


# ONDE/WHERE 

A filtragem no SQL é feita por meio de uma cláusula WHERE.

SELECT *
FROM tips
WHERE time = 'Dinner';

Os DataFrames podem ser filtrados de várias maneiras; o mais intuitivo é usar a indexação booleana.

In [38]:
tips[tips["total_bill"] > 10]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


A instrução acima está simplesmente passando um objeto Series de True/ False para o DataFrame, retornando todas as linhas com True.

In [39]:
is_dinner = tips["time"] == "Dinner"

is_dinner

0      True
1      True
2      True
3      True
4      True
       ... 
239    True
240    True
241    True
242    True
243    True
Name: time, Length: 244, dtype: bool

In [40]:
is_dinner.value_counts()

True     176
False     68
Name: time, dtype: int64

In [41]:
tips[is_dinner]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


Assim como SQL OR e AND, várias condições podem ser passadas para um DataFrame usando | (OR) e & (AND).

SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

tips[(tips["time"] == "Dinner") & (tips["tip"] > 5.00)]

SELECT *
FROM tips
WHERE size >= 5 OR total_bill > 45;

In [42]:
tips[(tips["size"] >= 5) | (tips["total_bill"] > 45)]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
59,48.27,6.73,Male,No,Sat,Dinner,4
125,29.8,4.2,Female,No,Thur,Lunch,6
141,34.3,6.7,Male,No,Thur,Lunch,6
142,41.19,5.0,Male,No,Thur,Lunch,5
143,27.05,5.0,Female,No,Thur,Lunch,6
155,29.85,5.14,Female,No,Sun,Dinner,5
156,48.17,5.0,Male,No,Sun,Dinner,6
170,50.81,10.0,Male,Yes,Sat,Dinner,3
182,45.35,3.5,Male,Yes,Sun,Dinner,3
185,20.69,5.0,Male,No,Sun,Dinner,5


In [43]:
frame = pd.DataFrame(
    {"col1": ["A", "B", np.NaN, "C", "D"], "col2": ["F", np.NaN, "G", "H", "I"]}
)


frame

Unnamed: 0,col1,col2
0,A,F
1,B,
2,,G
3,C,H
4,D,I


Suponha que temos uma tabela com a mesma estrutura do nosso DataFrame acima. Podemos ver apenas os registros onde col2 IS NULL com a seguinte consulta:

SELECT *
FROM frame
WHERE col2 IS NULL;

In [44]:
frame[frame["col2"].isna()]

Unnamed: 0,col1,col2
1,B,


Obter itens onde col1 IS NOT NULL pode ser feito com notna().

SELECT *
FROM frame
WHERE col1 IS NOT NULL;

In [45]:
frame[frame["col1"].notna()]

Unnamed: 0,col1,col2
0,A,F
1,B,
3,C,H
4,D,I


# AGRUPAR POR 

Nos pandas, as operações do SQL são executadas usando o método de nome semelhante. Normalmente se refere a um processo em que gostaríamos de dividir um conjunto de dados em grupos, aplicar alguma função (normalmente agregação) e, em seguida, combinar os grupos.GROUP BYgroupby()groupby()

Uma operação SQL comum seria obter a contagem de registros em cada grupo em um conjunto de dados. Por exemplo, uma consulta que nos dá o número de dicas deixadas por sexo:

SELECT sex, count(*)
FROM tips
GROUP BY sex;
/*
Female     87
Male      157
*/
O equivalente dos pandas seria:

In [46]:
tips.groupby("sex").size()

sex
Female     87
Male      157
dtype: int64

Observe que no código pandas usamos size() e não count(). Isso porque count() aplica a função a cada coluna, retornando o número de registros dentro de cada uma. NOT NULL

In [47]:
tips.groupby("sex").count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,87,87,87,87,87,87
Male,157,157,157,157,157,157


Alternativamente, poderíamos ter aplicado o count() método a uma coluna individual:

In [48]:
tips.groupby("sex")["total_bill"].count()

sex
Female     87
Male      157
Name: total_bill, dtype: int64

Várias funções também podem ser aplicadas de uma só vez. Por exemplo, digamos que gostaríamos de ver como o valor da gorjeta difere por dia da semana - agg() permite que você passe um dicionário para seu DataFrame agrupado, indicando quais funções aplicar a colunas específicas.

SELECT day, AVG(tip), COUNT(*)
FROM tips
GROUP BY day;
/*
Fri   2.734737   19
Sat   2.993103   87
Sun   3.255132   76
Thu  2.771452   62
*/

In [49]:
tips.groupby("day").agg({"tip": np.mean, "day": np.size})

Unnamed: 0_level_0,tip,day
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,2.734737,19
Sat,2.993103,87
Sun,3.255132,76
Thur,2.771452,62


O agrupamento por mais de uma coluna é feito passando uma lista de colunas para o groupby() método.

SELECT smoker, day, COUNT(*), AVG(tip)
FROM tips
GROUP BY smoker, day;

/*
smoker day
No     Fri      4  2.812500
       Sat     45  3.102889
       Sun     57  3.167895
       Thu    45  2.673778
Yes    Fri     15  2.714000
       Sat     42  2.875476
       Sun     19  3.516842
       Thu    17  3.030000
*/

In [50]:
tips.groupby(["smoker", "day"]).agg({"tip": [np.size, np.mean]})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip,tip
Unnamed: 0_level_1,Unnamed: 1_level_1,size,mean
smoker,day,Unnamed: 2_level_2,Unnamed: 3_level_2
No,Fri,4,2.8125
No,Sat,45,3.102889
No,Sun,57,3.167895
No,Thur,45,2.673778
Yes,Fri,15,2.714
Yes,Sat,42,2.875476
Yes,Sun,19,3.516842
Yes,Thur,17,3.03


# JUNTE-SE 

JOINs pode ser executado com join() ou merge(). 

Por padrão, join()irá juntar os DataFrames em seus índices. 

Cada método possui parâmetros que permitem especificar o tipo de junção a ser executada (LEFT, RIGHT, INNER, FULL) ou as colunas para junção (nomes de colunas ou índices).

In [51]:
df1 = pd.DataFrame({"key": ["A", "B", "C", "D"], "value": np.random.randn(4)})

df2 = pd.DataFrame({"key": ["B", "D", "D", "E"], "value": np.random.randn(4)})

Suponha que temos duas tabelas de banco de dados com o mesmo nome e estrutura de nossos DataFrames.

Agora vamos ver os vários tipos de JOINs.

# INNER JOIN 

SELECT *
FROM df1
INNER JOIN df2
  ON df1.key = df2.key;

In [52]:
# merge performs an INNER JOIN by default
pd.merge(df1, df2, on="key")

Unnamed: 0,key,value_x,value_y
0,B,-0.763435,-0.495719
1,D,-1.592176,1.229114
2,D,-1.592176,0.394714


merge() também oferece parâmetros para casos em que você deseja unir a coluna de um DataFrame com o índice de outro DataFrame.

In [53]:
indexed_df2 = df2.set_index("key")

pd.merge(df1, indexed_df2, left_on="key", right_index=True)

Unnamed: 0,key,value_x,value_y
1,B,-0.763435,-0.495719
3,D,-1.592176,1.229114
3,D,-1.592176,0.394714


# JUNÇÃO EXTERNA ESQUERDA 

Mostrar todos os registros de df1.

SELECT *
FROM df1
LEFT OUTER JOIN df2
  ON df1.key = df2.key;

In [54]:
pd.merge(df1, df2, on="key", how="left")

Unnamed: 0,key,value_x,value_y
0,A,-1.483617,
1,B,-0.763435,-0.495719
2,C,-0.583825,
3,D,-1.592176,1.229114
4,D,-1.592176,0.394714


# JUNÇÃO DIREITA 

Mostrar todos os registros de df2.

SELECT *
FROM df1
RIGHT OUTER JOIN df2
  ON df1.key = df2.key;

In [55]:
pd.merge(df1, df2, on="key", how="right")

Unnamed: 0,key,value_x,value_y
0,B,-0.763435,-0.495719
1,D,-1.592176,1.229114
2,D,-1.592176,0.394714
3,E,,-0.057774


# PARTICIPAÇÃO COMPLETA 

pandas também permite s, que exibem ambos os lados do conjunto de dados, independentemente de as colunas unidas encontrarem uma correspondência ou não. Até o momento, s não são suportados em todos os RDBMS (MySQL).FULL JOINFULL JOIN

Mostra todos os registros de ambas as tabelas.

SELECT *
FROM df1
FULL OUTER JOIN df2
  ON df1.key = df2.key;

In [56]:
pd.merge(df1, df2, on="key", how="outer")

Unnamed: 0,key,value_x,value_y
0,A,-1.483617,
1,B,-0.763435,-0.495719
2,C,-0.583825,
3,D,-1.592176,1.229114
4,D,-1.592176,0.394714
5,E,,-0.057774


# UNIÃO 

UNION ALL pode ser realizado usando concat().

In [57]:
df1 = pd.DataFrame(
    {"city": ["Chicago", "San Francisco", "New York City"], "rank": range(1, 4)}
)


df2 = pd.DataFrame(
    {"city": ["Chicago", "Boston", "Los Angeles"], "rank": [1, 4, 5]}
)


SELECT city, rank
FROM df1
UNION ALL
SELECT city, rank
FROM df2;
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
      Chicago     1
       Boston     4
  Los Angeles     5
*/

In [58]:
pd.concat([df1, df2])

Unnamed: 0,city,rank
0,Chicago,1
1,San Francisco,2
2,New York City,3
0,Chicago,1
1,Boston,4
2,Los Angeles,5


O SQL UNION

é semelhante ao , no entanto , removerá as linhas duplicadas.UNION ALLUNION

SELECT city, rank
FROM df1
UNION
SELECT city, rank
FROM df2;
-- notice that there is only one Chicago record this time
/*
         city  rank
      Chicago     1
San Francisco     2
New York City     3
       Boston     4
  Los Angeles     5
*/

Em pandas, você pode usar concat()em conjunto com drop_duplicates().

In [59]:
pd.concat([df1, df2]).drop_duplicates()

Unnamed: 0,city,rank
0,Chicago,1
1,San Francisco,2
2,New York City,3
1,Boston,4
2,Los Angeles,5


# LIMIT 

SELECT * FROM tips
LIMIT 10;

In [60]:
tips.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


Equivalentes de pandas para algumas funções analíticas e agregadas SQL 

N linhas superiores com deslocamento 
-- MySQL

SELECT * FROM tips
ORDER BY tip DESC
LIMIT 10 OFFSET 5;

In [61]:
tips.nlargest(10 + 5, columns="tip").tail(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
183,23.17,6.5,Male,Yes,Sun,Dinner,4
214,28.17,6.5,Female,Yes,Sat,Dinner,3
47,32.4,6.0,Male,No,Sun,Dinner,4
239,29.03,5.92,Male,No,Sat,Dinner,3
88,24.71,5.85,Male,No,Thur,Lunch,2
181,23.33,5.65,Male,Yes,Sun,Dinner,2
44,30.4,5.6,Male,No,Sun,Dinner,4
52,34.81,5.2,Female,No,Sun,Dinner,4
85,34.83,5.17,Female,No,Thur,Lunch,4
211,25.89,5.16,Male,Yes,Sat,Dinner,4


N linhas superiores por grupo 

-- Oracle's ROW_NUMBER() analytic function
SELECT * FROM (
  SELECT
    t.*,
    ROW_NUMBER() OVER(PARTITION BY day ORDER BY total_bill DESC) AS rn
  FROM tips t
)
WHERE rn < 3
ORDER BY day, rn;

In [62]:
(
    tips.assign(
        rn=tips.sort_values(["total_bill"], ascending=False)
        .groupby(["day"])
        .cumcount()
        + 1
    )
    .query("rn < 3")
    .sort_values(["day", "rn"])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rn
95,40.17,4.73,Male,Yes,Fri,Dinner,4,1
90,28.97,3.0,Male,Yes,Fri,Dinner,2,2
170,50.81,10.0,Male,Yes,Sat,Dinner,3,1
212,48.33,9.0,Male,No,Sat,Dinner,4,2
156,48.17,5.0,Male,No,Sun,Dinner,6,1
182,45.35,3.5,Male,Yes,Sun,Dinner,3,2
197,43.11,5.0,Female,Yes,Thur,Lunch,4,1
142,41.19,5.0,Male,No,Thur,Lunch,5,2


a mesma rank(method='first')função de uso

In [63]:
(
    tips.assign(
        rnk=tips.groupby(["day"])["total_bill"].rank(
            method="first", ascending=False
        )
    )
    .query("rnk < 3")
    .sort_values(["day", "rnk"])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rnk
95,40.17,4.73,Male,Yes,Fri,Dinner,4,1.0
90,28.97,3.0,Male,Yes,Fri,Dinner,2,2.0
170,50.81,10.0,Male,Yes,Sat,Dinner,3,1.0
212,48.33,9.0,Male,No,Sat,Dinner,4,2.0
156,48.17,5.0,Male,No,Sun,Dinner,6,1.0
182,45.35,3.5,Male,Yes,Sun,Dinner,3,2.0
197,43.11,5.0,Female,Yes,Thur,Lunch,4,1.0
142,41.19,5.0,Male,No,Thur,Lunch,5,2.0


-- Oracle's RANK() analytic function
SELECT * FROM (
  SELECT
    t.*,
    RANK() OVER(PARTITION BY sex ORDER BY tip) AS rnk
  FROM tips t
  WHERE tip < 2
)
WHERE rnk < 3
ORDER BY sex, rnk;
Vamos encontrar dicas com (classificação < 3) por grupo de gênero para (dicas < 2). Observe que ao usar a rank(method='min')função rnk_minpermanece a mesma para a mesma tip (como a RANK()função do Oracle )

In [64]:
(
    tips[tips["tip"] < 2]
    .assign(rnk_min=tips.groupby(["sex"])["tip"].rank(method="min"))
    .query("rnk_min < 3")
    .sort_values(["sex", "rnk_min"])
)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,rnk_min
67,3.07,1.0,Female,Yes,Sat,Dinner,1,1.0
92,5.75,1.0,Female,Yes,Fri,Dinner,2,1.0
111,7.25,1.0,Female,No,Sat,Dinner,1,1.0
236,12.6,1.0,Male,Yes,Sat,Dinner,2,1.0
237,32.83,1.17,Male,Yes,Sat,Dinner,2,2.0


# ATUALIZAÇÃO/UPDATE 

UPDATE tips
SET tip = tip*2
WHERE tip < 2;

In [65]:
tips.loc[tips["tip"] < 2, "tip"] *= 2

# APAGAR/DELETE 

DELETE FROM tips
WHERE tip > 9;

Nos pandas, selecionamos as linhas que devem permanecer em vez de excluí-las:

In [66]:
tips = tips.loc[tips["tip"] <= 9]