<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Introdução-à-bancos-de-dados-RDBMS" data-toc-modified-id="Introdução-à-bancos-de-dados-RDBMS-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Introdução à bancos de dados RDBMS</a></span></li><li><span><a href="#Pandas-vs-SQL" data-toc-modified-id="Pandas-vs-SQL-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Pandas vs SQL</a></span></li><li><span><a href="#Voltamos-as-21h" data-toc-modified-id="Voltamos-as-21h-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Voltamos as 21h</a></span><ul class="toc-item"><li><span><a href="#Instruções" data-toc-modified-id="Instruções-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Instruções</a></span></li><li><span><a href="#Ler-Dados" data-toc-modified-id="Ler-Dados-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Ler Dados</a></span></li><li><span><a href="#Comparando-SQL-e-Pandas" data-toc-modified-id="Comparando-SQL-e-Pandas-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Comparando SQL e Pandas</a></span><ul class="toc-item"><li><span><a href="#Selecionando-e-filtrando" data-toc-modified-id="Selecionando-e-filtrando-3.3.1"><span class="toc-item-num">3.3.1&nbsp;&nbsp;</span>Selecionando e filtrando</a></span></li><li><span><a href="#Agrupando" data-toc-modified-id="Agrupando-3.3.2"><span class="toc-item-num">3.3.2&nbsp;&nbsp;</span>Agrupando</a></span></li><li><span><a href="#Joins" data-toc-modified-id="Joins-3.3.3"><span class="toc-item-num">3.3.3&nbsp;&nbsp;</span>Joins</a></span></li><li><span><a href="#Ordenamento" data-toc-modified-id="Ordenamento-3.3.4"><span class="toc-item-num">3.3.4&nbsp;&nbsp;</span>Ordenamento</a></span></li><li><span><a href="#Concatenação" data-toc-modified-id="Concatenação-3.3.5"><span class="toc-item-num">3.3.5&nbsp;&nbsp;</span>Concatenação</a></span></li></ul></li></ul></li></ul></div>

# Introdução à bancos de dados RDBMS

Os DBs RDBMS são **bancos de dados** relacionais, ou seja, **guardam informações sobre entidades, seus atributos e as relações entre si**. Em um RDBMS bem estruturado cada **tabela** representa ou **um tipo de entidade** ou uma **relação entre dois tipos de entidades**. Cada linha da tabela representa **um individuo** daquela entidade e cada coluna **um atributo**. Por exemplo, podemos ter uma tabela chamada **Movies** que representa a entidade filme em um banco de dados sobre cinema. As colunas dessa tabela podem ser o nome do filme, a data de lançamento, a duração, enfim, qualquer atributo que seja definido apenas no nível dessa entidade. Outras informações, como o elenco do filme, seriam guardadas em outras tabelas, representando diferentes entidades. ![image.png](attachment:image.png)

Além de atributos, as colunas de uma tabela contém o identificador único de cada indíviduo da tabela (*primary key*). No caso do DB acima, a tabela filmes conterá uma coluna chamada **ID_MOVIE** que assume um valor único para cada filme diferente.

Além das *primary keys* podemos ter também colunas representando a relação de uma entidade com outra, as *foreign keys*. No exemplo acima, além da **ID_MOVIE** a tabela **MOVIE** conterá uma coluna chamada **ID_DIRECTOR** (a *primary key* da tabela Diretor). *Foreign keys* permitem ao usuário de um RDBMS extrair informações de maneira agregada (todos os filmes de um dado diretor, por exemplo).

Quando estudamos os diferentes tipos de *join* no contexto da biblioteca Pandas vimos que estes podem ser classificados de acordo com sua cardinalidade:

* **One-to-One**
* **Many-to-One (ou One-to-Many)**
* **Many-to-Many**

Essas relações podem ser vistas no contexto de um RDBMS na forma como diferentes entidades se relacionam e podem ser vistas como representações de relações reais.

# Pandas vs SQL

# Voltamos as 21h

## Instruções
1. Abra o http://sqlfiddle.com;
1. Construa o um schema utilizando PostgreSQL 9.3. Para isso, utilize esse script [aqui](https://grupozap-code-challenge.s3.amazonaws.com/analytics/ddl.sql);
1. Pronto, já podemos simular algumas queries! Mas antes, vamos criar um ambiente similar no Pandas;
1. Entre [neste docs](https://docs.google.com/spreadsheets/d/1co7DZT9qwUkrKb3_2qMxWFDy1BcvnlDeZAx8Ntz7mQc/edit?usp=sharing), nele temos duas abas: Anúncios e Contatos;
1. Carregue cada uma dessas bases em Pandas DataFrames distintos utilizando o comando `pd.read_clipboard()`;
1. Pronto! Agora conseguimos comparar Pandas com SQL para uma maior compreensão da linguagem.

https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html

## Ler Dados

Iremos nos basear nos seguintes comandos para fazer as comparações entre as duas ferramentas:

* `SELECT`
* `LIMIT`
* `WHERE`
* `GROUP BY`
* `JOIN`
* `UNION`
* `ORDER BY`

In [1]:
import pandas as pd

In [2]:
tb_listings = pd.read_clipboard()

In [3]:
tb_leads = pd.read_clipboard()

## Comparando SQL e Pandas

### Selecionando e filtrando

In [4]:
# Vendo a tabela
tb_leads

Unnamed: 0,listing_id,leads
0,048a0a8d01843e2,5
1,08438825a78ee95,13
2,fdf8cc57abc6295,1
3,e26e785a6330801,1
4,08c6aa2798c42c6,7
5,cad2e88b5ad31af,5
6,a2754e66552841a,2
7,fe5c2aca82f0788,1
8,2e683b8754956b9,3
9,d1baa9c7c59ce9c,1


```SQL
SELECT *
FROM tb_leads
```

In [5]:
# Usando o head para tabelas longas
tb_listings.head()

Unnamed: 0,advertiser_id,listing_id,portal,city,neighborhood
0,07c25ae8-b878-0a80-4776-f3a301ab09cf,b41ddcec38f323c,VIVAREAL,Rio de Janeiro,Jacarepaguá
1,08d660eb-8769-f8c5-1ce0-58521c584a31,3b51cc54000df82,ZAP,Rio de Janeiro,Barra da Tijuca
2,0a70b984-43ed-6cb1-20c3-e27b8e9e494d,8afe42027b396ab,ZAP,Rio de Janeiro,Botafogo
3,0dbdfe30-174a-7a78-2f64-27843f91c98e,c5339b423fc2353,VIVAREAL,Rio de Janeiro,Botafogo
4,0fb716c4-073a-b274-60a8-3640b2458f46,fa7591050f410d6,VIVAREAL,São Bernardo do Campo,Planalto


```SQL
SELECT *
FROM tb_listings
LIMIT 5
```

In [6]:
# Selecionando apenas algumas colunas
tb_listings['city'].head()

0           Rio de Janeiro
1           Rio de Janeiro
2           Rio de Janeiro
3           Rio de Janeiro
4    São Bernardo do Campo
Name: city, dtype: object

```SQL
SELECT city
FROM tb_leads
LIMIT 5
```

ou

```SQL
SELECT t1.city
FROM tb_leads as t1
LIMIT 5
```

In [9]:
# Selecionando apenas algumas linhas
tb_listings.loc[tb_listings['city'] == 'Rio de Janeiro', ['city', 'portal']].head()

Unnamed: 0,city,portal
0,Rio de Janeiro,VIVAREAL
1,Rio de Janeiro,ZAP
2,Rio de Janeiro,ZAP
3,Rio de Janeiro,VIVAREAL
5,Rio de Janeiro,VIVAREAL


```SQL
SELECT 
    t1.city,
    t1.portal 
FROM tb_listings as t1 
WHERE city = 'Rio de Janeiro' 
LIMIT 5
```

In [10]:
# Selecionando apenas algumas linhas
tb_listings.loc[tb_listings['city'].isin(['Rio de Janeiro', 'São Bernardo do Campo']),
                ['city', 'portal']].head()

Unnamed: 0,city,portal
0,Rio de Janeiro,VIVAREAL
1,Rio de Janeiro,ZAP
2,Rio de Janeiro,ZAP
3,Rio de Janeiro,VIVAREAL
4,São Bernardo do Campo,VIVAREAL


```SQL
SELECT 
    t1.city,
    t1.portal
FROM tb_listings as t1 
WHERE 
    t1.city = 'Rio de Janeiro' OR 
    t1.city = 'São Bernardo do Campo'   
LIMIT 5
```

In [None]:
tb_listings.loc[(tb_listings['city'] == 'Rio de Janeiro') | (tb_listings['portal'] == 'VIVAREAL'),
                ['city', 'portal']].head(10)

```SQL
SELECT 
    t1.city,
    t1.portal
FROM tb_listings as t1 
WHERE 
    t1.city = 'Rio de Janeiro' OR 
    t1.portal = 'VIVAREAL'   
LIMIT 5
```

### Agrupando

In [11]:
tb_listings[['city', 'portal']].groupby(['city', 'portal']).agg('count')

city,portal
Guarulhos,VIVAREAL
Guarulhos,ZAP
Rio de Janeiro,VIVAREAL
Rio de Janeiro,ZAP
Santo André,VIVAREAL
São Bernardo do Campo,VIVAREAL
São Bernardo do Campo,ZAP
São Caetano do Sul,VIVAREAL


```SQL
SELECT 
    t1.city,
    t1.portal
FROM tb_listings as t1 
GROUP BY
    t1.city,
    t1.portal
```

In [12]:
tb_listings[['city', 'portal']]\
    .groupby(['city', 'portal'])\
    .agg(num_listing = pd.NamedAgg('city', 'count'))\
    .reset_index()

Unnamed: 0,city,portal,num_listing
0,Guarulhos,VIVAREAL,3
1,Guarulhos,ZAP,1
2,Rio de Janeiro,VIVAREAL,19
3,Rio de Janeiro,ZAP,11
4,Santo André,VIVAREAL,9
5,São Bernardo do Campo,VIVAREAL,3
6,São Bernardo do Campo,ZAP,1
7,São Caetano do Sul,VIVAREAL,3


```SQL
SELECT 
    t1.city,
    t1.portal,
    COUNT(t1.city) as num_listings
FROM tb_listings as t1 
GROUP BY
    t1.city,
    t1.portal
```

In [14]:
total_leads = sum(tb_leads['leads'])

In [15]:
print(total_leads)

40


```SQL
SELECT SUM(t1.leads) as num_leads
FROM tb_leads as t1 
```

### Joins

-----

In [17]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='inner', on='listing_id')
tb_listlead

Unnamed: 0,advertiser_id,listing_id,portal,city,neighborhood,leads
0,2c96d3c3-7c19-2bbc-3f19-2d94941649b2,0309e01b593eb58,VIVAREAL,Santo André,Jardim Stella,1
1,35fccc70-c101-d739-fe19-f0d23bc1482b,a2754e66552841a,ZAP,Guarulhos,Jardim Bela Vista,2
2,532a2e3a-5be6-9edc-7ffd-4d714c40053c,fe5c2aca82f0788,VIVAREAL,Rio de Janeiro,Copacabana,1
3,5e349c0b-d1cc-e3b9-31ff-535438b31a0d,fdf8cc57abc6295,VIVAREAL,Santo André,Parque das Nações,1
4,6452e804-d292-c6b8-14a9-8275b0fb2e9f,e26e785a6330801,ZAP,Rio de Janeiro,Tijuca,1
5,88eec655-198d-e938-d3e0-e5dc89a25034,d1baa9c7c59ce9c,VIVAREAL,Rio de Janeiro,Tanque,1
6,904ce825-5b18-9767-5712-de9bce5d6b0d,cad2e88b5ad31af,VIVAREAL,Rio de Janeiro,Flamengo,5
7,be67d2df-d051-04cd-4800-e75001ccfcc6,08c6aa2798c42c6,ZAP,Rio de Janeiro,Campo Grande,7
8,c62d6a1e-8024-b9b4-b64a-62a0396f9d89,048a0a8d01843e2,ZAP,Rio de Janeiro,Ilha do Governador,5
9,c8d03e88-9150-507a-8e64-1a83a040cd0c,08438825a78ee95,ZAP,Rio de Janeiro,Grajaú,13


In [18]:
tb_listings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   advertiser_id  50 non-null     object
 1   listing_id     50 non-null     object
 2   portal         50 non-null     object
 3   city           50 non-null     object
 4   neighborhood   50 non-null     object
dtypes: object(5)
memory usage: 2.1+ KB


```SQL
SELECT 
    t1.*,
    t2.*
FROM
    tb_listings as t1 JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
```

In [19]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='left', on='listing_id')
tb_listlead.head()

Unnamed: 0,advertiser_id,listing_id,portal,city,neighborhood,leads
0,07c25ae8-b878-0a80-4776-f3a301ab09cf,b41ddcec38f323c,VIVAREAL,Rio de Janeiro,Jacarepaguá,
1,08d660eb-8769-f8c5-1ce0-58521c584a31,3b51cc54000df82,ZAP,Rio de Janeiro,Barra da Tijuca,
2,0a70b984-43ed-6cb1-20c3-e27b8e9e494d,8afe42027b396ab,ZAP,Rio de Janeiro,Botafogo,
3,0dbdfe30-174a-7a78-2f64-27843f91c98e,c5339b423fc2353,VIVAREAL,Rio de Janeiro,Botafogo,
4,0fb716c4-073a-b274-60a8-3640b2458f46,fa7591050f410d6,VIVAREAL,São Bernardo do Campo,Planalto,


```SQL
SELECT 
    t1.*,
    t2.leads
FROM
    tb_listings as t1 LEFT JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
```

In [20]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='left', on='listing_id')
tb_listlead.groupby(['city'])\
    .agg(
        num_leads = pd.NamedAgg('leads', 'sum'),
        num_listings = pd.NamedAgg('listing_id', 'count')
        )\
    .reset_index()

Unnamed: 0,city,num_leads,num_listings
0,Guarulhos,2.0,4
1,Rio de Janeiro,36.0,30
2,Santo André,2.0,9
3,São Bernardo do Campo,0.0,4
4,São Caetano do Sul,0.0,3


```sql
SELECT
    t1.city,
    SUM(t2.leads) as num_leads,
    COUNT(t1.listing_id) as num_listing_id
FROM
    tb_listings as t1 LEFT JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
GROUP BY
    t1.city
```

In [None]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='left', on='listing_id')
tb_cityportal = tb_listlead.groupby(['city', 'portal'])\
    .agg(
        num_leads = pd.NamedAgg('leads', 'sum'),
        num_listings = pd.NamedAgg('listing_id', 'count')
        )\
    .reset_index()

tb_cityportal[tb_cityportal['city'].isin(['Rio de Janeiro', 'Guarulhos'])]

```sql
SELECT
    t1.city,
    t1.portal,
    SUM(t2.leads) as num_leads,
    COUNT(t1.listing_id) as num_listing_id
FROM
    tb_listings as t1 LEFT JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
WHERE
    t1.city in ('Rio de Janeiro', 'Guarulhos')
GROUP BY
    t1.city,
    t1.portal
```

### Ordenamento

In [None]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='left', on='listing_id')
tb_cityportal = tb_listlead.groupby(['city', 'portal'])\
    .agg(
        num_leads = pd.NamedAgg('leads', 'sum'),
        num_listings = pd.NamedAgg('listing_id', 'count')
        )\
    .sort_values(by = 'num_leads')\
    .reset_index()

tb_cityportal

```sql
SELECT 
    t1.city,
    t1.portal,
    sum(t2.leads) as total_leads,
    count(t1.listing_id) as total_listings
FROM 
    tb_listings as t1 LEFT JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
GROUP BY 
    t1.city, 
    t1.portal
ORDER BY
    t1.city,
    t1.portal
```

In [None]:
tb_listlead = pd.merge(tb_listings, tb_leads, how='left', on='listing_id')
tb_cityportal = tb_listlead.groupby(['city'])\
    .agg(
        num_leads = pd.NamedAgg('leads', 'sum'),
        num_listings = pd.NamedAgg('listing_id', 'count')
        )\
    .sort_values(by = 'num_leads', ascending = False)\
    .reset_index()

tb_cityportal.head(3)

```sql
SELECT 
    t1.city,
    sum(t2.leads) as total_leads,
    count(t1.listing_id) as total_listings
FROM 
    tb_listings as t1 INNER JOIN
    tb_leads as t2 ON (t1.listing_id = t2.listing_id)
GROUP BY 
    t1.city
ORDER BY
    total_leads DESC
LIMIT
    3
```

### Concatenação

In [None]:
tb_gua = tb_listings[tb_listings['city'] == 'Guarulhos']
tb_rj = tb_listings[tb_listings['city'] == 'Rio de Janeiro']

In [None]:
tb_gua.head()

In [None]:
tb_rj.head()

In [None]:
pd.concat([tb_gua, tb_rj], axis = 0).head(10)

```SQL
(
SELECT 
    t1.*
FROM
    tb_listings as t1
WHERE
    t1.city = 'Rio de Janeiro'
)
UNION
(
SELECT 
    t1.*
FROM
    tb_listings as t1
WHERE
    t1.city = 'Guarulhos'
)
```