# Настройка ноутбука

In [27]:
import pandas as pd
import numpy as np
from sklearn import datasets
import datetime as dt

from pandasql import sqldf

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# Описние

Ноутбук с набором практик по работе со строка с помощью языка PostgreSQL

## Ресурсы

[PosgreSQL doc: String Functions and Operators](https://www.postgresql.org/docs/9.1/functions-string.html)

# Практики

## Выделить подстроку - extract substring

#### По индексу начала подстроки с ограничением на длинну

```sql
select
    substr(col, string_pos, char_limit) as substring
from df
```

In [25]:
df = pd.DataFrame({'string': ['0123456789']})

query = """
select
      string
    , substr(string, 0) as whole_string
    , substr(string, 0, 4) as first_3
    , substr(string, -3) as last_3
    , substr(string, 3, 3) as middle_3
from
    df
"""

pysqldf = lambda q: sqldf(q, globals())
pysqldf(query)

Unnamed: 0,string,whole_string,first_3,last_3,middle_3
0,123456789,123456789,12,789,234


## Определить вхождения подстрок - find the occurrences off substrings

### Примеры задач

- [Stratascratch: Find all wineries which produce wines by possessing aromas of plum, cherry, rose, or hazelnut](https://platform.stratascratch.com/coding/10026-find-all-wineries-which-produce-wines-by-possessing-aromas-of-plum-cherry-rose-or-hazelnut?tabname=question)
- [Stratascratch: Find the base pay for Police Captains](https://platform.stratascratch.com/coding/9972-find-the-base-pay-for-police-captains?tabname=question)
- [Stratascratch: Classify Business Type](https://platform.stratascratch.com/coding/9726-classify-business-type?tabname=question)

### Определить вхождение подстроки с учетом регистра

```sql
select string where string like '%substring%' 
 ```

### Определить вхождение подстроки без учета регистра

```sql
select string where string ilike '%substring%'
select string where lower(string) like '%substring%'
```

### Определеить вхождение хотя бы одной подстроки из списка

```sql
select string where string ilike any(array([substring1, substring2]))
select string where string similar to '%(substring1|substring2|substring3|substring4)%'
```

## Конкатенация нескольких колонок в одну - Concatenate multiple columns into one

### Примеры задач

- [Stratascratch: Host Popularity Rental Prices](https://platform.stratascratch.com/coding/9632-host-popularity-rental-prices?code_type=1)

### Объединить значения колонок без явного указания сепаратора

```sql
select
      col1 || col2 || col3 || ... as concat_1
    , concat(col1, col2, col3, ...) as concat_2
from df
```

### Объединить заначения колонок с указанием сепаратора

```sql
select
    concat_ws(sep, col1, col2, col3, ...)
from df
```

## Конкатенация сгруппированных значений в строку - Concatenation of grouped values into a string

### С сортировкой

```sql
select string_agg(col, sep order by col) from df group by col 
```

### С выделением уникальных значений

```sql
select array_to_string(array_agg(distinct col), sep) from df group by col
```

## Разделение значений колонки по символу - split by separator

### Примеры задач

- [Stratascratch: Reviews of Categories](https://platform.stratascratch.com/coding/10049-reviews-of-categories?tabname=question)

### С добавлением строк с разделенными значениями в таблицу

```sql
select
    unnest(string_to_array(categories, sep)) as category
from df
```

    - Функцию можно поместить в where или в select