# Модуль 6: Строковые функции

**Тема: Манипуляция текстовыми данными
Цель**: Научить использовать строковые функции (CONCAT, LEFT, RIGHT, MID, LEN, TRIM, REPLACE, CONTAINS, FIND, UPPER, LOWER, TITLE) для обработки, поиска и форматирования текстовых данных в Tableau.

## Теория
**Что такое строковые функции?**
Строковые функции в Tableau позволяют манипулировать текстовыми данными: объединять строки, извлекать части текста, искать подстроки, изменять регистр или очищать данные. Это полезно для подготовки данных, создания пользовательских меток или фильтров на основе текста.
**Основные строковые функции**  
* **CONCAT**: Объединяет несколько строк в одну.  
* **LEFT**: Извлекает заданное количество символов слева.  
* **RIGHT**: Извлекает заданное количество символов справа.  
* **MID**: Извлекает подстроку из середины текста.  
* **LEN**: Возвращает длину строки (количество символов).  
* **TRIM**: Удаляет начальные и конечные пробелы.  
* **REPLACE**: Заменяет одну подстроку на другую.  
* **CONTAINS**: Проверяет, содержится ли подстрока в строке.  
* **FIND**: Возвращает позицию подстроки в строке.  
* **UPPER**: Преобразует строку в верхний регистр.  
* **LOWER**: Преобразует строку в нижний регистр.  
* **TITLE**: Преобразует строку в заглавный регистр (первая буква каждого слова — заглавная).

⠀**Зачем это нужно?**  
* **Очистка данных**: Удаление пробелов (TRIM), исправление регистра (UPPER, LOWER) или замена ошибок (REPLACE).  
* **Создание меток**: Объединение строк (CONCAT) для пользовательских названий, например, "Регион: Запад".  
* **Поиск и фильтрация**: Проверка текста (CONTAINS, FIND) для категоризации или выделения данных.  
* **Извлечение данных**: Разделение текста (LEFT, RIGHT, MID) для получения кодов или частей названий.

⠀**Советы по работе**:  
* Проверяйте тип данных: строковые функции работают с полями типа "String" (иконка "Abc" в панели данных). Если поле числовое, преобразуйте его с помощью STR.
* Обрабатывайте NULL: используйте IFNULL или ISNULL для пропущенных строк (например, IFNULL([Product Name], "Unknown")).  
* Согласовывайте агрегацию: если комбинируете строки с мерами, используйте MIN, MAX или ATTR для измерений (см. Модуль 4).  
* Добавляйте комментарии (// или /* */) для пояснения формул.  
* Тестируйте формулы в таблице или визуализации, чтобы проверить результаты обработки текста.
⠀
## Примеры формул
* **CONCAT: Объединение строк**  
  * **Формула**:   CONCAT([Region], " - ", [Category]) // Объединяет регион и категорию
  * **Что делает**: Объединяет [Region] и [Category] с разделителем " - ".  
  * **Результат**: Если [Region] = "West" и [Category] = "Technology", то результат = "West - Technology".  
  * **Применение**: Создание пользовательских меток для дашбордов.  
  * **Визуализация**: Используйте в метках столбчатой диаграммы для отображения комбинированных названий.
* **LEFT: Извлечение первых символов**  
  * **Формула**:   LEFT([Category], 3) // Первые 3 символа кода
  * **Что делает**: Извлекает первые 3 символа из [Category].  
  * **Результат**: Если [Category] = "PROD-12345", то результат = "PRO".  
  * **Применение**: Извлечение префиксов для категоризации продуктов.  
  * **Визуализация**: Постройте таблицу, группирующую SUM([Sales]) по префиксам продуктов.
    
![image.png](attachment:fefc38f9-99ea-4a69-b356-148c70b829fb.png)

* **RIGHT: Извлечение последних символов**  
  * **Формула**:   RIGHT([Category], 4) // Последние 4 символа ID
  * **Что делает**: Извлекает последние 4 символа из [Category].  
  * **Результат**: Если [Category] = "CUST-567890", то результат = "7890".  
  * **Применение**: Извлечение уникальных частей идентификаторов.  
  * **Визуализация**: Создайте фильтр по последним символам ID для анализа клиентов.

![image 2.png](attachment:ca6d975d-f22c-4d3e-9591-d3554d839893.png)

* **MID: Извлечение подстроки**  
  * **Формула**:   MID([Category], 4, 5) // Извлекает 5 символов, начиная с 4-го
  * **Что делает**: Извлекает 5 символов из [Category], начиная с 4-й позиции.  
  * **Результат**: Если [Category] = "CA-2020-123456", то результат = "2020-".  
  * **Применение**: Извлечение года или других частей кодов.  
  * **Визуализация**: Постройте гистограмму, группирующую заказы по извлечённым годам.

![image 3.png](attachment:e3ecaefa-b04b-415f-bb97-6b75dd47085c.png)

* **LEN: Подсчёт длины строки**  
  * **Формула**:   LEN([Product Name]) // Длина названия продукта
  * **Что делает**: Возвращает количество символов в [Product Name].  
  * **Результат**: Если [Product Name] = "Office Chair", то результат = 12.  
  * **Применение**: Проверка корректности данных или категоризация по длине текста.  
  * **Визуализация**: Создайте таблицу, показывающую продукты с длиной названия больше 10 символов.

![image 4.png](attachment:046d1dae-3404-41b6-a3e8-597f709a1567.png)

* **TRIM: Очистка пробелов**  
  * **Формула**:   TRIM([Customer Name]) // Удаляет пробелы
  * **Что делает**: Удаляет начальные и конечные пробелы из [Customer Name].  
  * **Результат**: Если [Customer Name] = "  Anna Ivanova  ", то результат = "Anna Ivanova".  
  * **Применение**: Очистка данных для единообразия.  
  * **Визуализация**: Используйте очищенные имена в фильтрах или метках дашборда.

![image 5.png](attachment:82e504f8-0098-49de-935e-7ba26398f677.png)

* **REPLACE: Замена текста**  
  * **Формула**:   REPLACE([Product Name], "Chair", "Seat") // Заменяет "Chair" на "Seat"
  * **Что делает**: Заменяет все вхождения "Chair" в [Product Name] на "Seat".  
  * **Результат**: Если [Product Name] = "Office Chair", то результат = "Office Seat".  
  * **Применение**: Исправление ошибок или стандартизация названий.  
  * **Визуализация**: Постройте таблицу, сравнивающую исходные и исправленные названия.

![image 6.png](attachment:af9bf244-ec49-4783-913d-735d9420df99.png)

* **CONTAINS: Проверка наличия подстроки**  
  * **Формула**:   IF CONTAINS([Product Name], "Table") THEN "Table Product" ELSE "Other" END // Проверяет наличие "Table"
  * **Что делает**: Проверяет, содержит ли [Product Name] слово "Table". Возвращает "Table Product" или "Other".  
  * **Результат**: Если [Product Name] = "Coffee Table", то результат = "Table Product"; если [Product Name] = "Chair", то результат = "Other".  
  * **Применение**: Категоризация продуктов по ключевым словам.  
  * **Визуализация**: Создайте столбчатую диаграмму с SUM([Sales]), где цвет отражает категорию.

![image 7.png](attachment:5245bd79-130b-42aa-9d15-d02401ea3499.png)

* **FIND: Поиск позиции подстроки**  
  * **Формула**:   FIND([Order ID], "-") // Позиция дефиса
  * **Что делает**: Возвращает позицию первого дефиса в [Order ID]. Если подстрока не найдена, возвращает 0.  
  * **Результат**: Если [Order ID] = "CA-2020-123456", то результат = 3.  
  * **Применение**: Извлечение частей строки с помощью MID или анализ формата данных.  
  * **Визуализация**: Постройте таблицу, показывающую позиции дефисов для проверки структуры ID.
* **UPPER: Преобразование в верхний регистр**  
  * **Формула**:   UPPER([Category]) // Верхний регистр
  * **Что делает**: Преобразует [Category] в верхний регистр.  
  * **Результат**: Если [Category] = "Technology", то результат = "TECHNOLOGY".  
  * **Применение**: Стандартизация текста для фильтров или отображения.  
  * **Визуализация**: Используйте в метках дашборда для единообразного формата.

![image 8.png](attachment:b547d587-babf-46bb-831a-4ab792b613d9.png)

* **LOWER: Преобразование в нижний регистр**  
  * **Формула**:   LOWER([Customer Name]) // Нижний регистр
  * **Что делает**: Преобразует [Customer Name] в нижний регистр.  
  * **Результат**: Если [Customer Name] = "Anna Ivanova", то результат = "anna ivanova".  
  * **Применение**: Устранение различий в регистре для группировки.  
  * **Визуализация**: Постройте таблицу, группирующую клиентов с очищенным регистром.

![image 9.png](attachment:7744d66f-6307-401d-a102-8e600ce2bd15.png)

* **TITLE: Преобразование в заглавный регистр**  
  * **Формула**:   TITLE([Customer Name]) // Заглавный регистр
  * **Что делает**: Делает первую букву каждого слова в [Customer Name] заглавной.  
  * **Результат**: Если [Customer Name] = "anna ivanova", то результат = "Anna Ivanova".  
  * **Применение**: Форматирование имён для отображения в отчётах.  
  * **Визуализация**: Используйте в метках или фильтрах для профессионального вида.
* **Комбинирование функций: Извлечение кода региона**  
  * **Формула**:   /* Извлекает код региона из Order ID */
    LEFT([Order ID], FIND([Order ID], "-") - 1)
  * **Что делает**: Находит позицию дефиса в [Order ID] с помощью FIND, затем извлекает символы слева до дефиса с помощью LEFT.  
  * **Результат**: Если [Order ID] = "CA-2020-123456", то результат = "CA".  
  * **Применение**: Извлечение кодов для анализа географии.  
  * **Визуализация**: Постройте карту, где цвет зависит от кодов регионов.
* **Комбинирование с IF и NULL: Очистка и категоризация**  
  * **Формула**:   /* Очищает название и категоризирует */
    IF ISNULL([Product Name]) THEN "Unknown"
    ELSEIF CONTAINS(TRIM([Product Name]), "Office") THEN "Office Product"
    ELSE "Other" END
  * **Что делает**: Проверяет, является ли [Product Name] NULL (возвращает "Unknown"), очищает пробелы с помощью TRIM, затем проверяет наличие "Office" с помощью CONTAINS.  
  * **Результат**: Если [Product Name] = "  Office Chair  ", то результат = "Office Product"; если [Product Name] = "Lamp", то результат = "Other"; если NULL, то результат = "Unknown".  
  * **Применение**: Очистка и категоризация данных.  
  * **Визуализация**: Создайте гистограмму с COUNT([Order ID]), где цвет отражает категории.

![image 10.png](attachment:61150c6d-830c-4e4e-ac70-2af5b58039b5.png)

* **Комбинирование с агрегатами: Форматирование меток**  
  * **Формула**:   /* Форматирует метку с категорией и продажами */
    IF ATTR([Category]) = "Technology" THEN CONCAT(UPPER([Category]), ": ", STR(SUM([Sales])))
    ELSE "Other: 0" END
  * **Что делает**: Проверяет, является ли [Category] равным "Technology" (с помощью ATTR для согласования агрегации). Если да, объединяет категорию в верхнем регистре, текст ": " и сумму продаж; иначе возвращает "Other: 0".  
  * **Результат**: Если [Category] = "Technology" и SUM([Sales]) = 1000, то результат = "TECHNOLOGY: 1000"; если [Category] = "Furniture", то результат = "Other: 0".  
  * **Применение**: Создание пользовательских меток для дашбордов.  
  * **Визуализация**: Используйте формулу в метках столбчатой диаграммы для отображения форматированного текста.

⠀
## Рекомендации для новичков
* **Проверяйте тип данных**: Убедитесь, что поле имеет тип "String" (иконка "Abc"). Если поле числовое, преобразуйте с помощью STR.  
* **Обрабатывайте NULL**: Используйте IFNULL или ISNULL для пропущенных строк (например, IFNULL([Product Name], "No Data")).  
* **Согласовывайте агрегацию**: Если комбинируете строки с мерами, используйте MIN, MAX или ATTR для измерений.  
* **Тестируйте в таблице**: Создайте таблицу с исходным и обработанным текстом, чтобы проверить формулу.  
  * **Пример визуализации**: Постройте таблицу с [Product Name] и TRIM([Product Name]), чтобы увидеть удаление пробелов.
* **Добавляйте комментарии**: Например, // Извлекает код региона или /* Форматирует метку */ для ясности.  
* **Экспериментируйте с поиском**: Используйте CONTAINS и FIND для проверки текста, но помните, что они чувствительны к регистру.  
* **Избегайте сложных формул**: Если обработка текста замедляет дашборд, попробуйте очистить данные в источнике (например, в Excel или SQL).

## Почему это важно?
Строковые функции (CONCAT, LEFT, RIGHT, MID, LEN, TRIM, REPLACE, CONTAINS, FIND, UPPER, LOWER, TITLE) позволяют очищать, форматировать и анализировать текстовые данные, которые часто встречаются в реальных наборах данных (например, имена, коды, категории). Эти навыки необходимы для подготовки данных, создания информативных меток и фильтров, а также для построения профессиональных дашбордов. Освоив строковые функции, вы подготовитесь к продвинутым темам, таким как регулярные выражения (REGEXP) или сложные вычисления с текстом.