# SQL
# EXPRESSÕES REGULARES - REGEX

Regex é a abreviação de _Regular Expression_ (Expressão Regular em português), trata-se de uma forma concisa e flexível de identificar cadeias de caracteres de interesse, como determinados caracteres, palavras ou padrões de caracteres.

As regex são amplamente utilizadas em programação, processamento de texto, análise de dados e em muitos outros contextos onde é necessário manipular e extrair informações de strings de texto de maneira eficiente.is

Veja a saída da _query_ a seguir:

![special-offer.png](attachment:d7948586-680e-43ea-aff2-6478a2ebfe41.png)

A coluna `Description` contém registros que seguem um padrão:

Há promoções que começam com "Volume" seguido por:

- um espaço
- uma cadeia de caracteres
- um espaço
- dois caracteres numéricos
- um espaço
- uma cadeia de caracteres
- um espaço
- dois caracteres numéricos

Pode-se usar de regex para buscar os registros que contém esses dados:

![regex.png](attachment:911883b7-f676-4b50-b5c2-392d5d4daa22.png)

### FILTRAR DADOS COM ACENTUAÇÃO E CASE SENSITIVE

SQL é uma linguagem _case insensitive_, não faz distinção entre caracteres maiúsculos ou minúsculos. Ao filtrar o nome "Paula", se na tabela houver registros com "paula", "Paula" e "PAULA", a _query_ irá rertornar todos estes registros.

- **SQL Server**: No SQL Server, para filtros exatos com case sensitive, há a função `COLLATE<collation_name>`

Vamos tomar como exemplo os dados da tabela `dCliente`:

![q.png](attachment:b8fb9f21-1b7d-48b7-8bf9-4cdc787aa96f.png)

Ao filtar o atributo nome para retornar clientes que possuem o nome iniciando com `Paula`, o SQL retornará tanto os registros iniciando com letra miúscula quanto os com letra minúscula:

![Q2.png](attachment:b93afea7-bc1e-42c0-a005-9d60420a8c9f.png)

Para um filtro exato do nome que inicia com `Paula`, vamos fazer uso da função `COLLATE`:

![Q.png](attachment:09f3033a-f682-451e-bbd6-79a0cb8e6df7.png)

Filtrar nome que inicia com `paula`

![Captura de tela 2024-05-15 200908.png](attachment:96707614-62d3-45f0-a033-ebfbd6153b1c.png)

Outro exemplo é o filtro do nome `Andre`, na tabela há dois registros, um com acento na letra "e" e outro sem acento. Para ignorar a acentuação devemos usar a função `COLLATE`

![a.png](attachment:a28cfa41-bc97-42e5-8da1-46d44499a547.png)

`Latin1_General_CI_AI` é o _collation_name_ que acompanha a função `COLLATE`, e é usado para definir a ordem de classificação (_collation_) que será usada por padrão na expressão. A parte `Latin1` representa a codificação de caracteres do idioma. `CI` significa _case insensitive_ e `AI` _accent insensitive_.

Uma aplicação do uso desta função seria buscar por nomes científicos que foram erroneamente registros em uma tabela. Os nomes científicos possuem uma regra taxonômica que define o gênero iniciando com letra maiúsculo e o restante do nome em letras minúsculas, grafados em itálico; por exemplo: o nome científico da árvore cedro é _Cedrela odorata_, Cedrela é o gênero botânico e odorata o epíteto específico que define a espécie.

Para retornar todos os nomes que iniciam com um caractere minúsculo em **SQL Server**, você pode usar a função `COLLATE` para comparar os caracteres de forma case-sensitive buscar inconsistência em nomes cientícos em uma tabela. Aqui está uma query que faz isso:

In [None]:
SELECT nome_cientifico
FROM sua_tabela
WHERE nome_cientifico COLLATE Latin1_General_BIN LIKE '[a-z]%'

**Explicação**:

- **nome_cientifico COLLATE Latin1_General_BIN**: Esta cláusula força a comparação a ser binária, o que diferencia maiúsculas de minúsculas.
- **LIKE '% [a-z]%': A expressão % [a-z]%** procura por um espaço seguido de uma letra minúscula, garantindo que estamos verificando a segunda parte do nome científico.

A função `COLLATION` é utilizada na instalação do SQL Server, onde o padrão é `COLLATE Latin1_General_CI_AS`. Para confirmar o padrão instalado:

In [None]:
SELECT SERVERPROPERTY('COLLATION');

![COLLATION.png](attachment:ab703be1-b53b-4924-a762-287f8a45fd14.png)

**COLLATION NA CRIAÇÃO DE BANCO DE DADOS**

A função `COLLATE` no SQL Server pode ser usada na criação de um banco de dados para definir a ordem de classificação (_collation_) que será usada por padrão para todas as colunas de texto do banco de dados.

Veja o exemplo de criação de um banco de dados chamado `BiodiversityDB` com a _collation_ `Latin1_General_BIN`, que é uma _collation_ binária que diferencia entre maiúsculas e minúsculas.

In [None]:
CREATE DATABASE BiodiversityDB
COLLATE Latin1_General_BIN;


**Explicação**:

- **CREATE DATABASE BiodiversityDB**: Cria um novo banco de dados chamado `BiodiversityDB`.
- **COLLATE Latin1_General_BIN**: Define a collation do banco de dados para `Latin1_General_BIN`, que é case-sensitive e binary (binária).

**Usando a Collation na Criação de Tabelas**

Você também pode especificar uma collation diferente para colunas específicas ao criar uma tabela, mesmo que a collation do banco de dados seja diferente. Aqui está um exemplo:

In [None]:
USE BiodiversityDB;

CREATE TABLE Especies (
    ID INT PRIMARY KEY,
    NomeCientifico NVARCHAR(255) COLLATE Latin1_General_BIN NOT NULL,
    NomeComum NVARCHAR(255) COLLATE Latin1_General_CI_AS
);


**Explicação**:

- **USE BiodiversityDB**: Define o banco de dados atual para `BiodiversityDB`.
- **CREATE TABLE Especies**: Cria uma tabela chamada `Especies`.
- **NomeCientifico NVARCHAR(255) COLLATE Latin1_General_BIN**: Define a coluna `NomeCientifico` com a `collation Latin1_General_BIN`, que é case-sensitive.
- **NomeComum NVARCHAR(255) COLLATE Latin1_General_CI_AS**: Define a coluna `NomeComum` com a collation `Latin1_General_CI_AS`, que é case-insensitive.

**Alter a collation de uma Base de Dados**

In [None]:
ALTER DATABASE <data_base_name> COLLATE <collation_name>;

**OBTER A COLLATION DE UMA BASE DE DADOS ESPECÍFICA**

In [None]:
SELECT DATABASEPROPERTYEX('BiodiversityDB', 'Collation');

![GET-DB-COLLATION.png](attachment:a47f0504-25bf-4e95-a98b-8cef1cf06f2c.png)