# Изучение регулярных выражений на примере VIN-кодов автомобилей

## Введение

Регулярные выражения - это мощный инструмент для работы с текстовой информацией, который позволяет осуществлять поиск, анализ и манипуляции с данными на основе определенных шаблонов. В этом интенсиве мы изучим основы работы с регулярными выражениями в Python, их синтаксис, применение и возможности. Понимание этой темы поможет вам эффективно обрабатывать текстовые данные, решать разнообразные задачи в области обработки информации и автоматизации процессов.

Готовы погрузиться в мир регулярных выражений и раскрыть их потенциал? Включайтесь!


### Цели
- познакомиться с модулем `re` в Python
- узнать основные конструкции регулярных выражений
- получить практический навык решения задачи с использованием регулярных выражений

### Задачи

- изучить структуру VIN-кода, какие информационные компоненты он содержит (регион, производитель, характеристики автомобиля и т. д.).
- составить регулярные выражения для поиска и извлечения конкретных частей VIN-кода, таких как производитель, модель и год выпуска.
- решить задачи на основе датасета с VIN-кодами, например поиск определенных моделей автомобилей
- найти ошибки в VIN-кодах с помощью регулярных выражений

### Полезные ссылки

- https://docs.python.org/3/library/re.html
- https://regex101.com
- https://en.wikibooks.org/wiki/Vehicle_Identification_Numbers_(VIN_codes)#Table_of_Contents
- https://en.wikibooks.org/wiki/Vehicle_Identification_Numbers_(VIN_codes)/World_Manufacturer_Identifier_(WMI)
- https://en.wikibooks.org/wiki/Vehicle_Identification_Numbers_(VIN_codes)/Printable_version#Model#
- https://en.wikipedia.org/wiki/List_of_Ford_factories


### Форматы VIN

<img src='./img/vin_standards.png'>

<img src='./img/vin_formats.png'>

The number consists of both alpha and numeric characters. VIN characters may be capital letters A through Z and numbers 1 through 0; however, the letters I, O and Q are never used in order to avoid mistakes of misreading. No signs or spaces are allowed in the VIN.No two VIN's are the same.



## Общий обзор

In [1]:
import re

### Разрешенные символы

In [1]:
allowed = r'ABCDEFGHJKLMNPRSTUVWXYZ1234567890'
allowed

'ABCDEFGHJKLMNPRSTUVWXYZ0123456789'

### Тестовый образец

In [2]:
vin_sample = '1FT7X2B6XCEB34867 1FTNF1CF4EKD18628 1GNKRFED3CJ319802 5N1BA08D49N601792 5TFHY5F19CX236781 JN1CV6AR7BM356524 ZFF65LJA9A0170669'
vin_sample

'1FT7X2B6XCEB34867 1FTNF1CF4EKD18628 1GNKRFED3CJ319802 5N1BA08D49N601792 5TFHY5F19CX236781 JN1CV6AR7BM356524'

### Северо-Американский формат VIN

In [5]:
vin_re = re.compile( )
vin_re.findall(vin_sample)

[('1FT', '7', 'X2B', '6', 'X', 'C', 'E', 'B34867'),
 ('1FT', 'N', 'F1C', 'F', '4', 'E', 'K', 'D18628'),
 ('1GN', 'K', 'RFE', 'D', '3', 'C', 'J', '319802'),
 ('5N1', 'B', 'A08', 'D', '4', '9', 'N', '601792'),
 ('5TF', 'H', 'Y5F', '1', '9', 'C', 'X', '236781'),
 ('JN1', 'C', 'V6A', 'R', '7', 'B', 'M', '356524')]

### Пример полного разбора на компоненты

In [6]:
def decode_vin(s: str) -> str:
    [print(x.groupdict()) for x in vin_re.finditer(s)];

In [37]:
decode_vin(vin_sample)

{'wmi': '1FT', 'restraint': '7', 'model': 'X2B', 'engine': '6', 'check': 'X', 'year': 'C', 'plant': 'E', 'vis': 'B34867'}
{'wmi': '1FT', 'restraint': 'N', 'model': 'F1C', 'engine': 'F', 'check': '4', 'year': 'E', 'plant': 'K', 'vis': 'D18628'}
{'wmi': '1GN', 'restraint': 'K', 'model': 'RFE', 'engine': 'D', 'check': '3', 'year': 'C', 'plant': 'J', 'vis': '319802'}
{'wmi': '5N1', 'restraint': 'B', 'model': 'A08', 'engine': 'D', 'check': '4', 'year': '9', 'plant': 'N', 'vis': '601792'}
{'wmi': '5TF', 'restraint': 'H', 'model': 'Y5F', 'engine': '1', 'check': '9', 'year': 'C', 'plant': 'X', 'vis': '236781'}
{'wmi': 'JN1', 'restraint': 'C', 'model': 'V6A', 'engine': 'R', 'check': '7', 'year': 'B', 'plant': 'M', 'vis': '356524'}
{'wmi': 'ZFF', 'restraint': '6', 'model': '5LJ', 'engine': 'A', 'check': '9', 'year': 'A', 'plant': '0', 'vis': '170669'}


## Упражнения

### Извлечение производителя из VIN-кода

In [8]:
pattern = re.compile( )
pattern.findall(vin_sample)

['1FT', '1FT', '1GN', '5N1', '5TF', 'JN1']

### Поиск всех VIN-кодов определенной марки автомобиля на примере Ferrari

- Вин-коды Феррари ZDF, ZFF, ZSG


In [40]:

ferrari_wmi = ['ZDF', 'ZFF', 'ZSG']

pattern = re.compile( )
pattern.findall(ferrari_sample)

['ZFF65LJA9A0170669']

### Поиск VIN-кодов с определенным регионом

Северная Америка как регион (США, Канада, Мексика)

    1, 4, 5 = United States
    2 = Canada
    3 = Mexico
    7F-70 = United States


Североамериканские машины

In [12]:
pattern = re.compile( )
pattern.findall(vin_sample)

['1FT7X2B6XCEB34867',
 '1FTNF1CF4EKD18628',
 '1GNKRFED3CJ319802',
 '5N1BA08D49N601792',
 '5TFHY5F19CX236781']

Машины из любых других регионов (не Сев.Америка)

In [45]:
pattern = re.compile( )
pattern.findall(vin_sample)

['JN1CV6AR7BM356524', 'ZFF65LJA9A0170669']

### Извлечение года из VIN-кода только североамериканских машин

- В североамериканском вине год 10й знак
- в кодировке года не используются знаки U и Z в дополнение к запрещенным I, O, Q

In [14]:
pattern = re.compile( )
pattern.findall(vin_sample)

['C', 'E', 'C', '9', 'C']

Для проверки выведем весь словарь компонентов вин кода

In [47]:
decode_vin(vin_sample)

{'wmi': '1FT', 'restraint': '7', 'model': 'X2B', 'engine': '6', 'check': 'X', 'year': 'C', 'plant': 'E', 'vis': 'B34867'}
{'wmi': '1FT', 'restraint': 'N', 'model': 'F1C', 'engine': 'F', 'check': '4', 'year': 'E', 'plant': 'K', 'vis': 'D18628'}
{'wmi': '1GN', 'restraint': 'K', 'model': 'RFE', 'engine': 'D', 'check': '3', 'year': 'C', 'plant': 'J', 'vis': '319802'}
{'wmi': '5N1', 'restraint': 'B', 'model': 'A08', 'engine': 'D', 'check': '4', 'year': '9', 'plant': 'N', 'vis': '601792'}
{'wmi': '5TF', 'restraint': 'H', 'model': 'Y5F', 'engine': '1', 'check': '9', 'year': 'C', 'plant': 'X', 'vis': '236781'}
{'wmi': 'JN1', 'restraint': 'C', 'model': 'V6A', 'engine': 'R', 'check': '7', 'year': 'B', 'plant': 'M', 'vis': '356524'}
{'wmi': 'ZFF', 'restraint': '6', 'model': '5LJ', 'engine': 'A', 'check': '9', 'year': 'A', 'plant': '0', 'vis': '170669'}


### Проверка корректности формата VIN-кода

- Вин-код состоит из 17 знаков – цифр и букв, кроме 'I', 'O', 'Q'
- Последние три знака – всегда цифры

Создадим набор винов, где только один вин валидный и остальные ошибочные
- отрежем один знак
- добавим лишний знак
- заменим буквой последнюю цифру в номере
- заменим разрешенный знак на неразрешенный

In [49]:
error_sample = vin_sample + ' 3LN6L2GKXDR811732 BAAM3334XKC59086 1N4BL11D84C1859519 1C4RJEBG5EC48287Q QN1AB7AP5EL654699'
error_sample

'1FT7X2B6XCEB34867 1FTNF1CF4EKD18628 1GNKRFED3CJ319802 5N1BA08D49N601792 5TFHY5F19CX236781 JN1CV6AR7BM356524 ZFF65LJA9A0170669 3LN6L2GKXDR811732 BAAM3334XKC59086 1N4BL11D84C1859519 1C4RJEBG5EC48287Q QN1AB7AP5EL654699'

Валидные вин-коды

In [53]:
pattern = re.compile( )
pattern.findall(vin_sample)

['1FT7X2B6XCEB34867',
 '1FTNF1CF4EKD18628',
 '1GNKRFED3CJ319802',
 '5N1BA08D49N601792',
 '5TFHY5F19CX236781',
 'JN1CV6AR7BM356524',
 'ZFF65LJA9A0170669',
 '3LN6L2GKXDR811732']

Невалидные вины

In [10]:
pattern = re.compile( )
pattern.findall(vin_sample)

['BAAM3334XKC59086',
 '1N4BL11D84C1859519',
 '1C4RJEBG5EC48287Q',
 'QN1AB7AP5EL654699']

### Автомобили Ford

In [20]:
ford_wmi = {
    'AFA': 'Ford Motor Company of Southern Africa & Samcor',
    'AFB': 'Mazda BT-50 made by Ford Motor Company of Southern Africa',
    'JC0': 'Ford brand cars made by Mazda',
    'JC2': 'Ford Courier made by Mazda',
    'KNJ': 'Ford Festiva & Aspire made by Kia',
    'LJX': 'JMC Ford',
    'LVS': 'Changan Ford & Changan Ford Mazda',
    'MAJ': 'Ford India',
    'MNB': 'Ford Thailand',
    'NM0': 'Ford Otosan',
    'PE1': 'Ford Motor Company Philippines',
    'PE3': 'Mazda Philippines made by Ford Motor Company Philippines',
    'PR8': 'Ford',
    'LFA': 'Ford Lio Ho Motor Co Ltd. old designation',
    'RHA': 'Ford Lio Ho Motor Co Ltd. new designation',
    'RL0': 'Ford Vietnam',
    'SBC': 'Iveco Ford Truck',
    'SFA': 'Ford UK',
    'VSK': 'Nissan Motor Iberica SA, Nissan passenger car/MPV/van/SUV/pickup & Ford Maverick 1993–1999',
    'VS6': 'Ford Spain',
    'WF0': 'Ford Germany',
    'X9F': 'Ford Motor Company ZAO',
    'Z6F': 'Ford Sollers (Russia)',
    '1FA': 'Ford car',
    '1FB': 'Ford "bus" (van with more than 3 rows of seats)',
    '1FC': 'Ford stripped chassis made by Ford',
    '1FD': 'Ford incomplete vehicle',
    '1FM': 'Ford MPV/SUV',
    '1FT': 'Ford truck',
    '1F1': 'Ford SUV - Limousine (through 2009)',
    '1F6': 'Ford stripped chassis made by Detroit Chassis LLC',
    '1ZV': 'Ford made by AutoAlliance International',
    '2FA': 'Ford car',
    '2FM': 'Ford MPV/SUV',
    '2FT': 'Ford truck',
    '3FA': 'Ford car',
    '3FC': 'Ford stripped chassis made by Ford & IMMSA',
    '3FE': 'Ford Mexico',
    '3FM': 'Ford MPV/SUV',
    '3FN': 'Ford F-650/F-750 made by Blue Diamond Truck Co. (truck)',
    '3FR': 'Ford F-650/F-750 made by Blue Diamond Truck Co. (incomplete vehicle)',
    '3FT': 'Ford truck',
    '4F2': 'Mazda SUV made by Ford',
    '4F4': 'Mazda truck made by Ford',
    '4N2': 'Nissan Quest made by Ford',
    '5LD': 'Ford & Lincoln incomplete vehicle – limousine (2010–2014)',
    '6F1': 'Ford',
    '6FP': 'Ford Australia',
    '7A5': 'Ford New Zealand',
    '8AF': 'Ford Argentina',
    '9BF': 'Ford Brazil',
}

In [21]:
ford_groups = {
    'P': 'All Ford, Mercury, Merkur, and Lincoln passenger cars 1981-1986, Ford-brand passenger cars made in North America at a factory owned 100% by Ford Motor Co. 1987-2009',
    'M': 'Mercury & Lincoln passenger cars made in North America at a factory owned 100% by Ford Motor Co. 1987-2009. Mercury passenger cars 2010-2011',
    'T': 'Ford, Mercury, and Merkur passenger cars made outside North America or made in North America at a factory not owned 100% by Ford Motor Co. 1987-2009 (Ford Festiva, Aspire, Probe, & \'05-\'09 Mustang, Mercury Capri \'91-\'94, & Cougar \'99-\'02, Merkur XR4Ti \'87-\'89 and Scorpio \'88-\'89)',
    'P': 'Ford-brand passenger cars 2010-',
    'L': 'Lincoln passenger cars 2010-2020',
}


Все автомобили Форд

In [32]:
pattern = re.compile( )
pattern.findall(vin_sample)

['1FT7X2B6XCEB34867', '1FTNF1CF4EKD18628']