In [2]:
import pandas as pd

data = pd.read_csv("wine_cleared.csv")

In [3]:
# Создадим новый признак price_round, означающий округлённую до целого числа цену за бутылку вина:
# для удобства сразу преобразуем признак в int
data['price_round'] = data['price'].round().astype(int)

In [None]:
# Для того, чтобы извлечь из строки число, обозначающее год, необходимо воспользоваться регулярными выражениями.
# Регулярные выражения (regexp, или regex) — это механизм для поиска и замены текста. 
# Это шаблоны, которые используются для поиска соответствующей части текста.
# Например, с помощью такого регулярного выражения 
# [^@ \t\r\n]+@[^@ \t\r\n]+\.[^@ \t\r\n]+ можно найти любой email в тексте.

regex = r"\d{4}" # регулярное выражение для нахождения чисел
data['year'] = data['title'].str.findall(regex).str.get(0)
# Разберём регулярное выражение \d{4}:
# Чтобы избежать предупреждения, необходимо экранировать обратный слеш или использовать 
# необработанную строку (raw string), добавив перед строкой букву r.
# \d — класс символов, обозначает соответствие цифрам в диапазоне цифр [0-9];
# {4} в шаблоне означает искать четыре вхождения символа, указанного ранее. В нашем случае это будут четырехзначные числа.
# Таким образом, \d{4} означает поиск четырехзначных чисел в заданной строке.
data.head()

In [None]:
# В наборе данных винных обзоров самая популярная страна-производитель вина — США. Возможно, это не случайность,
# и факт производства в США влияет на рейтинг вина. Выделим этот факт.
# Вы можете создать новый бинарный признак is_usa и присвоить ему 1 в случае, если вино произведено в США, иначе — 0.
data['is_usa'] = data['country'].apply(lambda x: 1 if x == 'US' else 0)
data.head()

In [9]:
# Группировка по странам и подсчёт количества записей по каждой стране
country_counts = data['country'].value_counts()

# Исключаем США и выводим две самые популярные страны
top_countries = country_counts.drop('US').head(2)

# Вывод результата
print(top_countries)

country
France    22093
Italy     19540
Name: count, dtype: int64


In [None]:
data['is_france'] = data['country'].apply(lambda x: 1 if x == 'France' else 0)
data['is_italy'] = data['country'].apply(lambda x: 1 if x == 'Italy' else 0)

In [12]:
data['is_france'].sum()

22093

In [13]:
data['is_italy'].sum()

19540

In [27]:
# преобразуем признак year в объект datetime для удобного сравнения дат
data['year'] = pd.to_datetime(data['year'], errors='coerce')

# для сравнения используем год, заполняем значения признака old_wine, где год вина меньше 2010
data['old_wine'] = data['year'].apply(lambda x: 1 if x.year < 2010 else 0) 
data['old_wine'].sum()

129971

In [17]:
print(data.columns)

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'taster_name', 'taster_twitter_handle',
       'title', 'variety', 'winery', 'price_round', 'year', 'is_usa',
       'is_france', 'is_italy'],
      dtype='object')
