In [12]:
import pandas as pd
from datetime import datetime

→ В машинном обучении часто используют внешние источники данных для создания признаков. Это может быть необходимо для получения совершенно новой информации, которая может быть важнее исходных признаков.

Внешние источники данных — дополнительные источники информации, использующиеся для обогащения датасета. Существует два типа внешних источников данных — открытые и закрытые.

Открытые источники доступны всем пользователям интернета. Их предоставляют такие источники, как Федеральная служба государственной статистики, Федеральная налоговая служба, Центральный банк, Википедия и так далее.

Пример

Для определения платежеспособности клиента банки часто используют данные из Федеральной службы государственной статистики, чтобы получить информацию о занятости клиента, размере оплаты труда для конкретного региона, в котором проживает клиент. Эта информация может оказаться важной в определении платёжеспособности клиента.

Компания, занимающаяся построением предсказательной модели, может запросить данные в качестве услуги (data as a service) у компании-провайдера данных. Это случай обогащения датасета закрытыми данными. Источниками закрытых данных являются сотовые операторы, БКИ, Госуслуги, ФССП (Федеральная служба судебных приставов) и так далее.

Пример

Коллекторская компания по договорённости с Федеральной службой судебных приставов дополнительно получает информацию об исполнительных производствах и других судебных процессах по своим клиентам. Это помогает обеспечивать более качественные взыскания.

Для получения информации из внешних источников данных специалисты по данным могут скачивать информацию с сайтов, парсить их и взаимодействовать с внешними сервисами по API.

Например, на сайте Федеральной службы государственной статистики (Росстат) вы можете скачать данные об общем приросте населения областей РФ в формате .XLSX, .CSV, .HTML, .DOCX. Вы уже работали с файлами различных форматов в модуле PYTHON-16. Как выгружать данные из файлов разных форматов.



Витрина статистических данных на сайте Росстата. Общий прирост постоянного населения.

Также специалисты по данным используют API или парсинг для получения дополнительной информации. Вы уже научились парсингу сайтов и работе с API в модуле PYTHON-17. Как получать данные из веб-источников и API.

Дата-инженеры могут запрашивать у сотового оператора по API информацию о принадлежности номера телефона определённому клиенту. Такую информация можно использовать, чтобы выяснить, скрывает ли человек своё настоящее имя.

Когда данные получить необходимо, а API у источника данных нет, дата-инженеры прибегают к парсингу. 

Например, вы хотите в целях обучения создать модель, которая бы предсказывала стоимость автомобиля по заданным характеристикам. Из данных у вас есть только марка автомобиля и его стоимость. Произведя парсинг сайта auto.ru, вы сможете получить дополнительную информацию о марках автомобиля: тип кузова, габариты, расход топлива, — и понять, из каких параметров складывается цена на автомобиль.

Внешняя информация бывает общая и профильная.

Общая внешняя информация — это различные общие географические, экологические, статистические и другие данные. 

географические: население страны, площадь страны, столица страны и так далее.
экологические: среднегодовая температура местности, текущее время года, уровень загрязнения воздуха и так далее.
статистические: доходы населения, половозрастной состав, уровень безработицы и так далее.
Они находятся в открытых источниках: Росстат, Википедия и так далее.

Для доступа к ним применяется парсинг, скачивание и работа с файлами файлов, реже — работа по API.

Профильная внешняя информация — информация, связанная со сферой бизнеса, проблему которого необходимо решить. 

Например, при прогнозировании рейтинга ресторана мы можем использовать ссылки на сайт TripAdvisor для парсинга и получения информации о ресторанах. При рекомендации фильмов в приложении мы можем пользоваться информацией с «Кинопоиска» о фильмах. Также это могут быть запросы в сервисы — запрос в Dadata.ru для проверки действительности адреса. 

Для доступа к такой информации часто применяются запросы по API, парсинг, работа с файлами.

Давайте попробуем использовать внешние источники данных для получения информации к нашему набору данных. 

РАБОТА С ФАЙЛАМИ

Часто маленькие страны с небольшим количеством населения имеют узкую специализацию. Например, в производстве вина особенно успешны Франция, Италия, Испания, Новая Зеландия. Чтобы проверить, влияет ли на качество вина населённость, выясним информацию о населении страны, в котором была произведена бутылка вина. 

⬇️ Дата-инженеры предоставили нам файл country_population.zip (необходимо распаковать) с данными о населении по странам. 

In [3]:
country_population = pd.read_csv('./data/country_population.csv', sep=';')

country_population.loc[country_population['country'] == 'Italy']

Unnamed: 0,country,population
24,Italy,59097904


Далее сопоставим значения из датасета country_population и страной-производителем вина. На основе значений населения из country_population заполним новый признак country_population.

Используем для этого функцию для объединения датасетов join. Для объединения используем аргумент on='country', указывая столбец, по которому объединяем датафреймы:

In [4]:
data = pd.read_csv('./data/wine_modified')
data = data.join(country_population.set_index('country'), on='country')
data


Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,...,variety,winery,price_round,year,is_usa,is_france,is_italy,old_wine,locality,population
0,0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,...,White Blend,Nicosia,35,2013.0,0,0,1,0,Etna,59097904
1,1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.000000,Douro,unknown,Roger Voss,...,Portuguese Red,Quinta dos Avidagos,15,2011.0,0,0,0,0,Douro,10347892
2,2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.000000,Oregon,Willamette Valley,Paul Gregutt,...,Pinot Gris,Rainstorm,14,2013.0,1,0,0,0,Willamette Valley,333022386
3,3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.000000,Michigan,Lake Michigan Shore,Alexander Peartree,...,Riesling,St. Julian,13,2013.0,1,0,0,0,Lake Michigan Shore,333022386
4,4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.000000,Oregon,Willamette Valley,Paul Gregutt,...,Pinot Noir,Sweet Cheeks,65,2012.0,1,0,0,0,Willamette Valley,333022386
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,129966,129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.000000,Mosel,unknown,Anna Lee C. Iijima,...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef),28,2013.0,0,0,0,0,Erben Müller-Burggraef,83129285
129967,129967,129967,US,Citation is given as much as a decade of bottl...,unknown,90,75.000000,Oregon,Oregon,Paul Gregutt,...,Pinot Noir,Citation,75,2004.0,1,0,0,1,Oregon,333022386
129968,129968,129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.000000,Alsace,Alsace,Roger Voss,...,Gewürztraminer,Domaine Gresser,30,2013.0,0,1,0,0,Alsace,68035000
129969,129969,129969,France,"A dry style of Pinot Gris, this is crisp with ...",unknown,90,32.000000,Alsace,Alsace,Roger Voss,...,Pinot Gris,Domaine Marcel Deiss,32,2012.0,0,1,0,0,Alsace,68035000


Итак, мы получили новый признак для нашего датасета — население страны.

⬇️ Теперь используем файл country_area.zip (необходимо распаковать) для информации о площади страны.

Прочитаем файл:

In [5]:
country_area = pd.read_csv('./data/country_area.csv', sep=';')
country_area
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 129972 entries, 0 to 129970
Data columns (total 22 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   Unnamed: 0.1           129972 non-null  int64  
 1   Unnamed: 0             129972 non-null  int64  
 2   country                129909 non-null  object 
 3   description            129972 non-null  object 
 4   designation            129972 non-null  object 
 5   points                 129972 non-null  int64  
 6   price                  129972 non-null  float64
 7   province               129909 non-null  object 
 8   region_1               129972 non-null  object 
 9   taster_name            129972 non-null  object 
 10  taster_twitter_handle  129972 non-null  object 
 11  title                  129972 non-null  object 
 12  variety                129971 non-null  object 
 13  winery                 129972 non-null  object 
 14  price_round            129972 non-null  i

In [6]:
area = pd.read_csv('./data/country_area.csv', sep=';')

# Преобразование столбца 'country' в строку (если это еще не так)
data['country'] = data['country'].astype(str)
area['country'] = area['country'].astype(str)

# Убедитесь, что типы данных правильные
print(data.dtypes)
print(area.dtypes)

# Выполнение объединения (join) и присвоение обратно в переменную data
data = data.join(area.set_index('country'), on='country')

# Проверка первых строк DataFrame
print(data.head())

Unnamed: 0.1               int64
Unnamed: 0                 int64
country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
price_round                int64
year                     float64
is_usa                     int64
is_france                  int64
is_italy                   int64
old_wine                   int64
locality                  object
population                object
dtype: object
country     object
area       float64
dtype: object
   Unnamed: 0.1  Unnamed: 0   country  \
0             0           0     Italy   
1             1           1  Portugal   
2             2           2        US   
3             3           3        US   
4  

In [7]:
result = data.loc[data['title'] == 'Gård 2014 Grand Klasse Reserve Lawrence Vineyards Viognier (Columbia Valley (WA))']
result

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,...,winery,price_round,year,is_usa,is_france,is_italy,old_wine,locality,population,area
94,94,94,US,"Barrel notes are prominent, with aromas of Cre...",Grand Klasse Reserve Lawrence Vineyards,88,22.0,Washington,Columbia Valley (WA),Sean P. Sullivan,...,Gård,22,2014.0,1,0,0,0,Columbia Valley (WA,333022386,9372610.0


Создайте признак количество дней с момента произведения вина — years_diff для датасета винных обзоров. За дату отсчёта возьмите 12 января 2022 года. В ответ впишите максимальное количество дней с момента произведения вина. Ответ округлите до целого числа.

При попытке преобразовать созданный ранее столбец year в формат datetime, вы получите ошибку OutOfBoundsDatetime, которая возникает из-за некорректного ожидаемого формата входных данных. Чтобы справиться с этой ошибкой, воспользуйтесь параметром errors в функции to_datetime библиотеки Pandas. Параметр нужно установить в значение coerce:
data['year'] = pd.to_datetime(data['year'], errors = 'coerce')
Подробнее о назначении этого параметра вы можете прочесть в документации.

In [8]:
data['year'] = pd.to_datetime(data['year'], errors = 'coerce')



In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 129972 entries, 0 to 129970
Data columns (total 23 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Unnamed: 0.1           129972 non-null  int64         
 1   Unnamed: 0             129972 non-null  int64         
 2   country                129972 non-null  object        
 3   description            129972 non-null  object        
 4   designation            129972 non-null  object        
 5   points                 129972 non-null  int64         
 6   price                  129972 non-null  float64       
 7   province               129909 non-null  object        
 8   region_1               129972 non-null  object        
 9   taster_name            129972 non-null  object        
 10  taster_twitter_handle  129972 non-null  object        
 11  title                  129972 non-null  object        
 12  variety                129971 non-null  object   

In [18]:
data['year'] = pd.to_datetime(data['year'], errors = 'coerce')
data['years_diff'] = (pd.to_datetime("2022-01-12") - data['year']).dt.days
data['years_diff'].max()

19003.0