# **Создание признаков. Внешние источники данных**

**Внешние источники данных** — дополнительные источники информации, использующиеся для обогащения датасета. Существует два типа внешних источников данных — **открытые** и **закрытые**.

**[Для определения платежеспособности клиента банки часто используют данные из [Федеральной службы государственной статистики](https://rosstat.gov.ru/labor_market_employment_salaries), чтобы получить информацию о занятости клиента, размере оплаты труда для конкретного региона, в котором проживает клиент. Эта информация может оказаться важной в определении платёжеспособности клиента.]**

Компания, занимающаяся построением предсказательной модели, может запросить данные в качестве услуги (data as a service) у компании-провайдера данных. Это случай обогащения датасета закрытыми данными. Источниками закрытых данных являются сотовые операторы, БКИ, Госуслуги, ФССП (Федеральная служба судебных приставов) и так далее.

Для получения информации из внешних источников данных специалисты по данным могут скачивать информацию с сайтов, парсить их и взаимодействовать с внешними сервисами по API.

Например, на сайте [**Федеральной службы государственной статистики (Росстат)**](https://rosstat.gov.ru/) вы можете [**скачать данные**](https://showdata.gks.ru/report/278934/) об общем приросте населения областей РФ в формате .XLSX, .CSV, .HTML, .DOCX. Вы уже работали с файлами различных форматов в модуле PYTHON-16. Как выгружать данные из файлов разных форматов.
***
Также специалисты по данным используют **API** или парсинг для получения дополнительной информации. Вы уже научились парсингу сайтов и работе с API в модуле **PYTHON-17**. Как получать данные из веб-источников и API.

Дата-инженеры могут запрашивать у сотового оператора по API информацию о принадлежности номера телефона определённому клиенту. Такую информация можно использовать, чтобы выяснить, скрывает ли человек своё настоящее имя.
***
Когда данные получить необходимо, а API у источника данных нет, дата-инженеры прибегают к **парсингу**.

**[Например, вы хотите в целях обучения создать модель, которая бы предсказывала стоимость автомобиля по заданным характеристикам. Из данных у вас есть только марка автомобиля и его стоимость. Произведя парсинг сайта auto.ru, вы сможете получить дополнительную информацию о марках автомобиля: тип кузова, габариты, расход топлива, — и понять, из каких параметров складывается цена на автомобиль.]**
***
Внешняя информация бывает **общая** и **профильная**.

**Общая внешняя информация** — это различные общие географические, экологические, статистические и другие данные.   
Они находятся в открытых источниках: Росстат, Википедия и так далее.  
Для доступа к ним применяется парсинг, скачивание и работа с файлами, реже — работа по API.  

**Профильная внешняя информация** — информация, связанная со сферой бизнеса, проблему которого необходимо решить.  
**[Например, при прогнозировании рейтинга ресторана мы можем использовать ссылки на сайт TripAdvisor для парсинга и получения информации о ресторанах. При рекомендации фильмов в приложении мы можем пользоваться информацией с «Кинопоиска» о фильмах. Также это могут быть запросы в сервисы — запрос в Dadata.ru для проверки действительности адреса.]**  
Для доступа к такой информации часто применяются запросы по API, парсинг, работа с файлами.  
Давайте попробуем использовать внешние источники данных для получения информации к нашему набору данных. 
***
#### **РАБОТА С ФАЙЛАМИ**
Часто маленькие страны с небольшим количеством населения имеют узкую специализацию. Например, в производстве вина особенно успешны Франция, Италия, Испания, Новая Зеландия. Чтобы проверить, влияет ли на качество вина населённость, выясним информацию о населении страны, в котором была произведена бутылка вина. 

⬇️ Дата-инженеры предоставили нам файл [**country_population.zip**](https://lms.skillfactory.ru/assets/courseware/v1/bc68abc698d6be7a7f9ebc911202512f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/country_population.zip) (необходимо распаковать) с данными о населении по странам. 


In [7]:
import pandas as pd
from IPython.display import display
import datetime as dt
data = pd.read_csv('data/wine_cleared2.csv')

In [8]:
country_population = pd.read_csv('data/country_population.csv', sep=';')
country_population

Unnamed: 0,country,population
0,China,1411778724
1,India,1386584581
2,US,333022386
3,Indonesia,271350000
4,Pakistan,225200000
...,...,...
236,Niue,1549
237,Tokelau,1501
238,Vatican City,825
239,Cocos Islands,573


In [9]:
# Каково население Италии согласно датасету country_population?

country_population[country_population['country']=='Italy']

Unnamed: 0,country,population
24,Italy,59097904


Далее сопоставим значения из датасета country_population и страной-производителем вина.  
На основе значений населения из country_population заполним новый признак country_population.

Используем для этого функцию для объединения датасетов [**join**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html).
Для объединения используем аргумент **on='country'**, указывая столбец, по которому объединяем датафреймы:

In [10]:
data = data.join(country_population.set_index('country'), on='country')
display(data.head(3))

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,taster_name,...,variety,winery,price_round,year,is_usa,is_france,is_italy,old_wine,locality,population
0,0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,35.363389,Sicily & Sardinia,Etna,Kerin O’Keefe,...,White Blend,Nicosia,35,2013-01-01,0,0,1,0,Etna,59097904
1,1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,unknown,Roger Voss,...,Portuguese Red,Quinta dos Avidagos,15,2011-01-01,0,0,0,0,Douro,10347892
2,2,2,US,"Tart and snappy, the flavors of lime flesh and...",unknown,87,14.0,Oregon,Willamette Valley,Paul Gregutt,...,Pinot Gris,Rainstorm,14,2013-01-01,1,0,0,0,Willamette Valley,333022386


⬇️ Теперь используем файл [**country_area.zip**](https://lms.skillfactory.ru/assets/courseware/v1/1b7a5ef6afa169ccc72348cf493d716d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/country_area.zip) (необходимо распаковать) для информации о площади страны.

In [11]:
country_area = pd.read_csv('data/country_area.csv', sep=';')
country_area.head()

Unnamed: 0,country,area
0,Russia,17075400.0
1,Canada,9984670.0
2,China,9596960.0
3,US,9372610.0
4,Brazil,8547000.0


In [12]:
# Создайте новый признак area_country — площадь страны, аналогичный признаку country_population.

data = data.join(country_area.set_index('country'), on='country')
data.rename(columns={"area": "area_country"}, inplace=True)
data.head(2)

# Какая площадь страны у вина под названием
# 'Gård 2014 Grand Klasse Reserve Lawrence Vineyards Viognier (Columbia Valley (WA))'?
# Ответ вводите без пробелов, округлите до целых.

data[data['title']=='Gård 2014 Grand Klasse Reserve Lawrence Vineyards Viognier (Columbia Valley (WA))']['area_country']

94    9372610.0
Name: area_country, dtype: float64

In [13]:
# сохраним в новую таблицу
data.to_csv('data/wine_cleared2.csv')