# Задание 3: Разведочный анализ

Данные наблюдений за видами (когда и где наблюдается данный вид) типичны для исследований биоразнообразия. 
Крупные международные инициативы поддерживают сбор этих данных волонтерами, например, iNaturalist. 
Благодаря таким инициативам, как GBIF, многие из этих данных также находятся в открытом доступе.

Вы решили поделиться данными полевой кампании, но набор данных все еще требует некоторой очистки и стандартизации. 
Например, координаты могут называться x/y, decimalLatitude/decimalLongitude, lat/long ... 
К счастью, вы знаете о международном стандарте открытых данных для описания данных о событиях/наблюдениях, т.е. Darwin Core (DwC). 
Вместо того, чтобы изобретать собственную модель данных, вы решаете соответствовать этому международному стандарту. 
Последнее улучшит коммуникацию, а также сделает ваши данные совместимыми с GBIF.

Короче говоря, DwC описывает плоскую таблицу (CSV) с согласованным соглашением об именах для имен заголовков и соглашениями о том, как должны быть представлены определенные типы данных (для справки, подробное описание дано здесь). 
В этом руководстве мы сосредоточимся на нескольких существующих терминах, чтобы изучить некоторые элементы очистки данных:

- eventDate : формат дат ISO 6801
- ScientificName : общепринятое научное название вида.
- decimalLatitude / decimalLongitude : координаты вхождения в формате WGS84
- sex: либо мужской , либо женский , чтобы охарактеризовать пол события
- instanceID : идентификатор в наборе данных для идентификации отдельных записей.
- datasetName : статическая строка, определяющая источник данных

Кроме того, дополнительная информация о таксономии будет добавлена с использованием внешнего API-сервиса.


In [1]:
import csv
from datetime import date, timedelta, datetime
from calendar import month_abbr, day_abbr

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
spec_filename = "..\\..\\data\\003\\species.csv"
spec = pd.read_csv(spec_filename, sep=";")
spec.head()

Unnamed: 0,species_id,genus,species,taxa
0,AB,Amphispiza,bilineata,Bird
1,AH,Ammospermophilus,harrisi,Rodent-not censused
2,AS,Ammodramus,savannarum,Bird
3,BA,Baiomys,taylori,Rodent
4,CB,Campylorhynchus,brunneicapillus,Bird


In [3]:
survey_filename = "..\\..\\data\\003\\surveys.csv"
survey_data = pd.read_csv(survey_filename, sep=",")
survey_data.head()


Unnamed: 0,record_id,month,day,year,plot,species,sex_char,wgt
0,1,7,16,1977,2,,M,
1,2,7,16,1977,3,,M,
2,3,7,16,1977,2,DM,F,
3,4,7,16,1977,7,DM,M,
4,5,7,16,1977,3,DM,M,
