# Набор данных о черепахах

[Правило Ренча](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B0%D0%B2%D0%B8%D0%BB%D0%BE_%D0%A0%D0%B5%D0%BD%D1%87%D0%B0) (Rensch’s Rule)(положительная аллометрия полового диморфизма в размерах) 
решили проверить на черепахах. Для этого интегрировали данные из разных работ - в каких-то измерялись размеры и масса, в каких-то только размеры. Таблица неполная, так как информация по многим позициям отсутствует. Это пример реальных данных, с которыми приходится работать.

[Regis KW, Meik JM (2017) Allometry of sexual size dimorphism in turtles: a comparison of mass and length data Ecology Evolutionary Studies Zoology](https://peerj.com/articles/2914)

In [1]:
%pylab inline
import pandas as pd

Populating the interactive namespace from numpy and matplotlib


In [2]:
#https://dfzljdn9uc3pi.cloudfront.net/2017/2914/1/Data_S1_Complete_Dataset.xlsx
D = pd.read_excel('Data_S1_Complete_Dataset.xlsx', skiprows=5)
D.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 692 entries, 0 to 691
Data columns (total 27 columns):
Carapace data used for phylogenetic analysis    241 non-null object
Mass data used for phylogenetic analysis        146 non-null object
Max mass used?                                  9 non-null object
Max SCL used?                                   19 non-null object
Captive?                                        12 non-null object
Combined populations?                           3 non-null object
Genus                                           692 non-null object
Species                                         692 non-null object
Common Name                                     306 non-null object
Family                                          692 non-null object
M Mass (g)                                      297 non-null float64
F Mass (g)                                      297 non-null float64
N                                               446 non-null object
Locality       

Посмотрим список мест сбора данных.

In [3]:
D.Locality.value_counts()

Orang National Park, Assam state, India                                               15
Bangladesh                                                                             8
Papua Province, New Guinea Island, Indonesia                                           6
Madagascar                                                                             6
Savannah River Plant and Capers Island, South Carolina                                 6
Mamiraua Sustainable Development Reserve, Amazonas state, Brazil                       4
East Texas                                                                             4
New Hampshire                                                                          3
Nepal                                                                                  3
E. S. George Reserve, Livingston County, Michigan                                      3
Bellinger River, Thora, New South Wales, Australia                                     2
Florida              

На выходе мы получили серию (`Series`) с частотой упоминания в таблице отдельных мест (Locality), а в качестве индекса к этим значениям использованы названия этих мест.

Сколько всего раз встречается Бразилия?

In [4]:
#_ - это ссылка на вывод из предыдущей ячейки
_[_.index.str.contains('Brazil')].sum()

22

In [5]:
# вывод из предыдущей ячейки = 22
# для ссылки на вывод из 3-й ячейки используйте _3
_3[_3.index.str.contains('India')].sum()

23

Чтобы не путаться - лучше ссылаться на исходные переменные, или создавать временные переменные с понятным именем.

In [6]:
Cherepashki_Turkii=D[D.Locality.str.contains('Turk')==True]
Cherepashki_Turkii

Unnamed: 0,Carapace data used for phylogenetic analysis,Mass data used for phylogenetic analysis,Max mass used?,Max SCL used?,Captive?,Combined populations?,Genus,Species,Common Name,Family,...,F Max Mass (g),Pop Max Mass (g),M Max SCL (mm),F Max SCL (mm),Pop Max SCL (mm),KWR notes,Mass Source,SCL Original Source,SCL Dataset Source,secondary mass source
195,yes,,,,,,Emys,orbicularis,European Pond Turtle,Emydidae,...,750.7,750.7,156.8,166.6,166.6,,"Ayaz, D., Fritz, U., Atatur, M. K., Mermer, A....",,,
196,,,,,,,Emys,orbicularis,European pond turtle,Emydidae,...,680.0,680.0,138.0,162.0,162.0,,"Auer, M., and E. Taskavak. 2004. Population St...",,,
403,yes,yes,,,,,Mauremys,rivulata,Western Caspian turtle,Geoemydidae,...,823.0,823.0,142.0,18.1,18.1,,"Güçlü, O., and O. Türkozan. 2010. Population S...",,,
404,,,,,,,Mauremys,rivulata,Western Caspian turtle,Geoemydidae,...,878.0,878.0,205.0,188.0,205.0,,"Auer, M., and E. Taskavak. 2004. Population St...",,,
633,,yes,,,,,Agrionemys,horsfieldii,Central Asian tortoise,Testudinidae,...,,,,,,,"Ataev, C.A. 1997. Reptiles of the autonomous r...",,,


Чтобы получить информацию по конкретной записи можно использовать индекс. В данном случае индекс строчки - это ее номер, а индекс колонки - это ее название.

In [7]:
D.ix[633,'Mass Source']

u'Ataev, C.A. 1997. Reptiles of the autonomous republic of Turkmenistan. Chelonian Conservation and Biology 2:627-634.'

Для удобства можно указывать только список нужных колонок, выписав их в отдельную переменную.

In [8]:
kk=['Genus','Species','Common Name','Family','M Mass (g)','F Mass (g)','N','Locality','M SCL (mm)','F SCL (mm)','Mass Source']
D.ix[633,kk]

Genus                                                 Agrionemys
Species                                              horsfieldii
Common Name                               Central Asian tortoise
Family                                              Testudinidae
M Mass (g)                                                 684.5
F Mass (g)                                                  1223
N                                                            NaN
Locality                                            Turkmenistan
M SCL (mm)                                                   NaN
F SCL (mm)                                                   NaN
Mass Source    Ataev, C.A. 1997. Reptiles of the autonomous r...
Name: 633, dtype: object

Для выборки центральноазиатских черепах, описанной в работе Атаева (1997), указываются только средние показатели массы самок и самцов, а измерений длины карапакса (`M SCL (mm)`, `F SCL (mm)`)  нет, поэтому на месте отсутствующих данных специальное число без значения `NaN`

Кроме средних значений размеров и массы, которые использованы для проверки правила Ренча, интерес представляют колонки с максимально зарегистрированным размером для особей разных полов и для популяций в целом.
```
M Max Mass (g)                                  126 non-null float64
F Max Mass (g)                                  127 non-null float64
Pop Max Mass (g)                                113 non-null float64
M Max SCL (mm)                                  271 non-null float64
F Max SCL (mm)                                  272 non-null float64
Pop Max SCL (mm)                                125 non-null float64 
```

Прочие колонки (первые шесть и последние 5) содержат информацию с уточнением обстоятельств получения данных для данных случаев.
Это так называемая *мета-информация*.
Малоинформативные колонки можно вообще удалить из рабочей таблицы на время анализа.

In [9]:
#D=D.iloc[:,6:-5]