# Ирисы Фишера

Знаменитый набор данных Фишера (или Эдгара Андерсона) содержит измерения в сантиметрах 4-х переменных: длины и ширины лепестков цветов ириса - по 50 измерений трех видов:
- Iris setosa
- Iris versicolor
- Iris virginica

На этом наборе часто демонстрируют применение методов многомерного анализа и классификации.

Названия переменных даются по-английски:
 
 термин | перевод
 --|
    Sepal | наружный лепесток околоцветника
    Petal | внутренний лепесток околоцветника
    Length | длина
    Width | ширина

Anderson, Edgar (1935). The irises of the Gaspe Peninsula, Bulletin of the American Iris Society, 59, 2–5. 

Fisher, R. A. (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7, Part II, 179–188.


In [1]:
%pylab inline
import pandas as pd
from io import StringIO

Populating the interactive namespace from numpy and matplotlib


## Загрузка из пакета `scikit-learn`

In [18]:
#http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html
from sklearn import datasets
iris = datasets.load_iris()
iris.keys()

['target_names', 'data', 'target', 'DESCR', 'feature_names']

In [17]:
D = pd.DataFrame(data= hstack([iris['data'], atleast_2d(iris['target_names'][iris['target']]).T]), 
                 columns= iris['feature_names']+['species'])
D.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


## Загрузка из пакета `seaborn`

In [21]:
import seaborn as sns
D = sns.load_dataset('iris')
D.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


## Загрузка из Интернет

В интернете готовый набор данных выложен во многих местах, например на [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml/datasets/Iris)

In [22]:
# обратите внимание, что строчка записана из двух частей - они автоматически соединяются в одну строку
D = pd.read_csv('https://raw.github.com/pydata/pandas/master'
              '/pandas/tests/data/iris.csv')
D.tail()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## Загрузка из файлов

Ссылка со страницы https://www.kaggle.com/uciml/iris/kernels
Можно скачать архив и распаковать вручную. Файлы в архиве:

- Iris.csv
- database.sqlite

Далее предполагаем, что эти файлы в текущей папке.

### Текстовый файл

In [24]:
#'https://www.kaggle.com/uciml/iris/downloads/iris-species.zip'
D = pd.read_csv('Iris.csv')
D.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


### Файл базы данных

Второй файл - база данных в формате `SQLite`

In [27]:
# создаем соединение к базе. Может быть через сеть к другому серверу
import sqlite3
conn = sqlite3.connect('database.sqlite')  # указываем путь к файлу
conn

<sqlite3.Connection at 0x12d02b60>

In [29]:
#Прочитать список таблиц можно таким запросом
pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn) # запрос к главной таблице

Unnamed: 0,name
0,Iris


In [32]:
name = 'Iris'
q = 'SELECT * FROM {}'.format(name)  # ВЫБРАТЬ {все колонки} ИЗ {имя базы}
D = pd.read_sql(q, conn)
D.tail()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


![](https://kaggle2.blob.core.windows.net/datasets-images/19/19/default-backgrounds/dataset-thumbnail.jpg)