# Примеры получения готовых табличных данных

In [1]:
import numpy as np 
import pandas as pd

from warnings import simplefilter
simplefilter('ignore')

## Библиотека Seaborn

Здесь набор возможных встроенных датасетов https://github.com/mwaskom/seaborn-data .\
Получим данные об ирисах.

In [3]:
import seaborn as sns

iris_data = sns.load_dataset('iris')
iris_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## Библиотека scikit-learn

Здесь набор возможных датасетов https://scikit-learn.org/stable/datasets.html \
Также получим данные об ирисах.

In [4]:
from sklearn.datasets import load_iris

iris_data_full = load_iris(as_frame=True)

# data.data - содержит числовые значения
# data.feature_names - содержит числовые имена столбцов
# data.target - содержит категориальные (видовые) значения (в виде целых чисел)
# data.target_names - содержит уникальные категориальные имена
# data.frame - содержит табличные данные

iris_data = iris_data_full['frame']
iris_data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## Загрузка данных из openml.org репозитория

Пакет `sklearn.datasets` может загружать наборы данных из репозитория [openml.org](https://openml.org/) с помощью функции [fetch_openml](https://scikit-learn.org/stable/datasets/loading_other_datasets.html#downloading-datasets-from-the-openml-org-repository).

Набор датасетов можно посмотреть [здесь](https://openml.org/search?type=data&sort=runs&status=active).\
Есть фильтр по типу целевого признака (регрессия, бинарная классификация, мультиклассовая классификация).

In [5]:
from sklearn.datasets import fetch_openml

# Для примера возьмем данные о диабете
diabetes_data_full = fetch_openml(name='diabetes')
diabetes_data = diabetes_data_full['frame']
diabetes_data.head()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6.0,148.0,72.0,35.0,0.0,33.6,0.627,50.0,tested_positive
1,1.0,85.0,66.0,29.0,0.0,26.6,0.351,31.0,tested_negative
2,8.0,183.0,64.0,0.0,0.0,23.3,0.672,32.0,tested_positive
3,1.0,89.0,66.0,23.0,94.0,28.1,0.167,21.0,tested_negative
4,0.0,137.0,40.0,35.0,168.0,43.1,2.288,33.0,tested_positive


## Датасет из случайных чисел

[Варианты распределений в модуле numpy.random](https://numpy.org/doc/stable/reference/random/legacy.html#distributions)

In [9]:
# сгенерируем датасет из случайных чисел
random_data = pd.DataFrame({   
    # Нормальное распределение, 10 – среднее значение, 2 – стандартное отклонение, 1000 – количество сэмплов
    'normal_1': np.random.normal(10, 2, 1000),
    
    # Нормальное распределение, 10 – среднее значение, 4 – стандартное отклонение, 1000 – количество сэмплов
    'normal_2': np.random.normal(20, 4, 1000),
    
    # Лонгнормальное распределение
    # 30 - Среднее значение основного нормального распределения, 6 – стандартное отклонение, 
    # 1000 – количество сэмплов
    'lognormal_1': np.random.lognormal(30, 6, 1000),
})

In [10]:
random_data.describe()

Unnamed: 0,normal_1,normal_2,lognormal_1
count,1000.0,1000.0,1000.0
mean,9.827388,20.032615,6.11863e+17
std,1.930436,3.871598,7.811545e+18
min,4.414231,7.953704,2950.713
25%,8.486187,17.470918,192476900000.0
50%,9.792808,19.937048,12580780000000.0
75%,11.09816,22.682243,641482200000000.0
max,17.02623,30.883204,2.184568e+20


In [11]:
random_data.head()

Unnamed: 0,normal_1,normal_2,lognormal_1
0,9.180902,24.409431,20679700000000.0
1,12.89789,16.96089,4683746000000.0
2,8.318051,19.239376,5990800000.0
3,7.814697,17.801329,154104000.0
4,7.411362,19.07394,8936401000000000.0


## Полезные ссылки

- [Десять датасетов для практики работы с линейной регрессией](https://www.telusinternational.com/insights/ai-data/article/10-open-datasets-for-linear-regression)