## Чем отличается DataFrame от Series?

### Что такое DataFrame?

DataFrame - это структура данных, внутри которой информация представлена в двух измерениях - колонки и строки. Интуитивно DataFrame можно сравнить с обычной таблицей - по горизонтальной оси представлены некоторые признаки/характеристики, а по вертикальной оси содержатся значения данных признаков для конкретных наблюдений.

В Python c такой структурой данных наиболее удобно работать с помощью библиотеки pandas. Импортируем ее:

In [1]:
import pandas as pd

Попробуем создать DataFrame самостоятельно с помощью словаря. Создадим колонку 'age' со значениями 30 и 40, и колонку 'sex' со значениями male и female.

In [2]:
df = pd.DataFrame({'age': [30, 40], 'sex': ['male', 'female']})

In [3]:
df

Unnamed: 0,age,sex
0,30,male
1,40,female


Dataframe-ы удобны тем, что такой вид презентации и хранения данных предоставляет большие возможности для разведочного анализа данных, предиктивной аналитики, a/б-тестов и т.д. В библиотеке Pandas реализован широкий набор методов, позволяющий извлекать из DataFrame-ов нужную информацию. Например, можно вывести ряд дескриптивных статистик, описывающих данные внутри DataFrame-а:

In [4]:
df.describe()

Unnamed: 0,age
count,2.0
mean,35.0
std,7.071068
min,30.0
25%,32.5
50%,35.0
75%,37.5
max,40.0


...вывести число колонок и строк:

In [5]:
df.shape

(2, 2)

...или посмотреть на первые n строк:

In [6]:
df.head()

Unnamed: 0,age,sex
0,30,male
1,40,female


Подробнее узнать об используемых для работы с DataFrame-ами методах можно в документации по ссылке "https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html"

### Что такое Series?

Series - это структура данных, в которой хранится информация в одном измерении. Интуитивно Series можно сравнить с массивом с некоторыми дополнительными возможностями. Внутри Series могут храниться данные любого типа (int, float, string, etc.). Series состоит из двух массивов - в основном хранятся непосредственно данные, в дополнительном (index) хранятся метки.

В Python Series можно создать, задав значения в виде массива, в таком случае индексы будут проставлены от 0 до числа элементов - 1:

In [7]:
s = pd.Series([12,-4,7,9])
s

0    12
1    -4
2     7
3     9
dtype: int64

Также индексы можно задавать вручную в зависимости от целей исследования:

In [8]:
s = pd.Series([12,-4,7,9], index=['a','b','c','d'])
s

a    12
b    -4
c     7
d     9
dtype: int64

Выбирать элементы из Series можно по значению индексов:

In [9]:
s['b']

-4

...или по некоторому условию:

In [10]:
s[s > 8]

a    12
d     9
dtype: int64

Подробнее узнать об используемых для работы с Series методах можно в документации по ссылке "https://pandas.pydata.org/docs/reference/api/pandas.Series.html"

### В чем разница между Series и DataFrame?

Таким образом, DataDrame можно представить как многомерный Series, где внутри каждой из колонок могут лежать значения разных типов. Иными словами DataFrame - это словарь из Series, где ключи - это названия колонок, а колонки - отдельные Series, в совокупности формирующие DataFrame.