## Что такое Pandas DataFrame?
В предыдущих примерах мы брали один большой датафрейм и выбирали из него маленький поддатафрейм. Однако мы не всегда будем работать конкретно с датафреймами в Pandas.

<br>Сперва импортируем все библиотеки, датафрейм, выделим наш поддатафрейм и изменим ему индексы.

In [1]:
import pandas as pd
import numpy as np

students_performance = pd.read_csv("../../../Datasets/StudentsPerformance.csv")
students_performance_with_names = students_performance.iloc[[0, 3, 4, 7, 8]]
students_performance_with_names.index = ["Cersei", "Tywin", "Gregor", "Joffrey", "Ilyn Payne"]
students_performance_with_names

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
Cersei,female,group B,bachelor's degree,standard,none,72,72,74
Tywin,male,group A,associate's degree,free/reduced,none,47,57,44
Gregor,male,group C,some college,standard,none,76,78,75
Joffrey,male,group B,some college,free/reduced,none,40,43,39
Ilyn Payne,male,group D,high school,free/reduced,completed,64,64,67


Разберемся, что вообще такое датафрейм в Pandas. Выберем все наблюдения, которые хранятся у нас в первой колонке:

In [2]:
students_performance_with_names.iloc[:, 0]

Cersei        female
Tywin           male
Gregor          male
Joffrey         male
Ilyn Payne      male
Name: gender, dtype: object

Казалось бы, мы должны были получить датафрейм с одной первой колонкой. Однако как можно заметить по результату выше, мы получили не совсем датафрейм - он не похож по оформлению с тем, с чем мы работали ранее.

<br>И это не случайно. Взглянем на тип полученных данных:

In [3]:
type(students_performance_with_names.iloc[:, 0])

pandas.core.series.Series

Видим, что мы получили тип "pandas.core.series.Series", достаточно ключевой для понимания того, что вообще такое Pandas DataFrame.
<br>По определению с документации, Серия в пандас - это одноразмерный массив с лейблами (именами).
<br>Docs: https://pandas.pydata.org/docs/reference/api/pandas.Series.html

<br> Создадим pandas.Series:

In [4]:
pd.Series([1, 2, 3])

0    1
1    2
2    3
dtype: int64

Очень похоже на то, что мы получили выше, правда? =)
Однако теперь лейблы значений в серии совпадают с их порядковым номером: 0, 1 и 2.

<br>Эти лейблы мы можем сделать более содержательными, например так:

In [5]:
pd.Series([1, 2, 3], ["Cersei", "Tywin", "Gregor",])

Cersei    1
Tywin     2
Gregor    3
dtype: int64

Теперь, мы можем сделать следующий вывод:
<br>**pandas.Dataframe - это не просто табличка, а объединенные вместе pandas.Series.**
<br>Каждая колонка - это серия Pandas, которая имеет некоторый ключ в датафрейм и имеет имя, совпадающее с именем некоторой переменной (например "gender").

Применим данные знания на практике и создадим pandas.DataFrame из двух pandas.Series:

In [6]:
series_1 = pd.Series([1, 2, 3], ["Cersei", "Tywin", "Gregor",])
series_2 = pd.Series([4, 5, 6], ["Cersei", "Tywin", "Gregor",])

pd.DataFrame({"Серия_1": series_1, "Серия_2": series_2})

Unnamed: 0,Серия_1,Серия_2
Cersei,1,4
Tywin,2,5
Gregor,3,6


А что будет, если мы попробуем обратиться к датафрейму по названию переменной (колонки).

In [7]:
students_performance_with_names["gender"] 
# Возьми то, что лежит по значению "gender". 
# А по значению "gender" лежит серия Pandas.

Cersei        female
Tywin           male
Gregor          male
Joffrey         male
Ilyn Payne      male
Name: gender, dtype: object

Правильно! Мы получим pandas.Series.
<br>А если обратимся вот так вот (добавим слой со скобками), то получим pandas.DataFrame:

In [8]:
students_performance_with_names[["gender"]]
# А тут, из всего датафрейма достань нам только колонку
# по имени "gender"

Unnamed: 0,gender
Cersei,female
Tywin,male
Gregor,male
Joffrey,male
Ilyn Payne,male


Соответственно и размер данных структур отличается:

In [9]:
students_performance_with_names["gender"].shape

(5,)

In [10]:
students_performance_with_names[["gender"]].shape

(5, 1)