Pandas — это библиотека Python для обработки и анализа
структурированных данных, её название происходит от «panel data»
(«панельные данные»). Панельными данными называют информацию,
полученную в результате исследований и структурированную в виде таблиц.
Для работы с такими массивами данных и создан Pandas.

На официальном сайте Pandas указан самый простой
способ начать работу с библиотекой. Для этого потребуется установить
Anaconda — дистрибутив (форма распространения программного
обеспечения, набор библиотек или программного кода для установки
программы) для Python с набором библиотек. Безопасно скачать его можно
на официальном сайте. После установки, открываем JupyterLab, создаем блокнот и подключаем библеотеку pandas и присваиваем ей псевдоним pd.

In [None]:
import pandas as pd

Навык работы с этой библиотекой пригодится дата-сайентистам или аналитикам данных. С помощью Pandas эти специалисты
могут группировать и визуализировать данные, создавать сводные таблицы и
делать выборку по определенным признакам.

Чтобы анализировать данные с помощью Pandas, нужно понять, как
устроены структуры этих данных внутри библиотеки. В первую очередь
разберем, что такое DataFrame и Series.

# 1. Тип данных Series.

Pandas Series (серия) — это одномерный массив. Визуально он похож
на пронумерованный список: слева в колонке находятся индексы элементов,
а справа — сами элементы.

In [None]:
import pandas as pd
my_serias=pd.Series([5,6,7]
)
print(my_serias)

0    5
1    6
2    7
dtype: int64


Индексом может быть числовой показатель (0, 1, 2…), буквенные
значения (a, b, c…) или другие данные, выбранные программистом. Если
особое значение не задано, то числовые индексы проставляются
автоматически. Например, от 0 до 5 как в примере выше. Собственные значения индексов задаются в квадратных скобках
через *index*, как в примере ниже:

In [None]:
my_serias=pd.Series([5,6,7], index=['a','b','c'])
print(my_serias)

a    5
b    6
c    7
dtype: int64


Индексы помогают обращаться к элементам серии и менять их
значения.

In [None]:
my_serias['a']=999
print(my_serias)

a    999
b      6
c      7
dtype: int64


Можно сделать выборку по нескольким индексам, чтобы ненужные
элементы в серии не отображались:

In [None]:
print(my_serias[['a', 'b']])

a    999
b      6
dtype: int64


Для поиска пропусков есть специальный метод *isna()*. Он эквивалентен конструкции s != s

In [None]:
import numpy as np
import pandas as pd
l = [1, 3, 5, np.nan, 6, 8]
my_series = pd.Series(l)
print(my_series)
print(my_series.isna())

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool


Основная информация о наборе данных показывается при использовании метода *describe()*: количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, медиана, верхний квартиль, максимум, а так же тип данных.

In [None]:
my_series.describe()

count    5.000000
mean     4.600000
std      2.701851
min      1.000000
25%      3.000000
50%      5.000000
75%      6.000000
max      8.000000
dtype: float64

Подобно спискам, можно использовать срезы, переприсваивание. Рассмотрим простой пример для наглядного понимания.

In [None]:
s1=my_series[1:]
s2=my_series[:-1]
print(s1)
print(s2)
print(s1+s2)

1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
dtype: float64
0     NaN
1     6.0
2    10.0
3     NaN
4    12.0
5     NaN
dtype: float64


В s1 хранятся элементы с индексами 1..5. В s2 элементы с индексами 0..4. В сумме s1+s2 складываются данные с одинаковыми индексами. Поскольку в s1 нет данного и индексом 0, а в s2 — с индексом 5, в s1+s2 в соответствующих позициях будет NaN.

Можно создавать наборы данных с индексом, заданным списком.
Так же набор данных можно создавать из словаря.

In [None]:
i = list('abc')
s = pd.Series([6,5,3], index=i)
s1 = pd.Series({'z':1, 'x':2, 'c':0})
print(s)
print(s1)


a    6
b    5
c    3
dtype: int64
z    1
x    2
c    0
dtype: int64


Можно отсортировать набор данных c помощью метода *sort_values().*

In [None]:
print(s.sort_values())

c    3
b    5
a    6
dtype: int64


Роль индекса может играть, скажем, последовательность дат или времён измерения и т.д.. А значения можно выбрать рандомно используя соответвтующий метод *norm.rvs()* из библиотеки *scipy.stats*

In [None]:
import scipy.stats as sps
d = pd.date_range('20160101', periods=10)
s = pd.Series(sps.norm.rvs(size=10), index=d)
print(s)

2016-01-01   -0.984978
2016-01-02    0.522508
2016-01-03   -0.198256
2016-01-04    2.103327
2016-01-05    0.997452
2016-01-06   -0.012010
2016-01-07   -0.287910
2016-01-08   -0.740821
2016-01-09   -0.608907
2016-01-10    2.361656
Freq: D, dtype: float64


Зачастую в задачах бывают полезными использование кумулятивных сумм, кумулятивных максимумов, разностей соседних элементов. Все эти методы есть в библиотеке pandas. Либо  нужно вывести только те данные, которые удовлетворяют определенному условию. Примеры соответсвующих методов и соответвующего синтаксиса ниже:

In [None]:
print(s.cummax()) #кум. максимумы
print(s.cumsum()) #кум. cуммы
print(s.diff()) #разности между соседними
print(s[s>0])  #вывод данных, удовлетворяющих условию

2016-01-01   -0.984978
2016-01-02    0.522508
2016-01-03    0.522508
2016-01-04    2.103327
2016-01-05    2.103327
2016-01-06    2.103327
2016-01-07    2.103327
2016-01-08    2.103327
2016-01-09    2.103327
2016-01-10    2.361656
Freq: D, dtype: float64
2016-01-01   -0.984978
2016-01-02   -0.462470
2016-01-03   -0.660726
2016-01-04    1.442601
2016-01-05    2.440053
2016-01-06    2.428043
2016-01-07    2.140133
2016-01-08    1.399312
2016-01-09    0.790405
2016-01-10    3.152061
Freq: D, dtype: float64
2016-01-01         NaN
2016-01-02    1.507486
2016-01-03   -0.720764
2016-01-04    2.301582
2016-01-05   -1.105874
2016-01-06   -1.009463
2016-01-07   -0.275899
2016-01-08   -0.452911
2016-01-09    0.131914
2016-01-10    2.970563
Freq: D, dtype: float64
2016-01-02    0.522508
2016-01-04    2.103327
2016-01-05    0.997452
2016-01-10    2.361656
dtype: float64


# 2. Тип данных DataFrame

Pandas DataFrame — это двумерный массив, похожий на таблицу/лист
Excel.В нем можно проводить такие же манипуляции с
данными: объединять в группы, сортировать по определенному признаку,
производить вычисления. Как любая таблица, датафрейм состоит из столбцов
и строк, причем столбцами будут уже известные объекты — Series.
DataFrame составлен из объектов Series — одномерных массивов,
объединенных под одним названием и типом данных. Series можно
рассматривать как столбец таблицы.

Рассмотрим различные способы создания объекта типа DataFrame:

In [None]:
# Через словарь:

df = pd.DataFrame(
  {'id': [1, 2, 3],
   'name': ['Bob', 'Alice', 'Scott'],
   'age': [21, 15, 30]}
)

df.head()

Unnamed: 0,id,name,age
0,1,Bob,21
1,2,Alice,15
2,3,Scott,30


In [None]:
# Через вложенные списки:

df = pd.DataFrame(
  [[1,'Bob', 21],
   [2,'Alice', 15],
   [3,'Scott', 30]],
  columns = ['id','name', 'age']
)

df.head()

Unnamed: 0,id,name,age
0,1,Bob,21
1,2,Alice,15
2,3,Scott,30


Для того чтобы лучше познакомиться со всеми методами и средствами обработки данных в Pandas будем работать с данными, собранными благодаря опросу студентов математического курса средней школы в Португалии (возраст - от 15 до 22 лет). Они находятся в файле "math_students.csv". Целевой переменной является итоговая оценка студента за курс.

Загрузка текстовых файлов табличного вида производится с помощью функции pd.read_csv. Основные аргументы следующие:

**filepath_or_buffer** — пусть к файлу;
**sep** — разделитель колонок в строке (запятая, табуляция и т.д.);
**header** — номер строки или список номеров строк, используемых в качестве имен колонок;
**names** — список имен, которые будут использованы в качестве имен колонок;
**index_col** — колонка, используемая в качестве индекса;
**usecols** — список имен колонок, которые будут загружены;
**nrows** — сколько строк прочитать;
**skiprows** — номера строк с начала, которые нужно пропустить;
**skipfooter** — сколько строк в конце пропустить;
**na_values** — список значений, которые распознавать как пропуски;
**parse_dates** — распознавать ли даты, можно передать номера строк;
**date_parser** — парсер дат;
**dayfirst** — день записывается перед месяцем или после;
**thousands** — разделитель тысяч;
**decimal** — разделитель целой и дробной частей;
**comment** — символ начала комментария.

Загрузка таблиц формата Excel производится с помощью функции pd.read_excel. Основные аргументы следующие:

**io**— пусть к файлу;
**sheetname** — какие листы таблицы загрузить;
Остальные параметры аналогично.

In [81]:
#data = pd.read_csv('math_students.csv', delimiter=',') # чтение файла, если ноутбук и данные в одной папке; аргумент delimeter - символ, разделяющий данные
url = 'https://raw.githubusercontent.com/new-okaerinasai/math-ml-hse-2019/master/sem01_intro/math_students.csv'
data = pd.read_csv(url, on_bad_lines='skip', delimiter=',') # чтение файла, , если ноутбук и данные в разных папках

Загруженный файл преобразован во фрейм и теперь хранится в переменной data.
 Метод *shape()* показывает какое количество объектов и признаков

In [None]:
data.shape

(395, 33)



1.  school - тип школы ("GP" - Gabriel Pereira или "MS" - Mousinho da Silveira)
2. sex - пол ("F" - female или "M" - male)
3. age - возраст (от 15 до 22)
4. address - откуда студент ("U" - urban или "R" - rural)
5. famsize - размер семьи ("LE3" - меньше или равно 3 или "GT3" - больше 3)
6. Pstatus - в каких отношениях родители ("T" - живут вместе "A" - раздельно)
7. Medu - образование матери (0 - никакого, 1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
8. Fedu - образование отца (0 - никакого, 1 - начальное образование (4 класса), 2 – от 5 до 9 классов, 3 – среднеспециальное или 4 – высшее)
9. Mjob - работа матери ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
10. Fjob - работа отца ("teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
11. reason - причина выбора школы (близко к дому — "home", репутация школы — "reputation", предпочтение некоторым предметам - "course" или "other")
12. guardian - опекун ("mother", "father" или "other")
13. traveltime - время от дома до школы (1 - меньше 15 мин., 2 - 15 до 30 мин., 3 - 30 мин. до 1 часа, или 4 - больше 1 часа)
14. studytime - количество часов обучения в неделю (1 - меньше 2 часов, 2 - от 2 до 5 часов, 3 - от 5 до 10 часов, или 4 - больше 10 часов)
15. failures - количество ранее не сданных предметов (n if 1 <= n < 3, else 4)
16. schoolsup - дополнительные занятия (yes or no)
17. famsup - помощь от семьи при выполнении заданий (yes or no)
18. paid - дополнительные платные занятия (yes or no)
19. activities - внеклассная деятельность (yes or no)
20. nursery - посещал детский сад (yes or no)
21. higher - желание высшего образования (yes or no)
22. internet - домашний интернет (yes or no)
23. romantic - состоит в романтических отношениях (yes or no)
24. famrel - насколько хороши отношения в семье (от 1 - очень плохие до 5 - превосходные)
25. freetime - наличие свободного времени после школы (от 1 - очень мало до 5 - очень много)
26. goout - гуляет с друзьями (от 1 - редко до 5 - очень часто)
27. Dalc - употребление алкоголя в будние дни (от 1 - очень редко до 5 - очень часто)
28. Walc - употребление алкоголя в выходные (от 1 - очень редко до 5 - очень часто)
29. health - текущее состояние здоровья (от 1 - очень плохое до 5 - очень хорошее)
30. absences - количество школьных пропусков (от 0 до 93)
31. G1 - оценка за первый семестр (от 0 до 20)
32. G2 - оценка за второй семестр (от 0 до 20)
33. G3 - итоговая оценка (от 0 до 20)



Функция *.head(n)* выводит первые n строк таблицы (по умолчанию n=5)

In [None]:
data.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


Аналогично, можно смотреть не на верхние строки таблицы, а на нижние с помощью функции *.tail(n)*

In [None]:
data.tail(3)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
392,MS,M,21,R,GT3,T,1,1,other,other,...,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,services,other,...,4,4,1,3,4,5,0,11,12,10
394,MS,M,19,U,LE3,T,1,1,other,at_home,...,3,2,3,3,3,5,5,8,9,9


Функция *.sample(n)* позволяет составить случайную выборку из n объектов

In [None]:
data.sample(7)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
130,GP,F,15,R,GT3,T,3,4,services,teacher,...,4,2,2,2,2,5,0,12,0,0
233,GP,M,16,U,GT3,T,4,4,health,other,...,4,2,4,2,4,1,2,14,13,13
101,GP,M,16,U,GT3,T,4,4,services,teacher,...,4,4,3,1,1,4,0,16,17,17
147,GP,F,15,U,GT3,T,1,2,at_home,other,...,4,3,2,1,1,5,2,10,11,11
178,GP,M,16,R,GT3,T,4,2,teacher,services,...,4,3,3,3,4,3,10,10,8,9
76,GP,M,15,U,GT3,T,4,0,teacher,other,...,3,4,3,1,1,1,8,11,11,10
308,GP,M,19,R,GT3,T,3,3,other,services,...,4,5,3,1,2,5,0,15,12,12


Для вывода названий всех колонок есть специальная функция *.columns*

In [None]:
data.columns

Index(['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu',
       'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime',
       'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery',
       'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc',
       'Walc', 'health', 'absences', 'G1', 'G2', 'G3'],
      dtype='object')

Так же можно получать данные отдельных колонок, указывая в квадратных скобках объекта типа DataFrame название его колонки в кавычках.

In [None]:
print(data['school'])
print(data[['school', 'romantic', 'health']])

0      GP
1      GP
2      GP
3      GP
4      GP
       ..
390    MS
391    MS
392    MS
393    MS
394    MS
Name: school, Length: 395, dtype: object
    school romantic  health
0       GP       no       3
1       GP       no       3
2       GP       no       3
3       GP      yes       5
4       GP       no       5
..     ...      ...     ...
390     MS       no       4
391     MS       no       2
392     MS       no       3
393     MS       no       5
394     MS       no       5

[395 rows x 3 columns]


Правила индексации в pandas несколько отличаются от общепринятых. Если указать диапазон индексов, то это означает диапазон строк. Причём последняя строка включается в таблицу. Логичнее работает атрибут loc: первая позиция — всегда индекс строки, а вторая — столбца. Атрибут iloc подобен loc: первый индекс — номер строки, второй — номер столбца. Это целые числа, конец диапазона не включается как обычно в питоне.

In [None]:
print(data.loc[:, 'famsup':'romantic'])
print(data.iloc[100])
print(data.iloc[100:105][['school','famsize', 'Pstatus']])

    famsup paid activities nursery higher internet romantic
0       no   no         no     yes    yes       no       no
1      yes   no         no      no    yes      yes       no
2       no  yes         no     yes    yes      yes       no
3      yes  yes        yes     yes    yes      yes      yes
4      yes  yes         no     yes    yes       no       no
..     ...  ...        ...     ...    ...      ...      ...
390    yes  yes         no     yes    yes       no       no
391     no   no         no      no    yes      yes       no
392     no   no         no      no    yes       no       no
393     no   no         no      no    yes      yes       no
394     no   no         no     yes    yes      yes       no

[395 rows x 7 columns]
school              GP
sex                  M
age                 16
address              U
famsize            GT3
Pstatus              T
Medu                 4
Fedu                 4
Mjob          services
Fjob          services
reason           other
gua

Индексировать фрейм можно с помощью метода *.set_index()*

In [75]:
# Создание словаря с данными
data = {'Имя': ['Анна', 'Борис', 'Катя', 'Денис'],
        'Возраст': [25, 32, 28, 35],
        'Город': ['Москва', 'Санкт-Петербург', 'Киев', 'Минск']}

# Создание фрейма данных из словаря
df = pd.DataFrame(data)

# Вывод исходного фрейма
print(df)

# Индексирование по столбцу "Имя"
df_indexed = df.set_index('Имя')

# Вывод индексированного фрейма данных
print(df_indexed)

     Имя  Возраст            Город
0   Анна       25           Москва
1  Борис       32  Санкт-Петербург
2   Катя       28             Киев
3  Денис       35            Минск
       Возраст            Город
Имя                            
Анна        25           Москва
Борис       32  Санкт-Петербург
Катя        28             Киев
Денис       35            Минск


Копирование датафрейма производится с помощью метода *.copy()*

In [None]:
data_copied = data.copy()

Чтобы добавить, изменить или удалить элементы в фрейме данных в Pandas, вы можете использовать различные методы.

Добавление элементов:

*loc[]* - используется для добавления новых строк или столбцов *append()* - используется для добавления новых строк в конец фрейма данных

Изменение элементов:

Используйте оператор присваивания (=) для изменения значения элемента

Удаление элементов:

*drop()* - используется для удаления строк или столбцов *del* - используется для удаления столбца Вот примеры:

In [74]:

import pandas as pd

# Создание фрейма данных
data = {'Имя': ['Анна', 'Борис', 'Катя', 'Денис'],
        'Возраст': [25, 32, 28, 35],
        'Город': ['Москва', 'Санкт-Петербург', 'Киев', 'Минск']}

df = pd.DataFrame(data)

# Добавление новой строки с помощью loc[]
df.loc[4] = ['Елена', 27, 'Сочи']

# Добавление нового столбца с помощью loc[]
df.loc[:, 'Пол'] = ['Ж', 'М', 'Ж', 'М', 'Ж']

# Добавление новой строки с помощью append()
new_row = pd.Series(['Игорь', 30, 'Новосибирск', 'М'], index=df.columns)
df = df.append(new_row, ignore_index=True)

# Изменение значения элемента
df.at[1, 'Возраст'] = 33

# Удаление строки с помощью drop()
df = df.drop(0)

# Удаление столбца с помощью del
del df['Пол']

# Вывод измененного фрейма данных
print(df)


     Имя  Возраст            Город
1  Борис       33  Санкт-Петербург
2   Катя       28             Киев
3  Денис       35            Минск
4  Елена       27             Сочи
5  Игорь       30      Новосибирск


  df = df.append(new_row, ignore_index=True)


Для объединения фреймов данных в Pandas вы можете использовать функции *concat()*, *merge()* или *join()*. Вот примеры:

*concat()* - объединение по оси (столбцы или строки)

*merge()* - объединение по общему столбцу

*join()* - объединение по индексу:

In [65]:

data1 = {'Имя': ['Анна', 'Борис'],
         'Возраст': [25, 32]}
df1 = pd.DataFrame(data1)
data2 = {'Имя': ['Катя', 'Денис'],
         'Город': ['Киев', 'Минск']}
df2 = pd.DataFrame(data2)
# Объединение по строкам (вертикальное объединение)
df_concat_rows = pd.concat([df1, df2], ignore_index=True)

# Объединение по столбцам (горизонтальное объединение)
df_concat_cols = pd.concat([df1, df2], axis=1)

# Вывод объединенных фреймов данных
print(df_concat_rows)
print(df_concat_cols)

     Имя  Возраст  Город
0   Анна     25.0    NaN
1  Борис     32.0    NaN
2   Катя      NaN   Киев
3  Денис      NaN  Минск
     Имя  Возраст    Имя  Город
0   Анна       25   Катя   Киев
1  Борис       32  Денис  Минск


In [69]:
import pandas as pd

# Создание первого фрейма данных
data1 = {'Имя': ['Анна', 'Борис'],
         'Возраст': [25, 32]}
df1 = pd.DataFrame(data1)

# Создание второго фрейма данных
data2 = {'Имя': ['Борис', 'Катя'],
         'Город': ['Москва', 'Киев']}
df2 = pd.DataFrame(data2)

# Объединение по столбцу "Имя"
df_merge = pd.merge(df1, df2, on='Имя')

# Вывод объединенного фрейма данных
print(df_merge)

     Имя  Возраст   Город
0  Борис       32  Москва


In [70]:
import pandas as pd

# Создание первого фрейма данных
data1 = {'Возраст': [25, 32]}
df1 = pd.DataFrame(data1, index=['Анна', 'Борис'])

# Создание второго фрейма данных
data2 = {'Город': ['Москва', 'Киев']}
df2 = pd.DataFrame(data2, index=['Анна', 'Катя'])

# Объединение по индексу
df_join = df2.join(df1)

# Вывод объединенного фрейма данных
print(df_join)


       Город  Возраст
Анна  Москва     25.0
Катя    Киев      NaN


В Pandas еще существуют несколько типов объединения (join):

Внутреннее объединение (inner join): Возвращает только те строки, которые имеют совпадающие значения в обоих фреймах данных по указанным столбцам или индексам. Используйте метод merge() с параметром how='inner' или метод join() с параметром how='inner'.

Левое объединение (left join): Возвращает все строки из левого фрейма данных и соответствующие строки из правого фрейма данных, при этом отсутствующие значения заполняются NaN. Используйте метод merge() с параметром how='left' или метод join() с параметром how='left'.

Правое объединение (right join): Возвращает все строки из правого фрейма данных и соответствующие строки из левого фрейма данных, при этом отсутствующие значения заполняются NaN. Используйте метод merge() с параметром how='right' или метод join() с параметром how='right'.

Внешнее объединение (outer join): Возвращает все строки из обоих фреймов данных, при этом отсутствующие значения заполняются NaN. Используйте метод merge() с параметром how='outer' или метод join() с параметром how='outer'.

Вот еще примеры использования разных типов объединения:

In [71]:
import pandas as pd

# Создание первого фрейма данных
data1 = {'Имя': ['Анна', 'Борис'],
         'Возраст': [25, 32]}
df1 = pd.DataFrame(data1)

# Создание второго фрейма данных
data2 = {'Имя': ['Борис', 'Катя'],
         'Город': ['Москва', 'Киев']}
df2 = pd.DataFrame(data2)

# Внутреннее объединение
df_inner = df1.merge(df2, on='Имя', how='inner')

# Левое объединение
df_left = df1.merge(df2, on='Имя', how='left')

# Правое объединение
df_right = df1.merge(df2, on='Имя', how='right')

# Внешнее объединение
df_outer = df1.merge(df2, on='Имя', how='outer')

# Вывод объединенных фреймов данных
print(df_inner)
print(df_left)
print(df_right)
print(df_outer)

     Имя  Возраст   Город
0  Борис       32  Москва
     Имя  Возраст   Город
0   Анна       25     NaN
1  Борис       32  Москва
     Имя  Возраст   Город
0  Борис     32.0  Москва
1   Катя      NaN    Киев
     Имя  Возраст   Город
0   Анна     25.0     NaN
1  Борис     32.0  Москва
2   Катя      NaN    Киев


Переименование столбцов

In [77]:
data_copied = df_outer.copy()
data_copied.rename(columns =
                    {'Имя': 'name',
                     'Возраст': 'age',
                     'Город': 'city',
                     },
                    inplace = True)

data_copied.head()

Unnamed: 0,name,age,city
0,Анна,25.0,
1,Борис,32.0,Москва
2,Катя,,Киев


Посмотрим, есть ли в данных пропуски:  NaN, nan, None, null и т.д. во всей таблице.

In [78]:
data_copied.isnull().sum() #есть ли пропуски и сколько их /либо data_copied3.isna().sum()

name    0
age     1
city    1
dtype: int64

In [79]:
data_copied.isnull().any() #есть ли пропуски

name    False
age      True
city     True
dtype: bool

Подсчет уникальных значений признаков обеспечаивает метод *.unique()*

In [82]:
data['guardian'].unique()

array(['mother', 'father', 'other'], dtype=object)

Метод *.value_counts()* показывает сколько объектов имеет тот или иной признак.

In [83]:
data['guardian'].value_counts()

mother    273
father     90
other      32
Name: guardian, dtype: int64

Можно получать новые датафреймы из исходного указывая в квадратных скобках условия.

In [None]:
data[(data.guardian == 'mother') & (data.age == 18)].head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
128,GP,M,18,R,GT3,T,2,2,services,other,...,3,3,3,1,2,4,0,7,4,0
150,GP,M,18,U,LE3,T,1,1,other,other,...,2,3,5,2,5,4,0,6,5,0
157,GP,F,18,R,GT3,T,1,1,at_home,other,...,5,2,5,1,5,4,6,9,8,10
213,GP,M,18,U,GT3,T,2,2,services,other,...,4,4,4,2,4,5,15,6,7,8


Сортировка осуществляется с помощью метода *.sort_values()*. В скобках указывается столбец, по которому производится сортировка, и аргумент ascending принимает значения 1/0 для сортировки по возрастанию/убыванию

In [None]:
data.sort_values('age', ascending=False).head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
247,GP,M,22,U,GT3,T,3,1,services,services,...,5,4,5,5,5,1,16,6,8,8
392,MS,M,21,R,GT3,T,1,1,other,other,...,5,5,3,3,3,3,3,10,8,7
390,MS,M,20,U,LE3,A,2,2,services,services,...,5,5,4,4,5,4,11,9,9,9
306,GP,M,20,U,GT3,A,3,2,services,other,...,5,5,3,1,1,5,0,17,18,18
376,MS,F,20,U,GT3,T,4,2,health,other,...,5,4,3,1,1,3,4,15,14,15


Группировка данных производится с помощью метода *groupby()*

In [73]:
data = {'Имя': ['Анна', 'Борис', 'Катя'],
        'Возраст': [25, 32, 28],
        'Город': ['Москва', 'Санкт-Петербург', 'Киев']}
df = pd.DataFrame(data)
# Группировка по столбцу "Город" и вычисление среднего значения столбца "Возраст" для каждой группы
df_grouped = df.groupby('Город')['Возраст'].mean()
print(df_grouped)

Город
Киев               28.0
Москва             25.0
Санкт-Петербург    32.0
Name: Возраст, dtype: float64


Над числовыми признаками можно применять арифметические операции, высчитывать среднее и так далее. Вот примеры некоторых операций

In [None]:
data7=data[['age', 'G1','G2', 'G3']]
print(data7.mean())
print(data7*10 + 2)
print(data7.cumsum())


age    16.696203
G1     10.908861
G2     10.713924
G3     10.415190
dtype: float64
     age   G1   G2   G3
0    182   52   62   62
1    172   52   52   62
2    152   72   82  102
3    152  152  142  152
4    162   62  102  102
..   ...  ...  ...  ...
390  202   92   92   92
391  172  142  162  162
392  212  102   82   72
393  182  112  122  102
394  192   82   92   92

[395 rows x 4 columns]
      age    G1    G2    G3
0      18     5     6     6
1      35    10    11    12
2      50    17    19    22
3      65    32    33    37
4      81    38    43    47
..    ...   ...   ...   ...
390  6520  4266  4187  4072
391  6537  4280  4203  4088
392  6558  4290  4211  4095
393  6576  4301  4223  4105
394  6595  4309  4232  4114

[395 rows x 4 columns]


Запись таблицы в текстовый файл производится с помощью функции df.to_csv. Основные аргументы следующие:

**df** — DataFrame, который нужно записать;
**path_or_buf** — путь, куда записать;
**sep** — разделитель колонок в строке (запятая, табуляция и т.д.);
**na_rep** — как записать пропуски;
**float_format** — формат записи дробных чисел;
**columns** — какие колонки записать;
**header** — как назвать колонки при записи;
**index** — записывать ли индексы в файл;
**index_label** — имена индексов, которые записать в файл.

Запись таблицы в формат Excel производится с помощью функции df.to_excel. Основные аргументы аналогичные.