In [1]:
import pandas as pd

Pandas добавляет в Python новые структуры данных — **Series** и **DataFrame**.

## Структура данных Series

**Series** - одномерные массивы данных. \
Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в Series — поэлементно.

Конструктор класса Series выглядит следующим образом:

- **data** – массив, словарь или скалярное значение, на базе которого будет построен Series;

- **index** – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива

Создать структуру Series можно на базе различных типов данных:

- словари Python;
- списки Python;
- массивы из numpy: ndarray;
- скалярные величины.

### Создание Series из списка Python

In [4]:
lst = [1, 2, 3, 4, 5] 

s = pd.Series(lst)
print(s)

type(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


pandas.core.series.Series

In [5]:
lst = ['Мария', 'Петр', 'Иван'] # создание списка Python

s = pd.Series(lst, ['a', 'b', 'c']) # создание Series с заданием меток (именованые метки - a, b, c)

print(s)

a    Мария
b     Петр
c     Иван
dtype: object


### Создание Series из *ndarray массива из numpy*

In [10]:
import numpy as np

ndarr = np.array([1, 2, 3, 4, 5])

print(ndarr)
print(type(ndarr))

s2 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
print(s2)

[1 2 3 4 5]
<class 'numpy.ndarray'>
a    1
b    2
c    3
d    4
e    5
dtype: int32


### Создание Series из словаря (dict)

In [11]:
d = {'a':1, 'b':2, 'c':3}
s3 = pd.Series(d)
s3

a    1
b    2
c    3
dtype: int64

### Создание Series с использованием константы

In [12]:
a = 7

s4 = pd.Series(a, ['a', 'b', 'c'])

s4

a    7
b    7
c    7
dtype: int64

У объекта **Series** есть атрибуты через которые можно получить список элементов и индексы, это **values** и **index** соответственно.

In [18]:
print('Индексы: ', s4.index)

print('Значения: ', s4.values)

Индексы:  Index(['a', 'b', 'c'], dtype='object')
Значения:  [7 7 7]


### Работа с элементами Series

К элементам Series можно обращаться по численному индексу, при таком подходе работа со структурой не отличается от работы со списками в Python.

In [21]:
# Создание Series из списка Python
s5 = pd.Series(['Иван', 'Петр', 'Мария', 'Анастасия', 'Федор'], ['a', 'b', 'c', 'd', 'e'])
print(s5)
# Обращание ко третьему элементу Series (нумерация начинается с 0)
print(s5[4])

a         Иван
b         Петр
c        Мария
d    Анастасия
e        Федор
dtype: object
Федор


Можно использовать метку, тогда работа с **Series** будет похожа на работу со словарем (dict) в Python.

In [23]:
# Обращание ко третьему элементу Series по заданному индексу (нумерация начинается с 0)
print(s5['b'])

Петр


В поле для индекса можно поместить условное выражение.

In [25]:
s6 = pd.Series([10, 13, 1, 5, 0], ['a', 'b', 'c', 'd', 'e'])
print(s6)
# Выведет все значения в Series меньше четырех
s6[s6 <= 4]

a    10
b    13
c     1
d     5
e     0
dtype: int64


c    1
e    0
dtype: int64

In [26]:
# Получение элементов с метками 'a', 'c' и 'e':
s6[['a', 'c', 'e']]

a    10
c     1
e     0
dtype: int64

Обращение по слайсу (срезу) меток.

In [28]:
# Получение элементов структуры с метками от 'a' до 'd':
s6['a':'d']

a    10
b    13
c     1
d     5
dtype: int64

In [29]:
# Получение элементов стурктуры с индексами от 0 до 4:
s6[0:4]

a    10
b    13
c     1
d     5
dtype: int64

### Работа с Series

Со структурами Series можно работать как с векторами: складывать, умножать вектор на число и т.п.

In [30]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s8 = pd.Series([1, 1, 1, 1, 0], ['a', 'b', 'c', 'd', 'e'])

# сложение
# к каждому элементу s7 прибавляется каждый элемент s8
# для корректного сложения необходимо, чтобы длинна Series совпадла
s9 = s7 + s8
s9

a    11
b    21
c    31
d    41
e    50
dtype: int64

In [31]:
# Каждый элемент s7 увеличится в 3 раза
s9 = s7 * 3

s9

a     30
b     60
c     90
d    120
e    150
dtype: int64

## Структура данных DataFrame

Если **Series** представляет собой одномерную структуру, которую для себя можно представить как таблицу с одной строкой, то **DataFrame** – это уже двумерная структура – полноценная таблица с множеством строк и столбцов.


Конструктор класса DataFrame выглядит так:

- **data** – массив ndarray, словарь (dict) или другой DataFrame;

- **index** – список меток для записей (имена строк таблицы);

- **columns** – список меток для полей (имена столбцов таблицы);

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Cтруктуру **DataFrame** можно создать на базе:

- словаря (dict) в качестве элементов которого должны выступать: одномерные - ndarray, списки, другие словари, структуры Series;
- двумерные ndarray;
 структуры Series;
- структурированные ndarray;
- другие DataFrame.


### Создание DataFrame из словаря

In [33]:
d = {"Name":pd.Series(['Виктор', 'Мария', 'Иван']),
     "Age": pd.Series([18, 21, 19])}

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


### Создание DataFrame из списка словарей

In [34]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


### Создание DataFrame из двумерного массива

In [35]:
nda = np.array([[1, 2, 3], [10, 20, 30]])

df = pd.DataFrame(nda)
df

Unnamed: 0,0,1,2
0,1,2,3
1,10,20,30


### Работа с элементами DataFrame

Обращение к столбцу DataFrame:

- df['Название столбца']
- df.название_столбца

In [37]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)

df['Name']

0    Виктор
1     Мария
2      Иван
Name: Name, dtype: object

In [38]:
df.Name

0    Виктор
1     Мария
2      Иван
Name: Name, dtype: object

Также для работы со строками и столбцами существуют методы:

**DataFrame.loc[]**- Доступ к группе строк и столбцов (или только к столбцам, или только к строкам) по **меткам или логическому массиву**. 

Допустимые входы:
- Одиночная метка, например 5 или 'a', (обратите внимание, что 5 - интерпретируется как метка индекса, а не как целочисленная позиция по индексу).
- Список или массив меток, например ['a', 'b', 'c']
- Объект среза с метками, например 'a':'f'.

**DataFrame.iloc[]** - позволяет получить доступ к элементам DataFrame по **индексам**. 

Допустимые входы:
- Целое число, например 5.
- Список или массив целых чисел, например .[4, 3, 0]
- Объект среза с целыми числами, например 1:7.

In [40]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [41]:
df.iloc[0] # по индексу вернет 0 строку DataFrame

Name    Виктор
Age         18
Name: 0, dtype: object

Для доступа к элементам и по строке и по столбцу используется следующая конструкция:

- DataFrame.iloc[строка, столбец]
- DataFrame.iloc[диапазон:строк, диапазон:столбцов]

In [44]:
df.iloc[0,1] # по индексу вернет элемент DataFrame на пересечении 0 строки и 1 столбца [строка, столбца]

18

In [45]:
df.iloc[:, 1] # вернет все элементы 1 столбца для всех строк

0    18
1    21
2    19
Name: Age, dtype: int64

In [47]:
df.iloc[0:2,:] # вернет значения всех стобцов для 0 и 1 строк

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21


In [50]:
df.loc[:, 'Name'] # доступ по метке: вернет значения всех элементов в столбце Name для всех строк

0    Виктор
1     Мария
2      Иван
Name: Name, dtype: object

In [49]:

df.loc[0:1, 'Name'] # доступ по метке: вернет значения всех элементов в столбце Name для 0 и 1 строк

0    Виктор
1     Мария
Name: Name, dtype: object

Методы .loc[], .iloc[] также применимы к структуре Series.

Также в поле для индекса можно писать логические условия для фильтрации значений.

In [52]:
#  Вывести все строки, в которых значение в столбце Age больше и равно 20
df[df['Age'] >= 20]

Unnamed: 0,Name,Age
1,Мария,21


# Методы и атрибуты DataFrame

У объекта DataFrame (также как и у Series) есть атрибуты через которые можно получить индексы, а также метод позволяющий получить названия колонок.

In [56]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df


Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [59]:
print(df.index) # возвращает индексы DataFrame

RangeIndex(start=0, stop=3, step=1)


In [58]:
print(df.columns) # возвращает названия колонок

Index(['Name', 'Age'], dtype='object')


In [62]:
print(df.head(2)) # вывод первых двух строчек DataFrame

     Name  Age
0  Виктор   18
1   Мария   21


In [61]:
print(df.tail(2)) # вывод последних двух строчек DataFrame

    Name  Age
1  Мария   21
2   Иван   19


DataFrame - это двумерная структура, напоминающая таблицу размерностью NxM, где N - это количество строк, M - количество стобцов.

**shape** - атрибут DataFrame, который возвращает его размерность.

In [64]:
df.shape

(3, 2)

In [65]:
df.info() # метод возвращает полную информацию о данном DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 100.0+ bytes


Часто при работе с данными, их необходимо проверять на пропуски (NaN).

Для этого существуют методы - **isna()**, **isnull()**.

Они возвращают два объекта DataFrame с булевыми значениями, где True для значений NaN в DataFrame, а False — на его отсутствие.\
\
**Эти функции часто используются в фильтрах для создания условий**.

In [68]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0


In [70]:
df.isna()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False


In [71]:
df.isnull()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False


In [72]:
# Фильтр, который вернет все строки, в которых отсутсвуют пустые значения в колонке Age

df[df['Age'].isnull()==False]

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0


In [73]:
# подсчет пустых значений в каждой колонке DataFrame
df.isna().sum()

Name    0
Age     1
dtype: int64

In [74]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

In [75]:
# Подсчет уникальных значений в стобце
df['Name'].unique()

array(['Виктор', 'Мария', 'Иван'], dtype=object)

In [77]:
# Подсчет количества для каждого значения в столбце
df['Name'].value_counts()

Иван      2
Виктор    1
Мария     1
Name: Name, dtype: int64

Удаление значений из DataFrame.

Существуют различные методы, позволяющие удалять сроки или столбцы из DataFrame.

- labels - Метки индекса или столбца, которые нужно удалить
- axis - {0 или 'index', 1 или 'columns'}
- index - Альтернатива указанию оси (эквивалент axis=0)
- columns - Альтернатива указанию оси (эквивалент axis=1)
- level - Для MultiIndex - уровень, с которого будут удалены метки
- inplace - Если False, вернет копию DataFrame. В противном случае перезапишет изменения в этот же DataFrame.

In [79]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

# Удалить столбцы
df.drop(['Age'], axis=1)

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [81]:
# по умолчанию inplace = False, поэтому в предыдущей ячейке
# операция drop() вернула копию измененного DataFrame
# исходный DataFrame остался без изменений
df.drop(['Age'], axis=1, inplace=True)
df

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [83]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

df.drop(columns=['Age'],  inplace=True)
df

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [84]:
df.drop([0, 1])

Unnamed: 0,Name
2,Иван
3,Иван


Также существует метод dropna(), который позволяет удалять строки или столбцы, содержащие пустые значения.

`DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`

- axis - {0 или 'index', 1 или 'columns'}, по умолчанию 0. Определяет, удаляются строки или столбцы, содержащие отсутствующие значения. 0 или «index»: удалить строки, содержащие пропущенные значения. 1 или «columns»: удалить столбцы, содержащие отсутствующее значение.
- how - Определяет, удаляется ли строка или столбец из DataFrame, когда у нас есть хотя бы одно NA или все NA. 'any': если присутствуют какие-либо значения NA, отбросьте эту строку или столбец. 'all': если все значения - NA, отбросьте эту строку или столбец.

In [85]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": np.NaN, "Age": np.NaN}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0
4,,


In [86]:
# удалить строки (axis=0), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=0, how='any')

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0
3,Иван,25.0


In [87]:
# удалить столбцы (axis=1), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=1, how='any')

0
1
2
3
4


In [88]:
# удалить строки (axis=0), которые содержат все одно пропущенные значения
df.dropna(axis=0, how='all')

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


Добавление строк или столбцов в существующий DataFrame.

Добавить новый столбец в существующий DataFrame можно воспользовавшись следующей конструкцией:

`df['new_column'] = values`

- values - значения в новом столбце (числов, список, Series)

In [89]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": "Алексей", "Age": 20}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19
3,Иван,25
4,Алексей,20


In [90]:
# Добавление нового столбца - значения которого переданы в виде списка
df['University'] = ['NRNU MEPhI', 'MIPT', 'MITP', 'NRNU MEPhI', 'BMSTU']

df

Unnamed: 0,Name,Age,University
0,Виктор,18,NRNU MEPhI
1,Мария,21,MIPT
2,Иван,19,MITP
3,Иван,25,NRNU MEPhI
4,Алексей,20,BMSTU


In [91]:
# Добавление нового столбца - все значения будут одинаковы и равны 'bachelor'
df['level'] = 'bachelor'
df

Unnamed: 0,Name,Age,University,level
0,Виктор,18,NRNU MEPhI,bachelor
1,Мария,21,MIPT,bachelor
2,Иван,19,MITP,bachelor
3,Иван,25,NRNU MEPhI,bachelor
4,Алексей,20,BMSTU,bachelor


Также существует метод позволяющий объединять объекты Series и DataFrame.

`pandas.concat( objs , axis = 0 , join = 'outer' , ignore_index = False , keys = None , levels = None , names = None , verify_integrity = False , sort = False , copy = True )`

- objs последовательность или сопоставление объектов Series или DataFrame
- ось {0 / 'index', 1 / 'columns'}, по умолчанию 0. Ось для объединения (объединение по столбцам или по строкам).


In [92]:
# Объединение двух Series
# так как параметр ignore_index по умолчанию False
# то сохраняется старая нумерация в Series
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

In [93]:
# Объединение двух Series
# очистить существующий индекс и сбросить его в результате
# можно задав ignore_index=True
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [94]:
# Объединений двух DataFrame
df1 = pd.DataFrame([['Петр', 19], ['Иван', 22]], columns=['Name', 'Age'])
df1

Unnamed: 0,Name,Age
0,Петр,19
1,Иван,22


In [95]:
df2 = pd.DataFrame([['Мария', 20], ['Анастасия', 18]], columns=['Name', 'Age'])
df2

Unnamed: 0,Name,Age
0,Мария,20
1,Анастасия,18


In [96]:
#  объединение по строкам
pd.concat([df1, df2]) 

Unnamed: 0,Name,Age
0,Петр,19
1,Иван,22
0,Мария,20
1,Анастасия,18


In [97]:
# объединение по столбцам
pd.concat([df1, df2], axis=1) 

Unnamed: 0,Name,Age,Name.1,Age.1
0,Петр,19,Мария,20
1,Иван,22,Анастасия,18


## Импорт данных

Для создания DataFrame можно использовать внешние данные, например из файлов .csv или  .xlsx.

**CSV** (Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных.

Каждая строка - это отдельная строка таблицы, а столбцы отделены один от другого специальными символами - разделителями (например, запятой).

Для загрузки .csv файла с данными в pandas используется функция **read_csv()**.

У функции есть ряд ключевых параметров:
- filepath_or_buffer - путь к файлу, который необходимо считать
- sep - Используемый разделитель

По умолчанию предполагается, что поля разделены запятыми.

df = pd.read_csv("my_fires_dataframe.csv", sep=',')

## Экспорт данных

DataFrame и Series можно сохранять в виде файлов .csv и .xlsx

`DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)`

- path_or_buf - пусть к файлу 
- sep - Строка длиной 1. Разделитель полей для выходного файла.

Чтобы записать отдельный объект в файл Excel .xlsx, необходимо только указать имя целевого файла. Для записи на несколько листов необходимо создать объект ExcelWriter с именем целевого файла и указать лист в файле для записи.

`DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None)`