# Семинар 13. Pandas_1

        
1. Модуль `pandas`, импорт модуля


2. Типы данных `DataFrame` и `Series`
    
    2.1. Атрибуты `DataFrame`


3. Загрузка из файла / по `URL`


4. Операции над таблицами

    4.1. Выбор элементов `[], loc, iloc`


## `pandas`

- Обеспечивает всестороннюю работу с таблицами и рядами данных.
- Основан на `numpy` и `matplotlib`
- Поддерживает различные форматы файлов `csv, xls, json, hdf5, ...`
- Дополнительные возможности работы с датами `datetime`
- Поддерживает запросы на `SQL`-подобном языке

Импорт модуля:

`import pandas as pd`

Рекомендую использовать: [**Pandas Cheat Sheet**](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

In [2]:
import pandas as pd

import numpy as np

## `Series`

- Ряд данных;
- Аналогичен массиву, но хранит индексы;
- Индексы могут быть **не числовыми**;
- Перед любой операцией происходит **выравнивание по индексам**;
- Корректно работает с **отсутствующими данными** `NaN`.

Создание ряда:

`s = pd.Series(data, index=index)`

In [24]:
s = pd.Series([1,2,3,np.nan,5,6])
s, s.index

(0    1.0
 1    2.0
 2    3.0
 3    NaN
 4    5.0
 5    6.0
 dtype: float64,
 RangeIndex(start=0, stop=6, step=1))

In [25]:
# явно указаны индексы
s = pd.Series([1,2,3,np.nan,5,6], index=list('aacdef'))
s

a    1.0
a    2.0
c    3.0
d    NaN
e    5.0
f    6.0
dtype: float64

In [4]:
# создание ряда из одного числа
pd.Series(37, index=list(range(10)))

0    37
1    37
2    37
3    37
4    37
5    37
6    37
7    37
8    37
9    37
dtype: int64

In [5]:
# преобразование словаря в Series
print(pd.Series({'a':1, 'b':2, 'c':3}))

a    1
b    2
c    3
dtype: int64


In [6]:
# для индексов используется порядок, в котором элементы добавлены в словарь
print(pd.Series({'a':1, 'c':2, 'b':3}))

a    1
c    2
b    3
dtype: int64


## `DataFrame`

- Таблица данных;
- Похожа на матрицу, но хранит индексы (строк) и названия столбцов;
- Каждый столбец имеет свой тип элемента;
- Индексы и названия столбцов могут быть **не числовыми**;
- Перед любой операцией происходит **выравнивание по индексам**;
- Корректно работает с **отсутствующими данными** `NaN`.

*Можно представлять себе Таблицу как набор столбцов с одинаковыми индексами*

Создание Таблицы:

`df = pd.DataFrame(data, index=index, columns=columns)`

In [26]:
# из списка, как при создании ряда
# созданный ряд становится столбцом таблицы

df = pd.DataFrame([1,2,3,np.nan,5,6])
df

Unnamed: 0,0
0,1.0
1,2.0
2,3.0
3,
4,5.0
5,6.0


In [27]:
# из списка списков

df = pd.DataFrame([[i*j for j in range(5)] for i in range(5)])
df

Unnamed: 0,0,1,2,3,4
0,0,0,0,0,0
1,0,1,2,3,4
2,0,2,4,6,8
3,0,3,6,9,12
4,0,4,8,12,16


In [9]:
# на основе словаря
# ключи становятся названиями столбцов

d = {'col_a':[1,2,3], 'col_b':[4,5,6]}

df = pd.DataFrame(d)
df

Unnamed: 0,col_a,col_b
0,1,4
1,2,5
2,3,6


In [28]:
# на основе словаря из рядов
# ключи становятся названиями столбцов
# индексы рядов - индексами строк
# откуда взялись NaN?

d = {'col_a':pd.Series([1,2,3], index=['row_a', 'row_b', 'row_c']), 
     'col_b':pd.Series([4,5,6], index=['row_b', 'row_c', 'row_d'])
    }

df = pd.DataFrame(d)
df

Unnamed: 0,col_a,col_b
row_a,1.0,
row_b,2.0,4.0
row_c,3.0,5.0
row_d,,6.0


## Атрибуты `DataFrame`

- `df.shape` - размеры таблицы (кортеж)
- `df.dtypes` - типы элементов в столбцах таблицы
- `df.columns` - названия столбцов
- `df.index` - индексы строк


In [29]:
d = {'col_a':pd.Series([True,True,False], index=['row_a', 'row_b', 'row_c']), 
     'col_b':pd.Series([4.0,5.0,6.0], index=['row_b', 'row_c', 'row_d']),
     'col_c':pd.Series(['log','exp','sin'], index=['row_b', 'row_c', 'row_d'])
    }
df = pd.DataFrame(d)
df

Unnamed: 0,col_a,col_b,col_c
row_a,True,,
row_b,True,4.0,log
row_c,False,5.0,exp
row_d,,6.0,sin


In [30]:
df.shape

(4, 3)

In [31]:
df.dtypes

col_a     object
col_b    float64
col_c     object
dtype: object

In [32]:
df.columns

Index(['col_a', 'col_b', 'col_c'], dtype='object')

In [12]:
df.index

Index(['row_a', 'row_b', 'row_c', 'row_d'], dtype='object')

## Задание

Создать Таблицу и вывести на экран:
- содержимое, 
- размеры, 
- индекс, 
- названия столбцов.

Таблица должна содержать информацию о продажах (достаточно 5 строк):
- имя менеджера (строка)
- возраст (целое число)
- пол (строка)
- дата продажи товара (`datetime`)
- количество единиц товара (целое число)

Преобразовать последовательность строк к формату `datetime` можно так:

`pd.to_datetime(['10.11.2020', '11.11.2020', '11.11.2020'])`


In [6]:
pd.to_datetime(['10.11.2020', '11.11.2020', '11.11.2020'])

DatetimeIndex(['2020-10-11', '2020-11-11', '2020-11-11'], dtype='datetime64[ns]', freq=None)

## Загрузка из файла

- `pd.read_<format>(path, ...)` - загрузить таблицу из файла указанного формата

`path` - путь к файлу или `URL`

Например:

- `pd.read_csv('table.csv')`
- `pd.read_pickle('table.pkl')`
- `pd.read_json('http://some-server.org/page')`

In [16]:
[x for x in dir(pd) if x.startswith('read_')]

['read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_orc',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_spss',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table']

In [7]:
url = 'https://github.com/BoberSA/PythonCourse/raw/master/Lecture_6/hashes.csv'
df = pd.read_csv(url)

In [8]:
df

Unnamed: 0,Группа,Фамилия,Имя,Отчество,hash
0,БПМ-161,Антонов,Алексей,Алексеевич,6875ba52f0
1,БПМ-161,Арсамакова,Алина,Ибрагимовна,7ca01c996f
2,БПМ-161,Богатов,Антон,Юрьевич,15360bcc4c
3,БПМ-161,Бычков,Андрей,-,f9f854aa44
4,БПМ-161,Высоцкий,Яков,Михайлович,1d1d05c257
...,...,...,...,...,...
90,БПМ-163,Черников,Дмитрий,Владимирович,5a44ca37d2
91,БПМ-163,Шухова,Вероника,Валерьевна,f2d63ba1da
92,БПМ-163,Ячменева,Виктория,Сергеевна,5389cb6370
93,БПМ-163,Бусурин,Антон,-,6311bbb17e


## `pd.read_csv`

Некоторые аргументы:

- `sep:str` или `delimiter:str` - разделитель значений в строке; можно использовать регулярные выражения
- `delim_whitespace:bool` - считать ли разделителем любое количество 'пробельных' символов?
- `usecols:list` - имена столбцов, которые нужно загрузить
- `header:int` - номер строки с названиями столбцов (`None`, если нет)
- `index_col:int` - какой столбец является индексным
- `parse_dates:bool` - преобразовывать даты
- `skiprows:int` - пропустить заданное число строк в начале файла


## Задание

Загрузить Таблицу из файла [`stockholm_td_adj.dat`](https://github.com/jrjohansson/scientific-python-lectures) и вывести на экран:

- содержимое, 
- размеры, 
- типы элементов.

In [None]:
url = 'https://github.com/jrjohansson/scientific-python-lectures/raw/master/stockholm_td_adj.dat'

## Выбор элементов

Индексирование:
- `df[название_столбца]` - выбрать один столбец
- `df[[название_столбца1, название_столбца2, ...]]` - выбрать несколько столбцов

- `df[маска]` - выбрать **строки** согласно маске!

Выбор столбца:
- `df.название_столбца` - работает, если название_столбца соответствует правилам именования в Python и не совпадает с другими атрибутами таблицы

Выбор по **индексу и названию столбцов**:
- `df.loc[строки, столбцы]` - здесь можно выбрать сразу нужные строки и столбцы, используя индексы, срезы и т.д.

Выбор по **целочисленному индексу**:
- `df.iloc[строки, столбцы]` - аналогично, но с помощью целочисленных индексов (как в массивах)

In [9]:
url = 'https://github.com/BoberSA/PythonCourse/raw/master/Lecture_6/hashes.csv'
df = pd.read_csv(url)
df.shape, df.columns

((95, 5),
 Index(['Группа', 'Фамилия', 'Имя', 'Отчество', 'hash'], dtype='object'))

In [10]:
df['Группа']

0     БПМ-161
1     БПМ-161
2     БПМ-161
3     БПМ-161
4     БПМ-161
       ...   
90    БПМ-163
91    БПМ-163
92    БПМ-163
93    БПМ-163
94    БПМ-163
Name: Группа, Length: 95, dtype: object

In [45]:
df[['Фамилия', 'hash']]

Unnamed: 0,Фамилия,hash
0,Антонов,6875ba52f0
1,Арсамакова,7ca01c996f
2,Богатов,15360bcc4c
3,Бычков,f9f854aa44
4,Высоцкий,1d1d05c257
...,...,...
90,Черников,5a44ca37d2
91,Шухова,f2d63ba1da
92,Ячменева,5389cb6370
93,Бусурин,6311bbb17e


In [49]:
mask = (df['Имя'] == 'Александр')
mask

0     False
1     False
2     False
3     False
4     False
      ...  
90    False
91    False
92    False
93    False
94    False
Name: Имя, Length: 95, dtype: bool

In [46]:
df[mask]

Unnamed: 0,Группа,Фамилия,Имя,Отчество,hash
22,БПМ-161,Синицын,Александр,Юрьевич,1279af2d6f
23,БПМ-161,Соколов,Александр,Николаевич,165aac7dac
30,БПМ-162,Борисычев,Александр,Сергеевич,99fe117fcb


In [47]:
df.Группа

0     БПМ-161
1     БПМ-161
2     БПМ-161
3     БПМ-161
4     БПМ-161
       ...   
90    БПМ-163
91    БПМ-163
92    БПМ-163
93    БПМ-163
94    БПМ-163
Name: Группа, Length: 95, dtype: object

In [24]:
df.loc[10:20, 'Фамилия':'Отчество']

Unnamed: 0,Фамилия,Имя,Отчество
10,Корякин,Дмитрий,Александрович
11,Кубышкина,Екатерина,Константиновна
12,Ларичева,Мария,Максимовна
13,Лещёв,Дмитрий,Андреевич
14,Мансуров,Рустам,Айратович
15,Мартынов,Никита,Игоревич
16,Мезенцев,Глеб,Владимирович
17,Пилипчук,Серафим,Викторович
18,Плешко,Георгий,Дмитриевич
19,Пытьев,Никита,Александрович


In [48]:
df.iloc[:, 2]

0      Алексей
1        Алина
2        Антон
3       Андрей
4         Яков
        ...   
90     Дмитрий
91    Вероника
92    Виктория
93       Антон
94           В
Name: Имя, Length: 95, dtype: object

## Задание

Загрузить Таблицу по [ссылке](https://github.com/BoberSA/PythonCourse/raw/master/Lecture_6/grades.csv)

В таблице хранится `hash` студента и оценки за 9 заданий.

Необходимо:

- выбрать строки со средней оценкой не ниже 0.6;

- выбрать строки, где не менее четырех единиц.

Для вычислений необходимых величин используйте функции `numpy` или аналогичные методы Таблицы (Ряда).

In [13]:
url = 'https://github.com/BoberSA/PythonCourse/raw/master/Lecture_6/grades.csv'

df = pd.read_csv(url, index_col=0)
df.head()

Unnamed: 0,hash,0,1,2,3,4,5,6,7,8
0,cbe32a2a1b,0.8,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
1,caa93590ad,0.2,0.2,0.9,0.7,0.0,0.0,0.0,0.0,0.0
2,5bbe47f96d,0.8,1.0,1.0,1.0,1.0,0.0,0.5,0.0,0.0
3,3f187965b9,0.0,0.0,0.8,1.0,0.5,0.0,0.0,0.0,0.0
4,bf1e56e185,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [18]:
mask = np.sum(df == 1, axis=1) >= 4
df[mask]

Unnamed: 0,hash,0,1,2,3,4,5,6,7,8
0,cbe32a2a1b,0.8,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
2,5bbe47f96d,0.8,1.0,1.0,1.0,1.0,0.0,0.5,0.0,0.0
12,b5c2ae4623,0.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.6
