# Семинар 2:  Тема: Изучение библиотеки Pandas

Pandas — библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. 

Основными структурами данных в Pandas являются классы Series и DataFrame.

Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. 

Установить библиотеку pandas можно следующим образом:

`!pip install pd`

Импортируем библиотеку:

In [2]:
import pandas as pd

## 1. Тип данных Series

### Создание и тип данных

Набор данных Series можно создать из списка, кортежа, словаря:

In [80]:
a = pd.Series([1, 3.5, 5, 6, 2])#из списка
print(a)
b = pd.Series(('2',0,'9','7',3))# из кортежа
print(b)
c = pd.Series({'a':1, 'b':2, 'c':0})#из словаря
print(c)

0    1.0
1    3.5
2    5.0
3    6.0
4    2.0
dtype: float64
0    2
1    0
2    9
3    7
4    3
dtype: object
a    1
b    2
c    0
dtype: int64


Тип данных у всей серии один и тот же. Узнать его можно так:

In [43]:
a.dtype

dtype('float64')

Тип данных в Series можно задать сразу:

In [44]:
import numpy as np #библиотека numpy
e = pd.Series([1, 3.5, 5, 6, 2], dtype=np.float32)
e

0    1.0
1    3.5
2    5.0
3    6.0
4    2.0
dtype: float32

Изменить тип данных можно с помощью метода .astype:

In [45]:
e = e.astype(np.int64)
e

0    1
1    3
2    5
3    6
4    2
dtype: int64

Можно получить сами данные в виде списка `np.array` при помощи  `.values`, а индексы при помощи `.index`:

In [46]:
print(b.values)
print(type(b.values))

['2' 0 '9' '7' 3]
<class 'numpy.ndarray'>


In [48]:
print(с.index)

Index(['a', 'b', 'c'], dtype='object')


В качестве индекса можно передавать свои значения:

In [50]:
pd.Series(list('abcde'), index=["А", "Б", "В", "Г", "A"])

А    a
Б    b
В    c
Г    d
A    e
dtype: object

Индексы не обязаны быть уникальными.

### Пропуски

Отсутствующий данные записываются как np.nan. 

In [66]:
s = pd.Series([1, 3, 5, 4, np.nan, 6, 7, 8, np.nan, 10])
s

0     1.0
1     3.0
2     5.0
3     4.0
4     NaN
5     6.0
6     7.0
7     8.0
8     NaN
9    10.0
dtype: float64

In [None]:
Для поиска пропусков есть специальный метод .isna(). 

In [53]:
s.isna() 

0    False
1    False
2    False
3    False
4     True
5    False
6    False
7    False
8     True
9    False
dtype: bool

Подсчёт количества пропусков:

In [55]:
s.isna().sum()

2

Функции isnull() и notnull() нужны для определения равно ли значение NaN или нет:

In [59]:
s.isnull(), s.notnull()

(0    False
 1    False
 2    False
 3    False
 4     True
 5    False
 6    False
 7    False
 8     True
 9    False
 dtype: bool,
 0     True
 1     True
 2     True
 3     True
 4    False
 5     True
 6     True
 7     True
 8    False
 9     True
 dtype: bool)

Это позволяет заполнять пропущенные значения:

In [67]:
s[s.isnull()] = 100
s

0      1.0
1      3.0
2      5.0
3      4.0
4    100.0
5      6.0
6      7.0
7      8.0
8    100.0
9     10.0
dtype: float64

.isna() и .isnull() здесь одно и тоже

### Описательная статистика

Информация о серии данных: количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, 
медиана, верхний квартиль, максимум, а так же тип данных (пропуски, при подсчёте этих величин, не учитываются):

In [171]:
s.describe()

count     10.000000
mean      24.400000
std       39.925486
min        1.000000
25%        4.250000
50%        6.500000
75%        9.500000
max      100.000000
dtype: float64

### Выбор данных из Series

In [73]:
 s[6]

7.0

Объекты типа Series поддерживают срезы:

In [75]:
s[:2],s[7:]

(0    1.0
 1    3.0
 dtype: float64,
 7      8.0
 8    100.0
 9     10.0
 dtype: float64)

In [95]:
s[2:5]

2      5.0
3      4.0
4    100.0
dtype: float64

Если индекс — строка, то вместо s['a'] можно писать s.a:

In [81]:
c.a

1

Методы `.head()` и `.tail()`, позволяют посмотреть первые несколько или последние несколько значений. 
В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [100]:
 s.head(3)

0    1.0
1    3.0
2    5.0
dtype: float64

Можно получать серии, которые удовоетворяют некоторому условию:

In [83]:
s[s > 7]

4    100.0
7      8.0
8    100.0
9     10.0
dtype: float64

In [93]:
s[(s > 9) | (s == 100)]

4    100.0
8    100.0
9     10.0
dtype: float64

### Сортировка

Метод sort_values() сортирует значения:

In [103]:
s.sort_values()

0      1.0
1      3.0
3      4.0
2      5.0
5      6.0
6      7.0
7      8.0
9     10.0
4    100.0
8    100.0
dtype: float64

### Уникальные значения и их количество

Метод unique() возвращает массив numpy.ndarray с уникальными (единственными) значениями:

In [96]:
s.unique()

array([  1.,   3.,   5.,   4., 100.,   6.,   7.,   8.,  10.])

Метод nunique() возвращает количество уникальных значений:

In [97]:
s.nunique()

9

Метод value_counts() возвращает не только уникальные значения, но и показывает, 
как часто элементы встречаются в Series.

In [99]:
s.value_counts() 

100.0    2
10.0     1
8.0      1
7.0      1
6.0      1
4.0      1
5.0      1
3.0      1
1.0      1
dtype: int64

Метод isin() показывает, есть ли элементы из списка значений. 
Возвращает булевые значения, которые полезны при фильтрации данных в Series или в колонке Dataframe.

In [86]:
s.isin([1,3,5,8])

0     True
1     True
2     True
3    False
4    False
5    False
6    False
7     True
8    False
9    False
dtype: bool

### Математические операции

К сериям данных можно применять функции из numpy:

In [104]:
np.exp(s)

0    2.718282e+00
1    2.008554e+01
2    1.484132e+02
3    5.459815e+01
4    2.688117e+43
5    4.034288e+02
6    1.096633e+03
7    2.980958e+03
8    2.688117e+43
9    2.202647e+04
dtype: float64

### Добавление и удаление данных в Series

С помощью метода `.append` мы можем добавлять к одному массиву `Series` другой:

In [68]:
f  = pd.Series({"1st":1, "2nd":8, "3th":7})
g = s.append(f)
print(g)

0        1.0
1        3.0
2        5.0
3        4.0
4      100.0
5        6.0
6        7.0
7        8.0
8      100.0
9       10.0
1st      1.0
2nd      8.0
3th      7.0
dtype: float64


С помощью метода `.drop` мы можем удалять из массива элементы с определёнными индексами. Эти индексы мы и подаём в метод в виде списка:

In [70]:
h = g.drop([0, 4, "2nd"])# указываем список индексов строк, которые надо удалить
h

1        3.0
2        5.0
3        4.0
5        6.0
6        7.0
7        8.0
8      100.0
9       10.0
1st      1.0
3th      7.0
dtype: float64

Эти методы не меняют исходные серии, а создают новые!

## 2. Тип данных DataFrame

`DataFrame` - двумерная структура данных из библиотеки `pandas`, позволяющая удобно работать с таблицами.

Самый простой способ задать `DataFrame` - с помощью словаря, в котором каждый ключ отвечает за столбец, а соответствующее значение - это список из элементов данного столбца. Эти списки должны иметь одинаковую длину.

Dataframe можно воспринимать как `dict`, состоящий из `Series`, где ключи — названия колонок, а значения — объекты `Series`, которые формируют колонки самого объекта `Dataframe`. Наконец, все элементы в каждом объекте `Series` связаны в соответствии с массивом меток, называемым `index`.

## Создание, тип данных

In [138]:
dic = {
    "col1": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "col2": ["a", "b", "c", "d", "e", "f", "g","h","i","k"]
}
data_a = pd.DataFrame(dic)
data_a 

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,k


С помощью атрибута `.shape` можно посмотреть длину по каждому изменению `DataFrame`.

In [185]:
data_a.shape #число строк и число столбцолв

(10, 2)

In [184]:
data_a.shape[0]#число строк

10

In [186]:
data_a.shape[1]# число столбцов

2

 Атрибут `.columns` содержит имена столбцов, а `.index`, как и у `Series`, содержит массив индексов:

In [113]:
print("Столбцы: {}".format(data_a.columns))

print("Индексы: {}".format(data_a.index))

Столбцы: Index(['col1', 'col2'], dtype='object')
Индексы: RangeIndex(start=0, stop=10, step=1)


In [114]:
type(data_a.columns)

pandas.core.indexes.base.Index

Каждая колонка может иметь свой тип данных. Метод `info()` покажет это:

In [115]:
data_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    10 non-null     int64 
 1   col2    10 non-null     object
dtypes: int64(1), object(1)
memory usage: 288.0+ bytes


Тип данных каждого поля с атрибутом dtypes:

In [153]:
data_a.dtypes

col1     int64
col2    object
dtype: object

### Описательная статистика

С помощью метода `describe()` можно получить некоторые статистические характеристики по столбцам с 
числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили и пр.

In [118]:
data_a.describe()

Unnamed: 0,col1
count,10.0
mean,5.5
std,3.02765
min,1.0
25%,3.25
50%,5.5
75%,7.75
max,10.0


Здесь только одна колонка,т.к.статистические данные расчитываются только для числовых признаков (колонок).

### Выбор данных из DataFrame

Для получения данных из массива `DataFrame` используется тот же синтаксис, что и для `Series`. 
Например, с помощью методов `head()` и `tail()` можно получить несколько первых или несколько последних 
строк таблицы.

Отдельный столбец можно получить, передав его название в квадратных скобках:

In [120]:
data_a["col2"]

0    a
1    b
2    c
3    d
4    e
5    f
6    g
7    h
8    i
9    k
Name: col2, dtype: object

In [121]:
type(data_a["col2"])

pandas.core.series.Series

Если мы хотим вывести несколько столбцов, в квадратные скобки нужно подать список из столбцов.
Тогда вернётся подтаблица исходной таблицы опять в формате DataFrame.

In [123]:
data_a[["col2","col1"]]

Unnamed: 0,col2,col1
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5
5,f,6
6,g,7
7,h,8
8,i,9
9,k,10


Получить данные из строк таблицы `DataFrame` можно получить с помощью атрибута `.loc`, указав нужный индекс 
строки и название колонки в квадратных скобках:

In [124]:
data_a.loc[2, "col1"]

3

Это тоже самое, что:

In [126]:
data_a["col1"][2]

3

Несколько значений:

In [128]:
data_a.loc[[0,2,5], "col1"]

0    1
2    3
5    6
Name: col1, dtype: int64

In [154]:
data_a.loc[2:5, "col1"]

2    3
3    4
4    5
5    6
Name: col1, dtype: int64

In [133]:
data_a.loc[2, ["col1","col2"]]

col1    3
col2    c
Name: 2, dtype: object

In [134]:
data_a.loc[(data_a["col1"] > 3) | (data_a["col1"] == 1), "col2"]

0    a
3    d
4    e
5    f
6    g
7    h
8    i
9    k
Name: col2, dtype: object

In [148]:
data_a[data_a["col1"].between(3, 7)]# все строки, для которых значение в первом столбце лежит между 3 и 7 (включая оба конца)

Unnamed: 0,col1,col2
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g


In [151]:
data_a[data_a["col2"].isin(["a", "z"])]#все строки, для которых значение второго столбца содержится в списке `["a", "z"]`

Unnamed: 0,col1,col2
0,1,a


### Пропуски

In [283]:
data_b = pd.DataFrame( {
    "col1": [1, 2, np.nan, 5, 6, np.nan, 8],
    "col2": ["a", "c", "e", "c", np.nan, "e", "c"],
    "col3": ["red", "blue", "green", "brown", "purple", "yellow", "white"]
})
data_b

Unnamed: 0,col1,col2,col3
0,1.0,a,red
1,2.0,c,blue
2,,e,green
3,5.0,c,brown
4,6.0,,purple
5,,e,yellow
6,8.0,c,white


Булевская маска пропущенных значений:

In [284]:
data_b.isna()

Unnamed: 0,col1,col2,col3
0,False,False,False
1,False,False,False
2,True,False,False
3,False,False,False
4,False,True,False
5,True,False,False
6,False,False,False


В каких столбцах есть пропуски:

In [285]:
data_b.isna().any()

col1     True
col2     True
col3    False
dtype: bool

Количество пропущеных значений:

In [286]:
data_b.isna().sum()

col1    2
col2    1
col3    0
dtype: int64

С помощью метода`.fillna()` заменяют пропуски.

Замена всех пропусков на среднее по столбцу:

In [287]:
print(data_b["col1"].mean())
data_b["col1"]=data_b["col1"].fillna(value=data_b["col1"].mean())
data_b

4.4


Unnamed: 0,col1,col2,col3
0,1.0,a,red
1,2.0,c,blue
2,4.4,e,green
3,5.0,c,brown
4,6.0,,purple
5,4.4,e,yellow
6,8.0,c,white


Замена всех пропусков на самое часто встречающееся значение:

In [288]:
data_b["col2"].value_counts()

c    3
e    2
a    1
Name: col2, dtype: int64

In [289]:
data_b["col2"]=data_b["col2"].fillna(value='c')
data_b

Unnamed: 0,col1,col2,col3
0,1.0,a,red
1,2.0,c,blue
2,4.4,e,green
3,5.0,c,brown
4,6.0,c,purple
5,4.4,e,yellow
6,8.0,c,white


### Уникальные значения и их количество

Аналогично тому, как для `Series`.

In [291]:
data_b["col2"].unique()

array(['a', 'c', 'e'], dtype=object)

In [292]:
data_b["col2"].nunique()

3

In [293]:
data_b["col2"].value_counts()

c    4
e    2
a    1
Name: col2, dtype: int64

### Заменить и переименовать

Заменить значения можно при помощи метода `.replace()`:

In [294]:
data_b["col1"].replace(1,'one')

0    one
1      2
2    4.4
3      5
4      6
5    4.4
6      8
Name: col1, dtype: object

Переименование столбцов делают при помощи `.rename()`:

In [296]:
data_b.rename(columns={'col3':'color'})

Unnamed: 0,col1,col2,color
0,1.0,a,red
1,2.0,c,blue
2,4.4,e,green
3,5.0,c,brown
4,6.0,c,purple
5,4.4,e,yellow
6,8.0,c,white


### Добавление и удаление строк и столбцов

In [326]:
data_b = pd.DataFrame( {
    "col1": [1, 2, np.nan, 5, 6, np.nan, 8],
    "col2": ["a", "c", "e", "c", np.nan, "e", "c"],
    "col3": ["red", "blue", "green", "brown", "purple", "yellow", "white"]
})
data_b

Unnamed: 0,col1,col2,col3
0,1.0,a,red
1,2.0,c,blue
2,,e,green
3,5.0,c,brown
4,6.0,,purple
5,,e,yellow
6,8.0,c,white


Удаление столбцов:

In [327]:
data_b=data_b.drop('col2', axis=1)
data_b.head()

Unnamed: 0,col1,col3
0,1.0,red
1,2.0,blue
2,,green
3,5.0,brown
4,6.0,purple


Удаление строк:

In [328]:
data_b=data_b[data_b.index!=3]#удалили третью строку
data_b

Unnamed: 0,col1,col3
0,1.0,red
1,2.0,blue
2,,green
4,6.0,purple
5,,yellow
6,8.0,white


Добавление столбца:

In [329]:
data_b.insert(1, 'col4', [1, 0,1,0,1,1], allow_duplicates = True)# добавляем после столбца с номером 1
data_b

Unnamed: 0,col1,col4,col3
0,1.0,1,red
1,2.0,0,blue
2,,1,green
4,6.0,0,purple
5,,1,yellow
6,8.0,1,white


Добавление строки в конец:

In [330]:
new_row = pd.Series([1, 'black'], index=['col1','col3'])
data_b = data_b.append(new_row, ignore_index=True)
data_b

Unnamed: 0,col1,col4,col3
0,1.0,1.0,red
1,2.0,0.0,blue
2,,1.0,green
3,6.0,0.0,purple
4,,1.0,yellow
5,8.0,1.0,white
6,1.0,,black


### Объединение по ключевому полю

In [4]:
data_c = pd.DataFrame( {
    "col1": [1, 2, 5, 6, 0],
    "col2": ["a", "b", "c", "d", "e"],
    "col3": ["red", "blue", "green", "brown", "purple"]
})
data_d = pd.DataFrame( {
    "col1": [4, 2, 5, 6, 3],
    "col4": ["f", "g", "h", "k", "l"],
})
print(data_c)
print(data_d)

   col1 col2    col3
0     1    a     red
1     2    b    blue
2     5    c   green
3     6    d   brown
4     0    e  purple
   col1 col4
0     4    f
1     2    g
2     5    h
3     6    k
4     3    l


Функция `merge()`предназначена для соединения нескольких датасетов по ключевому полю:

In [6]:
pd.merge(data_c, data_d, on="col1")# указываем датасеты и колонку, в которой искать совпадающие значения

Unnamed: 0,col1,col2,col3,col4
0,2,b,blue,g
1,5,c,green,h
2,6,d,brown,k


### Чтение и запись DataFrame из файлов

**Загрузка текстовых файлов табличного вида** (.csv и .txt) производится с помощью функции `pd.read_csv()`. 

Основные аргументы следующие:
    
* `filepath_or_buffer` &mdash; пусть к файлу (обязательный)

* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.)
* `header` &mdash; номер строки или список номеров строк, используемых в качестве имен колонок
* `names` &mdash; список имен, которые будут использованы в качестве имен колонок
* `index_col` &mdash; колонка, используемая в качестве индекса
* `usecols` &mdash; список имен колонок, которые будут загружены
* `nrows` &mdash; сколько строк прочитать
* `skiprows` &mdash; номера строк с начала, которые нужно пропустить
* `skipfooter` &mdash; сколько строк в конце пропустить
* `na_values` &mdash; список значений, которые распознавать как пропуски

**Загрузка таблиц формата Excel** производится с помощью функции `pd.read_excel()`. 

Основные аргументы следующие:
* `io` &mdash; пусть к файлу (обязательный)
* `sheetname` &mdash; какие листы таблицы загрузить

Остальные параметры аналогично.

In [182]:
df = pd.read_csv("train.csv")
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Запись таблицы в текстовый файл** производится с помощью функции `df.to_csv()`. 

Основные аргументы следующие:
* `df` &mdash; DataFrame, который нужно записать (обязательный)
* `path_or_buf` &mdash; путь, куда записать (обязательный)
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.)
* `na_rep` &mdash; как записать пропуски
* `float_format` &mdash; формат записи дробных чисел
* `columns` &mdash; какие колонки записать
* `header` &mdash; как назвать колонки при записи
* `index` &mdash; записывать ли индексы в файл
* `index_label` &mdash; имена индексов, которые записать в файл.

**Запись таблицы в формат Excel** производится с помощью функции `df.to_excel()`. 
Основные аргументы аналогичные. 

## Работа с датами

In [3]:
df = pd.read_csv("insurance_miptstats.csv", parse_dates=[0])
df.head()

Unnamed: 0,birthday,sex,bmi,children,smoker,region,charges
0,2001-12-20,female,27.9,0,yes,southwest,16884.924
1,2003-03-18,male,33.77,1,no,southeast,1725.5523
2,1992-11-02,male,33.0,3,no,southeast,4449.462
3,1987-07-27,male,22.705,0,no,northwest,21984.47061
4,1988-11-04,male,28.88,0,no,northwest,3866.8552


In [4]:
import datetime as dt
df['age']=2022-df["birthday"].dt.year
df['age']

0       21
1       19
2       30
3       35
4       34
        ..
1333    52
1334    20
1335    19
1336    23
1337    62
Name: age, Length: 1338, dtype: int64