# Занятие 2:  Тема: Изучение библиотеки Pandas

Pandas — библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. 

Основными структурами данных в Pandas являются классы Series и DataFrame.

Первый из них представляет собой одномерный индексированный массив данных некоторого фиксированного типа. Второй - это двухмерная структура данных, представляющая собой таблицу, каждый столбец которой содержит данные одного типа. 

Установить библиотеку pandas можно следующим образом:

`!pip install pd`

Импортируем библиотеку:

In [1]:
import pandas as pd
import numpy as np

## 1. Тип данных Series

### Создание и тип данных

Набор данных Series можно создать из списка, кортежа, словаря:

In [2]:
a = pd.Series([1, 3.5, 5, 6, 2])#из списка
print(a)

0    1.0
1    3.5
2    5.0
3    6.0
4    2.0
dtype: float64


In [3]:
b = pd.Series(('2',0,'9','7',3))# из кортежа
print(b)

0    2
1    0
2    9
3    7
4    3
dtype: object


In [4]:
c = pd.Series({'a':1, 'b':2, 'c':0})#из словаря
print(c)

a    1
b    2
c    0
dtype: int64


В качестве индекса можно передавать свои значения:

In [5]:
pd.Series([1,2,3], index=["А", "Б", "A"])

А    1
Б    2
A    3
dtype: int64

Индексы не обязаны быть уникальными.

In [6]:
type(a)

pandas.core.series.Series

Тип данных у всей серии один и тот же. Узнать его можно так:

In [7]:
a.dtype

dtype('float64')

Изменить тип данных можно с помощью метода .astype:

In [8]:
a = a.astype(np.int64)
a

0    1
1    3
2    5
3    6
4    2
dtype: int64

### Массивы индексов и значений

Можно получить сами данные в виде списка `np.array` при помощи  `.values`, а индексы при помощи `.index`:

In [9]:
b.values

array(['2', 0, '9', '7', 3], dtype=object)

In [10]:
type(b.values)

numpy.ndarray

In [11]:
b.index

RangeIndex(start=0, stop=5, step=1)

In [12]:
c.index

Index(['a', 'b', 'c'], dtype='object')

### Pазмер

In [13]:
b.shape

(5,)

In [14]:
b.shape[0]

5

In [15]:
len(b)

5

In [16]:
b.count()

5

### Пропуски

Отсутствующий данные записываются как np.nan. 

In [17]:
s = pd.Series([1, 3, 5, 4, np.nan, 6, 7, 8, np.nan, 10])
s

0     1.0
1     3.0
2     5.0
3     4.0
4     NaN
5     6.0
6     7.0
7     8.0
8     NaN
9    10.0
dtype: float64

Для поиска пропусков есть специальный метод .isna(). 

In [18]:
s.isna() 

0    False
1    False
2    False
3    False
4     True
5    False
6    False
7    False
8     True
9    False
dtype: bool

Подсчёт количества пропусков:

In [19]:
s.isna().sum()

2

Функции isnull() и notnull() нужны для определения равно ли значение NaN или нет:

In [20]:
s.isnull(), s.notnull()

(0    False
 1    False
 2    False
 3    False
 4     True
 5    False
 6    False
 7    False
 8     True
 9    False
 dtype: bool,
 0     True
 1     True
 2     True
 3     True
 4    False
 5     True
 6     True
 7     True
 8    False
 9     True
 dtype: bool)

Это позволяет заполнять пропущенные значения:

In [21]:
s[s.isnull()] = 100
s

0      1.0
1      3.0
2      5.0
3      4.0
4    100.0
5      6.0
6      7.0
7      8.0
8    100.0
9     10.0
dtype: float64

.isna() и .isnull() здесь одно и тоже

### Описательная статистика

Информация о серии данных: количество записей, среднее, стандартное отклонение, минимум, нижний квартиль, 
медиана, верхний квартиль, максимум, а так же тип данных (пропуски, при подсчёте этих величин, не учитываются):

In [22]:
s.describe()

count     10.000000
mean      24.400000
std       39.925486
min        1.000000
25%        4.250000
50%        6.500000
75%        9.500000
max      100.000000
dtype: float64

### Выбор данных из Series

In [23]:
 s[6]

7.0

Объекты типа Series поддерживают срезы:

In [24]:
s[:2],s[7:]

(0    1.0
 1    3.0
 dtype: float64,
 7      8.0
 8    100.0
 9     10.0
 dtype: float64)

In [25]:
s[2:5]

2      5.0
3      4.0
4    100.0
dtype: float64

Если индекс — строка, то вместо s['a'] можно писать s.a:

In [26]:
c['a']

1

In [27]:
c.a

1

Методы `.head()`,`.tail()` и `.sample()` позволяют вывести несколько первых, несколько последних и несколько случайных значений соответственно. 
В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [28]:
 s.head(3)

0    1.0
1    3.0
2    5.0
dtype: float64

In [29]:
s.sample(2)

6    7.0
1    3.0
dtype: float64

Можно получать серии, которые удовоетворяют некоторому условию:

In [30]:
s[s > 7]

4    100.0
7      8.0
8    100.0
9     10.0
dtype: float64

In [31]:
s[(s > 9) | (s == 100)]

4    100.0
8    100.0
9     10.0
dtype: float64

### Сортировка

Метод sort_values() сортирует значения:

In [32]:
s.sort_values()

0      1.0
1      3.0
3      4.0
2      5.0
5      6.0
6      7.0
7      8.0
9     10.0
4    100.0
8    100.0
dtype: float64

### Уникальные значения и их количество

Метод unique() возвращает массив numpy.ndarray с уникальными (единственными) значениями:

In [33]:
s.unique()

array([  1.,   3.,   5.,   4., 100.,   6.,   7.,   8.,  10.])

Метод nunique() возвращает количество уникальных значений:

In [34]:
s.nunique()

9

Метод value_counts() возвращает не только уникальные значения, но и показывает, 
как часто элементы встречаются в Series.

In [35]:
s.value_counts() 

100.0    2
1.0      1
3.0      1
5.0      1
4.0      1
6.0      1
7.0      1
8.0      1
10.0     1
dtype: int64

Метод isin() показывает, есть ли элементы из списка значений. 
Возвращает булевые значения, которые полезны при фильтрации данных в Series или в колонке Dataframe.

In [36]:
s.isin([1,3,5,8])

0     True
1     True
2     True
3    False
4    False
5    False
6    False
7     True
8    False
9    False
dtype: bool

### Математические операции

К сериям данных можно применять функции из numpy:

In [37]:
np.exp(s)

0    2.718282e+00
1    2.008554e+01
2    1.484132e+02
3    5.459815e+01
4    2.688117e+43
5    4.034288e+02
6    1.096633e+03
7    2.980958e+03
8    2.688117e+43
9    2.202647e+04
dtype: float64

### Добавление и удаление данных в Series

С помощью метода `.concat` мы можем добавлять к одному массиву `Series` другой:

In [38]:
f  = pd.Series({"1st":1, "2nd":8, "3th":7})
g=pd.concat([s,f],axis=0)
print(g)

0        1.0
1        3.0
2        5.0
3        4.0
4      100.0
5        6.0
6        7.0
7        8.0
8      100.0
9       10.0
1st      1.0
2nd      8.0
3th      7.0
dtype: float64


С помощью метода `.drop` мы можем удалять из массива элементы с определёнными индексами. Эти индексы мы и подаём в метод в виде списка:

In [39]:
h = g.drop([0, 4, "2nd"])# указываем список индексов строк, которые надо удалить
h

1        3.0
2        5.0
3        4.0
5        6.0
6        7.0
7        8.0
8      100.0
9       10.0
1st      1.0
3th      7.0
dtype: float64

Эти методы не меняют исходные серии, а создают новые!

## 2. Тип данных DataFrame

`DataFrame` - двумерная структура данных из библиотеки `pandas`, позволяющая удобно работать с таблицами.

Самый простой способ задать `DataFrame` - с помощью словаря, в котором каждый ключ отвечает за столбец, а соответствующее значение - это список из элементов данного столбца. Эти списки должны иметь одинаковую длину.

Dataframe можно воспринимать как `dict`, состоящий из `Series`, где ключи — названия колонок, а значения — объекты `Series`, которые формируют колонки самого объекта `Dataframe`. Наконец, все элементы в каждом объекте `Series` связаны в соответствии с массивом меток, называемым `index`.

### Создание, тип данных

In [40]:
dic = {
    "col1": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "col2": ["a", "b", "c", "d", "e", "f", "g","h","i","k"]
}
data_a = pd.DataFrame(dic)
data_a 

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,k


In [41]:
type(data_a)

pandas.core.frame.DataFrame

Каждая колонка может иметь свой тип данных. Тип данных в колонках можно вывести при помощи атрибут dtypes:

In [42]:
data_a.dtypes

col1     int64
col2    object
dtype: object

### Информация и размер

In [43]:
data_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    10 non-null     int64 
 1   col2    10 non-null     object
dtypes: int64(1), object(1)
memory usage: 288.0+ bytes


С помощью атрибута `.shape` можно посмотреть длину по каждому изменению `DataFrame`.

In [44]:
data_a.shape #число строк и число столбцолв

(10, 2)

In [45]:
data_a.shape[0]#число строк

10

In [46]:
data_a.shape[1]# число столбцов

2

In [47]:
data_a.count()

col1    10
col2    10
dtype: int64

### Массивы колонок, индексов и значений

 Атрибут `.columns` содержит имена столбцов, а `.index`, как и у `Series`, содержит массив индексов:

In [48]:
data_a.columns

Index(['col1', 'col2'], dtype='object')

In [49]:
data_a.index

RangeIndex(start=0, stop=10, step=1)

In [50]:
data_a.values

array([[1, 'a'],
       [2, 'b'],
       [3, 'c'],
       [4, 'd'],
       [5, 'e'],
       [6, 'f'],
       [7, 'g'],
       [8, 'h'],
       [9, 'i'],
       [10, 'k']], dtype=object)

In [51]:
type(data_a.values)

numpy.ndarray

### Описательная статистика

С помощью метода `describe()` можно получить некоторые статистические характеристики по столбцам с 
числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили и пр.

In [52]:
data_a.describe()

Unnamed: 0,col1
count,10.0
mean,5.5
std,3.02765
min,1.0
25%,3.25
50%,5.5
75%,7.75
max,10.0


In [53]:
data_a.describe(include ='object')

Unnamed: 0,col2
count,10
unique,10
top,a
freq,1


Здесь только одна колонка,т.к. по умолчанию статистические данные расчитываются только для числовых признаков (колонок).

### Выбор данных из DataFrame

Для получения данных из массива `DataFrame` используется тот же синтаксис, что и для `Series`. 
Например, с помощью методов `head()`, `tail()`и `.sample()` можно получить несколько первых, несколько последних 
и несколько случайных строк таблицы.

Отдельный столбец можно получить, передав его название в квадратных скобках:

In [54]:
data_a["col2"]

0    a
1    b
2    c
3    d
4    e
5    f
6    g
7    h
8    i
9    k
Name: col2, dtype: object

In [55]:
type(data_a["col2"])

pandas.core.series.Series

Если мы хотим вывести несколько столбцов, в квадратные скобки нужно подать список из столбцов.
Тогда вернётся подтаблица исходной таблицы опять в формате DataFrame.

In [56]:
data_a[["col2","col1"]]

Unnamed: 0,col2,col1
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5
5,f,6
6,g,7
7,h,8
8,i,9
9,k,10


Получить строки таблицы `DataFrame` можно получить с помощью атрибута `.iloc`:

In [62]:
data_a.iloc[[3,5,8]]

Unnamed: 0,col1,col2
3,4,d
5,6,f
8,9,i


Получить данные из строк таблицы `DataFrame` можно получить с помощью атрибута `.loc`, указав нужный индекс 
строки и название колонки в квадратных скобках:

In [None]:
data_a.loc[2, "col1"]

Это тоже самое, что:

In [None]:
data_a["col1"][2]

### Пропуски

In [None]:
data_b = pd.DataFrame( {
    "col1": [1, 2, np.nan, 5, 6, np.nan, 8],
    "col2": ["a", "c", "e", "c", np.nan, "e", "c"],
    "col3": ["red", "blue", "green", "brown", "purple", "yellow", "white"]
})
data_b

Булевская маска пропущенных значений:

In [None]:
data_b.isna()

В каких столбцах есть пропуски:

In [None]:
data_b.isna().any()

Количество пропущеных значений:

In [None]:
data_b.isna().sum()

С помощью метода`.fillna()` заменяют пропуски.

Замена всех пропусков на среднее по столбцу:

In [None]:
print(data_b["col1"].mean())
data_b["col1"]=data_b["col1"].fillna(value=data_b["col1"].mean())
data_b

Замена всех пропусков на самое часто встречающееся значение:

In [None]:
data_b["col2"].value_counts()

In [None]:
data_b["col2"]=data_b["col2"].fillna(value='c')
data_b

### Уникальные значения и их количество

Аналогично тому, как для `Series`.

In [None]:
data_b["col2"].unique()

In [None]:
data_b["col2"].nunique()

In [None]:
data_b["col2"].value_counts()

### Заменить и переименовать

Заменить значения можно при помощи метода `.replace()`:

In [None]:
data_b["col1"].replace(1,'one')

Переименование столбцов делают при помощи `.rename()`:

In [None]:
data_b.rename(columns={'col3':'color'})

### Добавление и удаление строк и столбцов

In [None]:
data_b = pd.DataFrame( {
    "col1": [1, 2, np.nan, 5, 6, np.nan, 8],
    "col2": ["a", "c", "e", "c", np.nan, "e", "c"],
    "col3": ["red", "blue", "green", "brown", "purple", "yellow", "white"]
})
data_b

Удаление столбцов:

In [None]:
data_b=data_b.drop('col2', axis=1)
data_b.head()

Удаление строк:

In [None]:
data_b=data_b[data_b.index!=3]#удалили третью строку
data_b

Добавление столбца в нужное место:

In [None]:
data_b.insert(1, 'col4', [1, 0,1,0,1,1], allow_duplicates = True)# добавляем после столбца с номером 1
data_b

### Объединение таблиц данных

In [None]:
data_c = pd.DataFrame( {
    "col1": [1, 2, 5, 6, 0],
    "col2": ["a", "b", "c", "d", "e"],
    "col3": ["red", "blue", "green", "brown", "purple"]
})
data_d = pd.DataFrame( {
    "col1": [4, 2, 5, 6, 3],
    "col4": ["f", "g", "h", "k", "l"],
})
print(data_c)
print(data_d)

In [None]:
data_cd = pd.concat([data_c,data_d], axis=1)
data_cd

In [None]:
data_cd = pd.concat([data_c,data_d], axis=0)
data_cd

Функция `merge()`предназначена для соединения нескольких датасетов по ключевому полю:

In [None]:
pd.merge(data_c, data_d, on="col1")# указываем датасеты и колонку, в которой искать совпадающие значения

### Чтение и запись DataFrame из файлов

**Загрузка текстовых файлов табличного вида** (.csv и .txt) производится с помощью функции `pd.read_csv()`. 

Основные аргументы следующие:
    
* `filepath_or_buffer` &mdash; пусть к файлу (обязательный)

* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.)
* `header` &mdash; номер строки или список номеров строк, используемых в качестве имен колонок
* `names` &mdash; список имен, которые будут использованы в качестве имен колонок
* `index_col` &mdash; колонка, используемая в качестве индекса
* `usecols` &mdash; список имен колонок, которые будут загружены
* `nrows` &mdash; сколько строк прочитать
* `skiprows` &mdash; номера строк с начала, которые нужно пропустить
* `skipfooter` &mdash; сколько строк в конце пропустить
* `na_values` &mdash; список значений, которые распознавать как пропуски

**Загрузка таблиц формата Excel** производится с помощью функции `pd.read_excel()`. 

Основные аргументы следующие:
* `io` &mdash; пусть к файлу (обязательный)
* `sheetname` &mdash; какие листы таблицы загрузить

Остальные параметры аналогично.

In [None]:
df = pd.read_csv("titanic.csv")
df

**Запись таблицы в текстовый файл** производится с помощью функции `df.to_csv()`. 

Основные аргументы следующие:
* `df` &mdash; DataFrame, который нужно записать (обязательный)
* `path_or_buf` &mdash; путь, куда записать (обязательный)
* `sep` &mdash; разделитель колонок в строке (запятая, табуляция и т.д.)
* `na_rep` &mdash; как записать пропуски
* `float_format` &mdash; формат записи дробных чисел
* `columns` &mdash; какие колонки записать
* `header` &mdash; как назвать колонки при записи
* `index` &mdash; записывать ли индексы в файл
* `index_label` &mdash; имена индексов, которые записать в файл.

**Запись таблицы в формат Excel** производится с помощью функции `df.to_excel()`. 
Основные аргументы аналогичные. 