# Библиотека pandas

Программная библиотека на языке Python для обработки и анализа данных. 
Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. 
Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами. 
Название библиотеки происходит от эконометрического термина «панельные данные», используемого для описания многомерных 
структурированных наборов информации
Основная область применения — обеспечение работы в рамках среды Python не только для сбора и очистки данных, 
но для задач анализа и моделирования данных, без переключения на более специфичные для статобработки языки

In [47]:
#загрузка библиотеки
import pandas as pd

import pandas as pd

import — ключевое слово, дающее питону понять, что мы собираемся импортировать библиотеку

pandas — название библиотеки

as — ключевое слово, означающее, что дальше будет использоваться другое название (элиас, alias)

pd — то, какое название мы решили использовать в коде вместо названия этой библиотеки (в дальнейшем будем использовать название pd)

In [None]:
#https://pandas.pydata.org/pandas-docs/stable/index.html

# Чтение данных в формате CSV


CSV (Comma-Separated Values, значения, разделённые запятыми) — текстовый файл, позволяющий хранить табличные данные. 
Каждая строка файла представляет собой строку таблицы, а столбцы внутри каждой таблицы разделены запятыми.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

pd.read_csv('path_to_your.csv', encoding='Windows-1251', sep=';', parse_dates=['create_data', 'payment_data'])
в кавычках - путь файла

encoding - кодировка
sep - разделитель (например, ',', ';')
parse_dates - преобразовать данные в формат даты

In [48]:
df = pd.read_csv('2_bookings.csv', sep = ';', parse_dates = ['arrival full date'])

In [49]:
df = df.rename(columns=lambda c: c.lower().replace('-', '_').replace('/', '_').replace(' ', '_'))

# Характеристики датафрейма

In [50]:
#получение информации о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   hotel                      119390 non-null  object        
 1   is_canceled                119390 non-null  int64         
 2   lead_time                  119390 non-null  int64         
 3   arrival_full_date          119390 non-null  datetime64[ns]
 4   arrival_date_year          119390 non-null  int64         
 5   arrival_date_month         119390 non-null  object        
 6   arrival_date_week_number   119390 non-null  int64         
 7   arrival_date_day_of_month  119390 non-null  int64         
 8   stays_in_weekend_nights    119390 non-null  int64         
 9   stays_in_week_nights       119390 non-null  int64         
 10  stays_total_nights         119390 non-null  int64         
 11  adults                     119390 non-null  int64   

В выдаче выше представлено, сколько непустых элементов содержится в каждом столбце. Непустые элементы non-null – это всё, кроме пропущенных значений, которые кодируются особым образом (NaN – от Not A Number). 
В нашей таблице почти все столбцы заполнены полностью:

Далее указан тип каждого столбца, целочисленный int64 и с плавающей точкой float64. Что означают числа в конце? 
Это объем памяти, который требуется для хранения.

In [51]:
#подсчет количества строк и столбцов
df.shape

(119390, 21)

In [52]:
df.shape[0] # отдельно строки

119390

In [53]:
df.shape[1]  # отдельно столбцы

21

In [73]:
df.dtypes #типы данных


hotel                                object
is_canceled                           int64
lead_time                             int64
arrival_full_date            datetime64[ns]
arrival_date_year                     int64
arrival_date_month                   object
arrival_date_week_number              int64
arrival_date_day_of_month             int64
stays_in_weekend_nights               int64
stays_in_week_nights                  int64
stays_total_nights                    int64
adults                                int64
children                            float64
babies                                int64
meal                                 object
country                              object
reserved_room_type                   object
assigned_room_type                   object
customer_type                        object
reservation_status                   object
reservation_status_date              object
dtype: object

In [74]:
#расчет описательных статистик (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)
df.describe()

Unnamed: 0,is_canceled,lead_time,arrival_date_year,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,stays_total_nights,adults,children,babies
count,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119390.0,119386.0,119390.0
mean,0.370416,104.011416,2016.156554,27.165173,15.798241,0.927599,2.500302,3.4279,1.856403,0.10389,0.007949
std,0.482918,106.863097,0.707476,13.605138,8.780829,0.998613,1.908286,2.557439,0.579261,0.398561,0.097436
min,0.0,0.0,2015.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,18.0,2016.0,16.0,8.0,0.0,1.0,2.0,2.0,0.0,0.0
50%,0.0,69.0,2016.0,28.0,16.0,1.0,2.0,3.0,2.0,0.0,0.0
75%,1.0,160.0,2017.0,38.0,23.0,2.0,3.0,4.0,2.0,0.0,0.0
max,1.0,737.0,2017.0,53.0,31.0,19.0,50.0,69.0,55.0,10.0,10.0


В случае количественных показателей этот метод возвращает таблицу с основными описательными статистиками:

count – число непустых (заполненных) значений;

mean – среднее арифметическое;

std – стандартное отклонение (показатель разброса данных относительно среднего значения);

min – миниммальное значение;

max – максимальное значение;

25% – нижний квартиль (значение, которое 25% значений не превышают);

50% – медиана (значение, которое 50% значений не превышают);

75% – верхний квартиль (значение, которое 75% значений не превышают).

In [55]:
#расчет описательных статистик для конкретного столбца
df.adults.describe()

count    119390.000000
mean          1.856403
std           0.579261
min           0.000000
25%           2.000000
50%           2.000000
75%           2.000000
max          55.000000
Name: adults, dtype: float64

In [56]:
#вывод всех колонок
df.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_full_date',
       'arrival_date_year', 'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'stays_total_nights', 'adults', 'children',
       'babies', 'meal', 'country', 'reserved_room_type', 'assigned_room_type',
       'customer_type', 'reservation_status', 'reservation_status_date'],
      dtype='object')

Чтобы получить список названий, достаточно сконвертировать тип с помощью привычного list()

In [57]:
list(df.columns)

['hotel',
 'is_canceled',
 'lead_time',
 'arrival_full_date',
 'arrival_date_year',
 'arrival_date_month',
 'arrival_date_week_number',
 'arrival_date_day_of_month',
 'stays_in_weekend_nights',
 'stays_in_week_nights',
 'stays_total_nights',
 'adults',
 'children',
 'babies',
 'meal',
 'country',
 'reserved_room_type',
 'assigned_room_type',
 'customer_type',
 'reservation_status',
 'reservation_status_date']

In [75]:
#переименование столбцов
df = df.rename(columns={'reserved_room_type': 'reserved_room', 'assigned_room_type': 'assigned_room'})

Если датафрейм достаточно объёмный, иногда удобно вывести из него только первые несколько строк:

In [93]:
df.head() #по умолчанию это 5 строк

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room,assigned_room,customer_type,reservation_status,reservation_status_date
0,Resort Hotel,0,342,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
1,Resort Hotel,0,737,2015-07-01,2015,July,27,1,0,0,...,2,0.0,0,BB,PRT,C,C,Transient,Check-Out,2015-07-01
2,Resort Hotel,0,7,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,C,Transient,Check-Out,2015-07-02
3,Resort Hotel,0,13,2015-07-01,2015,July,27,1,0,1,...,1,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-02
4,Resort Hotel,0,14,2015-07-01,2015,July,27,1,0,2,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2015-07-03


In [59]:
#Или вывести последние несколько строк:
df.tail() #по умолчанию последние пять строк

Unnamed: 0,hotel,is_canceled,lead_time,arrival_full_date,arrival_date_year,arrival_date_month,arrival_date_week_number,arrival_date_day_of_month,stays_in_weekend_nights,stays_in_week_nights,...,adults,children,babies,meal,country,reserved_room_type,assigned_room_type,customer_type,reservation_status,reservation_status_date
119385,City Hotel,0,23,2017-08-30,2017,August,35,30,2,5,...,2,0.0,0,BB,BEL,A,A,Transient,Check-Out,2017-09-06
119386,City Hotel,0,102,2017-08-31,2017,August,35,31,2,5,...,3,0.0,0,BB,FRA,E,E,Transient,Check-Out,2017-09-07
119387,City Hotel,0,34,2017-08-31,2017,August,35,31,2,5,...,2,0.0,0,BB,DEU,D,D,Transient,Check-Out,2017-09-07
119388,City Hotel,0,109,2017-08-31,2017,August,35,31,2,5,...,2,0.0,0,BB,GBR,A,A,Transient,Check-Out,2017-09-07
119389,City Hotel,0,205,2017-08-29,2017,August,35,29,2,7,...,2,0.0,0,HB,DEU,A,A,Transient,Check-Out,2017-09-07


Если в датафрейме есть пропущенные значения, их можно удалить при помощи метода dropna

Создаем такой датафрейм (так как в нашем исходном датафрейме нет пропущенных значений)

In [81]:
#создание датафрейма
df_data = pd.DataFrame([['Anna', 23, 3],
             ['Ivan', 36, 12],
             ['Lena', 33, 10],
             ['Irina', 25, 7],
             ['Lisa', 27, 7],
             ['Peter', 32, None]])
df_data.columns = ['name', 'age', 'expr']  
df_data

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Ivan,36,12.0
2,Lena,33,10.0
3,Irina,25,7.0
4,Lisa,27,7.0
5,Peter,32,


In [61]:
#Если в датафрейме присутствуют строки с пропущенными значениями (NaN, Not a number), то их можно удалить:
df_data = df_data.dropna()
df_data

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Ivan,36,12.0
2,Lena,33,10.0
3,Irina,25,7.0
4,Lisa,27,7.0


# Обращение к колонкам

In [None]:
df.column_name 
#чтобы это работало, название колонки должно состоять из одного компонента (например, слова), 
#и не должно совпадать с названием методов датафрэйма (имя колонки count не сработает). 
#для языковой однородности — ещё и на английском, но это не является обязательным.

In [None]:
#Что делать, если название колонки состоит из 2-х слов? 
#Либо переименовать колонку, либо использовать другой способ доступа:
df['column name']
df[['column1', 'column2', 'column3']]



# Выбор строк по условиям 

Попробуем выбрать строки, соответствующие респондентам старше 30 лет

In [64]:
df_data[df_data['age'] > 30]

Unnamed: 0,name,age,expr
1,Ivan,36,12.0
2,Lena,33,10.0


Теперь в квадратных скобках мы будем указывать целое условие (вспомните про отбор элементов из массива). 
Выберем респондентов не моложе 25 лет с опытом работы более 7 лет:

In [65]:
df_data[(df_data['age'] > 30) & (df_data['expr'] > 7)]  # не забываем круглые скобки

Unnamed: 0,name,age,expr
1,Ivan,36,12.0
2,Lena,33,10.0


Или респондентов старше 35 или моложе 25:

In [67]:
df_data[(df_data['age'] > 35) | (df_data['age'] < 25)]

Unnamed: 0,name,age,expr
0,Anna,23,3.0
1,Ivan,36,12.0


# Создание новых столбцов

Добавим столбец age_sq, содержащий значения возраста респондентов, возведенные в квадрат:

In [69]:
df_data['age_sq'] = df_data['age'] ** 2
df_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_data['age_sq'] = df_data['age'] ** 2


Unnamed: 0,name,age,expr,age_sq
0,Anna,23,3.0,529
1,Ivan,36,12.0,1296
2,Lena,33,10.0,1089
3,Irina,25,7.0,625
4,Lisa,27,7.0,729


Сначала указывается название нового столбца в квадратных скобках, затем описывам те операции, которые необходимо выполнить 
со старым столбцом. Можно создать новый столбец на основе двух (и более) старых. 
Создадим столбец no_work, в котором будет сохранено число лет, которое люди не работали (возраст за вычетом лет опыта работы).

In [70]:
df_data['no_work'] = df_data['age'] - df_data['expr']
df_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_data['no_work'] = df_data['age'] - df_data['expr']


Unnamed: 0,name,age,expr,age_sq,no_work
0,Anna,23,3.0,529,20.0
1,Ivan,36,12.0,1296,24.0
2,Lena,33,10.0,1089,23.0
3,Irina,25,7.0,625,18.0
4,Lisa,27,7.0,729,20.0


Можно создать столбец с нуля, например, столбец, состоящий из одного значения 
(возьмем W как статус человека – в трудоспособном возрасте):



In [71]:
df_data['status'] = 'W'  # из одного значения
df_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_data['status'] = 'W'  # из одного значения


Unnamed: 0,name,age,expr,age_sq,no_work,status
0,Anna,23,3.0,529,20.0,W
1,Ivan,36,12.0,1296,24.0,W
2,Lena,33,10.0,1089,23.0,W
3,Irina,25,7.0,625,18.0,W
4,Lisa,27,7.0,729,20.0,W


In [72]:
df_data['gender'] = [0, 1, 1, 0, 0]  # из списка значений
df_data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_data['gender'] = [0, 1, 1, 0, 0]  # из списка значений


Unnamed: 0,name,age,expr,age_sq,no_work,status,gender
0,Anna,23,3.0,529,20.0,W,0
1,Ivan,36,12.0,1296,24.0,W,1
2,Lena,33,10.0,1089,23.0,W,1
3,Irina,25,7.0,625,18.0,W,0
4,Lisa,27,7.0,729,20.0,W,0


In [92]:
#создание столбца True/False по условию
df_data['diff']  = df_data.age>27
df_data

Unnamed: 0,name,age,expr,diff
0,Anna,23,3.0,False
1,Ivan,36,12.0,True
2,Lena,33,10.0,True
3,Irina,25,7.0,False
4,Lisa,27,7.0,False
5,Peter,32,,True


In [None]:
#дополнительная информация https://www.geeksforgeeks.org/adding-new-column-to-existing-dataframe-in-pandas/

# Применение вычислительных методов

Существует набор методов, доступных для колонок датафрэймов. 
Например, есть колонка money в датафрэйме, содержащая полученные объёмы денег. 
Применив метод sum, можно посчитать их сумму.

df.money.sum() - аналогично другие аггрегирующие функции (min, max, mean, var(расчет дисперсии), std(расчет среднеквадратического отклонения)


In [76]:
df_data.age.mean()

28.8

In [78]:
df_data.age.std()

5.495452665613634

# Метод .loc

Помимо числовых срезов в Pandas можно использовать 
текстовые срезы, то есть можно выбрать все столбцы с name до age подряд. 
Только тогда этот срез нужно будет указать в методе .loc:

In [82]:
df_data_new = df_data.loc[:, 'name':'age']
df_data_new

Unnamed: 0,name,age
0,Anna,23
1,Ivan,36
2,Lena,33
3,Irina,25
4,Lisa,27
5,Peter,32


In [None]:
Метод .loc работает и в таких случаях
Для удобства назовём строки по столбцу name, чтобы к ним можно было обращаться по названию:

In [83]:
df_data_new.index = df_data_new.name
df_data_new

Unnamed: 0_level_0,name,age
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Anna,Anna,23
Ivan,Ivan,36
Lena,Lena,33
Irina,Irina,25
Lisa,Lisa,27
Peter,Peter,32


In [85]:
#Теперь у строк есть текстовые названия. Выберем значение, соответствующее возрасту Lena:
df_data_new.loc['Lena', 'age']

33

In [87]:
df_data_new.loc['Anna':'Lena', 'age']

name
Anna    23
Ivan    36
Lena    33
Name: age, dtype: int64

In [None]:
#Задание 1. Вывести на экран значения показателей hotel, country, customer_type для первых 10 заказов (таблица '2_bookings.csv')

In [None]:
#Задание 2. Выбрать строки, когда число взрослых в колонке adutls: 1)больше 2, 2)от 1 до 2 

In [None]:
#Задание 3. Выбрать строки, когда число взрослых в колонке adutls больше 2 и reserved_room A

In [None]:
#Задание 4. Создать столбец True/False, когда количество children >2