# <center> 🐼 [Введение в Pandas](https://stepik.org/lesson/681964/)</center>

Этот ноутбук поможет разобраться вам в основных моментах предварительной обработки данных в Pandas, познакомиться с полезными функциями и трюками.

### Оглавление ноутбука
<img src="../images/pandas.jpg" align="right" width="528" height="528" />
<br>

<p><font size="3" face="Arial" font-size="large">
<ul type="square"><li><a href="#1">📑 Структуры данных в Pandas</a></li><li><a href="#2">🔍 Разведочный анализ данных</a><ul><li><a href="#3">Загрузка и первичное знакомство</a></li><li><a href="#4">Предварительный осмотр</a></li><li><a href="#5">Работа с числовыми данными</a></li></ul></li><li><a href="#6">📤 Извлечение необходимой информации</a><ul><li><a href="#7">Сортировка</a></li><li><a href="#8">Методы фильтрации</a></li><li><a href="#9">Работа с пропусками</a></li><li><a href="#10">Индексация данных</a></li><li><a href="#11">Функции</a></li></ul></li>
</ul></font></p>

# <center>📑 Cтруктуры данных в Pandas. </center>

<p id="1"></p>

`Series` — это структура, используемая для работы с последовательностью одномерных данных, а `Dataframe` — более сложная и подходит для нескольких измерений. `Series` – одномерный массив с метками, способный хранить любой тип данных.

<img src="https://sun9-43.userapi.com/impg/0k7fzcgju-6hY10XmQoaJkfxOxr0-SvgA3NHQg/N0Hb-T_fXio.jpg?size=1280x720&quality=96&sign=6ac22e0ff168023b0dff780c1bfa5e36&type=album"></img>

In [None]:
import pandas as pd # pandas для работы с табличными данными
import numpy as np  # numpy для математических действий

### Создать`Series`  можно так:

`s = pd.Series(data, index=index, name='something')`

Метки именуются `index`, данные `data` могут быть любыми, name является именем `Series`.

In [None]:
data = ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog']
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
s = pd.Series(data, index=labels, name='animals')
s

a      cat
b      cat
c    snake
d      dog
e      dog
f      cat
g    snake
h      cat
i      dog
j      dog
Name: animals, dtype: object

### Создать `Dataframe` проще из словаря, а в качестве значений строк будем использовать список

In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
         'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
         'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
         'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


### А теперь сделаем открытие! Столбцы в `DataFrame` являются `Series`!

In [None]:
s = df.age
s

a    2.5
b    3.0
c    0.5
d    NaN
e    5.0
f    2.0
g    4.5
h    NaN
i    7.0
j    3.0
Name: age, dtype: float64

Обращение по индексу `s[0]`

In [None]:
s[0]

2.5

Элементы по определенным индексам `s[[4, 3, 1]]`

In [None]:
s[[4, 3, 1]]

e    5.0
d    NaN
b    3.0
Name: age, dtype: float64

Срезы `s[:3]`



In [None]:
s[:3]

a    2.5
b    3.0
c    0.5
Name: age, dtype: float64

Идеология словаря при обращении к элементам датафрейма

In [None]:
s['a']

2.5

In [None]:
'e' in s

True

In [None]:
't' in s

False

__Арифметические операции к Series__



In [None]:
s + s

a     5.0
b     6.0
c     1.0
d     NaN
e    10.0
f     4.0
g     9.0
h     NaN
i    14.0
j     6.0
Name: age, dtype: float64

__Логические операции к Series.__ Например, выбрать все значения, больше заданного



In [None]:
s[s > 3]

e    5.0
g    4.5
i    7.0
Name: age, dtype: float64

Функции из модуля numpy применяются поэлементно. Например, экспонента `np.exp(s)`

Количество строк можно узнать так `len(s)`

##   Редактирование таблиц. Создание и удаление столбцов.

<div class="alert alert-info">
К столбцам `DataFrame` применимы любые математические операции. Надо толькo понимать, как работает векторизация.

Так, мы можем присвоить всему столбцу `'visits'` значение 3 и оно автоматические появится в каждой строке:

In [None]:
df['visits'] = 3
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,3,yes
b,cat,3.0,3,yes
c,snake,0.5,3,no
d,dog,,3,yes
e,dog,5.0,3,no
f,cat,2.0,3,no
g,snake,4.5,3,no
h,cat,,3,yes
i,dog,7.0,3,no
j,dog,3.0,3,no


Надо увеличить возраст на год?  Просто увеличиваем столбец `'age'` на единицу. Даже не верится, что все так просто!



In [None]:
df.age = df.age + 1
df

Unnamed: 0,animal,age,visits,priority
a,cat,3.5,3,yes
b,cat,4.0,3,yes
c,snake,1.5,3,no
d,dog,,3,yes
e,dog,6.0,3,no
f,cat,3.0,3,no
g,snake,5.5,3,no
h,cat,,3,yes
i,dog,8.0,3,no
j,dog,4.0,3,no


Можем даже создать новый столбец, используя другие столбцы `'age'` и `'visits'`. Казалось бы, всего одна строчка, но применяется для всего столбца! Векторизация это секретная магия pandas =)

Аналогично, можно  вычесть, умножить, разделить и сложить два численных столбца друг с другом.

In [None]:
df['age_visits_sum'] = df.age + df.visits
df

Unnamed: 0,animal,age,visits,priority,age_visits_sum
a,cat,3.5,3,yes,6.5
b,cat,4.0,3,yes,7.0
c,snake,1.5,3,no,4.5
d,dog,,3,yes,
e,dog,6.0,3,no,9.0
f,cat,3.0,3,no,6.0
g,snake,5.5,3,no,8.5
h,cat,,3,yes,
i,dog,8.0,3,no,11.0
j,dog,4.0,3,no,7.0


<div class="alert alert-info">
    
<b>Важное замечание:</b>
При создании новой колонки рекомендуется писать её название без пробелов (хотя с ними тоже можно) - как в примере выше: `age_visits_sum`.
Тогда можно будет обращаться к ней не только как ключу словаря, но и как к параметру датафрейма через точку.<br>
**`df.age_visits_sum`**

In [None]:
# Например
df.age_visits_sum.value_counts()

age_visits_sum
7.0     2
6.5     1
4.5     1
9.0     1
6.0     1
8.5     1
11.0    1
Name: count, dtype: int64

Также можем и удалить столбец, не забываем про `inplace=True`.

In [None]:
df.drop('age_visits_sum', axis=1, inplace=True)
df

Unnamed: 0,animal,age,visits,priority
a,cat,3.5,3,yes
b,cat,4.0,3,yes
c,snake,1.5,3,no
d,dog,,3,yes
e,dog,6.0,3,no
f,cat,3.0,3,no
g,snake,5.5,3,no
h,cat,,3,yes
i,dog,8.0,3,no
j,dog,4.0,3,no


<div class="alert alert-info">
<b>Полезная информация</b>


- __Удаление столбцов или строк__ `df.drop(name, axis=0, inplace=True)`  - Тут name это индекс строки или название колонки. Параметр `axis=0` означает, что удаляется строка, для удаления колонок (столбцов) нужно писать вместо индекса имена колонок списком и ставить `axis=1`.

    
- __Удаление дубликатов строк__ `df.drop_duplicates()` и не забываем про параметр `inplace=True`. Если надо удалить дубли по конкретному столбцу, то передаем в параметр `subset` название или список названий.

    
    
- __Вставка в заданное место столбца__ `df.insert(loc, column, value)`.  Тут `loc` (куда), `column` (название), `value` (что вставлям). По умолчанию столбцы вставляются в конец.

    
    
- __Переименовать столбец__ можно так `df.rename(columns = {'old_name':'new_name'}, inplace=True)`</div>


# <center> 🔍 Разведочный анализ данных (EDA) </center>

<p id="2"></p>

В этой части непосредственно познакомимся с загрузкой данных, первичным осмотром и анализом.

 <img src="https://sun9-46.userapi.com/impg/4yA0_8N5ksJzftOvHsi_niXDlu4Ocy-HyjVj0w/YBBKjZhZsjc.jpg?size=1600x666&quality=96&sign=a6b10953218cb38c8e3042879b20935b&type=album"></img>

## Загрузка и первичное знакомство

<p id="3"></p>
<div class="alert alert-info">

**[pd.read_csv()](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)** - cчитывает данные в DataFrame из файла csv (файл с разделителями). У метода очень много параметров с которыми нужно ознакомится самостоятельно.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
path = '/content/drive/MyDrive/Dimon/Again/demo_rides_info.csv'
rides_info = pd.read_csv(path)
rides_info.head(10)

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
0,q53527020Q,g55775125g,i1O,2020-01-16,3.42,33,324,75,100.298135,0,2412.86,0,-3.828166,-12.577
1,X72952203K,Y-6420899e,Z1i,2020-01-19,4.0,65,839,51,78.0,0,2553.284,0,-0.166199,-5.85
2,g40994147T,z77468044J,x1M,2020-01-21,6.18,46,363,47,73.0,2,207.9931,0,-6.904072,0.0
3,E18650750E,W50413234I,W1Y,2020-03-17,1.43,80,955,34,116.0,2,1758.479,0,3.132158,18.966
4,D18083254C,e-4559210H,U1f,2020-03-21,3.45,142292,2276667,52,64.0,1,7541414.0,0,-29.248641,-8.126
5,G12536963g,B61056692H,f1p,2020-02-26,5.73,49,681,36,65.0,1,1633.555,0,5.56672,0.0
6,j17924049w,g10190493K,e1F,2020-03-15,3.8,33,426,56,121.029522,0,1854.434,0,-21.874094,-19.996
7,Z21861082q,U-8316679F,s1l,2020-02-22,2.88,23,685,53,58.0,0,1290.301,0,1.181858,-0.799
8,w32247420J,I-2277714Y,t1N,2020-02-08,0.1,168,8397,66,116.0,2,5049.357,0,-7.047228,16.841
9,i78201044i,T-1003767L,c1L,2020-01-02,0.0,72,930,75,146.456097,1,1627.029,0,2.987268,0.0


<div class="alert alert-info"><b>Полезная информация</b>

- Если при чтении файла вы видите столцы с названием типа `Unnamed: 0` , то это сохраненный индекс при записи файла. Можно загрузить индексы из этого столбца не создавая их по умолчанию с нуля с помощью параметра  `index_col=0`, указав номер столбца который нужно использовать для индексов.

    
- Полезные методы вывода строк: `df.head(n)` / `df.sample(n)` / `df.tail(n)` - возвращает первые, случайные или последние n строк датафрейма. Структура `DataFrame` А что это? `DataFrame` – это двумерная структура данных со столбцами потенциально разных типов.

    
- Подсчет числа каждого значения:  `df.value_counts()` - функция используется для получения уникальных значений и числа их встречаемости в виде `Series` . По умолчанию отсортирован по убыванию встречаемости `(ascending=False)`. Можно изменить сортировку через `ascending=True`. Также числовые столбцы можно разбивать на бины через параметр `bins`.  

</div>

## Предварительный осмотр данных

<p id="4"></p>

**[df.sample()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html)** - возвращает случайную выборку строк датафрейма. Параметр n - кол-во выводимых строк.  

In [None]:
rides_info.sample(5)

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
28838,R15052655H,v19902021b,D1P,2020-03-26,5.95,31,429,39,52.0,0,1163.491517,0,-20.587437,9.63
4631,o27779528m,z66753488b,R1f,2020-03-15,0.16,44,390,43,113.858009,0,1217.705293,0,16.09277,-7.14
27715,S14549477S,B17481721b,v1C,2020-01-13,10.0,12,103,70,141.09843,1,418.828329,0,-2.502619,-0.0
27428,I16296910x,w21596750f,U1r,2020-01-16,5.23,30,355,43,69.0,2,472.587676,0,-5.645688,-3.2
13903,u78765599H,D13047328g,x1x,2020-03-16,6.37,32,505,33,68.0,1,786.260582,0,-10.370201,-10.2


**[df.head()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html)** - возвращает первые строки датафрейма. По умолчаю выводит 5 строк, но можно изменить параметр n и вывести больше.  

Часто используют метод `head()`, но лучше первый раз смотреть на датафрейм через `sample()`.
Так вы имеете возможность смотреть на разные выборки и это может быть полезно, чтобы увидеть какие-нибудь баги.

In [None]:
rides_info.head()

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
0,q53527020Q,g55775125g,i1O,2020-01-16,3.42,33,324,75,100.298135,0,2412.86,0,-3.828166,-12.577
1,X72952203K,Y-6420899e,Z1i,2020-01-19,4.0,65,839,51,78.0,0,2553.284,0,-0.166199,-5.85
2,g40994147T,z77468044J,x1M,2020-01-21,6.18,46,363,47,73.0,2,207.9931,0,-6.904072,0.0
3,E18650750E,W50413234I,W1Y,2020-03-17,1.43,80,955,34,116.0,2,1758.479,0,3.132158,18.966
4,D18083254C,e-4559210H,U1f,2020-03-21,3.45,142292,2276667,52,64.0,1,7541414.0,0,-29.248641,-8.126


<div class="alert alert-info">
    <b>Выводы</b>
    <ul>
    <li>в целом данные загрузились</li>
    <li>названия столбцов из первой строки загружены</li>
    <li>индексы первого столбца выглядят адекватно</li>
    <li>наличие индексов, которые нужно удалить не обнаружено</li>
    <li>по случайным пяти строкам наличие каких-либо ошибок не обнаружено</li></ul>
</div>

<div class="alert alert-info">

**[df.info()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html)*** - Выводит краткую сводку информацию по датафрейму.  

В нашем случае датафрейм небольшой, но он может быть большим. Мы разберем методы библиотеки Pandas. на этом небольшом примере, которые вы по аналогии самостоятельно сможете применить к другим датасетам

In [None]:
rides_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   user_id            50000 non-null  object 
 1   car_id             50000 non-null  object 
 2   ride_id            50000 non-null  object 
 3   ride_date          50000 non-null  object 
 4   rating             50000 non-null  float64
 5   ride_duration      50000 non-null  int64  
 6   ride_cost          50000 non-null  int64  
 7   speed_avg          50000 non-null  int64  
 8   speed_max          49747 non-null  float64
 9   stop_times         50000 non-null  int64  
 10  distance           50000 non-null  float64
 11  refueling          50000 non-null  int64  
 12  user_ride_quality  49841 non-null  float64
 13  deviation_normal   50000 non-null  float64
dtypes: float64(5), int64(5), object(4)
memory usage: 5.3+ MB


<div class="alert alert-info"><b>Выводы</b>

* в датафрейме 14 столбцов
* четыре из них имеют тип `object`
* пять из них имеют тип `float64`
* пять столбцов имеют тип `int64`
* всего в датафрейме 50000 строк
* в столбцах `speed_max` и `user_ride_quality` есть пропуски (nan)
* объем занимаемый датафреймом 5.3+ MB (эта информация может быть полезна, чтобы заранее представить какие операции с датафреймом вы сможете выполнять с учетом доступной вам оперативной памяти)


<div class="alert alert-info"><b>Выводы</b>

**[df.columns](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html)*** - Выводит метки столбцов датафрейма.  

<div class="alert alert-info"><b>Выводы</b>
Иногда кол-во столбцов очень большое, так что при выводе они все не помещаются в стандартный вывод через `df.info()`. Тогда можно воспользоваться атрибутом для просмотра индексов названий столбцов.

In [None]:
rides_info.columns

Index(['user_id', 'car_id', 'ride_id', 'ride_date', 'rating', 'ride_duration',
       'ride_cost', 'speed_avg', 'speed_max', 'stop_times', 'distance',
       'refueling', 'user_ride_quality', 'deviation_normal'],
      dtype='object')

Гораздо нагляднее и удобнее работать со списком названий столбцов

In [None]:
column_names = list(rides_info.columns)
column_names, len(column_names)

(['user_id',
  'car_id',
  'ride_id',
  'ride_date',
  'rating',
  'ride_duration',
  'ride_cost',
  'speed_avg',
  'speed_max',
  'stop_times',
  'distance',
  'refueling',
  'user_ride_quality',
  'deviation_normal'],
 14)

<div class="alert alert-info"><b>Выводы</b>
<ul><li>14 столбцов</li>
<li>все названия столбцов в нижнем регистре и не содержат спецсимволов (значит их не нужно переименовывать, чтобы обращаться к ним через точку)</li></ul></div>


## Работа с числовыми данными

<div class="alert alert-info">
<p id="5"></p>

**[df.describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)*** - Выводит описательные статистики по числовым столбцам датафрейма. Описательные статистики включают в себя
- `count` - кол-во не пустых значений
- `mean` - среднее арифметическое
- `std` - стандартное отклонение
- `min`, `max` - минимум и максимум
- 25%, 50%, 75% - соотвествующие квартили  


__!!!Bнимание!!!__ из статистик автоматически исключаются `NaN` значения, если они есть.  

Выведем такое описание таблицы, округлив значения до второго знака после запятой:

In [None]:
rides_info.describe().round(2)

Unnamed: 0,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
count,50000.0,50000.0,50000.0,50000.0,49747.0,50000.0,50000.0,50000.0,49841.0,50000.0
mean,4.49,9304.08,117999.44,47.1,77.48,1.34,444872.13,0.0,-0.19,-1.2
std,2.13,35947.59,504330.21,12.65,24.28,2.35,1782500.58,0.0,11.79,19.4
min,0.0,2.0,9.0,25.0,30.0,0.0,3.04,0.0,-59.52,-110.76
25%,3.14,27.0,297.0,38.0,62.0,0.0,784.16,0.0,-6.94,-9.01
50%,4.49,44.0,506.0,46.0,72.0,1.0,1456.72,0.0,0.16,0.0
75%,5.86,69.0,895.0,52.0,86.0,2.0,2265.27,0.0,6.69,6.98
max,10.0,222356.0,10889545.0,100.0,202.46,21.0,18333880.69,1.0,56.53,99.92


<div class="alert alert-info">
    <b>Выводы</b>
    
- описание столбцов датафрейма (`speed_avg` - средняя скорость по маршруту такси, `rating` - рейтинг, полученный водителем за поездку, `ride_duration` - продолжительность поездки, `ride_cost` - стоимость поездки, `stop_times` - кол-во остановок)
- средняя скорость движения по маршруту по всем поездкам около 47, а максимальная средняя скорость 100. Вероятно этот столбец имеет размерность км/час
- как минимум в половине случаев во время поездки была одна остановка
- максимальный рейтинг около 10, минимум 0. Более половины всех рейтингов с оценками от 3 до 5. Вероятно размерность этого столбца баллы
- сделать однозначные выводы о размерностях продолжительности и стоимости поездок нельзя, вероятно они были модифицированы и для этого требуется дополнительный анализ и визуализация данных   

</div>

`describe()` также можно использовать и для категориальных столбцов, добавив параметр `include='object'`

In [None]:
rides_info.describe(include='object')

Unnamed: 0,user_id,car_id,ride_id,ride_date
count,50000,50000,50000,50000
unique,13975,4250,2704,92
top,Z20970325i,a11867112k,H1v,2020-01-16
freq,18,25,34,604


***[df.value_counts()](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html)*** - функция используется для получения уникальных значений и числа их встречаемости в виде Series . По умолчанию отсортирован по убыванию встречаемости (`ascending=False`). Можно изменить сортировку через `ascending=True`. Также числовые столбцы можно разбивать на бины через параметр bins.  



In [None]:
rides_info.ride_id.value_counts()[:5]

ride_id
H1v    34
E1y    34
K1F    33
H1z    33
P1Q    33
Name: count, dtype: int64

Вывод: самый часто встречающийся код маршрута H1v и E1y = 34 поездки

Посмотрим как распределяется кол-во поездок по рейтингу поездок разбивая его на бины:

In [None]:
rides_info.rating.value_counts(bins=4)

rating
(2.5, 5.0]       21730
(5.0, 7.5]       15101
(-0.011, 2.5]     8761
(7.5, 10.0]       4408
Name: count, dtype: int64

Вывод: 26% (8761+4408 делить на 50000) поездок с рейтингом ниже 2.5 и выше 7.5



**[.duplicated()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html)*** - метод который позволит нам выявить дублирование в данных. Возвращает булевы значения, обозначающие повторяющиеся строки. При этом можно не учитывать некоторые определенные столбцы.

In [None]:
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

Также можно использовать на определенном столбце/столбцах.

In [None]:
df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

# <center> 📤 Извлечение необходимой информации </center>

<p id="6">Перейдем к самому интересному - непосредственно к анализу полученных данных, познакомимся с методами сортировки, фильтрации и разными функциями.</p>

<img src="https://sun9-41.userapi.com/impg/io095r0KS1Fq4NTHYReNuRTf6DBM1pihDZMPqQ/Xki0IFcFAK8.jpg?size=2536x1150&quality=96&sign=db8f9c09f39dd1417032d06830270d44&type=album"></img>

## Сортировка DataFrame

<div class="alert alert-info">
<p id="7">
    
`DataFrame` можно сортировать. Посмотрим как это можно делать.</p>


In [None]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
         'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
         'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
         'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


__По значениям__

In [None]:
df.sort_values(by='age')

Unnamed: 0,animal,age,visits,priority
c,snake,0.5,2,no
f,cat,2.0,3,no
a,cat,2.5,1,yes
b,cat,3.0,3,yes
j,dog,3.0,1,no
g,snake,4.5,1,no
e,dog,5.0,2,no
i,dog,7.0,2,no
d,dog,,3,yes
h,cat,,1,yes


__По индексу__

In [None]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,visits,priority,animal,age
a,1,yes,cat,2.5
b,3,yes,cat,3.0
c,2,no,snake,0.5
d,3,yes,dog,
e,2,no,dog,5.0
f,3,no,cat,2.0
g,1,no,snake,4.5
h,1,yes,cat,
i,2,no,dog,7.0
j,1,no,dog,3.0


<div class="alert alert-info">
    
Параметр `ascending=True` по умолчанию, соответственно сортируется по возрастанию. Если нужно сортировать по нескольким столбцам, то передается список столбов и список булевых переменных в `ascending`. Параметр `inplace=False` по умолчанию.



## Фильтрация данных

<p id="8">Логические выражения используются для получения подтаблицы с заданными условиями по столбцам.</p>

Рассмотрим примеры.



In [None]:
df.loc[df.visits > 2]

Unnamed: 0,animal,age,visits,priority
b,cat,3.0,3,yes
d,dog,,3,yes
f,cat,2.0,3,no


Если условий больше одного, то условия фильтрации записываются в круглых скобках!

- __'И'__ обозначается как __&__
- __'ИЛИ'__  обозначается как __|__

In [None]:
df.loc[(df.visits > 2) & (df.priority == 'yes')]

Unnamed: 0,animal,age,visits,priority
b,cat,3.0,3,yes
d,dog,,3,yes


In [None]:
df.loc[(df.visits > 2) | (df.age > 5)]

Unnamed: 0,animal,age,visits,priority
b,cat,3.0,3,yes
d,dog,,3,yes
f,cat,2.0,3,no
i,dog,7.0,2,no


Чтобы нам вывести часть датафрейма с дешевыми ценами (цены поездки ниже 500), попробуем просто записать это условие и вывести часть датафрейма, которая соответствует этому условию

In [None]:
rule_cheap

0         True
1        False
2         True
3        False
4        False
         ...  
49995     True
49996    False
49997     True
49998     True
49999    False
Name: ride_cost, Length: 50000, dtype: bool

In [None]:
rule_cheap = rides_info.ride_cost < 500
rides_info[rule_cheap].head().round(2)

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
0,q53527020Q,g55775125g,i1O,2020-01-16,3.42,33,324,75,100.3,0,2412.86,0,-3.83,-12.58
2,g40994147T,z77468044J,x1M,2020-01-21,6.18,46,363,47,73.0,2,207.99,0,-6.9,0.0
6,j17924049w,g10190493K,e1F,2020-03-15,3.8,33,426,56,121.03,0,1854.43,0,-21.87,-20.0
11,N20390973B,T12315854s,g1g,2020-03-18,8.59,27,372,48,66.0,1,1061.04,0,-9.69,-18.86
12,x37836441s,o-5998359x,W1M,2020-01-05,7.88,14,177,38,46.0,2,470.41,0,7.31,2.39


### Булева маска

Также одним из самых простых способов отфильтровать нужные строки, это добавить булевую маску. Пусть маска строится по условию, что стоимость поездки больше некоторого значения.

- Создаем булеву маску  `[True, False, True, ...]`
- Выводим первые 5 значений строк, подходящих под условие

In [None]:
rule_cheap = rides_info['ride_cost'] < 426
rides_info[rule_cheap].head()

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal
0,q53527020Q,g55775125g,i1O,2020-01-16,3.42,33,324,75,100.298135,0,2412.859858,0,-3.828166,-12.577
2,g40994147T,z77468044J,x1M,2020-01-21,6.18,46,363,47,73.0,2,207.993094,0,-6.904072,0.0
11,N20390973B,T12315854s,g1g,2020-03-18,8.59,27,372,48,66.0,1,1061.035898,0,-9.692375,-18.856
12,x37836441s,o-5998359x,W1M,2020-01-05,7.88,14,177,38,46.0,2,470.414162,0,7.314068,2.389
16,v23018580U,J-9977061N,e1v,2020-02-18,5.01,30,415,35,80.0,0,1045.715427,0,-5.538496,18.364


Если мы хотим добавить новый столбец `cheap_price` - характеристика дешевой цены поездки: если цена в первом 25% квартиле (то есть меньше 426) то это будет дешевая цена `Yes`, иначе Nan.

In [None]:
rule_cheap = rides_info.ride_cost < 426
rides_info.loc[rule_cheap, 'cheap_price'] = 'Yes'
rides_info.head().round(2)

Unnamed: 0,user_id,car_id,ride_id,ride_date,rating,ride_duration,ride_cost,speed_avg,speed_max,stop_times,distance,refueling,user_ride_quality,deviation_normal,cheap_price
0,q53527020Q,g55775125g,i1O,2020-01-16,3.42,33,324,75,100.3,0,2412.86,0,-3.83,-12.58,Yes
1,X72952203K,Y-6420899e,Z1i,2020-01-19,4.0,65,839,51,78.0,0,2553.28,0,-0.17,-5.85,
2,g40994147T,z77468044J,x1M,2020-01-21,6.18,46,363,47,73.0,2,207.99,0,-6.9,0.0,Yes
3,E18650750E,W50413234I,W1Y,2020-03-17,1.43,80,955,34,116.0,2,1758.48,0,3.13,18.97,
4,D18083254C,e-4559210H,U1f,2020-03-21,3.45,142292,2276667,52,64.0,1,7541414.25,0,-29.25,-8.13,


### Методы `.filter()` и `.query()`


Выбор строк или столбцов



In [None]:
df.filter(items=['a', 'j'], axis=0)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
j,dog,3.0,1,no


<div class="alert alert-info">

__Пояснение__

Этот метод также имеет параметр `like`. Он отбирает строки / столбцы, в названии которых есть подстрока, присвоенная ему. Параметры `items` и `like` взаимоисключающие.



In [None]:
df.filter(like='a', axis=1)

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


__Фильтрация__ альтернативным способом



In [None]:
df.query('age > visits')

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
e,dog,5.0,2,no
g,snake,4.5,1,no
i,dog,7.0,2,no
j,dog,3.0,1,no


<div class="alert alert-info">

__Пояснение__

Если в запросе необходимо использовать переменную, например, `mean_age` то перед ней пишем `@`

`df.query('age > @mean_age')`

Можно использовать сложные запросы с __'И'__ обозначается как `&`, __'ИЛИ'__  обозначается как `|`.

`df.query('age > @mean_age | animal == 'cat')`




### Метод [`concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) позволяет объединять объекты pandas вдоль определенной оси.

In [None]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

Также есть возможность задавать индексы и лэйблы.

In [None]:
pd.concat([s1, s2], keys=['s1', 's2'],
          names=['Series name', 'Row ID'])

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

Пример соединения `DataFrame`.

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]],
                   columns=['letter', 'number'])

pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


### __Метод `isin()`__ - это один из самых полезных способов создать булевую маску для фильтрации

In [None]:
car2stay = ['g55775125g', 'Y-6420899e', 'z77468044J']
mask = rides_info['car_id'].isin(car2stay)

In [None]:
rides_info[mask].head()

In [None]:
rides_info[~mask].head()

## Работа с пропущенными значениями

<p id="9"></p>

Pandas для представления отсутствующих данных использует значение из numpy `np.nan`. По умолчанию оно не включается в вычисления. Где хранятся `np.nan`  показывает `df.isna()` оно же `df.isnull()`



In [None]:
df.isnull()

Unnamed: 0,animal,age,visits,priority
a,False,False,False,False
b,False,False,False,False
c,False,False,False,False
d,False,True,False,False
e,False,False,False,False
f,False,False,False,False
g,False,False,False,False
h,False,True,False,False
i,False,False,False,False
j,False,False,False,False


Метод `dropna()` удаляет NaN's из датасета

In [None]:
df.dropna()

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
i,dog,7.0,2,no
j,dog,3.0,1,no


<div class="alert alert-info">

__Замечание__

По умолчанию некоторые параметры - этого метода следующие:

- `axis=0`  0 удаляет строки, содержащие пропущенные значения, 1 удаляет столбцы.
- `how='any'` `'any'` если хотя бы одно `NA`, удаляет эту строку или столбец, `'all'` только если все значения `NA`
- `inplace=False` False выполняет операцию и возвращает копию объекта, True выполняет операцию на месте и возвращает `None`


Вжух, и все пропущенные значения исчезли! Однако, не забывайте про параметр `inplace=True` иначе ваши изменения не сохранятся.



Заполняет пропущенные значения `df.fillna(n)`, при n = 5 имеем:

In [None]:
df.fillna(5)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,5.0,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,5.0,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


<div class="alert alert-info">
    
По умолчанию некоторые параметры этого метода следующие

- `axis=None` 0 заполняет по строкам, 1 заполняет по столбцам

- `inplace=False` False выполняет операцию и возвращает копию объекта, True выполняет операцию на месте и возвращает None





Количество пропусков в каждом столбце

In [None]:
df.isna().sum()

animal      0
age         2
visits      0
priority    0
dtype: int64

`df.fillna()` - Заполняет значения NA/NaN. Параметр `inplace=True` заполняет в датафрейме без необходимости копирования. По умолчанию `inplace=False`.


## Основы индексации данных


<p id="10"></p>

**[df.loc[]](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)** - Обеспечивает доступ к группе строк и столбцов по меткам (индексам) или логическому массиву. Обратите внимание, что, в отличие от обычных срезов Python, включены как начало, так и конец индексов. Через этот метод можно менять значения датафрейма.

<img src="../images/14rxcddfc9lms2sdubj9h7zgykm.png"></img>

Также, выбрать столбец можно как `df.col`, где col это имя столбца, если имя столбца написано латиницей и не содержит пробелов. На примерах это будет выглядеть так:  

In [None]:
df.animal

a      cat
b      cat
c    snake
d      dog
e      dog
f      cat
g    snake
h      cat
i      dog
j      dog
Name: animal, dtype: object

In [None]:
df.loc['a', ['animal', 'visits']]

animal    cat
visits      1
Name: a, dtype: object

In [None]:
df.iloc[:,0]

a      cat
b      cat
c    snake
d      dog
e      dog
f      cat
g    snake
h      cat
i      dog
j      dog
Name: animal, dtype: object

In [None]:
df.iloc[[1, 3], [0]]

Unnamed: 0,animal
b,cat
d,dog


<div class="alert alert-info">

Наглядно это выглядит так

<img src="https://sun9-79.userapi.com/impg/p0NrZ2Owypd4NbKQV4--0kZYi4PfNqk3E31URQ/7NTTharc5XA.jpg?size=301x129&quality=96&sign=36a4edc1d86f1b6618a80545f36cf4ef&type=album"></img>

__Разница между `iloc` и `loc` простая!__   `.loc`- возвращает строку по номеру, `.iloc` по индексу. <br>
***Важно:*** Ещё одно различие состоит в том, что при наличии числового индекса `.iloc()` не будет включать правую границу в срез, а `.loc()` будет.

Посмотрим на примере:

In [None]:
# Строка с индексом 3 и колонка 2 не включены в срез
df.iloc[1:3, 0:2]

Unnamed: 0,animal,age
b,cat,3.0
c,snake,0.5


In [None]:
# А здесь правые границы включены в срез
df.reset_index().loc[1:3, 'animal':'visits']

Unnamed: 0,animal,age,visits
1,cat,3.0,3
2,snake,0.5,2
3,dog,,3


### Фокусы с индексами


Сбрасывает индекс `df.reset_index()`, причем предыдущий индекс не удаляется, а сохраняется в новой колонке. <br>

In [None]:
df.reset_index()

Unnamed: 0,index,animal,age,visits,priority
0,a,cat,2.5,1,yes
1,b,cat,3.0,3,yes
2,c,snake,0.5,2,no
3,d,dog,,3,yes
4,e,dog,5.0,2,no
5,f,cat,2.0,3,no
6,g,snake,4.5,1,no
7,h,cat,,1,yes
8,i,dog,7.0,2,no
9,j,dog,3.0,1,no


Чтобы удалить предыдущий индекс и сохранить изменения, нужно указать параметры `drop=True, inplace=True`.

In [None]:
df2 = df.reset_index(drop=True)
df2.head()

Unnamed: 0,animal,age,visits,priority
0,cat,2.5,1,yes
1,cat,3.0,3,yes
2,snake,0.5,2,no
3,dog,,3,yes
4,dog,5.0,2,no


Устанавливает индекс `df.set_index()`. Соответственно, берет существующий столбец и переводит его в индекс.



Заменяет индекс `df.reindex()`



In [None]:
df.reindex(['j', 'i', 'h', 0, 1, 2], axis=0, fill_value=5)

Unnamed: 0,animal,age,visits,priority
j,dog,3.0,1,no
i,dog,7.0,2,no
h,cat,,1,yes
0,5,5.0,5,5
1,5,5.0,5,5
2,5,5.0,5,5


<p id="11"></p>

## Функции
Применение функции к данным по строкам / столбцам реализуется `df.apply(func, axis=0)`

<img src="https://sun9-70.userapi.com/impg/SfdR2m0D2E02P1xeDa8XJTr2DopfykEufD7Kcw/rQkknfzl800.jpg?size=216x398&quality=96&sign=b395742fb9db51dbeb0e124d17f82901&type=album"></img>

В примере методу `apply()` передается функция, которая будет применяться к данным. Стоит заметить, что значения типа 'str' тоже суммируются.

In [None]:
df.apply(np.sum, axis=0)

animal      catcatsnakedogdogcatsnakecatdogdog
age                                       27.5
visits                                      19
priority              yesyesnoyesnononoyesnono
dtype: object

Применение функции к данным поэлементно реализуется `df.applymap(lambda x: func)`

В примере методу `applymap()`  передается `lambda`-функция, которая будет применяться к элементу.

In [None]:
df.applymap(lambda x: len(str(x)))

Unnamed: 0,animal,age,visits,priority
a,3,3,1,3
b,3,3,1,3
c,5,3,1,2
d,3,3,1,3
e,3,3,1,2
f,3,3,1,2
g,5,3,1,2
h,3,3,1,3
i,3,3,1,2
j,3,3,1,2


<div class="alert alert-info">

Также функцию `apply()` можно применять для создания новых колонок на основе уже существующей или на основе всего датафрейма. <br>
При этом есть существенная разница при обращении к одной колонке или к всему датасету.<br>
Разберём на примере:

In [None]:
df.head()

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no


In [None]:
# Создадим бинарную колонку 'more_2', если было больше 2-х визитов на основе колонки 'visits'
df['more_2'] = df['visits'].apply(lambda x: 1 if x > 2 else 0)
df.head()

Unnamed: 0,animal,age,visits,priority,more_2
a,cat,2.5,1,yes,0
b,cat,3.0,3,yes,1
c,snake,0.5,2,no,0
d,dog,,3,yes,1
e,dog,5.0,2,no,0


In [None]:
# теперь создадим такую же колонку с названием 'more_2v2' на основе всего df
df['more_2v2'] = df.apply(lambda x: 1 if x.visits > 2 else 0, axis=1)
df.head()

Unnamed: 0,animal,age,visits,priority,more_2,more_2v2
a,cat,2.5,1,yes,0,0
b,cat,3.0,3,yes,1,1
c,snake,0.5,2,no,0,0
d,dog,,3,yes,1,1
e,dog,5.0,2,no,0,0


Отметим, что при использовании `apply()` к датасету - надо указывать название колонки через точку и параметр `axis`.

### Встроенные функции

Здесь перечислены некоторые полезные методы, применимые к Series

<img src="https://sun9-17.userapi.com/impg/QIvfQYVUFnOii25XfA6yL9HSsnVaMSI71Ccqow/BROCketQrDw.jpg?size=1302x1068&quality=96&sign=ffe48fa08279d37d7e023cce818f888c&type=album" width=700></img>

Например, посчитаем количество уникальных животных:

In [None]:
df.animal.nunique()

3

<div class="alert alert-info">
    
<b> Заключение: </b>
В этом уроке мы познакомились с основными возможностями библиотеки `Pandas`, для закрепления материала рекомендуем прорешать задачи в степах.<br>
С более продвинутыми функциями библиотеки и их применением для решения практических задач будем разбираться в следующих уроках.