## Импорт библиотеки Pandas



In [None]:

import pandas as pd # импортируем Pandas




## Загрузка данных из внешних источников

### .read_csv()

Загружает табличные данные из файлов формата .csv, имя файла передается в качестве аргумента. 

Имеет множество аргументов по умолчанию и опциональных аргументов для настройки получения данных. Больше деталей можно найти в [**документации.**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)



In [None]:
```python
# загрузит датафрейм из .csv
df = pd.read_csv('doc_in_csv.csv') 

# назначит в качестве индекса столбец column
df = pd.read_csv('doc_in_csv.csv', index_col = 'column')
```



### .read_excel()

Загружает данные из документов формата Excel

In [None]:
df = pd.read_excel('doc_in_xls.xlsx') # загрузит датафрейм из .xlsx

## Сводная информация о датафрейме

### .head()

Выводит **первые** записи датафрейма. Выведет столько записей, сколько укажем в скобках в качестве аргумента. По умолчанию выводит 5 строк.



In [None]:
```python
df.head() # выведет 5 первых строк
df.head(15) # выведет 15 первых строчек
```



### .tail()

Выводит **последние** записи датафрейма. Выведет столько записей, сколько укажем в скобках в качестве аргумента. По умолчанию выводит 5 строк.



In [None]:

df.tail() # выведет 5 последних строк
df.tail(10) # выведет 10 последних строчек





💡 С помощью методов `.head()` и .`tail()` мы можем не только смотреть данные, но и создавать срезы из первых или последних строк датафрейма. Например, если нам нужно сделать срез из ТОП-5 наиболее и наименее популярных видов тренировок, можно взять срез одним из методов и сохранить в переменной.



### .info()

Выводит общую информацию о строках и колонках: 

- количество строк и колонок
- заполняемость значений
- типы данных



In [None]:

df.info()




### .describe()

Выводит основные метрические статистики по числовым и текстовым полям:

- **`count`** — подсчет количества
- **`mean`** — среднее значение
- **`min`** — минимальное значение
- **`max`** — максимальное значение
- **`std`** — среднее отклонение
- **`50%`** — медиана
- **`25%`** — 25-й квантиль
- **`75%`** — 75-й квантиль

Чтобы указать, описание каких полей нужно выводить, можно передать аргумент `include`, который принимает на вход:

- конкретный тип данных из датафрейма (по умолчанию выводит описания числовых полей, если они есть)
- строку `'all'`, если мы хотим вывести все поля



In [None]:

df.describe() # выведет данные по столбцам с числовыми типами
df['column'].describe() # выведет данные для одного столбца

df.describe(include = 'all') # выведет данные для всех столбцов
df.describe(include = 'object') # выведет данные для всех столбцов с данными тип object





💡 Не забывай, что при использовании этих методов в середине ячейки данные не отобразятся.


## Обращение к столбцам и строкам

### df[ 'column_name' ]

Название столбца передается в строковом формате в квадратных скобках. Принимает в том числе и **список** названий для вывода нескольких столбцов.



In [None]:

df['имя столбца'] # имя может быть любым
df[['имя столбца 1', 'имя столбца 2']] # двойные квадратные скобки для списка




### .set_index( )

Переопределение индекса строки с помощью одного из столбцов датафрейма. 

Аргумент `inplace` влияет на то, изменяем ли мы изначальный датафрейм – `True,` или нет – `False`



In [None]:
df.set_index('user_id', inplace = True) 
# назначаем колонку user_id индексом и перезаписываем датасет




### .reset_index( )

Используется для того, чтобы индекс стал столбцом датафрейма. Применяем в случаях:

- когда нужно вернуть в датафрейм столбец, который мы ранее назначили как столбец индекса, например user_id
- если мы вызвали всего один столбец датафрейма и получили одномерную таблицу — `series`, а теперь хотим, чтобы `series` стала `dataframe`

Аргумент `inplace` влияет на то, изменяем ли мы изначальный датафрейм – `True`, или нет – `False` (по умолчанию `False`)



In [None]:

df.reset_index(inplace = True) # теперь старые индексы датафрейма стали значениями столбца





💡 Если при использовании `.reset_index()` мы до этого назначали какой-то столбец индексом, он просто вернется обратно в датафрейм.

Если индекс был очередностью от 0 по количеству строк, то теперь в датафрейме есть столбец с нумерацией.



### .loc[ ]

Достает срезы и фильтрует датафрейм

1. можно вытаскивать срез строк со всеми колонками
2. можно вытаскивать срез из строк и конкретных колонок, тогда передаем вторым списком колонки
3. можно использовать для фильтрации значений в колонках

Принимает в том числе и несколько колонок и строк в виде списка.



In [None]:

df.loc[[965,793]] # получаем срез для двух строк со всеми колонками
df.loc[[103,304],['имя столбца']] # получаем срез для двух строк с одной колонкой
df.loc[[4268,4272],['имя столбца','имя столбца']] # передаем несколько строк и колонок в виде списка

# можно использовать двоеточия как для колонок, так и для строк
df.loc[510:917,'столбец 1':'столбец 5'] 




Фильтрация по значению из столбца:

In [None]:
# только строки, где значение по столбцу email совпадает с mail@mail.ru

df.loc[df['email'] == 'mail@mail.ru'] 

df.loc[df['age'] >= 10] # только строки, в которых возраст больше или равны 10

df.loc[users.age.isnull()] # только пустые значения

df.loc[users.age.isin((25,30,35))] # только тех, кому 25, 30 или 35





### .to_datetime( )

Принимает на вход колонку и выдает эту же колонку, но в формате даты.

Pandas сам распознает формат даты, даже не нужно указывать форматирование.



In [None]:

pd.to_datetime(df['date_column']) # вернет date_column в формате datetime


### .groupby( )

Метод для группировки данных. 







In [None]:
df.groupby('column_text')['column_count'].max() 

В `[]` передаем  столбцы, данные в которых пересчитываем или суммируем, они станут числовыми колонками. 

В `groupby()`  передаем столбцы, для которых пересчитываем, они останутся текстовыми (каждое значение будет уникальным).

Например, для каждой гео-группы посчитаем возраст и выведем самую большую цифру для группы.

![https://s3-us-west-2.amazonaws.com/secure.notion-static.com/510023ba-c195-4c20-baa7-c3cac930e7ad/Group_2187.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/510023ba-c195-4c20-baa7-c3cac930e7ad/Group_2187.png)

💡 Мы можем группировать данные и для нескольких столбцов, передавая в круглые скобки несколько аргументов в виде списка.

In [None]:
# получим уникальный список всех клиентов из датафрейма
df.groupby('user_id').nunique() 

# получим количество транзакций и менеджеров для каждого клиента
df[['transactions','managers']].groupby('user_id').count() 

# получим самого старшего клиента в каждой гео-группе
users.groupby('geo_group')['age'].max()

# получим самого младшего клиента по каждому городу, сгруппированным по гео-группе
users.groupby(['geo_group', 'city'])['age'].min() 




### Группировка по дню, году, месяцу

Метод `.groupby()` группирует все данные вместе. Чтобы  посмотреть, как данные распределены во времени, используй внутри  `.groupby()`  метод `.dt` и укажи, по какой единице времени нужно получить разбивку.

*синтаксис:* `df.groupby(df['столбец'].dt.единица времени).метод группировки()`

- метод не работает со строками, поэтому в аргумент `.groupby()` передаем столбец в формате датафрейма.
- временные гранулы могут быть разные: год, день, месяц и т. д.
- методы группировки те же, что в `groupby()`

In [None]:
# посчитали количество транзакций в месяц на каждого пользователя
users.groupby(users['transaction'].dt.month).count()

# посчитали сумму по транзакциям за каждый день
payments.groupby(payments['transaction'].dt.day).sum()  

# посчитали количество уникальных пользователей за каждый год в нашей выборке
users.groupby(users['user_id'].dt.year).nunique()

### agg()

Подсчет нескольких статистик одновременно . 

1. Если нужно несколько статистик для одного столбца, передаем  в метод `.agg()`, примененный к столбцу список с метриками.
2. Если хотим посчитать несколько разных статистик для нескольких столбцов, передадим в метод `.agg()`, примененный к целому датафрейму, словарь, где ключами будут имена столбцов, а значениями списки метрик.


In [None]:

# для столбца cost посчитает количество вхождений, среднее и медиану
workouts['cost'].agg(['count','mean','median'])

# посчитает статистики для двух столбцов
workouts.agg({
             'cost':['count','mean','median'], 
             'workout_id':['count','nunique']
             })




In [None]:
## Объединение таблиц

### .merge()

Позволяет объединить таблицы по общему столбцу. В качестве аргументов в него передаются:

1. датафреймы, которые нужно соединить
2. тип соединения
3. названия колонок, по которым нужно соединить датафреймы

In [None]:
pd.merge(df, df2, # датафреймы
        how = 'left', # возьмем все значения из df и совпадающие из df2
        left_on = 'client_id', right_on = 'user_id') 
        # pandas не распознает сам, что client_id и user_id имеют пересекающиеся значения, и мы напрямую указываем их

1. **`inner`** — работает по умолчанию и выводит значения, ключ по которым встречается и в первой, и во второй таблице.
2. **`left`** — выводит все значения из первой таблицы и значения из второй таблицы, к которым нашлись ключи из первой.
3. **`right`** — выводит все значения из второй таблицы и значения из второй таблицы, к которым нашлись ключи из второй (лучше его не использовать).
4. **`outer`** — выводит все значения из обеих таблиц и совпадающие ключи и уникальные для первой или второй таблицы.

<aside>
❗ Для всех отсутствующих значений присваивается NaN.

</aside>

### Добавление **колонок**

Чтобы добавить колонку, достаточно просто написать ее название и присвоить ей некое значение: число, строку, булевое значение или, например, результат преобразования одного из столбцов с помощью функции .



In [None]:

df['new_column'] = 1 # в каждой строке колонки будет 1
df['new_column'] = df['column1']/ df['column2'] # добавляем колонку, которая является результатом арифметической операции двух других колонок
df['new_column'] = df['values'].apply(function) # для добавления колонки с помощью функции используем метод apply()




### .drop()

Удаляет указанные столбцы и строки.

Аргумент `inplace` влияет на то, изменяем ли мы изначальный датафрейм – `True`, или нет – `False`(по умолчанию).

Вокруг `drop` множество методов, которые позволяют удалять не только целый столбец, но и разные элементы датафрейма по условиям.


In [None]:

new_df = df.drop(columns = 'name') 
# удалим столбец name из датафрейма и положим результат в новую переменную 
# исходный датафрейм не изменится

df.drop(columns = 'name', inplace = True) # удалим колонку name из датафрейма df и перезапишем исходный датафрейм

df.dropna() # удалим строки, в которых есть хотя бы одно пустое значение по столбцам

df.drop_duplicates() # удалим дублирующиеся строки





### **sort_values( )**

Осуществляет сортировку по значениям.

- обязательный аргумент `by` – указывает, по какой колонке сортировать
- сортировка понимает все типы данных
- по умолчанию сортирует по возрастанию: чтобы сортировать по убыванию, нужно изменить значение аргумента: `ascending = False`


💡 А для сортировки по индексам есть метод  `.sort_index()`



In [None]:

df.sort_values(by='column') # отсортирует датасет df по колонке column по возрастанию

df.sort_values(by='column', ascending=False) # отсортирует датасет df по колонке column по убыванию

df.sort_index() # выстроит индексы по возрастанию




### **.apply( )**

Позволяет нам применять функции ко всем значениям колонки, которую мы укажем.



In [None]:

def function(value): 
    if value >= 5000:
        return 'Big'
    else:
        return 'Small'

df['new_column'] = df['values'].apply(function) 
# создаем столбец, который заполнится значениями по условию, примененному к значениям столбца values 


In [None]:
## Сохранение данных вовне

### .to_excel( )

Cохраняет датафреймы в xlsx формате



In [None]:

df = pd.read_excel('doc_in_xlsx.xlsx') # загрузит датафрейм из xlsx

df.to_excel('name.xlsx') # сохранит документ на компьютер в ту же папку, где ноутбук
df.to_excel('С://my_folder/name.xlsx') # сохранит документ по указанному пути




### ****.ExcelWriter( )****

Позволяет выгрузить в один документ xlsx несколько датафреймов на разные листы

In [None]:

# создаем переменную для id таблицы
g_sheet_id = '1ZOn5B8RReZZLP5VCTtO3NjZbFBpFqoXlsXCwEbbbyCw'

# создаем переменную для имени листа
list_name = 'list2'

# определяем переменную, в которую строкой передаем ссылку без id и имени листа
# передаем их аргументами в метод format()
csv_from_google = 'https://docs.google.com/spreadsheets/d/{0}/export?format=csv&sheet={1}'.format(g_sheet_id, list_name)

# загружаем датафрейм из переменной
df = pd.read_csv(csv_from_google)



###   Загрузка датафрейма из списков и словарей

In [None]:

df = pd.DataFrame(list) # из списка
df = pd.DataFrame(dict) # из словаря


###  .from_dict

Создает датафрейм из словаря согласно заданной структуре данных. 

Аргумент `orient` определяет «ориентацию» данных:

- `'index'` — если ключи должны быть строками
- `'columns'` — если ключи должны быть столбцами (по умолчанию)

In [None]:

df = pd.DataFrame.from_dict(dict, orient='index') # ключи будут строками
