Сегодня мы поговорим о библиотеке, которая позволяет работать с табличными данными. Она называется pandas

In [None]:
# ! pip3 install pandas # если pandas не установлен, следует запустить эту ячейку

In [1]:
import pandas as pd # теперь импортируем pandas в эту тетрадку

документация для pandas [лежит здесь](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

Основные элементы "табличек в pandas" - это Series и Dataframe

Series - это объект, похожий на одномерный массив (как обычный список в питоне) с элементами и  индексами вдоль каждого элемента из списка. 

DataFrame "собирается" из таких Series

<img alt="Series vs DataFrame" height="300" width="700" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" >

# Создание датафрейма

Создать дф можно двумя способами:
- из словаря методом pd.DataFrame.from_dict()
- прочитав .csv файл

попробуем оба способа

### Первый

In [2]:
# шаг 1 создадим словарь

data = {
    "Maria":["London",37],
    "Lorenzo":["Milan",28],
    "Oleg":["Canberra",31],
    "Hans":["Calgary",80],
    "Mark":["Milan",55],
    "Alex":["Krakow",35],
    "Julia":["Murmansk",43]
    
}

# шаг 2 используем метод pd.DataFrame.from_dict()
# аргументом подадим созданный словарь

postcards = pd.DataFrame.from_dict(data, orient="columns").T.rename(columns={0:"city", 1:"age"})


display(postcards)

Unnamed: 0,city,age
Maria,London,37
Lorenzo,Milan,28
Oleg,Canberra,31
Hans,Calgary,80
Mark,Milan,55
Alex,Krakow,35
Julia,Murmansk,43


### Второй способ

In [6]:
# прочитаем какой-нибудь .csv файл методом pd.read_csv()

recipes = pd.read_csv("../data/christmas_recipes.csv", encoding="utf-8")

### Как посмотреть на часть датафрейма

понадобятся методы ```.head()```, ```.tail()``` или индексация

In [8]:
# первые строки
recipes.head(2)

Unnamed: 0,Title,Time,Servings,Ingredients,Instructions,Image
0,Perfect roast turkey,180,10 serving(s),"['20ml/¾fl oz rapeseed oil', '1 x 5kg/11lb goo...",Remove the turkey from the fridge and bring to...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
1,Stuffed roast turkey breast,180,8 serving(s),"['1 tbsp sunflower oil', '1 onion, finely chop...","To make the stuffing, heat the oil and gently ...",https://ichef.bbci.co.uk/food/ic/food_16x9_832...


In [None]:
# последние строки
recipes.tail(3)

In [None]:
# часть датафрейма по  индексам строчек
recipes[15:18]

# Характеристики датафрейма

In [9]:
#размеры датафрейма

postcards.shape
# recipes.shape

(7, 2)

In [10]:
# описание датафрейма

postcards.info()
# recipes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Maria to Julia
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   city    7 non-null      object
 1   age     7 non-null      object
dtypes: object(2)
memory usage: 168.0+ bytes


In [11]:
# изменим тип колонки age на числовой методом .astype()

postcards["age"] = postcards["age"].astype("int64")

### Как посмотреть, где живет конкретный человек?

Чтобы найти нужную строку, нам нужны индексы. 
Посмотрим на примере датасета с людьми и городами. У нашего датафрейма есть две оси: по строкам(нулевая, она же  index) и столбцам(первая, она же columns)


In [12]:
postcards.index

Index(['Maria', 'Lorenzo', 'Oleg', 'Hans', 'Mark', 'Alex', 'Julia'], dtype='object')

In [13]:
postcards.columns

Index(['city', 'age'], dtype='object')

In [None]:
postcards.reset_index() # так индекс можно "сбросить" 

In [None]:
postcards = postcards.set_index("index") # а так поставить индексом любую колонку

In [15]:
# пересечение индексов выдаст конкретную ячейку: ищем где живет Мария

postcards.loc['Maria']["city"]

'London'

**Получить строку по индексу** можно сделать двумя способами:

- именной индекс, по "названию" строки в колонке "Index", (первая колонка датафрейма, у нас это имена людей)
- порядковый индекс, по номеру строки в датафрейме (нумерация с 0)

Для именного поиска понадобится метод ```.loc[]```, для порядкового -- ```.iloc[]```

In [17]:
postcards

print(postcards.iloc[3], "\n")

print(postcards.loc["Hans"])

city    Calgary
age          80
Name: Hans, dtype: object 

city    Calgary
age          80
Name: Hans, dtype: object


**Указав название колонки**,  можно аналогично посмотреть все значения в ней

In [18]:
postcards["age"]

Maria      37
Lorenzo    28
Oleg       31
Hans       80
Mark       55
Alex       35
Julia      43
Name: age, dtype: int64

# Операции с датафреймами

### Добавление колонок и строк в датафрейм

В датафрейм можно добавить новые колонки: понадобится метод ```.assign()```

In [19]:
postcards = postcards.assign(job=['Artist',"Teacher","Chef","Artist","Manager","Chef","Engineer"])

display(postcards)

Unnamed: 0,city,age,job
Maria,London,37,Artist
Lorenzo,Milan,28,Teacher
Oleg,Canberra,31,Chef
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Alex,Krakow,35,Chef
Julia,Murmansk,43,Engineer


Добавить строки тоже можно: методом ```.append()```

In [21]:
df = pd.DataFrame.from_dict({"Alice":["NY",36,"Engineer"]},
                           orient="index",
                           columns=postcards.columns)
df 

Unnamed: 0,city,age,job
Alice,NY,36,Engineer


In [23]:
# # шаг2 добавим новый df к старому
postcards = postcards.append(df)
postcards

# что будет, если запустить .append() несколько раз?

Unnamed: 0,city,age,job
Maria,London,37,Artist
Lorenzo,Milan,28,Teacher
Oleg,Canberra,31,Chef
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Alex,Krakow,35,Chef
Julia,Murmansk,43,Engineer
Alice,NY,36,Engineer
Alice,NY,36,Engineer


### что делать, если добавились ненужные строки? 

Если есть дубликаты уже существующих строк, понадобится метод ```.drop_duplicates()```

In [24]:
postcards.drop_duplicates(inplace=True)
postcards

Unnamed: 0,city,age,job
Maria,London,37,Artist
Lorenzo,Milan,28,Teacher
Oleg,Canberra,31,Chef
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Alex,Krakow,35,Chef
Julia,Murmansk,43,Engineer
Alice,NY,36,Engineer


Если удалить нужно любую строку или столбец, понадобится метод ```.drop()``` 
- axis=0 если нужно удалить строку
- axis=1 если нужно удалить колонку

In [None]:
postcards.drop("Mark",axis=0)

In [None]:
postcards.drop("city", axis=1)

Чтобы изменения вошли в силу, реультат выражения нужно сохранить в переменную, либо добавить аргумент inplace=True 

In [None]:
postcards = postcards.drop("city", axis=1)

### Сохранение датафрейма в файл 

In [25]:
# сохраним в .csv файл

postcards.to_csv('../data/postcards.csv') 

### Фильтры и прочие манипуляции

In [26]:
# посмотрим, кто работает шеф-поваром
# квадратные скобки создают подвыборку из датасета, удовлетворяющую условиям

postcards[ postcards["job"] =="Chef" ]

Unnamed: 0,city,age,job
Oleg,Canberra,31,Chef
Alex,Krakow,35,Chef


In [27]:
# поищем всех людей старше 40

postcards[ postcards["age"] >40 ]

Unnamed: 0,city,age,job
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Julia,Murmansk,43,Engineer


In [28]:
# условия можно компоновать логическими операторами
# синтаксис: df[(условие1) оператор (условие2)]

#ищем, кто старше 30 и не работает шеф-поваром


postcards[ (postcards["age"]>30) & (postcards["job"]!="Chef")]

Unnamed: 0,city,age,job
Maria,London,37,Artist
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Julia,Murmansk,43,Engineer
Alice,NY,36,Engineer


Над значениями в колонках можно производить различные операции:
* например, арифметические (если данные количественные):

In [30]:
# postcards.age.sum()
postcards.age.mean()
# postcards.age.min()
# postcards.age.max()

43.125

Если данные категориальные, можно искать уникальные значения, упорядочивать по алфавиту и тд

In [33]:
# postcards.job.values # все значения 
postcards.job.value_counts() # число повторов
# postcards.job.sort_values(ascending=False) # сортировка

# postcards.job.unique() # все уникальные в колонке
# postcards.job.nunique() # сколько уникальных в колонке

Artist      2
Chef        2
Engineer    2
Teacher     1
Manager     1
Name: job, dtype: int64