# Введение в Pandas

Документация: https://pandas.pydata.org/pandas-docs/stable/reference/io.html

In [1]:
import pandas as pd

**Создаём датафрейм (таблицу)**

In [93]:
df = pd.DataFrame()

In [94]:
df

Добавим колонок. Похоже на синтаксис словарей.

In [95]:
df['Математика'] = [10, 7, 9]
df

Unnamed: 0,Математика
0,10
1,7
2,9


In [96]:
df['Русский'] = [9, 8, 10]
df

Unnamed: 0,Математика,Русский
0,10,9
1,7,8
2,9,10


In [16]:
print(df)

   Математика  Русский
0          10        9
1           7        8
2           9       10


Для красивого интерактивного вывода воспользуйтесь функцией `display()`.

In [17]:
display(df)

Unnamed: 0,Математика,Русский
0,10,9
1,7,8
2,9,10


In [18]:
df.shape  # кол-во строк, кол-во столбцов

(3, 2)

Добавьте оценки ещё по одному предмету

In [None]:
# ваш код

Как добавить строку в df? Пройдём позже.

**Действия с df**

(потом ещё пройдём)

In [97]:
df['Математика'] + df['Русский']

Unnamed: 0,0
0,19
1,15
2,19


In [28]:
[1, 2, 3] + [3, 4, 5]

[1, 2, 3, 3, 4, 5]

In [27]:
df['Average'] = (df['Математика'] + df['Русский'])/2
df

Unnamed: 0,Математика,Русский,Average
0,10,9,9.5
1,7,8,7.5
2,9,10,9.5


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Математика  3 non-null      int64  
 1   Русский     3 non-null      int64  
 2   Average     3 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 204.0 bytes


In [32]:
df.describe()

Unnamed: 0,Математика,Русский,Average
count,3.0,3.0,3.0
mean,8.666667,9.0,8.833333
std,1.527525,1.0,1.154701
min,7.0,8.0,7.5
25%,8.0,8.5,8.5
50%,9.0,9.0,9.5
75%,9.5,9.5,9.5
max,10.0,10.0,9.5


**Работаем с колонкой**

In [36]:
df['Математика']

Unnamed: 0,Математика
0,10
1,7
2,9


In [35]:
mylist = list(df['Математика'])
mylist.append(6)
mylist

[10, 7, 9, 6]

In [37]:
df['Математика'].dtype

dtype('int64')

In [38]:
df['Математика'].name

'Математика'

In [44]:
[10,  7,  9] * 4

[10, 7, 9, 10, 7, 9, 10, 7, 9, 10, 7, 9]

In [46]:
df['Математика'].values + 5

array([15, 12, 14])

In [40]:
type(df['Математика'].values)

numpy.ndarray

**Несколько колонок**

In [48]:
df[['Математика', 'Русский']]

Unnamed: 0,Математика,Русский
0,10,9
1,7,8
2,9,10


In [50]:
df[['Average', 'Математика']]

Unnamed: 0,Average,Математика
0,9.5,10
1,7.5,7
2,9.5,9


In [51]:
df

Unnamed: 0,Математика,Русский,Average
0,10,9,9.5
1,7,8,7.5
2,9,10,9.5


# Нахождение в таблице

Колонки

In [52]:
df.columns

Index(['Математика', 'Русский', 'Average'], dtype='object')

In [53]:
df.columns = ['Math', 'Russian', 'AVERAGE']

In [54]:
df.columns

Index(['Math', 'Russian', 'AVERAGE'], dtype='object')

In [55]:
df

Unnamed: 0,Math,Russian,AVERAGE
0,10,9,9.5
1,7,8,7.5
2,9,10,9.5


Строки

In [56]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [57]:
df.iloc[0]  # это нулевая строка

Unnamed: 0,0
Math,10.0
Russian,9.0
AVERAGE,9.5


In [58]:
df.loc[0]  # это строка с индексом ноль

Unnamed: 0,0
Math,10.0
Russian,9.0
AVERAGE,9.5


В чём разница между `.loc()` и `.iloc()`?

In [59]:
df.index = ['Mark', 'Jane', 'Shura']

In [60]:
df

Unnamed: 0,Math,Russian,AVERAGE
Mark,10,9,9.5
Jane,7,8,7.5
Shura,9,10,9.5


In [61]:
df.iloc[0]

Unnamed: 0,Mark
Math,10.0
Russian,9.0
AVERAGE,9.5


In [62]:
# df.loc[0]
df.loc['Mark']

Unnamed: 0,Mark
Math,10.0
Russian,9.0
AVERAGE,9.5


Итого: `.iloc()` - для числовых индексов, `.loc()` - для индексов таблицы, выделенных жирным

### Тренировка

Что у Шуры по математике?

In [65]:
df.loc['Shura']['Math']

np.float64(9.0)

In [67]:
df.iloc[2]['Math']

np.float64(9.0)

In [69]:
df['Math'].loc['Shura']

np.int64(9)

In [70]:
df.iloc[2, 0]

np.int64(9)

In [71]:
df.loc['Shura', 'Math']

np.int64(9)

Что у Жени по русскому?

# Загрузка данных в pandas

https://github.com/tbkazakova/compling_for_lyceum/blob/main/data/students.csv

In [72]:
!wget https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/students.csv

--2025-03-27 09:08:05--  https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/students.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 764 [text/plain]
Saving to: ‘students.csv’


2025-03-27 09:08:05 (28.8 MB/s) - ‘students.csv’ saved [764/764]



In [73]:
df_csv = pd.read_csv('students.csv')
df_csv

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
0,Иван Иванов,ivanov@hse.ru,5,6
1,Петр Петров,petrov@hse.ru,8,10
2,Мария Кузнецова,kuznetsova@hse.ru,7,8
3,Татьяна Смирнова,smirnova@hse.ru,3,9
4,Камиль Ахметов,akhmetov@hse.ru,8,6
5,Софья Сонина,sonina@hse.ru,10,10
6,Андрей Андреев,andreev@hse.ru,2,4
7,Алина Хисматуллина,khismatullina@hse.ru,3,3
8,Семен Семенов,semenov@hse.ru,5,8
9,Макар Макаров,makarov@hse.ru,9,6


In [74]:
df_csv.describe()

Unnamed: 0,КР,ИТОГ
count,15.0,15.0
mean,5.866667,6.466667
std,2.38647,2.642149
min,2.0,1.0
25%,4.5,5.0
50%,5.0,6.0
75%,8.0,8.5
max,10.0,10.0


In [75]:
df_csv.head(4)

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
0,Иван Иванов,ivanov@hse.ru,5,6
1,Петр Петров,petrov@hse.ru,8,10
2,Мария Кузнецова,kuznetsova@hse.ru,7,8
3,Татьяна Смирнова,smirnova@hse.ru,3,9


In [76]:
df_csv.tail(2)

Unnamed: 0,Имя Фамилия,EMAIL,КР,ИТОГ
13,Екатерина Катина,katina@hse.ru,5,4
14,Елена Ленина,lenina@hse.ru,6,6


In [77]:
!wget https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/sent_len.csv

--2025-03-27 09:14:28--  https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/sent_len.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 20084 (20K) [text/plain]
Saving to: ‘sent_len.csv’


2025-03-27 09:14:28 (55.4 MB/s) - ‘sent_len.csv’ saved [20084/20084]



In [78]:
# Как открыть файл с разделителем не ',' и без названий колонок?
df_csv_sep = pd.read_csv('sent_len.csv')
df_csv_sep.head()

Unnamed: 0,А. П. Чехов;2
0,А. П. Чехов;13
1,А. П. Чехов;4
2,А. П. Чехов;7
3,А. П. Чехов;11
4,А. П. Чехов;37


In [79]:
# указали разделитель
df_csv_sep = pd.read_csv('sent_len.csv', sep=';')
df_csv_sep.tail()

Unnamed: 0,А. П. Чехов,2
885,Л. Н. Толстой,40
886,Л. Н. Толстой,53
887,Л. Н. Толстой,70
888,Л. Н. Толстой,90
889,Л. Н. Толстой,26


In [80]:
# указали, что в первой строке нет названий столбцов
df_csv_sep = pd.read_csv('sent_len.csv', sep=';', header=None)
df_csv_sep.head()

Unnamed: 0,0,1
0,А. П. Чехов,2
1,А. П. Чехов,13
2,А. П. Чехов,4
3,А. П. Чехов,7
4,А. П. Чехов,11


In [81]:
# добавили названия столбцов
df_csv_sep = pd.read_csv('sent_len.csv', sep=';',
                         header=None, names=['автор', 'слова'])
df_csv_sep.head()

Unnamed: 0,автор,слова
0,А. П. Чехов,2
1,А. П. Чехов,13
2,А. П. Чехов,4
3,А. П. Чехов,7
4,А. П. Чехов,11


In [82]:
!wget https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/verbs.txt
!wget https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/bi_femcorp.tsv

--2025-03-27 09:16:12--  https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/verbs.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 789 [text/plain]
Saving to: ‘verbs.txt’


2025-03-27 09:16:12 (38.4 MB/s) - ‘verbs.txt’ saved [789/789]

--2025-03-27 09:16:12--  https://raw.githubusercontent.com/tbkazakova/compling_for_lyceum/refs/heads/main/data/bi_femcorp.tsv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 4767327 (4.5M) [text/plain]
Saving to: ‘bi_femcorp.tsv’


2025-03-27 09:16:12 (233 MB/s)

In [85]:
# откройте файл 'verbs.txt' с помощью read_csv
df_txt_sep = pd.read_csv('verbs.txt', sep=';',
                         header=None, names=['V', 'V2', 'V3', 'ru'])
df_txt_sep.head()

Unnamed: 0,V,V2,V3,ru
0,arise,arose,arisen,подниматься
1,be,was/were,been,быть
2,bear,bore,born,родить
3,become,became,become,сделаться
4,begin,began,begun,начинать(ся)


Откройте `bi_femcorp.tsv`

In [87]:
# открывая текстовые файлы с разным расширением (.csv, .tsv, .txt), используйте read_csv
df_tsv_sep = pd.read_csv('bi_femcorp.tsv', sep='\t')
df_tsv_sep.head()

Unnamed: 0,bi_token,uni_first_token,uni_first_lemma,uni_first_POS,uni_second_token,uni_second_lemma,uni_second_POS,Sent_ids,Ids
0,"('в', 'июне')",в,в,PREP,июне,июнь,NOUN,0 861,"['0', '861']"
1,"('июне', 'этого')",июне,июнь,NOUN,этого,это,NPRO,0,['0']
2,"('этого', 'года')",этого,это,NPRO,года,год,NOUN,0 473 1169 1672 1756 3155,"['0', '473', '1756', '1672', '1169', '3155']"
3,"('года', 'девушка')",года,год,NOUN,девушка,девушка,NOUN,0,['0']
4,"('девушка', 'по')",девушка,девушка,NOUN,по,по,PREP,0,['0']


In [88]:
df_tsv_sep.shape

(41744, 9)

https://github.com/tbkazakova/compling_for_lyceum/blob/main/data/coffee_stats.xlsx

In [89]:
# открыть можно и excel
df_excel = pd.read_excel('coffee_stats.xlsx')

In [90]:
df_excel

Unnamed: 0,Тип кофе,Размер,Сироп
0,раф,большой,шоколадный
1,капучино,большой,ванильный
2,раф,маленький,розовый
3,раф,большой,карамельный
4,латте,маленький,
...,...,...,...
144,латте,большой,карамельный
145,капучино,большой,кленовый
146,раф,большой,шоколадный
147,раф,средний,карамельный


In [91]:
df_excel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149 entries, 0 to 148
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Тип кофе  149 non-null    object
 1   Размер    149 non-null    object
 2   Сироп     120 non-null    object
dtypes: object(3)
memory usage: 3.6+ KB
