In [1]:
import pandas as pd
import numpy as np

# Пример создания DataFrame

In [5]:
data = {
"Возраст": [25, 30, 22],
"Город": ["Москва", "СПб", "Казань"]
}
df = pd.DataFrame(data, index=["Анна", "Иван", "Ольга"])
print(df)

       Возраст   Город
Анна        25  Москва
Иван        30     СПб
Ольга       22  Казань


# Series как часть DataFrame


In [3]:
print(df["Возраст"])

Анна     25
Иван     30
Ольга    22
Name: Возраст, dtype: int64


# Преобразование Series в DataFrame и обратно

In [4]:
s = pd.Series([10, 20, 30], index=["a", "b", "c"])
df = s.to_frame(name="Значение")
print(df)

   Значение
a        10
b        20
c        30


In [5]:
s = df["Значение"]
print(s)

a    10
b    20
c    30
Name: Значение, dtype: int64


# Создание DataFrame из словаря ( dict )

In [6]:
data = {
"Имя": ["Анна", "Иван", "Ольга"],
"Возраст": [25, 30, 22],
"Город": ["Москва", "СПб", "Казань"]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


# Словарь одномерных Series

In [7]:
ages = pd.Series([25, 30, 22], index=["a", "b", "c"])
cities = pd.Series(["Москва", "СПб", "Казань"], index=["a", "b", "c"])
df = pd.DataFrame({"Возраст": ages, "Город": cities})
print(df)

   Возраст   Город
a       25  Москва
b       30     СПб
c       22  Казань


# Создание DataFrame из списка ( list )

In [8]:
data = [
["Анна", 25, "Москва"],
["Иван", 30, "СПб"],
["Ольга", 22, "Казань"]
]
df = pd.DataFrame(data, columns=["Имя", "Возраст", "Город"])
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [9]:
data = [
{"Имя": "Анна", "Возраст": 25, "Город": "Москва"},
{"Имя": "Иван", "Возраст": 30}, # "Город" пропущен
{"Имя": "Ольга", "Возраст": 22, "Город": "Казань"}
]
df = pd.DataFrame(data)
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     NaN
2  Ольга       22  Казань


# Создание DataFrame из массива NumPy

In [11]:
data = np.array([
["Анна", 25, "Москва"],
["Иван", 30, "СПб"],
["Ольга", 22, "Казань"]
])
df = pd.DataFrame(data, columns=["Имя", "Возраст", "Город"])
print(df)

     Имя Возраст   Город
0   Анна      25  Москва
1   Иван      30     СПб
2  Ольга      22  Казань


# Создание пустого DataFrame

In [12]:
df = pd.DataFrame(columns=["Имя", "Возраст", "Город"])
print(df)

Empty DataFrame
Columns: [Имя, Возраст, Город]
Index: []


In [13]:
df.loc[0] = ["Анна", 25, "Москва"]
df.loc[1] = ["Иван", 30, "СПб"]
print(df)

    Имя  Возраст   Город
0  Анна       25  Москва
1  Иван       30     СПб


# Чтение данных из CSV

In [14]:
df = pd.read_csv("data.csv")
print(df.head())

         Дата  Цена
0  2024-03-01   100
1  2024-03-02   110
2  2024-03-03   105
3  2024-03-04   120
4  2024-03-05   115


In [19]:
df = pd.read_csv("data.csv", sep=";", index_col=0, na_values=["?",
"N/A"])
print(df.head())

Empty DataFrame
Columns: []
Index: [2024-03-01,100, 2024-03-02,110, 2024-03-03,105, 2024-03-04,120, 2024-03-05,115]


# Метод .head() – просмотр первых строк DataFrame

In [20]:
data = {
"Имя": ["Анна", "Иван", "Ольга", "Петр", "Мария", "Сергей"],
"Возраст": [25, 30, 22, 40, 35, 28],
"Город": ["Москва", "СПб", "Казань", "Новосибирск",
"Екатеринбург", "Сочи"]
}
df = pd.DataFrame(data)
# Выведем первые 3 строки
print(df.head(3))

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


# Метод .tail() – просмотр последних строк DataFrame

In [21]:

print(df.tail(2))

      Имя  Возраст         Город
4   Мария       35  Екатеринбург
5  Сергей       28          Сочи


# Метод .info() – общая информация о DataFrame

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      6 non-null      object
 1   Возраст  6 non-null      int64 
 2   Город    6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


#  Метод .describe() – статистический обзор числовых данных

In [23]:
print(df.describe())

        Возраст
count   6.00000
mean   30.00000
std     6.60303
min    22.00000
25%    25.75000
50%    29.00000
75%    33.75000
max    40.00000


In [24]:
print(df.describe(include="object"))

         Имя   Город
count      6       6
unique     6       6
top     Анна  Москва
freq       1       1


# Доступ к данным с .loc[] (по меткам)

In [25]:
data = {
"Имя": ["Анна", "Иван", "Ольга", "Петр"],
"Возраст": [25, 30, 22, 40],
"Город": ["Москва", "СПб", "Казань", "Новосибирск"]
}
df = pd.DataFrame(data, index=["a", "b", "c", "d"])
print(df)

     Имя  Возраст        Город
a   Анна       25       Москва
b   Иван       30          СПб
c  Ольга       22       Казань
d   Петр       40  Новосибирск


In [26]:
print(df.loc["b"])

Имя        Иван
Возраст      30
Город       СПб
Name: b, dtype: object


In [27]:
print(df.loc["c", "Город"])

Казань


In [28]:
print(df.loc[["a", "c"]])

     Имя  Возраст   Город
a   Анна       25  Москва
c  Ольга       22  Казань


In [29]:
print(df.loc[:, ["Имя", "Город"]])

     Имя        Город
a   Анна       Москва
b   Иван          СПб
c  Ольга       Казань
d   Петр  Новосибирск


In [30]:
print(df.loc[df["Возраст"] > 25])

    Имя  Возраст        Город
b  Иван       30          СПб
d  Петр       40  Новосибирск


# Доступ к данным с .iloc[] (по номерам строк и столбцов)

In [31]:
print(df.iloc[1])

Имя        Иван
Возраст      30
Город       СПб
Name: b, dtype: object


In [32]:
print(df.iloc[2, 2])

Казань


In [33]:
print(df.iloc[[0, 2]])

     Имя  Возраст   Город
a   Анна       25  Москва
c  Ольга       22  Казань


In [34]:
print(df.iloc[1:3])

     Имя  Возраст   Город
b   Иван       30     СПб
c  Ольга       22  Казань


In [35]:
print(df.iloc[:, [0, 2]])

     Имя        Город
a   Анна       Москва
b   Иван          СПб
c  Ольга       Казань
d   Петр  Новосибирск


# Доступ к отдельному элементу с .at[] (по метке индекса)

In [36]:
print(df.at["c", "Город"])

Казань


# Доступ к отдельному элементу с .iat[] (по номеру строки и столбца)

In [37]:
print(df.iat[2, 2])

Казань


# Добавление нового столбца

In [38]:

data = {
"Имя": ["Анна", "Иван", "Ольга"],
"Возраст": [25, 30, 22]
}
df = pd.DataFrame(data)
df["Город"] = ["Москва", "СПб", "Казань"] # Добавляем новый столбец
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [39]:
df["Страна"] = "Россия"
print(df)

     Имя  Возраст   Город  Страна
0   Анна       25  Москва  Россия
1   Иван       30     СПб  Россия
2  Ольга       22  Казань  Россия


In [40]:
df["Возраст_в_месяцах"] = df["Возраст"] * 12
print(df)

     Имя  Возраст   Город  Страна  Возраст_в_месяцах
0   Анна       25  Москва  Россия                300
1   Иван       30     СПб  Россия                360
2  Ольга       22  Казань  Россия                264


In [41]:
df = df.assign(Зарплата=[50000, 60000, 45000])
print(df)

     Имя  Возраст   Город  Страна  Возраст_в_месяцах  Зарплата
0   Анна       25  Москва  Россия                300     50000
1   Иван       30     СПб  Россия                360     60000
2  Ольга       22  Казань  Россия                264     45000


In [48]:
new_data = pd.DataFrame([{"Имя": "Алексей", "Возраст": 29, "Город":
"Томск", "Страна": "Россия"}])
df = pd.concat([df, new_data], ignore_index=True)
print(df)

       Имя  Возраст   Город  Страна  Возраст_в_месяцах  Зарплата  \
0     Анна       25  Москва  Россия              300.0   50000.0   
1     Иван       30     СПб  Россия              360.0   60000.0   
2    Ольга       22  Казань  Россия              264.0   45000.0   
3  Алексей       29   Томск  Россия                NaN       NaN   

  Категория возраста  
0            Молодой  
1           Взрослый  
2            Молодой  
3                NaN  


In [49]:
new_rows = pd.DataFrame([{"Имя": "Дмитрий", "Возраст": 31, "Город": "Самара", "Страна":
"Россия"},
{"Имя": "Елена", "Возраст": 27, "Город": "Воронеж", "Страна":
"Россия"}
])
df = pd.concat([df, new_rows], ignore_index=True)
print(df)

       Имя  Возраст    Город  Страна  Возраст_в_месяцах  Зарплата  \
0     Анна       25   Москва  Россия              300.0   50000.0   
1     Иван       30      СПб  Россия              360.0   60000.0   
2    Ольга       22   Казань  Россия              264.0   45000.0   
3  Алексей       29    Томск  Россия                NaN       NaN   
4  Дмитрий       31   Самара  Россия                NaN       NaN   
5    Елена       27  Воронеж  Россия                NaN       NaN   

  Категория возраста  
0            Молодой  
1           Взрослый  
2            Молодой  
3                NaN  
4                NaN  
5                NaN  


In [50]:
df = pd.concat([df, new_rows], ignore_index=True)
print(df)

       Имя  Возраст    Город  Страна  Возраст_в_месяцах  Зарплата  \
0     Анна       25   Москва  Россия              300.0   50000.0   
1     Иван       30      СПб  Россия              360.0   60000.0   
2    Ольга       22   Казань  Россия              264.0   45000.0   
3  Алексей       29    Томск  Россия                NaN       NaN   
4  Дмитрий       31   Самара  Россия                NaN       NaN   
5    Елена       27  Воронеж  Россия                NaN       NaN   
6  Дмитрий       31   Самара  Россия                NaN       NaN   
7    Елена       27  Воронеж  Россия                NaN       NaN   

  Категория возраста  
0            Молодой  
1           Взрослый  
2            Молодой  
3                NaN  
4                NaN  
5                NaN  
6                NaN  
7                NaN  


# Удаление столбцов

In [51]:
data = {
"Имя": ["Анна", "Иван", "Ольга"],
"Возраст": [25, 30, 22],
"Город": ["Москва", "СПб", "Казань"],
"Зарплата": [50000, 60000, 45000]
}
df = pd.DataFrame(data)
# Удаляем столбец "Зарплата"
df = df.drop(columns=["Зарплата"])
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [52]:
df = df.drop(columns=["Возраст", "Город"])
print(df)

     Имя
0   Анна
1   Иван
2  Ольга


In [53]:
del df["Имя"]
print(df)

Empty DataFrame
Columns: []
Index: [0, 1, 2]


In [54]:
df["Имя"] = ["Анна", "Иван", "Ольга"] # Вернем столбец для примера
удаленный_столбец = df.pop("Имя")
print(удаленный_столбец)

0     Анна
1     Иван
2    Ольга
Name: Имя, dtype: object


# Удаление строк

In [55]:
df = pd.DataFrame(data) # Восстанавливаем DataFrame
# Удаляем строку с индексом 1 (Иван)
df = df.drop(index=1)
print(df)

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
2  Ольга       22  Казань     45000


In [56]:
df = df.drop(index=[0, 2]) # Удаляем Анну и Ольгу
print(df)

Empty DataFrame
Columns: [Имя, Возраст, Город, Зарплата]
Index: []


# Удаление строк с пропущенными значениями ( dropna )

In [58]:
df.loc[3] = ["Мария", None, "Самара", 55000] # Добавим строку с пропуском
df = df.dropna() # Удалим все строки с пропущенными значениями
print(df)

Empty DataFrame
Columns: [Имя, Возраст, Город, Зарплата]
Index: []


# Удаление дубликатов ( drop_duplicates )

In [59]:
df = pd.DataFrame({
"Имя": ["Анна", "Иван", "Анна", "Ольга"],
"Возраст": [25, 30, 25, 22]
})
df = df.drop_duplicates()
print(df)

     Имя  Возраст
0   Анна       25
1   Иван       30
3  Ольга       22


In [60]:
df = df.drop_duplicates(subset=["Имя"])

# Фильтрация с .query()

In [61]:
data = {
"Имя": ["Анна", "Иван", "Ольга", "Петр", "Мария"],
"Возраст": [25, 30, 22, 40, 35],
"Город": ["Москва", "СПб", "Казань", "Новосибирск", "СПб"],
"Зарплата": [50000, 60000, 45000, 70000, 65000]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст        Город  Зарплата
0   Анна       25       Москва     50000
1   Иван       30          СПб     60000
2  Ольга       22       Казань     45000
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


In [62]:
df_filtered = df.query("Возраст > 30")
print(df_filtered)

     Имя  Возраст        Город  Зарплата
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


In [63]:
df_filtered = df.query("Город == 'СПб' and Зарплата > 60000")
print(df_filtered)

     Имя  Возраст Город  Зарплата
4  Мария       35   СПб     65000


In [64]:
min_age = 25
df_filtered = df.query("Возраст > @min_age")
print(df_filtered)

     Имя  Возраст        Город  Зарплата
1   Иван       30          СПб     60000
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


# Фильтрация с .isin()

In [65]:
df_filtered = df[df["Город"].isin(["Москва", "СПб"])]
print(df_filtered)

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
1   Иван       30     СПб     60000
4  Мария       35     СПб     65000


In [67]:
df_filtered = df[~df["Город"].isin(["Москва", "СПб"])]
print(df_filtered)

     Имя  Возраст        Город  Зарплата
2  Ольга       22       Казань     45000
3   Петр       40  Новосибирск     70000


# Фильтрация с .between()

In [68]:
df_filtered = df[df["Возраст"].between(25, 35)]
print(df_filtered)

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
1   Иван       30     СПб     60000
4  Мария       35     СПб     65000


In [69]:
df_filtered = df[df["Возраст"].between(25, 35, inclusive="neither")]
print(df_filtered)

    Имя  Возраст Город  Зарплата
1  Иван       30   СПб     60000


# Подсчет ненулевых значений: .count()

In [70]:
data = {"Имя": ["Анна", "Иван", "Ольга", "Петр", None],
"Возраст": [25, 30, 22, None, 35],
"Город": ["Москва", "СПб", "Казань", "Новосибирск", "СПб"]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст        Город
0   Анна     25.0       Москва
1   Иван     30.0          СПб
2  Ольга     22.0       Казань
3   Петр      NaN  Новосибирск
4   None     35.0          СПб


In [71]:
print(df.count())

Имя        4
Возраст    4
Город      5
dtype: int64


# Подсчет уникальных значений: .value_counts()

In [72]:
print(df["Город"].value_counts())

Город
СПб            2
Москва         1
Казань         1
Новосибирск    1
Name: count, dtype: int64


In [73]:
print(df["Город"].value_counts(sort=False))

Город
Москва         1
СПб            2
Казань         1
Новосибирск    1
Name: count, dtype: int64


In [74]:
print(df["Имя"].value_counts(dropna=False))

Имя
Анна     1
Иван     1
Ольга    1
Петр     1
None     1
Name: count, dtype: int64


# Подсчет количества уникальных значений: .nunique()

In [75]:
print(df.nunique())

Имя        4
Возраст    4
Город      4
dtype: int64


In [76]:
print(df["Имя"].nunique(dropna=False))

5


# Подсчет пропущенных значений: .isna().sum()

In [77]:
print(df.isna().sum())

Имя        1
Возраст    1
Город      0
dtype: int64


# Сортировка по значениям: .sort_values()

In [78]:
data = {
"Имя": ["Анна", "Иван", "Ольга", "Петр", "Мария"],
"Возраст": [25, 30, 22, 40, 35],
"Зарплата": [50000, 60000, 45000, 70000, 65000]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст  Зарплата
0   Анна       25     50000
1   Иван       30     60000
2  Ольга       22     45000
3   Петр       40     70000
4  Мария       35     65000


In [79]:
df_sorted = df.sort_values(by="Возраст")
print(df_sorted)

     Имя  Возраст  Зарплата
2  Ольга       22     45000
0   Анна       25     50000
1   Иван       30     60000
4  Мария       35     65000
3   Петр       40     70000


In [80]:
df_sorted = df.sort_values(by="Возраст", ascending=False)
print(df_sorted)

     Имя  Возраст  Зарплата
3   Петр       40     70000
4  Мария       35     65000
1   Иван       30     60000
0   Анна       25     50000
2  Ольга       22     45000


In [81]:
df_sorted = df.sort_values(by="Возраст", ascending=False)
print(df_sorted)

     Имя  Возраст  Зарплата
3   Петр       40     70000
4  Мария       35     65000
1   Иван       30     60000
0   Анна       25     50000
2  Ольга       22     45000


In [82]:
df.loc[5] = ["Елена", None, 55000] # Добавляем строку с NaN в
"Возраст"
df_sorted = df.sort_values(by="Возраст", na_position="first")
print(df_sorted)

     Имя Возраст  Зарплата
5  Елена    None     55000
2  Ольга      22     45000
0   Анна      25     50000
1   Иван      30     60000
4  Мария      35     65000
3   Петр      40     70000


# Сортировка по индексам: .sort_index()

In [83]:
df_sorted = df.sort_index()
print(df_sorted)

     Имя Возраст  Зарплата
0   Анна      25     50000
1   Иван      30     60000
2  Ольга      22     45000
3   Петр      40     70000
4  Мария      35     65000
5  Елена    None     55000


In [84]:
df_sorted = df.sort_index(ascending=False)
print(df_sorted)

     Имя Возраст  Зарплата
5  Елена    None     55000
4  Мария      35     65000
3   Петр      40     70000
2  Ольга      22     45000
1   Иван      30     60000
0   Анна      25     50000


# Базовое отображение pandas.DataFrame

In [85]:
df = pd.DataFrame({
"Имя": ["Анна", "Иван", "Ольга"],
"Возраст": [25, 30, 22],
"Город": ["Москва", "СПб", "Казань"]
})
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [86]:
from IPython.display import display
display(df)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


In [87]:
df.head(5)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


In [88]:
df.tail(3)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


# Управление настройками отображения

In [90]:
pd.set_option("display.max_rows", 100) #  Показывать до 100 строк

In [91]:
pd.set_option("display.max_columns", 50) # Показывать до 50 столбцов

In [92]:
pd.set_option("display.max_colwidth", None)

In [93]:
pd.set_option("display.float_format", "{:.2f}".format)

# Визуализация больших таблиц

In [94]:
df.style.set_sticky() # Позволяет зафиксировать заголовки таблицы при прокрутке.

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


In [97]:
from tabulate import tabulate
print(tabulate(df, headers="keys", tablefmt="github"))

|    | Имя   |   Возраст | Город   |
|----|-------|-----------|---------|
|  0 | Анна  |        25 | Москва  |
|  1 | Иван  |        30 | СПб     |
|  2 | Ольга |        22 | Казань  |


# Экспорт таблицы в html

In [99]:
html_table = df.to_html()
with open("table.html", "w", encoding="utf-8") as f:
    f.write(html_table)