# Основы Pandas и работа с данными

## 1. Импорт библиотеки

In [1]:
import pandas as pd
import numpy as np

# Проверка версии
print(f"Версия pandas: {pd.__version__}")
print(f"Версия numpy: {np.__version__}")

Версия pandas: 2.3.1
Версия numpy: 2.3.1


## 2. Основные структуры данных

### 2.1 Series - одномерный массив с метками

Series — это одномерный массив с индексами. Можно думать о нём как о столбце Excel или словаре Python.

In [3]:
# Создание Series из списка
simple_series = pd.Series([10, 20, 30, 40, 50])
print("Series из списка:")
print(simple_series)
print(f"Тип: {type(simple_series)}")

Series из списка:
0    10
1    20
2    30
3    40
4    50
dtype: int64
Тип: <class 'pandas.core.series.Series'>


In [4]:
# Создание Series с явными индексами
indexed_series = pd.Series([10, 20, 30, 40, 50], 
                           index=['a', 'b', 'c', 'd', 'e'])
print("\nSeries с индексами:")
print(indexed_series)


Series с индексами:
a    10
b    20
c    30
d    40
e    50
dtype: int64


In [5]:
# Создание Series из словаря
dict_data = {'Москва': 12_000_000, 'Санкт-Петербург': 5_000_000, 
             'Новосибирск': 1_500_000, 'Екатеринбург': 1_400_000}
city_population = pd.Series(dict_data)
print("\nSeries из словаря (население городов):")
print(city_population)


Series из словаря (население городов):
Москва             12000000
Санкт-Петербург     5000000
Новосибирск         1500000
Екатеринбург        1400000
dtype: int64


In [6]:
# Создание Series из NumPy массива
np_array = np.array([1.5, 2.3, 3.7, 4.1, 5.9])
np_series = pd.Series(np_array, index=['Jan', 'Feb', 'Mar', 'Apr', 'May'])
print("\nSeries из NumPy массива:")
print(np_series)


Series из NumPy массива:
Jan    1.5
Feb    2.3
Mar    3.7
Apr    4.1
May    5.9
dtype: float64


### 2.2 Свойства и методы Series

In [7]:
# Основные свойства
print("=== СВОЙСТВА SERIES ===")
print(f"Значения (values): {city_population.values}")
print(f"Индекс (index): {city_population.index}")
print(f"Тип данных (dtype): {city_population.dtype}")
print(f"Форма (shape): {city_population.shape}")
print(f"Размер (size): {city_population.size}")
print(f"Имя Series: {city_population.name}")

=== СВОЙСТВА SERIES ===
Значения (values): [12000000  5000000  1500000  1400000]
Индекс (index): Index(['Москва', 'Санкт-Петербург', 'Новосибирск', 'Екатеринбург'], dtype='object')
Тип данных (dtype): int64
Форма (shape): (4,)
Размер (size): 4
Имя Series: None


In [8]:
# Установка имени
city_population.name = 'Население'
city_population.index.name = 'Город'
print(f"\nSeries с именами:")
print(city_population)


Series с именами:
Город
Москва             12000000
Санкт-Петербург     5000000
Новосибирск         1500000
Екатеринбург        1400000
Name: Население, dtype: int64


In [9]:
# Доступ к элементам
print("\n=== ДОСТУП К ЭЛЕМЕНТАМ ===")
print(f"По индексу: {city_population['Москва']:,}")
print(f"По позиции: {city_population.iloc[0]:,}")
print(f"Первые 2 элемента:\n{city_population.head(2)}")


=== ДОСТУП К ЭЛЕМЕНТАМ ===
По индексу: 12,000,000
По позиции: 12,000,000
Первые 2 элемента:
Город
Москва             12000000
Санкт-Петербург     5000000
Name: Население, dtype: int64


In [10]:
# Операции с Series
print("\n=== ОПЕРАЦИИ ===")
print(f"Сумма: {city_population.sum():,}")
print(f"Среднее: {city_population.mean():,.0f}")
print(f"Максимум: {city_population.max():,}")
print(f"Минимум: {city_population.min():,}")
print(f"Индекс максимального значения: {city_population.idxmax()}")


=== ОПЕРАЦИИ ===
Сумма: 19,900,000
Среднее: 4,975,000
Максимум: 12,000,000
Минимум: 1,400,000
Индекс максимального значения: Москва


In [11]:
# Арифметические операции
population_thousands = city_population / 1000
print(f"\nНаселение в тысячах:\n{population_thousands}")


Население в тысячах:
Город
Москва             12000.0
Санкт-Петербург     5000.0
Новосибирск         1500.0
Екатеринбург        1400.0
Name: Население, dtype: float64


In [12]:
# Фильтрация
big_cities = city_population[city_population > 2_000_000]
print(f"\nГорода с населением > 2 млн:\n{big_cities}")


Города с населением > 2 млн:
Город
Москва             12000000
Санкт-Петербург     5000000
Name: Население, dtype: int64


### 2.3 DataFrame - двумерная таблица
DataFrame — это основная структура данных pandas. Это таблица с именованными столбцами и индексами строк.

In [13]:
# Создание DataFrame из словаря списков
data = {
    'name': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья'],
    'age': [25, 30, 22, 35, 28],
    'city': ['Москва', 'СПб', 'Москва', 'Казань', 'СПб'],
    'salary': [50000, 60000, 45000, 75000, 55000]
}

df = pd.DataFrame(data)
print("DataFrame из словаря:")
print(df)

DataFrame из словаря:
       name  age    city  salary
0     Алиса   25  Москва   50000
1       Боб   30     СПб   60000
2      Вера   22  Москва   45000
3  Григорий   35  Казань   75000
4     Дарья   28     СПб   55000


In [None]:
# Создание DataFrame из списка словарей
list_of_dicts = [
    {'product': 'Laptop', 'price': 50000, 'quantity': 10},
    {'product': 'Mouse', 'price': 500, 'quantity': 50},
    {'product': 'Keyboard', 'price': 1500, 'quantity': 30}
]

df_products = pd.DataFrame(list_of_dicts)
print("DataFrame из списка словарей:")
print(df_products)


DataFrame из списка словарей:
    product  price  quantity
0    Laptop  50000        10
1     Mouse    500        50
2  Keyboard   1500        30


In [None]:
# Создание DataFrame из NumPy массива
np_data = np.random.randint(1, 100, (5, 3))
df_numpy = pd.DataFrame(np_data, 
                        columns=['A', 'B', 'C'],
                        index=['row1', 'row2', 'row3', 'row4', 'row5'])
print("DataFrame из NumPy массива:")
print(df_numpy)


DataFrame из NumPy массива:
       A   B   C
row1  18  16  46
row2  31  77  68
row3  41  61  97
row4  37  38  59
row5  26  92   8


In [None]:
# Создание DataFrame из Series
series1 = pd.Series([1, 2, 3], name='col1')
series2 = pd.Series([4, 5, 6], name='col2')
df_from_series = pd.concat([series1, series2], axis=1)
print("DataFrame из Series:")
print(df_from_series)


DataFrame из Series:
   col1  col2
0     1     4
1     2     5
2     3     6


In [None]:
# Создание DataFrame с указанием индекса
df_indexed = pd.DataFrame(
    data,
    index=['emp001', 'emp002', 'emp003', 'emp004', 'emp005']
)
print("DataFrame с пользовательским индексом:")
print(df_indexed)


DataFrame с пользовательским индексом:
            name  age    city  salary
emp001     Алиса   25  Москва   50000
emp002       Боб   30     СПб   60000
emp003      Вера   22  Москва   45000
emp004  Григорий   35  Казань   75000
emp005     Дарья   28     СПб   55000


### 2.4 Свойства и атрибуты DataFrame

In [19]:
# Используем ранее созданный DataFrame
print("=== ОСНОВНЫЕ СВОЙСТВА ===")
print(f"Форма (rows, columns): {df.shape}")
print(f"Размер (total elements): {df.size}")
print(f"Количество измерений: {df.ndim}")
print(f"Типы данных:\n{df.dtypes}")
print(f"\nИндекс:\n{df.index}")
print(f"\nСтолбцы:\n{df.columns}")
print(f"\nЗначения (как NumPy массив):\n{df.values}")

=== ОСНОВНЫЕ СВОЙСТВА ===
Форма (rows, columns): (5, 4)
Размер (total elements): 20
Количество измерений: 2
Типы данных:
name      object
age        int64
city      object
salary     int64
dtype: object

Индекс:
RangeIndex(start=0, stop=5, step=1)

Столбцы:
Index(['name', 'age', 'city', 'salary'], dtype='object')

Значения (как NumPy массив):
[['Алиса' 25 'Москва' 50000]
 ['Боб' 30 'СПб' 60000]
 ['Вера' 22 'Москва' 45000]
 ['Григорий' 35 'Казань' 75000]
 ['Дарья' 28 'СПб' 55000]]


In [None]:
# Быстрый доступ к столбцам
print("=== ДОСТУП К СТОЛБЦАМ ===")
print(f"Имена: {df['name']}\n")  # как словарь
print(f"Возраст: \n{df.age}")     # как атрибут (только если имя столбца валидно)



=== ДОСТУП К СТОЛБЦАМ ===
Имена: 0       Алиса
1         Боб
2        Вера
3    Григорий
4       Дарья
Name: name, dtype: object

Возраст: 
0    25
1    30
2    22
3    35
4    28
Name: age, dtype: int64


In [None]:
# Выбор нескольких столбцов
subset = df[['name', 'salary']]
print(f"Подмножество столбцов:\n{subset}")


Подмножество столбцов:
       name  salary
0     Алиса   50000
1       Боб   60000
2      Вера   45000
3  Григорий   75000
4     Дарья   55000


In [None]:
# Добавление нового столбца
df['salary_usd'] = df['salary'] / 90  # курс условный
print(f"С новым столбцом:\n{df}")


С новым столбцом:
       name  age    city  salary  salary_usd
0     Алиса   25  Москва   50000  555.555556
1       Боб   30     СПб   60000  666.666667
2      Вера   22  Москва   45000  500.000000
3  Григорий   35  Казань   75000  833.333333
4     Дарья   28     СПб   55000  611.111111


In [None]:
# Удаление столбца (не изменяет исходный DataFrame)
df_dropped = df.drop('salary_usd', axis=1)
print(f"Без столбца salary_usd:\n{df_dropped}")
print(f"\nИсходный DataFrame не изменился:\n{df}")


Без столбца salary_usd:
       name  age    city  salary
0     Алиса   25  Москва   50000
1       Боб   30     СПб   60000
2      Вера   22  Москва   45000
3  Григорий   35  Казань   75000
4     Дарья   28     СПб   55000

Исходный DataFrame не изменился:
       name  age    city  salary  salary_usd
0     Алиса   25  Москва   50000  555.555556
1       Боб   30     СПб   60000  666.666667
2      Вера   22  Москва   45000  500.000000
3  Григорий   35  Казань   75000  833.333333
4     Дарья   28     СПб   55000  611.111111


In [None]:
# Переименование столбцов
df_renamed = df.rename(columns={'name': 'Имя', 'age': 'Возраст'})
print(f"Переименованные столбцы:\n{df_renamed}")


Переименованные столбцы:
        Имя  Возраст    city  salary  salary_usd
0     Алиса       25  Москва   50000  555.555556
1       Боб       30     СПб   60000  666.666667
2      Вера       22  Москва   45000  500.000000
3  Григорий       35  Казань   75000  833.333333
4     Дарья       28     СПб   55000  611.111111


### 2.5 Index - объект индекса

In [28]:
# Различные типы индексов
print("=== ТИПЫ ИНДЕКСОВ ===")

# RangeIndex (по умолчанию)
df_default = pd.DataFrame({'A': [1, 2, 3]})
print(f"RangeIndex:\n{df_default.index}")

# Int64Index
df_int_idx = pd.DataFrame({'A': [1, 2, 3]}, index=[10, 20, 30])
print(f"\nInt64Index:\n{df_int_idx.index}")

# DatetimeIndex
dates = pd.date_range('2024-01-01', periods=5, freq='D')
df_dates = pd.DataFrame({'value': [10, 20, 15, 25, 30]}, index=dates)
print(f"\nDatetimeIndex:\n{df_dates}")

# MultiIndex (иерархический индекс)
arrays = [
    ['A', 'A', 'B', 'B'],
    [1, 2, 1, 2]
]
multi_idx = pd.MultiIndex.from_arrays(arrays, names=['letter', 'number'])
df_multi = pd.DataFrame({'value': [10, 20, 30, 40]}, index=multi_idx)
print(f"\nMultiIndex:\n{df_multi}")

=== ТИПЫ ИНДЕКСОВ ===
RangeIndex:
RangeIndex(start=0, stop=3, step=1)

Int64Index:
Index([10, 20, 30], dtype='int64')

DatetimeIndex:
            value
2024-01-01     10
2024-01-02     20
2024-01-03     15
2024-01-04     25
2024-01-05     30

MultiIndex:
               value
letter number       
A      1          10
       2          20
B      1          30
       2          40


In [None]:
# Операции с индексом
print("=== ОПЕРАЦИИ С ИНДЕКСОМ ===")
df_indexed = pd.DataFrame(
    {'value': [10, 20, 30, 40, 50]},
    index=['a', 'b', 'c', 'd', 'e']
)
print(f"Исходный DataFrame:\n{df_indexed}")


=== ОПЕРАЦИИ С ИНДЕКСОМ ===
Исходный DataFrame:
   value
a     10
b     20
c     30
d     40
e     50


In [None]:
# Сброс индекса
df_reset = df_indexed.reset_index()
print(f"После reset_index():\n{df_reset}")


После reset_index():
  index  value
0     a     10
1     b     20
2     c     30
3     d     40
4     e     50


In [None]:
# Установка столбца как индекса
df_set = df_reset.set_index('index')
print(f"После set_index('index'):\n{df_set}")


После set_index('index'):
       value
index       
a         10
b         20
c         30
d         40
e         50


In [None]:
# Сортировка по индексу
df_sorted = df_indexed.sort_index(ascending=False)
print(f"Отсортированный по индексу:\n{df_sorted}")


Отсортированный по индексу:
   value
e     50
d     40
c     30
b     20
a     10


## 3. Загрузка и сохранение данных

### 3.1 Создание тестовых файлов

In [33]:
# Создание тестового CSV файла
test_data = {
    'student_id': range(1, 11),
    'name': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья', 
             'Евгений', 'Жанна', 'Игорь', 'Ксения', 'Леонид'],
    'faculty': ['ИТ', 'Математика', 'ИТ', 'Физика', 'Математика',
                'ИТ', 'Физика', 'Математика', 'ИТ', 'Физика'],
    'age': [20, 22, 19, 23, 21, 20, 22, 24, 19, 23],
    'gpa': [3.8, 3.5, 4.0, 3.2, 3.9, 3.7, 3.4, 3.6, 3.9, 3.3]
}

df_test = pd.DataFrame(test_data)
df_test.to_csv('students.csv', index=False, encoding='utf-8')
print("Создан файл: students.csv")

# Создание CSV с разными параметрами
df_test.to_csv('students_semicolon.csv', sep=';', index=False, encoding='utf-8')
print("Создан файл: students_semicolon.csv")

Создан файл: students.csv
Создан файл: students_semicolon.csv


### 3.2 Чтение CSV файлов

In [37]:
# Базовое чтение CSV
df_csv = pd.read_csv('students.csv')
print("=== ЧТЕНИЕ CSV (базовое) ===")
print(df_csv)

=== ЧТЕНИЕ CSV (базовое) ===
   student_id      name     faculty  age  gpa
0           1     Алиса          ИТ   20  3.8
1           2       Боб  Математика   22  3.5
2           3      Вера          ИТ   19  4.0
3           4  Григорий      Физика   23  3.2
4           5     Дарья  Математика   21  3.9
5           6   Евгений          ИТ   20  3.7
6           7     Жанна      Физика   22  3.4
7           8     Игорь  Математика   24  3.6
8           9    Ксения          ИТ   19  3.9
9          10    Леонид      Физика   23  3.3


In [None]:
# Чтение CSV с другим разделителем
df_semicolon = pd.read_csv('students_semicolon.csv', sep=';')
print("=== CSV с разделителем ; ===")
print(df_semicolon.head())


=== CSV с разделителем ; ===
   student_id      name     faculty  age  gpa
0           1     Алиса          ИТ   20  3.8
1           2       Боб  Математика   22  3.5
2           3      Вера          ИТ   19  4.0
3           4  Григорий      Физика   23  3.2
4           5     Дарья  Математика   21  3.9


In [None]:
# Чтение с указанием столбца индекса
df_indexed = pd.read_csv('students.csv', index_col='student_id')
print("=== CSV с индексом ===")
print(df_indexed.head())


=== CSV с индексом ===
                name     faculty  age  gpa
student_id                                
1              Алиса          ИТ   20  3.8
2                Боб  Математика   22  3.5
3               Вера          ИТ   19  4.0
4           Григорий      Физика   23  3.2
5              Дарья  Математика   21  3.9


In [None]:
# Чтение только определённых столбцов
df_subset = pd.read_csv('students.csv', usecols=['name', 'faculty', 'gpa'])
print("=== Только выбранные столбцы ===")
print(df_subset)


=== Только выбранные столбцы ===
       name     faculty  gpa
0     Алиса          ИТ  3.8
1       Боб  Математика  3.5
2      Вера          ИТ  4.0
3  Григорий      Физика  3.2
4     Дарья  Математика  3.9
5   Евгений          ИТ  3.7
6     Жанна      Физика  3.4
7     Игорь  Математика  3.6
8    Ксения          ИТ  3.9
9    Леонид      Физика  3.3


In [None]:
# Чтение с преобразованием типов
df_typed = pd.read_csv('students.csv', 
                       dtype={'student_id': str, 'age': 'Int64'})
print("=== С указанием типов ===")
print(df_typed.dtypes)


=== С указанием типов ===
student_id     object
name           object
faculty        object
age             Int64
gpa           float64
dtype: object


In [None]:
# Чтение первых N строк
df_nrows = pd.read_csv('students.csv', nrows=5)
print("=== Первые 5 строк ===")
print(df_nrows)


=== Первые 5 строк ===
   student_id      name     faculty  age  gpa
0           1     Алиса          ИТ   20  3.8
1           2       Боб  Математика   22  3.5
2           3      Вера          ИТ   19  4.0
3           4  Григорий      Физика   23  3.2
4           5     Дарья  Математика   21  3.9


In [None]:
# Пропуск строк
df_skip = pd.read_csv('students.csv', skiprows=[1, 2])
print("=== С пропуском строк 1 и 2 ===")
print(df_skip.head())


=== С пропуском строк 1 и 2 ===
   student_id      name     faculty  age  gpa
0           3      Вера          ИТ   19  4.0
1           4  Григорий      Физика   23  3.2
2           5     Дарья  Математика   21  3.9
3           6   Евгений          ИТ   20  3.7
4           7     Жанна      Физика   22  3.4


In [None]:
# Чтение с обработкой пропусков
# Сначала создадим файл с пропусками
df_with_nan = df_test.copy()
df_with_nan.loc[2, 'gpa'] = np.nan
df_with_nan.loc[5, 'age'] = np.nan
df_with_nan.to_csv('students_nan.csv', index=False)

df_nan = pd.read_csv('students_nan.csv', na_values=['N/A', 'NULL'])
print("=== Файл с пропусками ===")
print(df_nan)


=== Файл с пропусками ===
   student_id      name     faculty   age  gpa
0           1     Алиса          ИТ  20.0  3.8
1           2       Боб  Математика  22.0  3.5
2           3      Вера          ИТ  19.0  NaN
3           4  Григорий      Физика  23.0  3.2
4           5     Дарья  Математика  21.0  3.9
5           6   Евгений          ИТ   NaN  3.7
6           7     Жанна      Физика  22.0  3.4
7           8     Игорь  Математика  24.0  3.6
8           9    Ксения          ИТ  19.0  3.9
9          10    Леонид      Физика  23.0  3.3


### 3.3 Чтение других форматов

In [None]:
# Excel файлы
df_test.to_excel('students.xlsx', index=False, sheet_name='Students')
print("Создан файл: students.xlsx")

df_excel = pd.read_excel('students.xlsx', sheet_name='Students')
print("=== Чтение из Excel ===")
print(df_excel.head())


Создан файл: students.xlsx

=== Чтение из Excel ===
   student_id      name     faculty  age  gpa
0           1     Алиса          ИТ   20  3.8
1           2       Боб  Математика   22  3.5
2           3      Вера          ИТ   19  4.0
3           4  Григорий      Физика   23  3.2
4           5     Дарья  Математика   21  3.9


### 3.4 Сохранение данных в CSV

In [47]:
print("=== СОХРАНЕНИЕ В CSV ===")

# Создадим несколько DataFrame для демонстрации
df_save = pd.DataFrame({
    'date': pd.date_range('2024-01-01', periods=5),
    'value': [10.5234, 20.3456, 15.7891, 25.1234, 30.9567],
    'category': ['A', 'B', 'A', 'C', 'B'],
    'count': [100, 250, 180, 320, 270]
})

print("Данные для сохранения:")
print(df_save)

=== СОХРАНЕНИЕ В CSV ===
Данные для сохранения:
        date    value category  count
0 2024-01-01  10.5234        A    100
1 2024-01-02  20.3456        B    250
2 2024-01-03  15.7891        A    180
3 2024-01-04  25.1234        C    320
4 2024-01-05  30.9567        B    270


In [None]:
# 1. Базовое сохранение (без индекса)
df_save.to_csv('output_basic.csv', index=False)
print("1. Базовое сохранение: output_basic.csv")


1. Базовое сохранение: output_basic.csv


In [49]:
# 2. Сохранение с индексом
df_save.to_csv('output_with_index.csv', index=True)
print("2. С индексом: output_with_index.csv")

2. С индексом: output_with_index.csv


In [50]:
# 3. Другой разделитель (точка с запятой)
df_save.to_csv('output_semicolon.csv', sep=';', index=False)
print("3. Разделитель ';': output_semicolon.csv")

3. Разделитель ';': output_semicolon.csv


In [51]:
# 4. Форматирование чисел
df_save.to_csv('output_formatted.csv', 
               index=False, 
               float_format='%.2f')  # 2 знака после запятой
print("4. Форматированные числа (2 знака): output_formatted.csv")

4. Форматированные числа (2 знака): output_formatted.csv


In [52]:
# 5. Форматирование дат
df_save.to_csv('output_dates.csv',
               index=False,
               date_format='%d.%m.%Y')  # формат: дд.мм.гггг
print("5. Форматированные даты: output_dates.csv")

5. Форматированные даты: output_dates.csv


In [53]:
# 6. Полный контроль форматирования
df_save.to_csv('output_custom.csv',
               index=False,
               sep=';',
               decimal=',',  # десятичный разделитель - запятая
               encoding='utf-8-sig',  # UTF-8 с BOM (для Excel)
               float_format='%.2f',
               date_format='%Y-%m-%d')
print("6. Полностью настроенный: output_custom.csv")

6. Полностью настроенный: output_custom.csv


In [54]:
# 7. Сохранение без заголовков
df_save.to_csv('output_no_header.csv', 
               header=False, 
               index=False)
print("7. Без заголовков: output_no_header.csv")

7. Без заголовков: output_no_header.csv


In [55]:
# 8. Сохранение только определённых столбцов
df_save.to_csv('output_selected_columns.csv',
               columns=['date', 'value'],  # только эти столбцы
               index=False)
print("8. Выбранные столбцы: output_selected_columns.csv")

8. Выбранные столбцы: output_selected_columns.csv


### 3.5 Сохранение данных в Excel

In [58]:
# Создадим несколько DataFrame для работы
df_students = pd.DataFrame({
    'Имя': ['Алиса', 'Боб', 'Вера', 'Григорий', 'Дарья'],
    'Возраст': [20, 22, 19, 23, 21],
    'Факультет': ['ИТ', 'Математика', 'ИТ', 'Физика', 'Математика'],
    'Средний балл': [4.5, 3.8, 4.9, 3.5, 4.2]
})

df_grades = pd.DataFrame({
    'Предмет': ['Математика', 'Физика', 'Программирование', 'Английский'],
    'Средний балл': [4.2, 3.9, 4.5, 4.0],
    'Студентов': [100, 85, 95, 110]
})

df_summary = pd.DataFrame({
    'Показатель': ['Всего студентов', 'Средний возраст', 'Средний балл'],
    'Значение': [5, 21.0, 4.18]
})

In [60]:
# 1. Простое сохранение в Excel
df_students.to_excel('excel_basic.xlsx', 
                     index=False,
                     sheet_name='Студенты')
print("1. Базовое сохранение: excel_basic.xlsx")

1. Базовое сохранение: excel_basic.xlsx


In [61]:
# 2. Сохранение с индексом и форматированием
df_students.to_excel('excel_with_index.xlsx',
                     index=True,
                     sheet_name='Студенты',
                     float_format='%.2f')
print("2. С индексом: excel_with_index.xlsx")

2. С индексом: excel_with_index.xlsx


In [62]:
# 3. СОХРАНЕНИЕ НА РАЗНЫЕ ЛИСТЫ - основной способ

# Способ 1: Использование ExcelWriter
with pd.ExcelWriter('excel_multiple_sheets.xlsx', 
                    engine='openpyxl') as writer:
    df_students.to_excel(writer, sheet_name='Студенты', index=False)
    df_grades.to_excel(writer, sheet_name='Оценки', index=False)
    df_summary.to_excel(writer, sheet_name='Сводка', index=False)

print("   Создан файл с 3 листами: excel_multiple_sheets.xlsx")
print("   Листы: 'Студенты', 'Оценки', 'Сводка'")

   Создан файл с 3 листами: excel_multiple_sheets.xlsx
   Листы: 'Студенты', 'Оценки', 'Сводка'


In [63]:
# 4. Добавление листа к существующему файлу

# Сначала создадим файл
df_students.to_excel('excel_add_sheet.xlsx', 
                     sheet_name='Студенты', 
                     index=False)
print("   Создан файл с листом 'Студенты'")

# Теперь добавим новый лист
with pd.ExcelWriter('excel_add_sheet.xlsx',
                    engine='openpyxl',
                    mode='a') as writer:  # режим добавления!
    df_grades.to_excel(writer, sheet_name='Оценки', index=False)

print("   Добавлен лист 'Оценки' к существующему файлу")


   Создан файл с листом 'Студенты'
   Добавлен лист 'Оценки' к существующему файлу


## 4. Просмотр и базовая информация

### 4.1 Быстрый просмотр данных

In [64]:
# Загрузим данные для демонстрации
df = pd.read_csv('students.csv')

In [65]:
# Первые n строк
df.head(n=5)

Unnamed: 0,student_id,name,faculty,age,gpa
0,1,Алиса,ИТ,20,3.8
1,2,Боб,Математика,22,3.5
2,3,Вера,ИТ,19,4.0
3,4,Григорий,Физика,23,3.2
4,5,Дарья,Математика,21,3.9


In [66]:
# Последние n строк
df.tail(n=5)

Unnamed: 0,student_id,name,faculty,age,gpa
5,6,Евгений,ИТ,20,3.7
6,7,Жанна,Физика,22,3.4
7,8,Игорь,Математика,24,3.6
8,9,Ксения,ИТ,19,3.9
9,10,Леонид,Физика,23,3.3


In [67]:
# Случайная выборка объема n
df.sample(n=5)

Unnamed: 0,student_id,name,faculty,age,gpa
1,2,Боб,Математика,22,3.5
3,4,Григорий,Физика,23,3.2
7,8,Игорь,Математика,24,3.6
2,3,Вера,ИТ,19,4.0
6,7,Жанна,Физика,22,3.4


In [68]:
# Случайная выборка с фиксацией seed
df.sample(frac=0.2, random_state=42)  # 20% случайных строк

Unnamed: 0,student_id,name,faculty,age,gpa
8,9,Ксения,ИТ,19,3.9
1,2,Боб,Математика,22,3.5


### 4.2 Информация о структуре данных

In [69]:
# Базовая информация о DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   student_id  10 non-null     int64  
 1   name        10 non-null     object 
 2   faculty     10 non-null     object 
 3   age         10 non-null     int64  
 4   gpa         10 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 532.0+ bytes


In [71]:
print(f"Форма (shape): {df.shape}")
print(f"Размер (size): {df.size}")
print(f"Столбцы (columns): {df.columns.tolist()}")
print(f"Индекс (index): {df.index}")
print(f"Типы данных (dtypes): {df.dtypes}")

Форма (shape): (10, 5)
Размер (size): 50
Столбцы (columns): ['student_id', 'name', 'faculty', 'age', 'gpa']
Индекс (index): RangeIndex(start=0, stop=10, step=1)
Типы данных (dtypes): student_id      int64
name           object
faculty        object
age             int64
gpa           float64
dtype: object


In [72]:
# Количество уникальных значений
df.nunique()

student_id    10
name          10
faculty        3
age            6
gpa            9
dtype: int64

In [73]:
# Уникальные значения для столбца
print("Уникальные факультеты:")
print(df['faculty'].unique())
print(f"Количество: {df['faculty'].nunique()}")

Уникальные факультеты:
['ИТ' 'Математика' 'Физика']
Количество: 3


In [74]:
# Подсчёт значений
print("Распределение по факультетам:")
print(df['faculty'].value_counts())

print("Распределение по факультетам (с процентами):")
print(df['faculty'].value_counts(normalize=True))

Распределение по факультетам:
faculty
ИТ            4
Математика    3
Физика        3
Name: count, dtype: int64
Распределение по факультетам (с процентами):
faculty
ИТ            0.4
Математика    0.3
Физика        0.3
Name: proportion, dtype: float64


### 4.3 Описательная статистика

In [75]:
# Базовая статистика для всех числовых столбцов
df.describe()

Unnamed: 0,student_id,age,gpa
count,10.0,10.0,10.0
mean,5.5,21.3,3.63
std,3.02765,1.766981,0.275076
min,1.0,19.0,3.2
25%,3.25,20.0,3.425
50%,5.5,21.5,3.65
75%,7.75,22.75,3.875
max,10.0,24.0,4.0


In [76]:
# Включение всех столбцов
df.describe(include='all')

Unnamed: 0,student_id,name,faculty,age,gpa
count,10.0,10,10,10.0,10.0
unique,,10,3,,
top,,Алиса,ИТ,,
freq,,1,4,,
mean,5.5,,,21.3,3.63
std,3.02765,,,1.766981,0.275076
min,1.0,,,19.0,3.2
25%,3.25,,,20.0,3.425
50%,5.5,,,21.5,3.65
75%,7.75,,,22.75,3.875


In [77]:
# Только для категориальных столбцов
df.describe(include=['object'])

Unnamed: 0,name,faculty
count,10,10
unique,10,3
top,Алиса,ИТ
freq,1,4


#### 4.3.2 Расширенная описательная статистика

In [79]:
# Создадим более богатый датасет для демонстрации
np.random.seed(42)
rich_data = pd.DataFrame({
    'values': np.random.normal(100, 15, 1000),
    'category': np.random.choice(['A', 'B', 'C'], 1000),
    'scores': np.random.uniform(0, 100, 1000)
})

print("\nОсновные статистические показатели:")
stats_dict = {
    'Среднее': rich_data['values'].mean(),
    'Медиана': rich_data['values'].median(),
    'Мода': rich_data['values'].mode()[0] if len(rich_data['values'].mode()) > 0 else None,
    'Стандартное отклонение': rich_data['values'].std(),
    'Дисперсия': rich_data['values'].var(),
    'Минимум': rich_data['values'].min(),
    'Максимум': rich_data['values'].max(),
    'Размах': rich_data['values'].max() - rich_data['values'].min(),
    'Квартиль 25%': rich_data['values'].quantile(0.25),
    'Квартиль 75%': rich_data['values'].quantile(0.75),
    'IQR': rich_data['values'].quantile(0.75) - rich_data['values'].quantile(0.25),
    'Асимметрия (skewness)': rich_data['values'].skew(),
    'Эксцесс (kurtosis)': rich_data['values'].kurtosis()
}

for stat, value in stats_dict.items():
    print(f"{stat:25}: {value:.4f}")


Основные статистические показатели:
Среднее                  : 100.2900
Медиана                  : 100.3795
Мода                     : 51.3810
Стандартное отклонение   : 14.6882
Дисперсия                : 215.7444
Минимум                  : 51.3810
Максимум                 : 157.7910
Размах                   : 106.4100
Квартиль 25%             : 90.2861
Квартиль 75%             : 109.7192
IQR                      : 19.4330
Асимметрия (skewness)    : 0.1170
Эксцесс (kurtosis)       : 0.0726


In [None]:
# Квантили
print("Квантили:")
quantiles = [0.1, 0.25, 0.5, 0.75, 0.9, 0.95, 0.99]
print(rich_data['values'].quantile(quantiles))


Квантили:
0.10     81.328553
0.25     90.286145
0.50    100.379509
0.75    109.719158
0.90    119.584678
0.95    125.154588
0.99    134.739543
Name: values, dtype: float64


In [None]:
# Статистика по группам
print("Статистика по категориям:")
print(rich_data.groupby('category')['values'].describe())


Статистика по категориям:
          count        mean        std        min        25%         50%  \
category                                                                   
A         339.0  100.290509  15.023610  51.380990  89.688296  100.153496   
B         346.0  101.013463  14.640159  60.235453  91.592267  101.397845   
C         315.0   99.494730  14.378127  66.832970  90.026607   99.284330   

                 75%         max  
category                          
A         110.137191  146.183212  
B         110.215374  157.790972  
C         108.618548  138.401268  


In [82]:
# Ковариация
print("Ковариация:")
print(rich_data[['values', 'scores']].cov())

Ковариация:
            values      scores
values  215.744367  -38.859989
scores  -38.859989  843.578563


In [83]:
# Корреляция между числовыми столбцами
print("Корреляция:")
print(rich_data[['values', 'scores']].corr())

Корреляция:
         values   scores
values  1.00000 -0.09109
scores -0.09109  1.00000


In [84]:
# Подсчёт пропущенных значений (создадим данные с пропусками)
data_with_nan = rich_data.copy()
data_with_nan.loc[data_with_nan.sample(frac=0.1).index, 'values'] = np.nan
data_with_nan.loc[data_with_nan.sample(frac=0.05).index, 'scores'] = np.nan

print("Пропущенные значения:")
print(data_with_nan.isnull().sum())
print(f"Общее количество пропусков: {data_with_nan.isnull().sum().sum()}")
print(f"Процент пропусков: {data_with_nan.isnull().sum().sum() / data_with_nan.size * 100:.2f}%")


Пропущенные значения:
values      100
category      0
scores       50
dtype: int64
Общее количество пропусков: 150
Процент пропусков: 5.00%


## 5. Индексация и выбор данных

### 5.1 Выбор столбцов

In [85]:
df = pd.read_csv('students.csv')

# Один столбец (возвращает Series)
names = df['name']
print(f"Один столбец (Series):\n{names.head()}")
print(f"Тип: {type(names)}")

Один столбец (Series):
0       Алиса
1         Боб
2        Вера
3    Григорий
4       Дарья
Name: name, dtype: object
Тип: <class 'pandas.core.series.Series'>


In [86]:
# Один столбец (возвращает DataFrame)
names_df = df[['name']]
print(f"Один столбец (DataFrame):\n{names_df.head()}")
print(f"Тип: {type(names_df)}")

Один столбец (DataFrame):
       name
0     Алиса
1       Боб
2      Вера
3  Григорий
4     Дарья
Тип: <class 'pandas.core.frame.DataFrame'>


In [None]:
# Несколько столбцов
subset = df[['name', 'faculty', 'gpa']]
print(f"Несколько столбцов:\n{subset.head()}")

### 5.2 Выбор строк - Индексация: loc vs iloc - ключевые различия

In [87]:
# Создадим DataFrame с неупорядоченным индексом для демонстрации
df_demo = pd.DataFrame(
    {'name': ['Алиса', 'Боб', 'Вера'],
     'age': [25, 30, 22]},
    index=[10, 20, 30]  # Индексы: 10, 20, 30
)

print("DataFrame с индексами [10, 20, 30]:")
print(df_demo)

DataFrame с индексами [10, 20, 30]:
     name  age
10  Алиса   25
20    Боб   30
30   Вера   22


In [89]:
print("--- LOC: работает с МЕТКАМИ ---")
print("df_demo.loc[10] - обращение по метке индекса 10:")
print(df_demo.loc[10])

--- LOC: работает с МЕТКАМИ ---
df_demo.loc[10] - обращение по метке индекса 10:
name    Алиса
age        25
Name: 10, dtype: object


In [90]:
print("df_demo.loc[10:20] - срез ПО МЕТКАМ (включая конец!):")
print(df_demo.loc[10:20])

df_demo.loc[10:20] - срез ПО МЕТКАМ (включая конец!):
     name  age
10  Алиса   25
20    Боб   30


In [91]:
print("--- ILOC: работает с ПОЗИЦИЯМИ ---")
print("df_demo.iloc[0] - обращение по позиции 0 (первая строка):")
print(df_demo.iloc[0])

--- ILOC: работает с ПОЗИЦИЯМИ ---
df_demo.iloc[0] - обращение по позиции 0 (первая строка):
name    Алиса
age        25
Name: 10, dtype: object


In [92]:
print("df_demo.iloc[0:2] - срез ПО ПОЗИЦИЯМ (не включая конец!):")
print(df_demo.iloc[0:2])

df_demo.iloc[0:2] - срез ПО ПОЗИЦИЯМ (не включая конец!):
     name  age
10  Алиса   25
20    Боб   30


⚠️ ВАЖНО
- loc использует МЕТКИ индекса
- iloc использует ПОЗИЦИИ (0, 1, 2, ...)
- loc включает конец среза, iloc - НЕ включает
- В большинстве случаев рекомендуется использовать loc

### 5.3 Индексация по меткам (loc) - основной инструмент

`loc` используется для доступа по меткам индекса и названиям столбцов

Синтаксис: `df.loc[rows, columns]`

In [None]:
# Вернёмся к нашему датасету студентов
df = pd.read_csv('data/students.csv')

In [93]:
# Одна строка по индексу (по умолчанию индексы: 0, 1, 2, ...)
print("Строка с индексом 0:")
print(df.loc[0])

Строка с индексом 0:
student_id        1
name          Алиса
faculty          ИТ
age              20
gpa             3.8
Name: 0, dtype: object


In [94]:
# Несколько строк
print("Строки 0-2:")
print(df.loc[0:2])  # включая 2!

Строки 0-2:
   student_id   name     faculty  age  gpa
0           1  Алиса          ИТ   20  3.8
1           2    Боб  Математика   22  3.5
2           3   Вера          ИТ   19  4.0


In [99]:
# Строки с определёнными индексами
print("Строки с индексами 0, 3, 5:")
print(df.loc[[0, 3, 5]])

Строки с индексами 0, 3, 5:
   student_id      name faculty  age  gpa
0           1     Алиса      ИТ   20  3.8
3           4  Григорий  Физика   23  3.2
5           6   Евгений      ИТ   20  3.7


In [95]:
# Одна ячейка
print(f"Значение (row=0, col='name'): {df.loc[0, 'name']}")

Значение (row=0, col='name'): Алиса


In [96]:
# Строки и столбцы
print("Строки 0-2, столбцы name и gpa:")
print(df.loc[0:2, ['name', 'gpa']])

Строки 0-2, столбцы name и gpa:
    name  gpa
0  Алиса  3.8
1    Боб  3.5
2   Вера  4.0


In [97]:
# Все строки, определённые столбцы
print("Все строки, столбцы name и age:")
print(df.loc[:, ['name', 'age']].head())

Все строки, столбцы name и age:
       name  age
0     Алиса   20
1       Боб   22
2      Вера   19
3  Григорий   23
4     Дарья   21


In [98]:
# Срезы столбцов (работают по меткам!)
print("Срез столбцов от name до age:")
print(df.loc[:, 'name':'age'].head())

Срез столбцов от name до age:
       name     faculty  age
0     Алиса          ИТ   20
1       Боб  Математика   22
2      Вера          ИТ   19
3  Григорий      Физика   23
4     Дарья  Математика   21


### 5.4 Логическая индексация (булевы маски)

In [101]:
df = pd.read_csv('students.csv')

# Создание булевой маски
age_mask = df['age'] > 21
print(f"Маска (возраст > 21):\n{age_mask}")

# Применение маски с loc
older_students = df.loc[age_mask]
print(f"\nСтуденты старше 21 (через loc):\n{older_students}")

Маска (возраст > 21):
0    False
1     True
2    False
3     True
4    False
5    False
6     True
7     True
8    False
9     True
Name: age, dtype: bool

Студенты старше 21 (через loc):
   student_id      name     faculty  age  gpa
1           2       Боб  Математика   22  3.5
3           4  Григорий      Физика   23  3.2
6           7     Жанна      Физика   22  3.4
7           8     Игорь  Математика   24  3.6
9          10    Леонид      Физика   23  3.3


In [102]:
# Можно делать в одну строку
print("Студенты моложе 21:")
print(df.loc[df['age'] < 21])

Студенты моложе 21:
   student_id     name faculty  age  gpa
0           1    Алиса      ИТ   20  3.8
2           3     Вера      ИТ   19  4.0
5           6  Евгений      ИТ   20  3.7
8           9   Ксения      ИТ   19  3.9


__Множественные условия (используем & для AND, | для OR)__

__ВАЖНО: каждое условие должно быть в скобках!__

In [None]:
print("Студенты ИТ факультета старше 19:")
print(df.loc[(df['faculty'] == 'ИТ') & (df['age'] > 19)])

Студенты ИТ факультета старше 19:
   student_id     name faculty  age  gpa
0           1    Алиса      ИТ   20  3.8
5           6  Евгений      ИТ   20  3.7


In [104]:
print("Студенты с GPA > 3.8 ИЛИ возрастом < 20:")
print(df.loc[(df['gpa'] > 3.8) | (df['age'] < 20)])

Студенты с GPA > 3.8 ИЛИ возрастом < 20:
   student_id    name     faculty  age  gpa
2           3    Вера          ИТ   19  4.0
4           5   Дарья  Математика   21  3.9
8           9  Ксения          ИТ   19  3.9


In [105]:
# Отрицание условия
print("Студенты НЕ с ИТ факультета:")
print(df.loc[~(df['faculty'] == 'ИТ')])

Студенты НЕ с ИТ факультета:
   student_id      name     faculty  age  gpa
1           2       Боб  Математика   22  3.5
3           4  Григорий      Физика   23  3.2
4           5     Дарья  Математика   21  3.9
6           7     Жанна      Физика   22  3.4
7           8     Игорь  Математика   24  3.6
9          10    Леонид      Физика   23  3.3


In [106]:
# Проверка вхождения в список
it_math = df.loc[df['faculty'].isin(['ИТ', 'Математика'])]
print("\nСтуденты ИТ или Математики:")
print(it_math)


Студенты ИТ или Математики:
   student_id     name     faculty  age  gpa
0           1    Алиса          ИТ   20  3.8
1           2      Боб  Математика   22  3.5
2           3     Вера          ИТ   19  4.0
4           5    Дарья  Математика   21  3.9
5           6  Евгений          ИТ   20  3.7
7           8    Игорь  Математика   24  3.6
8           9   Ксения          ИТ   19  3.9


In [107]:
# between для диапазона
print("Студенты с возрастом от 20 до 22:")
print(df.loc[df['age'].between(20, 22)])

Студенты с возрастом от 20 до 22:
   student_id     name     faculty  age  gpa
0           1    Алиса          ИТ   20  3.8
1           2      Боб  Математика   22  3.5
4           5    Дарья  Математика   21  3.9
5           6  Евгений          ИТ   20  3.7
6           7    Жанна      Физика   22  3.4


In [108]:
# Проверка строк
print("Имена, начинающиеся с 'А':")
print(df.loc[df['name'].str.startswith('А')])

Имена, начинающиеся с 'А':
   student_id   name faculty  age  gpa
0           1  Алиса      ИТ   20  3.8


In [109]:
print("Имена, содержащие 'е':")
print(df.loc[df['name'].str.contains('е')])

Имена, содержащие 'е':
   student_id     name faculty  age  gpa
2           3     Вера      ИТ   19  4.0
5           6  Евгений      ИТ   20  3.7
8           9   Ксения      ИТ   19  3.9
9          10   Леонид  Физика   23  3.3


In [110]:
# Комбинированная фильтрация с выбором столбцов
print("ИТ студенты старше 19, только имя и GPA:")
print(df.loc[(df['faculty'] == 'ИТ') & (df['age'] > 19), ['name', 'gpa']])

ИТ студенты старше 19, только имя и GPA:
      name  gpa
0    Алиса  3.8
5  Евгений  3.7
