# Введение в Pandas

## Что такое Pandas?

Pandas - это мощная библиотека с открытым исходным кодом для анализа и обработки данных в Python. Она предоставляет быстрые, гибкие и выразительные структуры данных, разработанные для того, чтобы сделать работу с "реляционными" или "размеченными" данными простой и интуитивно понятной.

## Ключевые особенности Pandas

- **DataFrame**: Двумерная размеченная структура данных со столбцами потенциально разных типов
- **Series**: Одномерный размеченный массив, способный хранить данные любого типа
- **Мощные возможности манипуляции данными**: фильтрация, выборка, группировка, объединение, изменение формы и т.д.
- **Обработка отсутствующих данных**: Встроенные инструменты для работы с отсутствующими значениями
- **Функциональность временных рядов**: Генерация диапазонов дат, преобразование частоты, статистика скользящего окна и т.д.

## Pandas и NumPy

Pandas построен на основе NumPy, что означает:
- Pandas использует массивы NumPy для хранения своих данных
- Многие операции Pandas возвращают массивы NumPy
- Pandas расширяет функциональность NumPy, предоставляя инструменты манипуляции данными более высокого уровня
- В то время как NumPy превосходен в численных операциях с однородными массивами, Pandas оптимизирован для работы с табличными, гетерогенными данными

Давайте импортируем библиотеки и рассмотрим некоторые базовые примеры:


In [1]:
import numpy as np
import pandas as pd

### Series

In [3]:
# Создание Series из списка
s1 = pd.Series([1, 3, 5, 7, 9])
s1


0    1
1    3
2    5
3    7
4    9
dtype: int64

In [6]:

# Создание Series из списка с пользовательским индексом
s2 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
s2


a    10
b    20
c    30
d    40
dtype: int64

In [7]:

# Создание Series из словаря
s3 = pd.Series({'a': 100, 'b': 200, 'c': 300})
s3


a    100
b    200
c    300
dtype: int64

In [8]:

# Создание Series из NumPy массива
arr = np.array([2, 4, 6, 8])
s4 = pd.Series(arr)
s4


0    2
1    4
2    6
3    8
dtype: int64

In [9]:

# Базовые операции с Series
# s2 + 5
s2 + 5


a    15
b    25
c    35
d    45
dtype: int64

In [10]:

# s2 * 2
s2 * 2


a    20
b    40
c    60
d    80
dtype: int64

In [11]:

s2 > 25


a    False
b    False
c     True
d     True
dtype: bool

In [12]:

# Индексация и срезы
# Доступ по метке
s2['b']

20

In [None]:

# Доступ по позиции
s2[1]  # Также можно использовать позиционный индекс

In [13]:

# Выбор нескольких элементов
s2[['a', 'c']]


a    10
c    30
dtype: int64

In [14]:

# Срез по позиционному индексу
s2[1:3]


b    20
c    30
dtype: int64

In [15]:
# Методы Series: среднее значение, максимальное значение, минимальное значение
s1.mean(), s1.max(), s1.min()

(5.0, 9, 1)

In [16]:
# Статистическое описание
s1.describe()

count    5.000000
mean     5.000000
std      3.162278
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64

In [17]:
# Работа с отсутствующими значениями
s5 = pd.Series([1, 2, np.nan, 4, 5])
s5


0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64

In [18]:
# Проверка на NaN
s5.isna()

0    False
1    False
2     True
3    False
4    False
dtype: bool

In [19]:
# Удаление NaN
s5.dropna()

0    1.0
1    2.0
3    4.0
4    5.0
dtype: float64

In [20]:
# Заполнение NaN значением
s5.fillna(0)

0    1.0
1    2.0
2    0.0
3    4.0
4    5.0
dtype: float64

### Dataframe

In [21]:
# DataFrame - основная структура данных в pandas
print("# DataFrame - двумерная структура данных в pandas")
print()

# Создание DataFrame из словаря
print("## Создание DataFrame из словаря:")
data_dict = {
    'Имя': ['Анна', 'Борис', 'Вера', 'Григорий'],
    'Возраст': [25, 30, 35, 40],
    'Город': ['Москва', 'Санкт-Петербург', 'Казань', 'Новосибирск']
}
df1 = pd.DataFrame(data_dict)
print(df1)
print()


# DataFrame - двумерная структура данных в pandas

## Создание DataFrame из словаря:
        Имя  Возраст            Город
0      Анна       25           Москва
1     Борис       30  Санкт-Петербург
2      Вера       35           Казань
3  Григорий       40      Новосибирск



In [22]:

# Создание DataFrame из списка словарей
print("## Создание DataFrame из списка словарей:")
data_list = [
    {'Имя': 'Анна', 'Возраст': 25, 'Город': 'Москва'},
    {'Имя': 'Борис', 'Возраст': 30, 'Город': 'Санкт-Петербург'},
    {'Имя': 'Вера', 'Возраст': 35, 'Город': 'Казань'},
    {'Имя': 'Григорий', 'Возраст': 40, 'Город': 'Новосибирск'}
]
df2 = pd.DataFrame(data_list)
print(df2)
print()


## Создание DataFrame из списка словарей:
        Имя  Возраст            Город
0      Анна       25           Москва
1     Борис       30  Санкт-Петербург
2      Вера       35           Казань
3  Григорий       40      Новосибирск



In [23]:

# Создание DataFrame из NumPy массива
print("## Создание DataFrame из NumPy массива:")
data_array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df3 = pd.DataFrame(data_array, columns=['A', 'B', 'C'])
print(df3)
print()


## Создание DataFrame из NumPy массива:
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9



In [24]:

# Создание временного CSV файла для демонстрации
import io
csv_data = """id,name,age,city
1,Анна,25,Москва
2,Борис,30,Санкт-Петербург
3,Вера,35,Казань
4,Григорий,40,Новосибирск"""

# Чтение из CSV
print("## Чтение данных из CSV файла:")
# В реальном сценарии используйте: df4 = pd.read_csv('filename.csv')
df4 = pd.read_csv(io.StringIO(csv_data))
print(df4)
print()

## Чтение данных из CSV файла:
   id      name  age             city
0   1      Анна   25           Москва
1   2     Борис   30  Санкт-Петербург
2   3      Вера   35           Казань
3   4  Григорий   40      Новосибирск



In [26]:

# Основные атрибуты DataFrame
print("## Основные атрибуты DataFrame:")
print("Размерность (shape):", df4.shape)
print("\nСтолбцы (columns):")
print(df4.columns)
print("\nИндекс (index):")
print(df4.index)
print("\nТипы данных (dtypes):")
print(df4.dtypes)


## Основные атрибуты DataFrame:
Размерность (shape): (4, 4)

Столбцы (columns):
Index(['id', 'name', 'age', 'city'], dtype='object')

Индекс (index):
RangeIndex(start=0, stop=4, step=1)

Типы данных (dtypes):
id       int64
name    object
age      int64
city    object
dtype: object


In [27]:
print("\nКраткая информация о DataFrame:")
print(df4.info())



Краткая информация о DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      4 non-null      int64 
 1   name    4 non-null      object
 2   age     4 non-null      int64 
 3   city    4 non-null      object
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes
None


In [28]:
print("\nСтатистическое описание числовых столбцов:")
print(df4.describe())


Статистическое описание числовых столбцов:
             id        age
count  4.000000   4.000000
mean   2.500000  32.500000
std    1.290994   6.454972
min    1.000000  25.000000
25%    1.750000  28.750000
50%    2.500000  32.500000
75%    3.250000  36.250000
max    4.000000  40.000000


### Dataframe operations

In [29]:
# Создадим DataFrame для демонстрации
print("## Индексация и срезы в DataFrame:")
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500]
}, index=['row1', 'row2', 'row3', 'row4', 'row5'])
print(df)
print()

# Доступ к столбцам
print("## Доступ к столбцам:")
print("Столбец 'A':")
print(df['A'])
print("\nНесколько столбцов:")
print(df[['A', 'C']])
print()

# Доступ к строкам по индексу
print("## Доступ к строкам по индексу:")
print("Первые 2 строки:")
print(df[:2])
print()

# loc vs iloc
print("## loc vs iloc:")
print("loc - индексация по меткам:")
print("df.loc['row2']:")
print(df.loc['row2'])
print("\ndf.loc['row1':'row3', 'A':'B']:")
print(df.loc['row1':'row3', 'A':'B'])
print()

print("iloc - индексация по позициям:")
print("df.iloc[1]:")
print(df.iloc[1])
print("\ndf.iloc[0:3, 0:2]:")
print(df.iloc[0:3, 0:2])
print()

# Условная индексация
print("## Условная индексация:")
print("Строки, где A > 2:")
print(df[df['A'] > 2])
print()

# Многоуровневая индексация
print("## Многоуровневая индексация:")
# Создаем DataFrame с многоуровневым индексом
multi_index = pd.MultiIndex.from_tuples([
    ('A', 'один'), ('A', 'два'), 
    ('B', 'один'), ('B', 'два'), ('B', 'три')
], names=['Первый уровень', 'Второй уровень'])

df_multi = pd.DataFrame({
    'Значение': [10, 20, 30, 40, 50]
}, index=multi_index)

print(df_multi)
print()

# Доступ к данным в многоуровневом индексе
print("## Доступ к данным в многоуровневом индексе:")
print("df_multi.loc['A']:")
print(df_multi.loc['A'])
print("\ndf_multi.loc[('A', 'один')]:")
print(df_multi.loc[('A', 'один')])
print()

# Установка и сброс индекса
print("## Установка и сброс индекса:")
print("Исходный DataFrame:")
print(df4)
print("\nУстановка столбца 'name' в качестве индекса:")
df_indexed = df4.set_index('name')
print(df_indexed)
print("\nСброс индекса обратно в столбец:")
df_reset = df_indexed.reset_index()
print(df_reset)
print()

# Установка нескольких уровней индекса
print("## Установка нескольких уровней индекса:")
df_multi_indexed = df4.set_index(['city', 'name'])
print(df_multi_indexed)
print("\nСброс всех уровней индекса:")
print(df_multi_indexed.reset_index())


## Индексация и срезы в DataFrame:
      A   B    C
row1  1  10  100
row2  2  20  200
row3  3  30  300
row4  4  40  400
row5  5  50  500

## Доступ к столбцам:
Столбец 'A':
row1    1
row2    2
row3    3
row4    4
row5    5
Name: A, dtype: int64

Несколько столбцов:
      A    C
row1  1  100
row2  2  200
row3  3  300
row4  4  400
row5  5  500

## Доступ к строкам по индексу:
Первые 2 строки:
      A   B    C
row1  1  10  100
row2  2  20  200

## loc vs iloc:
loc - индексация по меткам:
df.loc['row2']:
A      2
B     20
C    200
Name: row2, dtype: int64

df.loc['row1':'row3', 'A':'B']:
      A   B
row1  1  10
row2  2  20
row3  3  30

iloc - индексация по позициям:
df.iloc[1]:
A      2
B     20
C    200
Name: row2, dtype: int64

df.iloc[0:3, 0:2]:
      A   B
row1  1  10
row2  2  20
row3  3  30

## Условная индексация:
Строки, где A > 2:
      A   B    C
row3  3  30  300
row4  4  40  400
row5  5  50  500

## Многоуровневая индексация:
                               Значение
Первый уровень

### Merge dataframes

In [30]:
print("## Объединение и соединение DataFrame:")

# Создаем два DataFrame для демонстрации
print("### Исходные DataFrame:")
df_a = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

df_b = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

print("DataFrame A:")
print(df_a)
print("\nDataFrame B:")
print(df_b)
print()

## Объединение и соединение DataFrame:
### Исходные DataFrame:
DataFrame A:
  key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K2  A2  B2
3  K3  A3  B3

DataFrame B:
  key   C   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K4  C3  D3



In [31]:

# Метод concat() - объединение DataFrame
print("### Метод concat() - вертикальное объединение DataFrame:")
result_concat = pd.concat([df_a, df_b], ignore_index=True)
print(result_concat)
print()

print("### Метод concat() - горизонтальное объединение DataFrame (axis=1):")
result_concat_horizontal = pd.concat([df_a, df_b], axis=1)
print(result_concat_horizontal)
print()

### Метод concat() - вертикальное объединение DataFrame:
  key    A    B    C    D
0  K0   A0   B0  NaN  NaN
1  K1   A1   B1  NaN  NaN
2  K2   A2   B2  NaN  NaN
3  K3   A3   B3  NaN  NaN
4  K0  NaN  NaN   C0   D0
5  K1  NaN  NaN   C1   D1
6  K2  NaN  NaN   C2   D2
7  K4  NaN  NaN   C3   D3

### Метод concat() - горизонтальное объединение DataFrame (axis=1):
  key   A   B key   C   D
0  K0  A0  B0  K0  C0  D0
1  K1  A1  B1  K1  C1  D1
2  K2  A2  B2  K2  C2  D2
3  K3  A3  B3  K4  C3  D3



In [32]:

# Метод merge() - соединение DataFrame по ключу
print("### Метод merge() - соединение DataFrame по ключу:")
print("\nВнутреннее соединение (inner join):")
result_inner = pd.merge(df_a, df_b, on='key', how='inner')
print(result_inner)
print()

print("Левое соединение (left join):")
result_left = pd.merge(df_a, df_b, on='key', how='left')
print(result_left)
print()

print("Правое соединение (right join):")
result_right = pd.merge(df_a, df_b, on='key', how='right')
print(result_right)
print()

print("Внешнее соединение (outer join):")
result_outer = pd.merge(df_a, df_b, on='key', how='outer')
print(result_outer)
print()

### Метод merge() - соединение DataFrame по ключу:

Внутреннее соединение (inner join):
  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2

Левое соединение (left join):
  key   A   B    C    D
0  K0  A0  B0   C0   D0
1  K1  A1  B1   C1   D1
2  K2  A2  B2   C2   D2
3  K3  A3  B3  NaN  NaN

Правое соединение (right join):
  key    A    B   C   D
0  K0   A0   B0  C0  D0
1  K1   A1   B1  C1  D1
2  K2   A2   B2  C2  D2
3  K4  NaN  NaN  C3  D3

Внешнее соединение (outer join):
  key    A    B    C    D
0  K0   A0   B0   C0   D0
1  K1   A1   B1   C1   D1
2  K2   A2   B2   C2   D2
3  K3   A3   B3  NaN  NaN
4  K4  NaN  NaN   C3   D3



In [33]:

# Метод join() - соединение DataFrame по индексу
print("### Метод join() - соединение DataFrame по индексу:")
df_c = df_a.set_index('key')
df_d = df_b.set_index('key')

print("DataFrame C (с индексом 'key'):")
print(df_c)
print("\nDataFrame D (с индексом 'key'):")
print(df_d)
print()

print("Соединение по индексу:")
result_join = df_c.join(df_d, how='inner')
print(result_join)
print()

print("Левое соединение по индексу:")
result_join_left = df_c.join(df_d, how='left')
print(result_join_left)
print()

### Метод join() - соединение DataFrame по индексу:
DataFrame C (с индексом 'key'):
      A   B
key        
K0   A0  B0
K1   A1  B1
K2   A2  B2
K3   A3  B3

DataFrame D (с индексом 'key'):
      C   D
key        
K0   C0  D0
K1   C1  D1
K2   C2  D2
K4   C3  D3

Соединение по индексу:
      A   B   C   D
key                
K0   A0  B0  C0  D0
K1   A1  B1  C1  D1
K2   A2  B2  C2  D2

Левое соединение по индексу:
      A   B    C    D
key                  
K0   A0  B0   C0   D0
K1   A1  B1   C1   D1
K2   A2  B2   C2   D2
K3   A3  B3  NaN  NaN



In [34]:

# Пример практического использования
print("### Практический пример объединения данных:")
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5],
    'name': ['Анна', 'Борис', 'Вера', 'Григорий', 'Дарья']
})

orders = pd.DataFrame({
    'order_id': [101, 102, 103, 104],
    'customer_id': [1, 2, 3, 1],
    'amount': [1000, 500, 2000, 750]
})

print("Таблица клиентов:")
print(customers)
print("\nТаблица заказов:")
print(orders)
print()

print("Объединение данных о клиентах и их заказах:")
customer_orders = pd.merge(customers, orders, on='customer_id')
print(customer_orders)


### Практический пример объединения данных:
Таблица клиентов:
   customer_id      name
0            1      Анна
1            2     Борис
2            3      Вера
3            4  Григорий
4            5     Дарья

Таблица заказов:
   order_id  customer_id  amount
0       101            1    1000
1       102            2     500
2       103            3    2000
3       104            1     750

Объединение данных о клиентах и их заказах:
   customer_id   name  order_id  amount
0            1   Анна       101    1000
1            1   Анна       104     750
2            2  Борис       102     500
3            3   Вера       103    2000


### Performance

In [46]:
import numpy as np
import time
import sys

In [38]:

# Сравнение производительности: Pandas vs традиционные структуры данных Python
print("### Сравнение производительности: Pandas vs Python")

# Создаем тестовые данные
n = 1_000_000
print(f"Тестирование на {n:,} элементах")

### Сравнение производительности: Pandas vs Python
Тестирование на 1,000,000 элементах


In [39]:

# 1. Сравнение скорости создания структур данных
print("\n1. Скорость создания структур данных:")

start = time.time()
python_list = list(range(n))
python_time = time.time() - start
print(f"Python список: {python_time:.4f} сек")

start = time.time()
numpy_array = np.arange(n)
numpy_time = time.time() - start
print(f"NumPy массив: {numpy_time:.4f} сек")

start = time.time()
pandas_series = pd.Series(np.arange(n))
pandas_time = time.time() - start
print(f"Pandas Series: {pandas_time:.4f} сек")


1. Скорость создания структур данных:
Python список: 0.0187 сек
NumPy массив: 0.0013 сек
Pandas Series: 0.0015 сек


In [40]:
# 2. Сравнение векторизованных операций и циклов
print("\n2. Векторизованные операции vs циклы:")

# Python цикл
start = time.time()
result_list = []
for i in python_list:
    result_list.append(i * 2)
python_loop_time = time.time() - start
print(f"Python цикл: {python_loop_time:.4f} сек")

# Python list comprehension
start = time.time()
result_list_comp = [i * 2 for i in python_list]
python_comp_time = time.time() - start
print(f"Python list comprehension: {python_comp_time:.4f} сек")

# NumPy векторизация
start = time.time()
result_numpy = numpy_array * 2
numpy_vec_time = time.time() - start
print(f"NumPy векторизация: {numpy_vec_time:.4f} сек")

# Pandas векторизация
start = time.time()
result_pandas = pandas_series * 2
pandas_vec_time = time.time() - start
print(f"Pandas векторизация: {pandas_vec_time:.4f} сек")

# Сравнение ускорения
print(f"\nУскорение NumPy vs Python цикл: {python_loop_time/numpy_vec_time:.1f}x")
print(f"Ускорение Pandas vs Python цикл: {python_loop_time/pandas_vec_time:.1f}x")


2. Векторизованные операции vs циклы:
Python цикл: 0.0683 сек
Python list comprehension: 0.0201 сек
NumPy векторизация: 0.0018 сек
Pandas векторизация: 0.0024 сек

Ускорение NumPy vs Python цикл: 38.8x
Ускорение Pandas vs Python цикл: 28.1x


In [43]:

# 3. Использование памяти
print("\n3. Использование памяти:")

# Функция для измерения размера объекта
def get_size(obj):
    return sys.getsizeof(obj)

print(f"Python список: {get_size(python_list) / (1024*1024):.2f} МБ")
print(f"NumPy массив: {get_size(numpy_array) / (1024*1024):.2f} МБ")
print(f"Pandas Series: {get_size(pandas_series) / (1024*1024):.2f} МБ")

# 4. Демонстрация эффективности при фильтрации данных
print("\n4. Эффективность при фильтрации данных:")

# Создаем DataFrame с несколькими столбцами для демонстрации
df = pd.DataFrame({
    'A': np.random.rand(n),
    'B': np.random.rand(n),
    'C': np.random.rand(n)
})

# Python фильтрация
start = time.time()
filtered_list = [i for i, val in enumerate(python_list) if val > n/2]
python_filter_time = time.time() - start
print(f"Python фильтрация: {python_filter_time:.4f} сек")

# Pandas фильтрация
start = time.time()
filtered_df = df[df['A'] > 0.5]
pandas_filter_time = time.time() - start
print(f"Pandas фильтрация: {pandas_filter_time:.4f} сек")
print()
print(f"Ускорение Pandas vs Python цикл: {python_filter_time/pandas_filter_time:.1f}x")



3. Использование памяти:
Python список: 7.63 МБ
NumPy массив: 7.63 МБ
Pandas Series: 7.63 МБ

4. Эффективность при фильтрации данных:
Python фильтрация: 0.0656 сек
Pandas фильтрация: 0.0062 сек

Ускорение Pandas vs Python цикл: 10.6x
