In [None]:
# импорт библиотек (базовый старт)
import numpy as np
import pandas as pd

# Numpy

In [None]:
# создание ndarray из списка, задание типа, форма
a = np.array([1, 2, 3], dtype=np.int64)
b = np.array([[1., 2.], [3., 4.]])
a.dtype, a.shape, b.shape

(dtype('int64'), (3,), (2, 2))

In [None]:
# позиционная индексация, срезы, булевы маски
x = np.array([10, 20, 30, 40, 50])
x[0], x[-1], x[1:4], x[x > 25]

(np.int64(10), np.int64(50), array([20, 30, 40]), array([30, 40, 50]))

In [None]:
# поэлементные операции без циклов + универсальные функции
v = np.array([1, 2, 3, 4])
(v + 10, v * 2, np.sqrt(v), np.exp(v))

(array([11, 12, 13, 14]),
 array([2, 4, 6, 8]),
 array([1.        , 1.41421356, 1.73205081, 2.        ]),
 array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003]))

In [None]:
# суммирование/среднее/максимум по всему массиву и по оси
M = np.array([[1, 2, 3], [4, 5, 6]])
M.sum(), M.mean(), M.max(), M.sum(axis=0), M.mean(axis=1)

(np.int64(21), np.float64(3.5), np.int64(6), array([5, 7, 9]), array([2., 5.]))

In [None]:
# автоматическое растягивание форм при совместимых размерах
A = np.array([[1, 2, 3], [4, 5, 6]])
row = np.array([10, 20, 30])
A_plus_row = A + row  # добавление в каждую строку
A_plus_row

array([[11, 22, 33],
       [14, 25, 36]])

In [None]:
# равномерные последовательности и случайные числа
r1 = np.arange(0, 10, 2)
r2 = np.linspace(0, 1, 5)
rng = np.random.default_rng(42)
r3 = rng.normal(loc=0, scale=1, size=(2, 3))
r1, r2, rng, r3

(array([0, 2, 4, 6, 8]),
 array([0.  , 0.25, 0.5 , 0.75, 1.  ]),
 Generator(PCG64) at 0x7ACB13391460,
 array([[ 0.30471708, -1.03998411,  0.7504512 ],
        [ 0.94056472, -1.95103519, -1.30217951]]))

In [None]:
# reshape/flatten/stack/concatenate
Z = np.arange(6).reshape(2, 3)
flat = Z.ravel()
c1 = np.concatenate([Z, Z], axis=0)
c2 = np.hstack([Z, Z])
Z, c1, c2

(array([[0, 1, 2],
        [3, 4, 5]]),
 array([[0, 1, 2],
        [3, 4, 5],
        [0, 1, 2],
        [3, 4, 5]]),
 array([[0, 1, 2, 0, 1, 2],
        [3, 4, 5, 3, 4, 5]]))

In [None]:
# матричное умножение, транспонирование, нормы
X = np.array([[1, 2], [3, 4]])
Y = np.array([[5, 6], [7, 8]])
X @ Y, X.T, np.linalg.norm(X)

(array([[19, 22],
        [43, 50]]),
 array([[1, 3],
        [2, 4]]),
 np.float64(5.477225575051661))

In [None]:
# проверка и игнор NaN при агрегировании
arr = np.array([1.0, np.nan, 3.0])
np.isnan(arr), np.nanmean(arr), np.isfinite(arr)

(array([False,  True, False]), np.float64(2.0), array([ True, False,  True]))

# Pandas

In [None]:
data_list = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
df = pd.DataFrame(data_list)
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# из словаря и списка; базовый просмотр
data = {"Имя": ["Анна", "Иван", "Оля"], "Возраст": [23, 35, 29]}
df = pd.DataFrame(data)
s = pd.Series([100, 200, 300], name="Очки")
df.head()

Unnamed: 0,Имя,Возраст
0,Анна,23
1,Иван,35
2,Оля,29


In [None]:
df.shape

(3, 2)

In [None]:
# типы столбцов, пропуски, базовые статистики
s.info()

<class 'pandas.core.series.Series'>
RangeIndex: 3 entries, 0 to 2
Series name: Очки
Non-Null Count  Dtype
--------------  -----
3 non-null      int64
dtypes: int64(1)
memory usage: 156.0 bytes


In [99]:
df.describe()

Unnamed: 0,Возраст
count,3.0
mean,29.0
std,6.0
min,23.0
25%,26.0
50%,29.0
75%,32.0
max,35.0


In [None]:
# выбор столбца, нескольких, по меткам/позициям
df["Возраст"]
df[["Имя", "Возраст"]]
df.loc[0]       # по метке индекса
df.iloc[0]      # по позиции

Unnamed: 0,0
Имя,Анна
Возраст,23


In [100]:
df["Возраст"]

Unnamed: 0,Возраст
0,23
1,35
2,29


In [None]:
# условные фильтры и сортировка по столбцам
older = df[df["Возраст"] > 25]
sorted_df = df.sort_values(["Возраст", "Имя"], ascending=[False, True])

In [None]:
older

Unnamed: 0,Имя,Возраст
1,Иван,35
2,Оля,29


In [None]:
sorted_df

Unnamed: 0,Имя,Возраст
1,Иван,35
2,Оля,29
0,Анна,23


In [None]:
# создание нового столбца и векторные операции
df["Возраст_в_месяцах"] = df["Возраст"] * 12
df["Категория"] = np.where(df["Возраст"] >= 30, "30+", "<30")

In [None]:
df

Unnamed: 0,Имя,Возраст,Возраст_в_месяцах,Категория
0,Анна,23,276,<30
1,Иван,35,420,30+
2,Оля,29,348,<30


In [None]:
# Обработка пропусков
# обнаружение, удаление, заполнение
df2 = pd.DataFrame({"a": [1, None, 3], "b": [4, 5, None]})
df2.isna().sum()

Unnamed: 0,0
a,1
b,1


In [None]:
df2

Unnamed: 0,a,b
0,1.0,4.0
1,,5.0
2,3.0,


In [102]:
df_drop = df2.dropna()
df_fill = df2.fillna({"a": 0, "b": df2["b"].median()})

In [101]:
df_drop

Unnamed: 0,a,b
0,1.0,4.0


In [None]:
df_fill

Unnamed: 0,a,b
0,1.0,4.0
1,0.0,5.0
2,3.0,4.5


In [None]:
# группировка с несколькими агрегатами и переименованием
agg_df = (
    df.groupby("Категория")
      .agg(ср_возраст=("Возраст", "mean"), count=("Имя", "count"))
      .reset_index()
)

agg_df

Unnamed: 0,Категория,ср_возраст,count
0,30+,35.0,1
1,<30,26.0,2


In [None]:
# ключевое соединение и вертикальное склеивание
left = pd.DataFrame({"id": [1, 2], "city": ["A", "B"]})
right = pd.DataFrame({"id": [1, 2], "pop": [10, 20]})
joined = left.merge(right, on="id", how="left")
stacked = pd.concat([left, left], axis=0, ignore_index=True)

In [104]:
left

Unnamed: 0,id,city
0,1,A
1,2,B


In [None]:
joined

Unnamed: 0,id,city,pop
0,1,A,10
1,2,B,20


In [None]:
stacked

Unnamed: 0,id,city
0,1,A
1,2,B
2,1,A
3,2,B


In [105]:
# перестановка измерений и агрегирование
sales = pd.DataFrame({
    "Год": [2024, 2024, 2025, 2025],
    "Квартал": ["Q1", "Q2", "Q1", "Q2"],
    "Сумма": [100, 150, 120, 180]
})

In [None]:
sales

Unnamed: 0,Год,Квартал,Сумма
0,2024,Q1,100
1,2024,Q2,150
2,2025,Q1,120
3,2025,Q2,180


In [None]:
pivot = sales.pivot(index="Год", columns="Квартал", values="Сумма")
pivot_table = pd.pivot_table(sales, values="Сумма", index="Год", columns="Квартал", aggfunc="sum")

In [None]:
pivot

Квартал,Q1,Q2
Год,Unnamed: 1_level_1,Unnamed: 2_level_1
2024,100,150
2025,120,180


In [None]:
pivot_table

Квартал,Q1,Q2
Год,Unnamed: 1_level_1,Unnamed: 2_level_1
2024,100,150
2025,120,180


In [106]:
# чтение/запись CSV
data_to_save = {"Nickname": ["Gamer1", "s1mple", "zulu"], "elo": [2300, 3500, 2900]}

In [107]:
data_to_save

{'Nickname': ['Gamer1', 's1mple', 'zulu'], 'elo': [2300, 3500, 2900]}

In [108]:
df_to_save = pd.DataFrame(data_to_save)

In [109]:
df_to_save

Unnamed: 0,Nickname,elo
0,Gamer1,2300
1,s1mple,3500
2,zulu,2900


In [110]:
df_to_save.to_csv("/content/out.csv", index=False)

In [111]:
df_to_read = pd.read_csv("/content/out.csv")

In [112]:
df_to_read

Unnamed: 0,Nickname,elo
0,Gamer1,2300
1,s1mple,3500
2,zulu,2900


In [120]:
import pandas as pd

# 1) Загрузка
df = pd.read_csv("/content/sales.csv", parse_dates=["date"])

In [115]:
df

Unnamed: 0,order_id,date,region,product,units,amount,channel
0,1001,2025-01-05,North,Notebook,10,2500.0,Online
1,1002,2025-01-06,North,Pen,100,300.0,Retail
2,1003,2025-01-07,South,Backpack,7,560.0,Retail
3,1004,2025-01-07,East,Notebook,12,2880.0,Online
4,1005,2025-01-08,West,Pen,50,140.0,Online
5,1006,2025-01-08,South,Backpack,5,400.0,Online
6,1007,2025-01-09,East,Notebook,0,0.0,Retail
7,1008,2025-01-09,West,Pen,120,360.0,Retail
8,1009,2025-01-10,North,Backpack,4,320.0,Online
9,1010,2025-01-10,South,Notebook,15,3600.0,Retail


In [121]:
# 2) Фильтр шумных/некорректных строк
df = df[(df["amount"] > 0) & (df["units"] > 0)]

In [117]:
df

Unnamed: 0,order_id,date,region,product,units,amount,channel
0,1001,2025-01-05,North,Notebook,10,2500.0,Online
1,1002,2025-01-06,North,Pen,100,300.0,Retail
2,1003,2025-01-07,South,Backpack,7,560.0,Retail
3,1004,2025-01-07,East,Notebook,12,2880.0,Online
4,1005,2025-01-08,West,Pen,50,140.0,Online
5,1006,2025-01-08,South,Backpack,5,400.0,Online
7,1008,2025-01-09,West,Pen,120,360.0,Retail
8,1009,2025-01-10,North,Backpack,4,320.0,Online
9,1010,2025-01-10,South,Notebook,15,3600.0,Retail
10,1011,2025-01-11,East,Pen,80,240.0,Online


In [122]:
# 3) Новые признаки
df["price_per_unit"] = df["amount"] / df["units"]

In [123]:
# 4) Пример лёгкой нормализации названий регионов
df["region"] = df["region"].str.strip().str.title()

In [124]:
# 5) Группировка → сводный отчёт по регионам
report = (
    df.groupby("region", as_index=False)
      .agg(avg_price=("price_per_unit", "mean"),
           total_amount=("amount", "sum"),
           orders=("order_id", "count"))
      .sort_values(["total_amount"], ascending=False)
)

In [125]:
# 6) Экспорт отчёта
report.to_csv("/content/report.csv", index=False)
print("Сохранено в report.csv")
print(report.head())

Сохранено в report.csv
  region   avg_price  total_amount  orders
1  North  143.250000        5040.0       4
2  South  133.333333        4560.0       3
0   East  107.666667        3840.0       3
3   West   81.450000        3620.0       4


In [126]:
report_df = pd.read_csv('/content/report.csv')

In [127]:
report_df

Unnamed: 0,region,avg_price,total_amount,orders
0,North,143.25,5040.0,4
1,South,133.333333,4560.0,3
2,East,107.666667,3840.0,3
3,West,81.45,3620.0,4
