# Занятие 2 — NumPy и Pandas

**Цель:** ознакомиться с библиотеками NumPy и Pandas, научиться работать с массивами и таблицами, загрузить CSV (датасет Titanic) и выполнить базовый анализ: осмотр данных, поиск пропусков, агрегирование и подготовка простого отчёта.

**План:**
- NumPy: массивы, индексирование, reshape, broadcasting
- Pandas: Series, DataFrame, чтение CSV, head/info/describe
- Titanic — загрузка, пропуски, groupby, pivot, выборки
- Мини-проект: краткий анализ и сохранение результатов


In [91]:
# Базовые импорты
import sys
import numpy as np
import pandas as pd

print("Python:", sys.version.splitlines()[0])
print("NumPy:", np.__version__)
print("pandas:", pd.__version__)

Python: 3.12.11 (main, Jul 12 2025, 16:50:29) [GCC 14.2.1 20241028 (ALT Sisyphus 14.2.1-alt1)]
NumPy: 2.1.3
pandas: 2.2.3


## 1. NumPy — массивы, индексирование, базовые операции
Небольшая теория:
- `ndarray` — основа NumPy (однородный, быстрый).
- Индексация похожа на списки, но есть многомерные срезы.
- Broadcasting — мощный инструмент для операций без циклов.

### Создание массивов и базовые свойства

In [92]:
import numpy as np

a = np.array([1, 2, 3, 4])
print("a:", a, "dtype:", a.dtype, "shape:", a.shape)

M = np.array([[1,2,3],[4,5,6]])
print("\nM:\n", M)
print("shape M:", M.shape)

zeros = np.zeros((2,4))
ones = np.ones(5)
ar = np.arange(10)  # 0..9
lin = np.linspace(0,1,5)  # 5 чисел от 0 до 1
print("\nzeros:\n", zeros)
print("ones:", ones)
print("arange:", ar)
print("linspace:", lin)


a: [1 2 3 4] dtype: int64 shape: (4,)

M:
 [[1 2 3]
 [4 5 6]]
shape M: (2, 3)

zeros:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]]
ones: [1. 1. 1. 1. 1.]
arange: [0 1 2 3 4 5 6 7 8 9]
linspace: [0.   0.25 0.5  0.75 1.  ]


### Индексация, срезы и reshape
- Индексация: `arr[i]`, многомерная `M[i, j]`
- Срезы: `arr[1:5]`, `M[:, 1]`
- Изменение формы: `reshape`

In [93]:
b = np.arange(12)
print("b:\n", b)           # 0..11
B = b.reshape(3,4)          # 3 строки, 4 столбца
print("B:\n", B)

print("B[1,2] =", B[1,2])  # строка 1, столбец 2
print("B[0] =", B[0])      # первая строка
print("B[:,1] =", B[:,1])  # второй столбец

mask = B % 2 == 0
print("\nБулева маска (чётные):\n", mask)
print("Чётные элементы:", B[mask])

b:
 [ 0  1  2  3  4  5  6  7  8  9 10 11]
B:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
B[1,2] = 6
B[0] = [0 1 2 3]
B[:,1] = [1 5 9]

Булева маска (чётные):
 [[ True False  True False]
 [ True False  True False]
 [ True False  True False]]
Чётные элементы: [ 0  2  4  6  8 10]


### Векторные операции и Broadcasting
- Операции выполняются поэлементно: `x + y`, `x * 2`
- Broadcasting: добавление вектора к матрице и т.п.

In [94]:
x = np.array([1,2,3])
y = np.array([10,20,30])
print("x + y =", x + y)
print("x * 2 =", x * 2)

M = np.arange(6).reshape(2,3)
v = np.array([10,20,30])
print("\nM:\n", M)
print("M + v:\n", M + v)   # v "распространяется" по строкам

print("\nСумма всех элементов:", M.sum())
print("Сумма по столбцам:", M.sum(axis=0))
print("Сумма по строкам:", M.sum(axis=1))

x + y = [11 22 33]
x * 2 = [2 4 6]

M:
 [[0 1 2]
 [3 4 5]]
M + v:
 [[10 21 32]
 [13 24 35]]

Сумма всех элементов: 15
Сумма по столбцам: [3 5 7]
Сумма по строкам: [ 3 12]


### Полезные функции (ufuncs)
- `np.sin` 
- `np.sqrt` 
- `np.where` 
- `np.clip` 
- `np.unique` 
- `np.mean` 
- `np.median`

In [95]:
arr = np.linspace(0, np.pi, 5)
print("arr:", arr)
print()
print("sin(arr):", np.sin(arr))
print()
print("sqrt(0..4):", np.sqrt(np.arange(5)))

A = np.array([1,2,3,4,5,6])
print()
print("A:", A)
print("\nwhere A>3:", np.where(A>3))
print("clip 2..5:", np.clip(A, 2, 5)) # все значения, которые выходят за пределы заданного диапазона, заменяются на крайние значения этого диапазона. 
print("unique:", np.unique([1,2,2,3]))

arr: [0.         0.78539816 1.57079633 2.35619449 3.14159265]

sin(arr): [0.00000000e+00 7.07106781e-01 1.00000000e+00 7.07106781e-01
 1.22464680e-16]

sqrt(0..4): [0.         1.         1.41421356 1.73205081 2.        ]

A: [1 2 3 4 5 6]

where A>3: (array([3, 4, 5]),)
clip 2..5: [2 2 3 4 5 5]
unique: [1 2 3]


### Практика 
**Задания:**
1. Создайте массив `arr` из 1..30. Извлеките элементы, кратные 3.  
2. Создайте матрицу 6×5, поменяйте форму на 5×6, найдите сумму по столбцам.  
3. Создайте два случайных массива `a`, `b` длиной 10, выполните поэлементное умножение и найдите среднее.


## 2. Pandas — Series и DataFrame
- `Series` — одномерная метка+значение,
- `DataFrame` — табличные данные (строки/столбцы),
- Частые методы: 
    + `head()` 
    + `info()` 
    + `describe()` 
    + `value_counts()` 
    + `isna()` 
    + `groupby()`


In [98]:
import pandas as pd

# Series
s = pd.Series([10,20,30], index=['a','b','c'])
print("Series s:\n", s)

# DataFrame вручную
data = {'name': ['Anya','Boris','Katya','Dmitri'],
        'age': [15,16,15,17],
        'score': [88,92,79,85]}
df = pd.DataFrame(data)
print("\nDataFrame df:\n", df)
print("\nКолонки:", df.columns)
print("Типы:\n", df.dtypes)
print("\ndf.loc[0]:\n", df.loc[0])
print("\ndf['name']:\n", df['name'])

Series s:
 a    10
b    20
c    30
dtype: int64

DataFrame df:
      name  age  score
0    Anya   15     88
1   Boris   16     92
2   Katya   15     79
3  Dmitri   17     85

Колонки: Index(['name', 'age', 'score'], dtype='object')
Типы:
 name     object
age       int64
score     int64
dtype: object

df.loc[0]:
 name     Anya
age        15
score      88
Name: 0, dtype: object

df['name']:
 0      Anya
1     Boris
2     Katya
3    Dmitri
Name: name, dtype: object


### Чтение CSV
Мы используем встроенный маленький CSV для примера. На практике читаем `pd.read_csv("file.csv")`.

In [99]:
from io import StringIO

csv_text = """name,age,score,group
Anya,15,88,A
Boris,16,92,A
Katya,15,79,B
Dmitri,17,85,B
Elena,16,91,A
"""

df2 = pd.read_csv(StringIO(csv_text))
print("df2:\n", df2)

df2:
      name  age  score group
0    Anya   15     88     A
1   Boris   16     92     A
2   Katya   15     79     B
3  Dmitri   17     85     B
4   Elena   16     91     A


### Быстрый осмотр DataFrame
- `df.head()` 
- `df.info()` 
- `df.describe()` 
- `df.shape`

In [100]:
print("shape:", df2.shape)
print("\ninfo:")
print(df2.info())
print("\ndescribe:\n", df2.describe(include='all'))

shape: (5, 4)

info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   age     5 non-null      int64 
 2   score   5 non-null      int64 
 3   group   5 non-null      object
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None

describe:
         name       age      score group
count      5   5.00000   5.000000     5
unique     5       NaN        NaN     2
top     Anya       NaN        NaN     A
freq       1       NaN        NaN     3
mean     NaN  15.80000  87.000000   NaN
std      NaN   0.83666   5.244044   NaN
min      NaN  15.00000  79.000000   NaN
25%      NaN  15.00000  85.000000   NaN
50%      NaN  16.00000  88.000000   NaN
75%      NaN  16.00000  91.000000   NaN
max      NaN  17.00000  92.000000   NaN


### Фильтрация, новые колонки, сортировка

In [101]:
# Фильтрация
print("Ученики группы A:\n", df2[df2['group'] == 'A'])

# Новая колонка
df2['passed'] = df2['score'] >= 80
print("\nWith passed:\n", df2)

# Топ по score
print("\nTop by score:\n", df2.sort_values('score', ascending=False).head(3))

Ученики группы A:
     name  age  score group
0   Anya   15     88     A
1  Boris   16     92     A
4  Elena   16     91     A

With passed:
      name  age  score group  passed
0    Anya   15     88     A    True
1   Boris   16     92     A    True
2   Katya   15     79     B   False
3  Dmitri   17     85     B    True
4   Elena   16     91     A    True

Top by score:
     name  age  score group  passed
1  Boris   16     92     A    True
4  Elena   16     91     A    True
0   Anya   15     88     A    True


### Пропуски и очистка
- Проверить `df.isna().sum()`
- Можно `fillna()` средним/медианой, или удалить строки `dropna()`

In [102]:
# Пример пропусков и заполнения
df3 = df2.copy()
df3.loc[2, 'score'] = None
df3.loc[4, 'age'] = None
print("df3:\n", df3)
print("\nMissing counts:\n", df3.isna().sum())

# Заполняем
df3['score'] = df3['score'].fillna(df3['score'].mean())
df3['age'] = df3['age'].fillna(df3['age'].median())
print("\nFilled df3:\n", df3)

df3:
      name   age  score group  passed
0    Anya  15.0   88.0     A    True
1   Boris  16.0   92.0     A    True
2   Katya  15.0    NaN     B   False
3  Dmitri  17.0   85.0     B    True
4   Elena   NaN   91.0     A    True

Missing counts:
 name      0
age       1
score     1
group     0
passed    0
dtype: int64

Filled df3:
      name   age  score group  passed
0    Anya  15.0   88.0     A    True
1   Boris  16.0   92.0     A    True
2   Katya  15.0   89.0     B   False
3  Dmitri  17.0   85.0     B    True
4   Elena  15.5   91.0     A    True


## Сохранение работы и сдача ДЗ
- Выполнить практическую работу в конце раздела "NumPy"
- В Colab: `File -> Save a copy in GitHub` → выбрать репозиторий `DS_intro` → указать ветку `homework/lesson2-<yourname>` и короткий message.  
- Локально: `File -> Download .ipynb` и загрузить на GitHub вручную через графику.  
- Указать в [таблице](https://docs.google.com/spreadsheets/d/1a1h71raeU-3O0DM2DwVADAMlWlimWq9gzgGY1_oESXw/edit?usp=sharing) актуальную ссылку на репозиторий и ноутбук с ДЗ №1 и №2.

**Срок:** до следующего занятия.  
**Вопросы:** в Telegram.

## Полезные ссылки
- NumPy docs: https://numpy.org/doc/  
- Pandas docs: https://pandas.pydata.org/docs/  
- Titanic dataset (Kaggle): https://www.kaggle.com/c/titanic
- Colab: https://colab.research.google.com