# Занятие 2 — NumPy и Pandas

**Цель:** ознакомиться с библиотеками NumPy и Pandas, научиться работать с массивами и таблицами, загрузить CSV (датасет Titanic) и выполнить базовый анализ: осмотр данных, поиск пропусков, агрегирование и подготовка простого отчёта.

**План:**
- NumPy: массивы, индексирование, reshape, broadcasting
- Pandas: Series, DataFrame, чтение CSV, head/info/describe
- Titanic — загрузка, пропуски, groupby, pivot, выборки
- Мини-проект: краткий анализ и сохранение результатов


In [91]:
# Базовые импорты
import sys
import numpy as np
import pandas as pd

print("Python:", sys.version.splitlines()[0])
print("NumPy:", np.__version__)
print("pandas:", pd.__version__)

Python: 3.12.11 (main, Jul 12 2025, 16:50:29) [GCC 14.2.1 20241028 (ALT Sisyphus 14.2.1-alt1)]
NumPy: 2.1.3
pandas: 2.2.3


## 1. NumPy — массивы, индексирование, базовые операции
Небольшая теория:
- `ndarray` — основа NumPy (однородный, быстрый).
- Индексация похожа на списки, но есть многомерные срезы.
- Broadcasting — мощный инструмент для операций без циклов.

### Создание массивов и базовые свойства

In [92]:
import numpy as np

a = np.array([1, 2, 3, 4])
print("a:", a, "dtype:", a.dtype, "shape:", a.shape)

M = np.array([[1,2,3],[4,5,6]])
print("\nM:\n", M)
print("shape M:", M.shape)

zeros = np.zeros((2,4))
ones = np.ones(5)
ar = np.arange(10)  # 0..9
lin = np.linspace(0,1,5)  # 5 чисел от 0 до 1
print("\nzeros:\n", zeros)
print("ones:", ones)
print("arange:", ar)
print("linspace:", lin)


a: [1 2 3 4] dtype: int64 shape: (4,)

M:
 [[1 2 3]
 [4 5 6]]
shape M: (2, 3)

zeros:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]]
ones: [1. 1. 1. 1. 1.]
arange: [0 1 2 3 4 5 6 7 8 9]
linspace: [0.   0.25 0.5  0.75 1.  ]


### Индексация, срезы и reshape
- Индексация: `arr[i]`, многомерная `M[i, j]`
- Срезы: `arr[1:5]`, `M[:, 1]`
- Изменение формы: `reshape`

In [93]:
b = np.arange(12)
print("b:\n", b)           # 0..11
B = b.reshape(3,4)          # 3 строки, 4 столбца
print("B:\n", B)

print("B[1,2] =", B[1,2])  # строка 1, столбец 2
print("B[0] =", B[0])      # первая строка
print("B[:,1] =", B[:,1])  # второй столбец

mask = B % 2 == 0
print("\nБулева маска (чётные):\n", mask)
print("Чётные элементы:", B[mask])

b:
 [ 0  1  2  3  4  5  6  7  8  9 10 11]
B:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
B[1,2] = 6
B[0] = [0 1 2 3]
B[:,1] = [1 5 9]

Булева маска (чётные):
 [[ True False  True False]
 [ True False  True False]
 [ True False  True False]]
Чётные элементы: [ 0  2  4  6  8 10]


### Векторные операции и Broadcasting
- Операции выполняются поэлементно: `x + y`, `x * 2`
- Broadcasting: добавление вектора к матрице и т.п.

In [94]:
x = np.array([1,2,3])
y = np.array([10,20,30])
print("x + y =", x + y)
print("x * 2 =", x * 2)

M = np.arange(6).reshape(2,3)
v = np.array([10,20,30])
print("\nM:\n", M)
print("M + v:\n", M + v)   # v "распространяется" по строкам

print("\nСумма всех элементов:", M.sum())
print("Сумма по столбцам:", M.sum(axis=0))
print("Сумма по строкам:", M.sum(axis=1))

x + y = [11 22 33]
x * 2 = [2 4 6]

M:
 [[0 1 2]
 [3 4 5]]
M + v:
 [[10 21 32]
 [13 24 35]]

Сумма всех элементов: 15
Сумма по столбцам: [3 5 7]
Сумма по строкам: [ 3 12]


### Полезные функции (ufuncs)
- `np.sin` 
- `np.sqrt` 
- `np.where` 
- `np.clip` 
- `np.unique` 
- `np.mean` 
- `np.median`

In [95]:
arr = np.linspace(0, np.pi, 5)
print("arr:", arr)
print()
print("sin(arr):", np.sin(arr))
print()
print("sqrt(0..4):", np.sqrt(np.arange(5)))

A = np.array([1,2,3,4,5,6])
print()
print("A:", A)
print("\nwhere A>3:", np.where(A>3))
print("clip 2..5:", np.clip(A, 2, 5)) # все значения, которые выходят за пределы заданного диапазона, заменяются на крайние значения этого диапазона. 
print("unique:", np.unique([1,2,2,3]))

arr: [0.         0.78539816 1.57079633 2.35619449 3.14159265]

sin(arr): [0.00000000e+00 7.07106781e-01 1.00000000e+00 7.07106781e-01
 1.22464680e-16]

sqrt(0..4): [0.         1.         1.41421356 1.73205081 2.        ]

A: [1 2 3 4 5 6]

where A>3: (array([3, 4, 5]),)
clip 2..5: [2 2 3 4 5 5]
unique: [1 2 3]


### Практика 
**Задания:**
1. Создайте массив `arr` из 1..30. Извлеките элементы, кратные 3.  
2. Создайте матрицу 6×5, поменяйте форму на 5×6, найдите сумму по столбцам.  
3. Создайте два случайных массива `a`, `b` длиной 10, выполните поэлементное умножение и найдите среднее.


## 2. Pandas — Series и DataFrame
- `Series` — одномерная метка+значение,
- `DataFrame` — табличные данные (строки/столбцы),
- Частые методы: 
    + `head()` 
    + `info()` 
    + `describe()` 
    + `value_counts()` 
    + `isna()` 
    + `groupby()`


In [98]:
import pandas as pd

# Series
s = pd.Series([10,20,30], index=['a','b','c'])
print("Series s:\n", s)

# DataFrame вручную
data = {'name': ['Anya','Boris','Katya','Dmitri'],
        'age': [15,16,15,17],
        'score': [88,92,79,85]}
df = pd.DataFrame(data)
print("\nDataFrame df:\n", df)
print("\nКолонки:", df.columns)
print("Типы:\n", df.dtypes)
print("\ndf.loc[0]:\n", df.loc[0])
print("\ndf['name']:\n", df['name'])

Series s:
 a    10
b    20
c    30
dtype: int64

DataFrame df:
      name  age  score
0    Anya   15     88
1   Boris   16     92
2   Katya   15     79
3  Dmitri   17     85

Колонки: Index(['name', 'age', 'score'], dtype='object')
Типы:
 name     object
age       int64
score     int64
dtype: object

df.loc[0]:
 name     Anya
age        15
score      88
Name: 0, dtype: object

df['name']:
 0      Anya
1     Boris
2     Katya
3    Dmitri
Name: name, dtype: object


### Чтение CSV
Мы используем встроенный маленький CSV для примера. На практике читаем `pd.read_csv("file.csv")`.

In [99]:
from io import StringIO

csv_text = """name,age,score,group
Anya,15,88,A
Boris,16,92,A
Katya,15,79,B
Dmitri,17,85,B
Elena,16,91,A
"""

df2 = pd.read_csv(StringIO(csv_text))
print("df2:\n", df2)

df2:
      name  age  score group
0    Anya   15     88     A
1   Boris   16     92     A
2   Katya   15     79     B
3  Dmitri   17     85     B
4   Elena   16     91     A


### Быстрый осмотр DataFrame
- `df.head()` 
- `df.info()` 
- `df.describe()` 
- `df.shape`

In [100]:
print("shape:", df2.shape)
print("\ninfo:")
print(df2.info())
print("\ndescribe:\n", df2.describe(include='all'))

shape: (5, 4)

info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    5 non-null      object
 1   age     5 non-null      int64 
 2   score   5 non-null      int64 
 3   group   5 non-null      object
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes
None

describe:
         name       age      score group
count      5   5.00000   5.000000     5
unique     5       NaN        NaN     2
top     Anya       NaN        NaN     A
freq       1       NaN        NaN     3
mean     NaN  15.80000  87.000000   NaN
std      NaN   0.83666   5.244044   NaN
min      NaN  15.00000  79.000000   NaN
25%      NaN  15.00000  85.000000   NaN
50%      NaN  16.00000  88.000000   NaN
75%      NaN  16.00000  91.000000   NaN
max      NaN  17.00000  92.000000   NaN


### Фильтрация, новые колонки, сортировка

In [101]:
# Фильтрация
print("Ученики группы A:\n", df2[df2['group'] == 'A'])

# Новая колонка
df2['passed'] = df2['score'] >= 80
print("\nWith passed:\n", df2)

# Топ по score
print("\nTop by score:\n", df2.sort_values('score', ascending=False).head(3))

Ученики группы A:
     name  age  score group
0   Anya   15     88     A
1  Boris   16     92     A
4  Elena   16     91     A

With passed:
      name  age  score group  passed
0    Anya   15     88     A    True
1   Boris   16     92     A    True
2   Katya   15     79     B   False
3  Dmitri   17     85     B    True
4   Elena   16     91     A    True

Top by score:
     name  age  score group  passed
1  Boris   16     92     A    True
4  Elena   16     91     A    True
0   Anya   15     88     A    True


### Пропуски и очистка
- Проверить `df.isna().sum()`
- Можно `fillna()` средним/медианой, или удалить строки `dropna()`

In [102]:
# Пример пропусков и заполнения
df3 = df2.copy()
df3.loc[2, 'score'] = None
df3.loc[4, 'age'] = None
print("df3:\n", df3)
print("\nMissing counts:\n", df3.isna().sum())

# Заполняем
df3['score'] = df3['score'].fillna(df3['score'].mean())
df3['age'] = df3['age'].fillna(df3['age'].median())
print("\nFilled df3:\n", df3)

df3:
      name   age  score group  passed
0    Anya  15.0   88.0     A    True
1   Boris  16.0   92.0     A    True
2   Katya  15.0    NaN     B   False
3  Dmitri  17.0   85.0     B    True
4   Elena   NaN   91.0     A    True

Missing counts:
 name      0
age       1
score     1
group     0
passed    0
dtype: int64

Filled df3:
      name   age  score group  passed
0    Anya  15.0   88.0     A    True
1   Boris  16.0   92.0     A    True
2   Katya  15.0   89.0     B   False
3  Dmitri  17.0   85.0     B    True
4   Elena  15.5   91.0     A    True


## 3. Практика с реальным датасетом — Titanic

Мы используем классический набор данных Titanic. Он удобен: небольшая таблица, пропуски, категориальные и числовые признаки.

**Варианты загрузки:**
- `sns.load_dataset('titanic')` (через seaborn),
- `pd.read_csv(URL)` (если у вас локальный/онлайн CSV),
- В Colab можно загрузить файл с диска.

Мы попробуем `seaborn` как простой способ — если seaborn нет, будем загружать из GitHub.

In [115]:
# Попробуем загрузить через seaborn, иначе используем прямую ссылку
try:
    import seaborn as sns
    tit = sns.load_dataset('titanic')
    print("Loaded titanic via seaborn")
except Exception as e:
    print("seaborn не доступен, попытаемся из URL")
    url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
    tit = pd.read_csv(url)
    print("Loaded titanic via URL")

print("\nShape:", tit.shape)
print("Columns:", tit.columns.tolist())

Loaded titanic via seaborn

Shape: (891, 15)
Columns: ['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']


In [116]:
pd.set_option('display.max_rows', 15)
tit

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [None]:
print("head:\n", tit.head())
print("\ninfo:")
tit.info()
print("\ndescribe:\n", tit.describe(include='all').T)

head:
    survived  pclass     sex   age  sibsp  parch     fare embarked  class  \
0         0       3    male  22.0      1      0   7.2500        S  Third   
1         1       1  female  38.0      1      0  71.2833        C  First   
2         1       3  female  26.0      0      0   7.9250        S  Third   
3         1       1  female  35.0      1      0  53.1000        S  First   
4         0       3    male  35.0      0      0   8.0500        S  Third   

     who  adult_male deck  embark_town alive  alone  
0    man        True  NaN  Southampton    no  False  
1  woman       False    C    Cherbourg   yes  False  
2  woman       False  NaN  Southampton   yes   True  
3  woman       False    C  Southampton   yes  False  
4    man        True  NaN  Southampton    no   True  

info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived 

### Анализ пропусков

In [118]:
print("Пропуски по колонкам:\n", tit.isna().sum().sort_values(ascending=False))

Пропуски по колонкам:
 deck           688
age            177
embarked         2
embark_town      2
sex              0
pclass           0
survived         0
fare             0
parch            0
sibsp            0
class            0
adult_male       0
who              0
alive            0
alone            0
dtype: int64


### Что обычно делают с Titanic: 
- Ищут репрезентативные признаки (sex, pclass, age, fare, embarked, sibsp, parch)  
- Обрабатывают пропуски 
- Анализируют выживаемость по группам (`groupby(['sex','pclass'])['survived'].mean()`)  
- Преобразуют категории в численные

In [119]:
# Пример простого анализа: выживаемость по полу и классу
if 'survived' in tit.columns:
    surv_by_sex = tit.groupby('sex')['survived'].mean()
    print("\nВыживаемость по полу:\n", surv_by_sex)
    surv_by_class_sex = tit.groupby(['pclass','sex'])['survived'].mean()
    print("\nВыживаемость по классу и полу:\n", surv_by_class_sex)
else:
    print("Колонка 'survived' отсутствует — возможно другой формат CSV")


Выживаемость по полу:
 sex
female    0.742038
male      0.188908
Name: survived, dtype: float64

Выживаемость по классу и полу:
 pclass  sex   
1       female    0.968085
        male      0.368852
2       female    0.921053
        male      0.157407
3       female    0.500000
        male      0.135447
Name: survived, dtype: float64


### Работа с пропусками: пример для `age` и `embarked`

In [120]:
# Посмотрим распределение возрастов (текстово)
print("age stats (before):\n", tit['age'].describe())

# заполним медианой как базовое решение
if tit['age'].isna().sum() > 0:
    tit['age_filled'] = tit['age'].fillna(tit['age'].median())
    print("Заполнили age медианой; пропусков осталось:", tit['age_filled'].isna().sum())
else:
    tit['age_filled'] = tit['age']

age stats (before):
 count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: age, dtype: float64
Заполнили age медианой; пропусков осталось: 0


In [123]:
tit['age_filled'].describe()

count    891.000000
mean      29.361582
std       13.019697
min        0.420000
25%       22.000000
50%       28.000000
75%       35.000000
max       80.000000
Name: age_filled, dtype: float64

### Примеры выборок и новых колонок
- выбрать пассажиров первого класса: `tit[tit['pclass']==1]`
- создать бинарную колонку `is_child = age < 12`

In [124]:
# Выборки и новые колонки
first_class = tit[tit['pclass'] == 1]
print("First class count:", len(first_class))

tit['is_child'] = tit['age_filled'] < 12
print("\nChildren count:", tit['is_child'].sum())

# Survival among children
if 'survived' in tit.columns:
    print("\nВыживаемость детей:", tit.groupby('is_child')['survived'].mean())

First class count: 216

Children count: 68

Выживаемость детей: is_child
False    0.368165
True     0.573529
Name: survived, dtype: float64


## Мини-проект: короткий анализ
**Задание:** используя `tit`:
1. Посчитать, какая доля выжила в целом.  
2. Посчитать выживаемость по `pclass` и `sex`.  
3. Найти медианный возраст по классам.  
4. Сохранить небольшой csv-отчёт с этими агрегатами: `titanic_analysis_<yourname>.csv`.

In [125]:
# Шаблон решения для мини-проекта
df_work = tit.copy()

results = {}

if 'survived' in df_work.columns:
    results['survival_rate_overall'] = df_work['survived'].mean()
    results['survival_by_sex'] = df_work.groupby('sex')['survived'].mean().to_dict()
    results['survival_by_pclass'] = df_work.groupby('pclass')['survived'].mean().to_dict()

results['median_age_by_pclass'] = df_work.groupby('pclass')['age_filled'].median().to_dict()

print("Results (sample):")
for k,v in results.items():
    print(k, ":", v)

# Сохранить в CSV: преобразуем в DataFrame
res_df = pd.DataFrame({
    'metric': list(results.keys()),
    'value': [str(v) for v in results.values()]
})
out_name = 'titanic_analysis_example.csv'
res_df.to_csv(out_name, index=False)
print("\nSaved report to", out_name)

Results (sample):
survival_rate_overall : 0.3838383838383838
survival_by_sex : {'female': 0.7420382165605095, 'male': 0.18890814558058924}
survival_by_pclass : {1: 0.6296296296296297, 2: 0.47282608695652173, 3: 0.24236252545824846}
median_age_by_pclass : {1: 35.0, 2: 28.0, 3: 28.0}

Saved report to titanic_analysis_example.csv


## Упражнения
1. вывести 5 самых дорогих билетов (`fare`), показать их `name`, `pclass`, `survived`.
2. посчитать число уникальных портов посадки (`embarked`).
3. создать колонку `family_size = sibsp + parch + 1` и посмотреть её связь с `survived`.

## Сохранение работы и сдача ДЗ
1. Выполнить практическую работу в конце раздела "NumPy".
2. Выполнить задания `1-3` из блока "Упражнения". Сохранить результаты в `lesson2_<yourname>.ipynb` и запушить в репозиторий `DS_intro` в ветку `homework/lesson2-<yourname>`.
3. В Colab: `File -> Save a copy in GitHub` → выбрать репозиторий `DS_intro` → указать ветку `homework/lesson2-<yourname>` и короткий message.  
4. Локально: `File -> Download .ipynb` и загрузить на GitHub.  
5. Указать в [таблице](https://docs.google.com/spreadsheets/d/1a1h71raeU-3O0DM2DwVADAMlWlimWq9gzgGY1_oESXw/edit?usp=sharing) актуальную ссылку на репозиторий и ноутбуки с ДЗ №1 и №2.

**Срок:** до 27.10  
**Вопросы:** в Telegram.

## Полезные ссылки
- NumPy docs: https://numpy.org/doc/  
- Pandas docs: https://pandas.pydata.org/docs/  
- Titanic dataset (Kaggle): https://www.kaggle.com/c/titanic
- Colab: https://colab.research.google.com