## Numpy

In [12]:
!pip install numpy





In [2]:
# Одно из основных преимуществ numpy для анализа данных - это возможность работать с многомерными массивами 
# Применять большой функционал встроеных статистических функций к массивам, что очень полезно при работе с симуляциями
# Легкая генерация синтетических данных из заданых распределений распределений

# Как плюс - это все работает очень быстро и синергирует с другими библиотеками анализа данных, такими как pandas или scikit-learn


import numpy as np

In [3]:
# Одной из наиболее важных концепций numpy - является работа с массивами, посмотрим как их можно создавать:


# Создание массива Numpy из массива python

from_python = np.array([1,2,3,4,5])
print('Изначальый тип массива:',type([1,2,3,4,5]))
print('Массив numpy на основе python массива:', from_python)
print('Тип массива numpy:',type(from_python))

# Для справки: из кортежа numpy массив тоже существует возможность создать
print('Массив из кортежа:',np.array((1,2,3,4,5)))

print('Тип массива nympy созданного из кортежа',type(np.array((1,2,3,4,5))))

Изначальый тип массива: <class 'list'>
Массив numpy на основе python массива: [1 2 3 4 5]
Тип массива numpy: <class 'numpy.ndarray'>
Массив из кортежа: [1 2 3 4 5]
Тип массива nympy созданного из кортежа <class 'numpy.ndarray'>


In [4]:
# Существуют встроенные методы генерации массивов определенного формата
print(np.zeros(4))

# Проверка размерности массива
print(np.zeros(4).shape)

[0. 0. 0. 0.]
(4,)


In [5]:
# Многомерные массивы, с таким типом данных приходится иметь дело на практике крайне редко
np.zeros((4,4,4))

array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [6]:
# Аналогично можно создавать массивы из единиц
np.ones(4)

array([1., 1., 1., 1.])

In [7]:
# Преимущество numpy в работе с массивами также заключается в матричной арифметике 
a = [1,2,3,4,5]
b = [6,7,8,9,10]
print('Сложение классических массивов python',a+b)

Сложение классических массивов python [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [8]:
a_numpy =np.array(a)
b_numpy =np.array(b)

# Результат суммы двух массивов numpy - это поэлементное сложение их координат (векторная сумма двух радиус векторов)
a_numpy + b_numpy

array([ 7,  9, 11, 13, 15])

In [9]:
# Поэлементное произведение двух векторов numpy (скалярное произведение двух радиус векторов)
a_numpy * b_numpy

array([ 6, 14, 24, 36, 50])

In [10]:
# Можно изменять масштаб векторов
print('Растянули вектор в три раза:',a_numpy*3)
print('Сжали вектор в три раза:',a_numpy/3)

Растянули вектор в три раза: [ 3  6  9 12 15]
Сжали вектор в три раза: [0.33333333 0.66666667 1.         1.33333333 1.66666667]


In [11]:
# Самое удобное - это статистические функции
print('a_numpy:',a_numpy)
print('Среднее значение элементов массива:', np.mean(a_numpy))
print('Max:', np.max(a_numpy))
print('Min:', np.min(a_numpy))
print('Медиана:', np.median(a_numpy))

a_numpy: [1 2 3 4 5]
Среднее значение элементов массива: 3.0
Max: 5
Min: 1
Медиана: 3.0


# Pandas

In [1]:
!pip install pandas

 country_vaccinations_by_manufacturer.csv  'Pandas 1.ipynb'
 country_vaccinations.csv


In [1]:
import pandas as pd

# Загрузка данных
df = pd.read_csv('titanic/train.csv')
df_test = pd.read_csv('titanic/test.csv')
# Показываем первые 5 строк данных для предварительного просмотра
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [16]:
# Аналогично можно просмотреть последние N строк, по умолчанию будет 5 строк
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [18]:
# Подходы выше имеют проблемы в связи с тем, что при создании выгрузок
# Может быть применена предварительная сортировка в силу чего последние строчки не будут репрезентативными

df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
313,314,0,3,"Hendekovic, Mr. Ignjac",male,28.0,0,0,349243,7.8958,,S
647,648,1,1,"Simonius-Blumer, Col. Oberst Alfons",male,56.0,0,0,13213,35.5,A26,C
401,402,0,3,"Adams, Mr. John",male,26.0,0,0,341826,8.05,,S
565,566,0,3,"Davies, Mr. Alfred J",male,24.0,2,0,A/4 48871,24.15,,S
476,477,0,2,"Renouf, Mr. Peter Henry",male,34.0,1,0,31027,21.0,,S


In [19]:
# В целом общую информацию можно получить при помощи info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [20]:
# Начнем с обзора основных статистик и проверки пропущенных значений.

# Основные статистики по численным переменным
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [25]:
# Проверка пустых значений
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### Индексация и выборка данных

Для анализа данных часто необходимо выбрать определенные строки или столбцы. В Pandas для этого используются .loc[], .iloc[], и условные выражения.

In [26]:
# Выборка по индексу
first_ten_rows = df.iloc[:10]

# Выборка столбцов по названию
age_and_survived = df[['Age', 'Survived']]

# Выборка данных с использованием условий
adults = df[df['Age'] > 18]

In [29]:
adults.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
510,511,1,3,"Daly, Mr. Eugene Patrick",male,29.0,0,0,382651,7.75,,Q
627,628,1,1,"Longley, Miss. Gretchen Fiske",female,21.0,0,0,13502,77.9583,D9,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
247,248,1,2,"Hamalainen, Mrs. William (Anna)",female,24.0,0,2,250649,14.5,,S
143,144,0,3,"Burke, Mr. Jeremiah",male,19.0,0,0,365222,6.75,,Q


## Фильтрация данных

Фильтрация данных — это процесс выбора подмножества данных на основе определенных критериев. В pandas это можно делать разными способами, но основными инструментами являются булевы индексы и метод .query(). Давайте подробнее рассмотрим каждый из этих способов на примере набора данных о Титанике.
Булева индексация

Булева индексация позволяет фильтровать данные, используя условные выражения, которые возвращают булевы значения (True или False). Это мощный и гибкий способ отбора данных.

In [33]:
# Фильтрация пассажиров первого класса
first_class_passengers = df[df['Pclass'] == 1]

# Фильтрация выживших женщин
survived_women = df[(df['Sex'] == 'female') & (df['Survived'] == 1)]

# Фильтрация пассажиров в возрасте от 18 до 30 лет
young_adults = df[(df['Age'] >= 18) & (df['Age'] <= 30)]



# Фильтрация пассажиров первого класса с использованием query
first_class_passengers_q = df.query('Pclass == 1')

# Фильтрация выживших женщин с использованием query
survived_women_q = df.query("Sex == 'female' and Survived == 1")

# Фильтрация пассажиров в возрасте от 18 до 30 лет с использованием query
young_adults_q = df.query('Age >= 18 and Age <= 30')

Выбор столбцов после фильтрации

Часто после фильтрации данных необходимо выбрать определенные столбцы. Это можно сделать, добавив .loc[] или просто указав столбцы через двойные квадратные скобки.

In [35]:
# Выбор имени и возраста выживших женщин
survived_women_names_ages = survived_women[['Name', 'Age']]

# Использование loc для фильтрации и выбора столбцов
survived_women_names_ages_loc = df.loc[(df['Sex'] == 'female') & (df['Survived'] == 1), ['Name', 'Age']]

Для более сложных фильтраций можно использовать функции, такие как .apply(), которые позволяют применять пользовательскую функцию к данным для определения, должна ли строка включаться в результат.

In [36]:
# Фильтрация пассажиров с необычными именами (например, имя содержит 'Countess')
unusual_names = df[df['Name'].apply(lambda x: 'Countess' in x)]

In [37]:
# Посчитаем % выживших
survived = df[df['Survived'] == 1]
not_survived = df[df['Survived'] == 0]

print ("Survived: %i (%.1f%%)"%(len(survived), float(len(survived))/len(df)*100.0))
print ("Not Survived: %i (%.1f%%)"%(len(not_survived), float(len(not_survived))/len(df)*100.0))
print ("Total: %i"%len(df))

Survived: 342 (38.4%)
Not Survived: 549 (61.6%)
Total: 891


### Очистка и предобработка данных 

In [38]:
# Для начала нужно выяснить, в каких столбцах есть пропущенные значения:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [39]:
# Удаление строк с пропущенными значениями
df.dropna(inplace=True)

# inplace - это аналог df = df.dropna()

# Удаление столбцов с пропущенными значениями
df.dropna(axis=1, inplace=True)

In [40]:
# Заполнение пропущенных значений константой
df.fillna(0, inplace=True)

# Заполнение пропущенных значений средним значением по столбцу
df['Age'].fillna(df['Age'].mean(), inplace=True)

In [41]:

# Заполнение пропущенных значений в 'Age' средним значением
df['Age'].fillna(df['Age'].mean(), inplace=True)

# Удаление строк, где есть пропущенные значения в 'Embarked'
df.dropna(subset=['Embarked'], inplace=True)



In [42]:
# Иногда полезно узнать уникальные значения или подсчитать повторения в столбце:
print(df['Embarked'].unique())

# Подсчет уникальных значений
print(df['Embarked'].value_counts())


['C' 'S' 'Q']
S    116
C     65
Q      2
Name: Embarked, dtype: int64


In [51]:
df.Name.apply(lambda x: x.split(',')[1])

1       Mrs. John Bradley (Florence Briggs Thayer)
3               Mrs. Jacques Heath (Lily May Peel)
6                                    Mr. Timothy J
10                            Miss. Marguerite Rut
11                                 Miss. Elizabeth
                          ...                     
871         Mrs. Richard Leonard (Sallie Monypeny)
872                                 Mr. Frans Olof
879          Mrs. Thomas Jr (Lily Alexenia Wilson)
887                           Miss. Margaret Edith
889                                Mr. Karl Howell
Name: Name, Length: 183, dtype: object

In [53]:
df.Name.apply(lambda x: x.split(',')[1].split('.')[0].strip())

1       Mrs
3       Mrs
6        Mr
10     Miss
11     Miss
       ... 
871     Mrs
872      Mr
879     Mrs
887    Miss
889      Mr
Name: Name, Length: 183, dtype: object

In [54]:
# В наборе данных есть столбец Name, который содержит полные имена пассажиров. 
# Мы можем извлечь титулы из этих имен, что может быть полезно для дальнейшего анализа.

# Извлечение титулов из имен
df['Title'] = df['Name'].apply(lambda x: x.split(',')[1].split('.')[0].strip())

# Посмотрим на распределение титулов
df['Title'].value_counts()

Mr              81
Miss            44
Mrs             38
Master           7
Dr               3
Major            2
Mlle             2
Mme              1
Lady             1
Sir              1
Col              1
Capt             1
the Countess     1
Name: Title, dtype: int64

In [55]:
# Допустим, мы хотим проанализировать данные только о женщинах, выживших на Титанике.
survived_women = df[(df['Sex'] == 'female') & (df['Survived'] == 1)]
survived_women.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S,Miss
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,Miss
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C,Mrs


In [56]:
# Группировка и агрегация

# Мы можем исследовать, как факторы, такие как класс билета и место посадки, влияли на выживаемость.
class_embark_survival_rate = df.groupby(['Pclass', 'Embarked'])['Survived'].mean()

class_embark_survival_rate.unstack()

Embarked,C,Q,S
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.746032,0.5,0.623656
2,0.5,,0.846154
3,,,0.5


In [57]:
# Альтернативно можно сбросить индексы и получить в другом формате таблицу 
class_embark_survival_rate.reset_index()

Unnamed: 0,Pclass,Embarked,Survived
0,1,C,0.746032
1,1,Q,0.5
2,1,S,0.623656
3,2,C,0.5
4,2,S,0.846154
5,3,S,0.5


In [58]:
# Cоздание новых признаков

# Создание признака 'FamilySize'
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1

# Анализируем выживаемость в зависимости от размера семьи
family_survival_rate = df.groupby('FamilySize')['Survived'].mean()

family_survival_rate


FamilySize
1    0.607595
2    0.721311
3    0.714286
4    0.777778
5    1.000000
6    0.500000
Name: Survived, dtype: float64

In [31]:
# Сортировка данных
# Сортировка выживших пассажиров по возрасту
youngest_survivors = df[df['Survived'] == 1].sort_values(by='Age').head(5)

youngest_survivors[['Name', 'Age']]

Unnamed: 0,Name,Age
803,"Thomas, Master. Assad Alexander",0.42
755,"Hamalainen, Master. Viljo",0.67
469,"Baclini, Miss. Helene Barbara",0.75
644,"Baclini, Miss. Eugenie",0.75
78,"Caldwell, Master. Alden Gates",0.83


## Практические задания

In [None]:
Задание 1: Подготовка данных

    1. Изучите типы данных каждого столбца с помощью .info() и определите, какие столбцы требуют преобразования типов.
    2. Преобразуйте столбец Survived в тип данных bool (True/False).
    3. Преобразуйте Pclass в категориальный тип данных с использованием метода .astype().

Задание 2: Фильтрация и сортировка

    1. Выберите пассажиров, которые ехали во 2-м классе и выжили. Отсортируйте результат по возрасту в порядке убывания.
    2. Найдите всех пассажиров младше 18 лет, отсортировав их по классу билета, а затем по возрасту в порядке возрастания.
    3. Отфильтруйте пассажиров, чьи имена начинаются на букву 'S'. Подсчитайте количество таких пассажиров.

Задание 3: Группировка и агрегирование

    1. Рассчитайте средний возраст и медианную стоимость билета (Fare) для каждого класса (Pclass).
    2. Определите, в каком порту посадки (Embarked) было больше всего пассажиров, и найдите средний возраст пассажиров для каждого порта.
    3. Группируйте данные по полу (Sex) и классу (Pclass), затем рассчитайте процент выживших в каждой группе.

Задание 4: Создание новых признаков

    1. Создайте столбец IsChild, который будет равен True, если возраст пассажира меньше 18, и False в противном случае.
    2. Добавьте столбец FarePerPerson, разделив стоимость билета (Fare) на количество членов семьи на борту (SibSp + Parch + 1).
    3. Сформируйте столбец Deck из первой буквы столбца Cabin, который обозначает палубу, на которой находилась каюта пассажира.

Задание 5: Расширенный анализ данных

    1. Используйте метод .pivot_table() для создания сводной таблицы, которая покажет процент выживших (Survived) для каждой комбинации пола (Sex) и класса билета (Pclass).
    2. Анализируйте зависимость между выживаемостью и возрастом. Разделите возраст на группы (например, 0-18, 19-30, 31-45, 46-60, 61+) и рассчитайте процент выживших в каждой группе.
    3. Найдите топ-5 самых дорогих билетов. Определите, выжили ли пассажиры с этими билетами, и какой у них был класс обслуживания.