In [None]:
# импорт модулей
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Поработаем с несколькими небольшими датасетами

In [None]:
!wget https://raw.githubusercontent.com/hse-ds/iad-intro-ds/master/2022/seminars/grades.csv

In [None]:
df = pd.read_csv('grades.csv', 
                 sep=',', 
                 index_col=0)

In [None]:
# вывести голову таблицы
df.head()

In [None]:
# вывести хвост таблицы
df.tail()

In [None]:
# выбрать 5 случайных строк
df.sample(n=5)

In [None]:
# выбрать 30% случайных строк
df.sample(frac=0.3)

In [None]:
# выбрать 5 строк с наибольшими значениями в столбцах '3', '4'
df.nlargest(n=5, columns=['3', '4'])

In [None]:
# подсчитать количество уникальных значений в столбце 3
df['3'].nunique()

In [None]:
# подсчитать сколько раз встретилось в столбце '3' каждое уникальное значение
df['3'].value_counts()

In [None]:
# склеить две таблицы по строкам
df1 = df.iloc[:5]
df2 = df.iloc[10:15]
pd.concat([df1, df2])

In [None]:
# склеить две таблицы по столбцам
df1 = df[['hash', '1']]
df2 = df[['3', '4']]
pd.concat([df1, df2], axis=1).head()

### DataFrame.merge - объединение таблиц (аналог SQL: JOIN)

In [None]:
# таблица с оценками
df_grades = pd.read_csv('grades.csv', index_col=0)
df_grades.head()

In [None]:
# таблица хэшей: ФИО студента <-> хэш
!wget https://raw.githubusercontent.com/hse-ds/iad-intro-ds/master/2022/seminars/hashes.csv

In [None]:
df_hashes = pd.read_csv('hashes.csv')
df_hashes.head()

In [None]:
df_grades.hash.nunique()

In [None]:
df_hashes.hash.nunique()

In [None]:
# присоединить подходящие строки из df_grades к df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='left')
print(df.shape)
df.head(10)

In [None]:
# присоединить подходящие строки из df_hashes к df_grades
df = pd.merge(df_hashes, df_grades, on='hash', how='right')
print(df.shape)
df.head(10)

In [None]:
# пересечение таблиц
# в данном случае эквивалентно 'right', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='inner')
print(df.shape)
df.head(10)

In [None]:
# объединение таблиц
# в данном случае эквивалентно 'left', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='outer')
print(df.shape)
df.head(10)

In [None]:
# выбрать из таблицы хэшей только те строки, в которых хэш есть в таблице оценок
# т.е. отобрать тех студентов, которые писали контрольную и были оценены
df = df_hashes[df_hashes.hash.isin(df_grades.hash)]
print(df.shape)
df.head()

In [None]:
# сколько человек из каждой группы были оценены?
df.Группа.value_counts()

### DataFrame.groupby - группировка строк

In [None]:
# сгруппировать строки по столбцу '1'
gr = df_grades.groupby(by='1')
gr

In [None]:
# какая средняя оценка (и ее дисперсия) за другие задачи у студентов, получивших конкретную оценку по задаче '1'?

In [None]:
gr.mean()

In [None]:
# дисперсия
gr.var()

In [None]:
# откуда взялись NaN?

In [None]:
gr.get_group(0.2)

### Самый знаменитый датасет от Титаника

Каждая строчка наборов данных содержит следующие поля:

- Pclass — класс пассажира (1 — высший, 2 — средний, 3 — низший);

- Name — имя;

- Sex — пол;

- Age — возраст;

- SibSp — количество братьев, сестер, сводных братьев, сводных сестер, супругов на борту титаника;

- Parch — количество родителей, детей (в том числе приемных) на борту титаника;

- Ticket — номер билета;

- Fare — плата за проезд;

- Cabin — каюта;

- Embarked — порт посадки (C — Шербур; Q — Квинстаун; S — Саутгемптон;

- Survived - пассажир выжил или нет.

В поле Age приводится количество полных лет. Для детей меньше 1 года — дробное. Если возраст не известен точно, то указано примерное значение в формате xx.5.

In [None]:
df = pd.read_csv("http://tiny.cc/pandas_data", sep=";")

In [None]:
df

In [None]:
df.columns

In [None]:
df.index

In [None]:
# типы данных
df.dtypes

In [None]:
# на просмотр может быть выведен только один стобец
Y = df["Survived"]
Y.head()

In [None]:
df[["Survived", "Age"]].head()

In [None]:
# удаление данных одного из столбцов
X = df[df.columns.drop("Survived")]

In [None]:
X = df.drop("Survived", axis=1) # same thing as previous cell

In [None]:
X.shape, df.shape

In [None]:
# выделение части строк
X.loc[[5, 8, 10]] # selected by index; select rows

In [None]:
# изменение индексации
df.set_index("Name").head()

### Анализ данных

In [None]:
df.describe()

In [None]:
set(df["Sex"])

In [None]:
len(set(df["Name"]))

In [None]:
df["Sex"].value_counts()

In [None]:
df.pivot_table('PassengerId', 'Sex', 'Survived', 'count').plot(kind='bar', stacked=True)
#Вывод из полученных гистограмм?

In [None]:
df.pivot_table('PassengerId', 'Pclass', 'Survived', 'count').plot(kind='bar', stacked=True)
#Вывод из полученных гистограмм?

In [None]:
fig, axes = plt.subplots(ncols=2)
df.pivot_table('PassengerId', ['SibSp'], 'Survived', 'count').plot(ax=axes[0], title='SibSp')
df.pivot_table('PassengerId', ['Parch'], 'Survived', 'count').plot(ax=axes[1], title='Parch')

#Вывод?

In [None]:
df.plot(x="PassengerId", y="Fare", kind="bar")

### Обработка и преобразование данных

In [None]:
df.head(2)

In [None]:
# преобразуем текстовый признак "Пол" в числовые значения
df["DecodedSex"] = df["Sex"].map({"male":1, "female":-1, "unknown":0})
df.head(2)

In [None]:
# добавим еще одну характеристику для каждого объекта датасета
def fun(age):
    return age / 100

df["NewAge"] = df["Age"].apply(fun)
df.head(2)

In [None]:
# то же самое можно сделатьс. помощью лямбда функции
df["NewAge"] = df["Age"].apply(lambda age: age/100)

In [None]:
df.head(2)

In [None]:
# выделим фамилию из данных
df["Surname"] = df["Name"].apply(lambda name: name.split(";")[0]) # option1

In [None]:
df["Surname"] = df["Name"].apply(lambda name: name[:name.find(";")]) # p[tion 2]

In [None]:
df["Surname"].value_counts().head()

In [None]:
df.values # df -> numpy.array

In [None]:
# Исследуем возраст пассажиров Титаника
df.groupby("Sex")["Age"].mean()

In [None]:
df.groupby("Sex")["Age"].apply(np.mean)

In [None]:
df.groupby("Sex")["Age"].apply(lambda ages: np.mean(ages)**2)

In [None]:
df.groupby("Survived")["Age"].apply(np.mean)

In [None]:
# .mean -> .count
# Сколько семей больше трех человек?
np.sum(df.groupby("Surname")["Name"].count() > 3)

In [None]:
# Сколько семей, в которых минимальный возраст меньше 10 лет?
np.sum(df.groupby("Surname")["Age"].apply(min) < 10)

In [None]:
# можно выделять объекты с помощью масок
# cоздание маски
(df["Age"]>10) & (df["Age"]<20)

In [None]:
# пассажиры, удовлетворяющие условию
df.loc[(df["Age"]>10) & (df["Age"]<20)]

### Доп материалы


[Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

[10 Minutes To Pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)

[Pandas CookBook](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)