# Pandas: основы работы с табличными данными

<p><img alt="Pandas logo"  width="300" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/2560px-Pandas_logo.svg.png" hspace="10px" vspace="0px"></p>

*pandas is a Python package providing fast, flexible, and expressive data structures designed to make working with “relational” or “labeled” data both easy and intuitive. It aims to be the fundamental high-level building block for doing practical, real-world data analysis in Python.*

**Useful links:**
- [Pandas overview](https://pandas.pydata.org/docs/getting_started/overview.html)
- [Pandas docs](https://pandas.pydata.org/docs/user_guide/index.html)

- [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

- [10 Minutes To Pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html)

- [Pandas CookBook](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.simplefilter('ignore')

# Data loading

### Titanic - Machine Learning from Disaster

https://www.kaggle.com/c/titanic/data

Каждая строчка наборов данных содержит следующие поля:

- Pclass — класс пассажира (1 — высший, 2 — средний, 3 — низший);

- Name — имя;

- Sex — пол;

- Age — возраст;

- SibSp — количество братьев, сестер, сводных братьев, сводных сестер, супругов на борту титаника;

- Parch — количество родителей, детей (в том числе приемных) на борту титаника;

- Ticket — номер билета;

- Fare — плата за проезд;

- Cabin — каюта;

- Embarked — порт посадки (C — Шербур; Q — Квинстаун; S — Саутгемптон;

- Survived - пассажир выжил или нет.

В поле Age приводится количество полных лет. Для детей меньше 1 года — дробное. Если возраст не известен точно, то указано примерное значение в формате xx.5.

In [None]:
# pd.read_csv
# pd.read_excel
# pd.read_json
# pd.read_sql

In [None]:
df = pd.read_csv("http://tiny.cc/pandas_data", sep=";")
print(type(df))

# EDA

Exploratory data analysis

### First look-up and data access


In [None]:
# вывести голову таблицы
df.head()

In [None]:
# вывести хвост таблицы
df.tail()

In [None]:
# выбрать 5 случайных строк
df.sample(n=5)

In [None]:
# выбрать 15% случайных строк
df.sample(frac=0.15)

In [None]:
df

#### Dataframe columns

In [None]:
df.columns

In [None]:
df[['Name']]

In [None]:
df[['Name', 'Survived']]

#### Dataframe indexes: ```loc``` vs ```iloc```


<p><img alt="loc_vs_iloc"  width="500" src="https://miro.medium.com/max/2000/1*CgAWzayEQY8PQuMpRkSGfQ.png" hspace="10px" vspace="0px"></p>

In [None]:
df.index

In [None]:
df.iloc[0]

In [None]:
df.iloc[[0, 2, 4]]

In [None]:
df[['Sex', 'Age']].iloc[5:50:2]

In [None]:
df.loc[[0, 1, 2]]

In [None]:
details = {
    'Name' : ['Savva', 'Andrey', 'Dmitry', 'Anatoly'],
    'Age' : [22, 21, 24, 22],
    'Fav_food' : ['Pizza', 'Pie', 'Spaghetti', 'Beer'],
}
  
# creating a Dataframe object 
tmp_df = pd.DataFrame(details)
tmp_df.set_index(['Name'], inplace=True)

In [None]:
tmp_df

In [None]:
tmp_df.iloc[0]

In [None]:
tmp_df.loc[0]

In [None]:
tmp_df.loc['Savva']

### Dataframe info and simple stats

#### Metadata

In [None]:
len(df)

In [None]:
df.shape

In [None]:
# типы данных
df.dtypes

In [None]:
df.info()

In [None]:
df['Pclass'] =  df['Pclass'].astype('str')

#### Simple statistics

In [None]:
df.mean()

In [None]:
df['Age'].mean()

In [None]:
df['Survived'].sum()

In [None]:
df['Fare'].min(), df['Fare'].max(), df['Fare'].std()

In [None]:
df.describe()

In [None]:
df["Sex"].unique()

In [None]:
df.Embarked.nunique()

In [None]:
df.Pclass.value_counts()

#### Empty values

In [None]:
# df.isnull
df.isna().sum()

### Data filtering

In [None]:
df['Sex'] == 'female'

In [None]:
df[df['Sex'] == 'female']

In [None]:
# or = | , and  = &
condition = (df['Sex'] == 'male') & (df['Age'] > 18)
df_adult_male = df[condition]

In [None]:
df_adult_male.describe()

In [None]:
df[df.Sex.isin({'male', 'female'})]

#### Dropping

In [None]:
df.drop([0, 1 , 2, 3, 4])

In [None]:
df.drop(['PassengerId', 'Name'], axis=1)

In [None]:
df.drop_duplicates(subset=['Ticket'])

### Grouping and aggregations

In [None]:
df[['Sex', 'Age', 'Survived']].groupby(['Sex']).mean()

In [None]:
df.groupby(["Sex"]).agg({"PassengerId": "count", "Age": ["mean", "min", "max"], "Survived": "sum"})

#### And even pivots...

In [None]:
df.pivot_table('PassengerId', 'Sex', 'Survived', 'count')

In [None]:
df.pivot_table('PassengerId', 'Pclass', 'Survived', 'count')

In [None]:
df.pivot_table('PassengerId', 'Sex', 'Survived', 'count').plot(kind='bar', stacked=True)

In [None]:
df.pivot_table('PassengerId', 'Pclass', 'Survived', 'count').plot(kind='bar', stacked=True)

In [None]:
df.plot(x="Age", y="Fare", kind="scatter", grid=True)

### Data processing

#### map

In [None]:
df["DecodedSex"] = df["Sex"].map({"male": 1, "female": -1, "unknown": 0})
df.head(2)

In [None]:
def fun(age):
    return age / 100

# try loops
new_feature = []
#...

#### apply

In [None]:
df["NewAge"] = df["Age"].apply(fun)
df.head(2)

#### apply + lambda

In [None]:
df["NewAge"] = df["Age"].apply(lambda age: age/100)

In [None]:
df.head(2)

In [None]:
df["Surname"] = df["Name"].apply(lambda name: name.split(";")[0]) # option1

In [None]:
df["Surname"] = df["Name"].apply(lambda name: name[:name.find(";")]) # p[tion 2]

In [None]:
df["Surname"].value_counts().head()

In [None]:
df.values # df -> numpy.array

In [None]:
df.groupby("Sex")["Age"].apply(lambda ages: np.mean(ages) / 120)

In [None]:
df.groupby("Survived")["Age"].apply(np.mean)

In [None]:
# .mean -> .count
# Сколько семей больше трех человек?
np.sum(df.groupby("Surname")["Name"].count() > 3)

In [None]:
# Сколько семей, в которых минимальный возраст меньше 10 лет?
np.sum(df.groupby("Surname")["Age"].apply(min) < 10)

### Merging

In [None]:
# таблица оценок
# !wget 'https://raw.githubusercontent.com/hse-ds/iad-intro-ds/master/2022/seminars/grades.csv'
# таблица хэшей: ФИО студента <-> хэш
# !wget https://raw.githubusercontent.com/hse-ds/iad-intro-ds/master/2022/seminars/hashes.csv

In [None]:
# таблица с оценками
df_grades = pd.read_csv('grades.csv', index_col=0)
df_grades.head()

In [None]:
df_hashes = pd.read_csv('hashes.csv', sep=';')
df_hashes.head()

#### Concat

In [None]:
# склеить две таблицы по строкам
df1 = df_grades.iloc[:5]
df2 = df_grades.iloc[10:15]
pd.concat([df1, df2])

In [None]:
# склеить две таблицы по столбцам
df1 = df_grades[['hash', '1']]
df2 = df_grades[['3', '4']]
pd.concat([df1, df2], axis=1).head()

#### Merge


<p><img alt="merging_rules"  width="500" src="https://miro.medium.com/max/1200/1*9eH1_7VbTZPZd9jBiGIyNA.png" hspace="10px" vspace="0px"></p>

In [None]:
# присоединить подходящие строки из df_grades к df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='left')
print(df.shape)
df.head(10)

In [None]:
# присоединить подходящие строки из df_hashes к df_grades
df = pd.merge(df_hashes, df_grades, on='hash', how='right')
print(df.shape)
df.head(10)

In [None]:
# пересечение таблиц
# в данном случае эквивалентно 'right', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='inner')
print(df.shape)
df.head(10)

In [None]:
# объединение таблиц
# в данном случае эквивалентно 'left', т.к. в df_grades нет таких хэшей, которые отсутствуют в df_hashes
df = pd.merge(df_hashes, df_grades, on='hash', how='outer')
print(df.shape)
df.head(10)

In [None]:
# выбрать из таблицы хэшей только те строки, в которых хэш есть в таблице оценок
# т.е. отобрать тех студентов, которые писали контрольную и были оценены
df = df_hashes[df_hashes.hash.isin(df_grades.hash)]
print(df.shape)
df.head()