## Pandas - модуль, призначений для обробки та аналізу даних на Python.
## Pandas побудований на основі іншої бібліотеки під назвою NumPy. Він використовує типи даних NumPy і можливо просто переходити між об'єктами обох бібліотек.

In [None]:
import pandas as pd
import numpy as np

## Pandas працює з двома основними структурами даних: Series і DataFrame

### Сприймайте Series як колонку з індексом
### У Series може бути визначений тип даних (атрибут dtype)

In [None]:
my_data = ['Adenosine', 'Thymine', 'Citosine', 'Guanine']

my_series_1 = pd.Series(my_data)

In [None]:
my_series_1

In [None]:
type(my_series_1)

In [None]:
my_other_data = [1, 2, 3, 4]

mah_series_2 = pd.Series(my_other_data)

In [None]:
mah_series_2

In [None]:
my_other_data_2 = [1, 2, 3, 4.0]

mah_series_3 = pd.Series(my_other_data_2)

In [None]:
mah_series_3

In [None]:
mah_series_2 +  mah_series_3

In [None]:
mah_series_2**2

In [None]:
mah_series_3 % 2

### Індекс може бути визначений окремим параметром і не обов'язково має бути послідовністю цілих чисел

In [None]:
s1 = pd.Series([1, 2], index=['A', 'B'], name = "s1")

In [None]:
s1

In [None]:
s2 = pd.Series([3, 4], index=['A', 'B'], name='s2')

In [None]:
s2

## Ми можемо комбінувати Series різними способами

In [None]:
comb_1 = pd.concat([s1, s2])

In [None]:
comb_1

In [None]:
type(comb_1)

In [None]:
comb_2 = pd.concat([s1, s2], axis=1)

In [None]:
comb_2

In [None]:
type(comb_2)

### comb_2 - об'єкт типу DataFrame. DataFrame це "таблиця", де кожна колонка - це окрема Series. І ці Series об'єднані разом за спільним індексом

In [None]:
pd.concat([s1, mah_series_3], axis=1)

In [None]:
df = pd.concat([s1, mah_series_3], axis=1)

In [None]:
df.columns = ["c1", "c2"]

In [None]:
df

## В основному, звісно, ви будете працювати з DataFrame, отриманими в результаті читання тих чи інших файлів 
## У Pandas є коннектори для читання великої кількості різних форматів файлів (csv, json, xlsx, xml, parquet, orc тощо)

In [None]:
# Отримаємо поточну директорію для більш гнучкого відкриття файлів
import os
import pathlib

cwd = pathlib.Path(os.getcwd())

In [None]:
diabetes_csv_path = cwd / "diabetes/diabetes_prediction_dataset.csv"

In [None]:
diabetes_df = pd.read_csv(diabetes_csv_path)

In [None]:
pd.read_csv(diabetes_csv_path, header=None)

In [None]:
diabetes_df

### DataFrame можна фільтрувати доволі різним чином. Можна обирати тільки потрібні вам колонки, можна фільтрувати їх за значеннями певної колонки тощо

In [None]:
diabetes_df["gender"]

In [None]:
diabetes_df[["gender", "age", "smoking_history"]]

In [None]:
diabetes_df[diabetes_df["gender"] == "Female"]

In [None]:
filtered_women_df = diabetes_df[(diabetes_df["gender"] == "Female") & (diabetes_df["hypertension"] != 0) & (diabetes_df["diabetes"] == 1)]

In [None]:
filtered_women_df

In [None]:
filtered_women_df.query("blood_glucose_level > 200")

### Найголовніше призначення Pandas - EDA (exploratory data analysis). Отже, він може показати багато статистичних і метаданих про ваші дані

In [None]:
diabetes_df.head(20)

In [None]:
diabetes_df.tail(15)

In [None]:
diabetes_df.dtypes

In [None]:
diabetes_df.info()

In [None]:
diabetes_df.describe()

### В Pandas можливі операції з окремими рядками

In [None]:
diabetes_df.loc[0]

In [None]:
diabetes_df.iloc[10]

In [None]:
diabetes_df.loc[0] = diabetes_df.loc[1]

In [None]:
diabetes_df.head(3)

In [None]:
diabetes_df.loc[0:7, ["heart_disease", "bmi"]]

### Ви можете так само змінювати індекси у DataFrame як забажаєте

In [None]:
diabetes_df.set_index("smoking_history")

In [None]:
diabetes_df

In [None]:
reindexed_df = diabetes_df.set_index("smoking_history")

In [None]:
reindexed_df.loc["never"]

In [None]:
diabetes_df

### DataFrame, так само, можна комбінувати один з одним

In [None]:
us_video_csv_path = cwd / "youtube_trends/USvideos.csv"
us_cat_json_path = cwd / "youtube_trends/US_category_id.json"

In [None]:
gb_video_csv_path = cwd / "youtube_trends/GBvideos.csv"
gb_cat_json_path = cwd / "youtube_trends/GB_category_id.json"

In [None]:
us_video_df = pd.read_csv(us_video_csv_path)

In [None]:
gb_video_df = pd.read_csv(gb_video_csv_path)

In [None]:
gb_video_df.head(2)

In [None]:
gb_video_df.describe()

In [None]:
us_video_df.head(2)

In [None]:
us_video_df.describe()

In [None]:
anglo_sax_df = pd.concat([gb_video_df, us_video_df])

In [None]:
anglo_sax_df.head(2)

In [None]:
anglo_sax_df.describe()

In [None]:
us_cat_df = pd.read_json(us_cat_json_path)

In [None]:
us_cat_df.head(2)

In [None]:
us_cat_df = pd.json_normalize(us_cat_df["items"])

In [None]:
us_cat_df = us_cat_df.rename(columns={"id": "category_id"})

In [None]:
us_video_df.dtypes

In [None]:
us_cat_df.category_id = us_cat_df.category_id.astype("int64")

In [None]:
joined_df = pd.merge(us_video_df, us_cat_df, how="inner", on="category_id")

In [None]:
joined_df[(joined_df["category_id"] == 22) & (joined_df["snippet.assignable"])].head(2)

## Трансформації можуть бути доволі складними. Бажано планувати такі трансформації, щоб їх можна було описати через apply (це метод, котрий застосовує певну функцію на кожен рядок вашого DataFrame)

In [None]:
from datetime import datetime, timedelta

joined_df["parsed_date"] = joined_df["trending_date"].apply(lambda column_value: datetime.strptime(column_value, "%y.%d.%m"))

In [None]:
joined_df[joined_df["parsed_date"] - datetime(2017, 11, 14) < timedelta(days=2)].head(2)

In [None]:
joined_df["parsed_tags"] = joined_df["tags"].apply(lambda col: col.split("|"))

In [None]:
joined_df.explode("parsed_tags")

### Pandas дозволяє групувати дані між собою та рахувати ті чи інші функції агрегації. В Pandas це називається [split-apply-combine](https://pandas.pydata.org/docs/user_guide/groupby.html) процес

In [None]:
joined_df.groupby("category_id").sum()