# II. Pandas

Pandas (Panel data) - це широко поширена бібліотека мовою Python з відкритим вихідним кодом для обробки і аналізу даних. На відміну від основної структури даних бібліотеки NumPy, головний об'єкт pandas DataFrame може містити неоднорідні типи даних (числа з плаваючою комою, цілі числа, рядки, дати тощо), які можна структурувати у вигляді ієрархії та індексувати.

Бібліотека pandas надає дві структури для роботи з даними: 
- Series
- DataFrame

Series - це маркована одновимірна структура даних, її можна уявити, як таблицю з одним рядком (або стовпцем). З Series можна працювати як із звичайним масивом (звертатися за номером індексу), і як із асоційованим масивом, у цьому випадку можна використовувати ключ для доступу до елементів даних.

DataFrame - це двовимірна маркована структура. Вона схожа на звичайну таблицю і це виявляється у способі її створення та у роботі з її елементами.

Pandas важливий для обробки даних, оскільки він надає широкий спектр інструментів для ефективної роботи з даними, включаючи завантаження, очищення, трансформацію, візуалізацію та аналіз даних.

In [None]:
#pip install pandas

In [None]:
import pandas as pd

In [None]:
mountains_height = pd.Series([2061, 2035.8, 2028.5, 2022.5, 2016.4])  # У найпростішій формі об'єкт Series можна створити так само як одновимірний масив NumPy:
print(mountains_height)

In [None]:
mountains_height = pd.Series(
    data=[2061, 2035.8, 2028.5, 2022.5, 2016.4], # data - дані, які будуть зберігатися в об'єкті Series
    index=["Goverla", "Brebenskyl", "Pip_Ivan", "Petros", "Gutin_Tomnatik"], # index - індекси, які будуть використовуватися для доступу до елементів об'єкту Series
    name="Height, m", # name - назва об'єкту Series
    dtype=float, # dtype - тип даних, які будуть зберігатися в об'єкті Series
)

print(mountains_height)

In [None]:
print(mountains_height[0])  # 2061.0

In [None]:
print(mountains_height["Goverla"])  # 2061.0

In [None]:
print(mountains_height[["Pip_Ivan", "Goverla", "Gutin_Tomnatik"]])

In [None]:
# Вирізання елементів у стилі Python працює.

print(mountains_height[1:3]) # не включно 3!

In [None]:
print(mountains_height["Brebenskyl":"Petros"])

In [None]:
# Можна звертатися до рядку даних як до атрибуту послідовності Series:

print(mountains_height.Petros)  # 2022.5
print(mountains_height.Brebenskyl)  # 2035.8

In [None]:
# Операції порівняння та фільтрації об'єкта Series за допомогою логічних операцій створюють новий об'єкт Series

print(mountains_height > 2030) # повертає об'єкт Series з логічними значеннями


In [None]:
print(mountains_height[mountains_height > 2030])  # повертає об'єкт Series з елементами, які задовольняють умову

In [None]:
# Операції перевірки на існування елемента в Series використовують індекс, а не значення:

print("Goverla" in mountains_height)  # True

# Sorting

In [None]:
sort_index = mountains_height.sort_index()
print(sort_index)

In [None]:
mountains_height.sort_values(inplace=True, ascending=True) # inplace=True - змінює об'єкт Series, а не повертає новий 
print(mountains_height)

In [None]:
# Метод apply дозволяє застосовувати користувацьку функцію до кожного елемента Series.

def square(x):
    return x**2


squared_height = mountains_height.apply(square)
print(squared_height)

In [None]:
#pip install matplotlib

In [None]:
# Також Pandas пропонує простий спосіб візуалізації даних в Series.

mountains_height.plot(kind='bar')

In [None]:
# Останнім розглянемо метод concat який дозволяє з'єднувати два або більше об'єктів Series в один.

other_mountains = pd.Series([2001.1, 1998.4], index=["Rebra", "Menchul"])
all_mountains = pd.concat([mountains_height, other_mountains])
print(all_mountains)

# Об'єкт DataFrame

In [None]:
# Об'єкт DataFrame є основним компонентом бібліотеки Pandas і являє собою двовимірну структуру даних зі стовпцями різних типів.
# Це один з найзручніших інструментів для обробки та аналізу табличних даних у Python.

In [None]:
# Створення DataFrame можливо зі списків

import pandas as pd

data = [[1, "Alice"], [2, "Bob"]]
df = pd.DataFrame(data, columns=["ID", "Name"])

In [None]:
# Зі словників

data = {'ID': [1, 2], 'Name': ['Alice', 'Bob']}
df = pd.DataFrame(data)

In [None]:
# З NumPy масивів

import numpy as np

data = np.array([[1, "Alice"], [2, "Bob"]])
df = pd.DataFrame(data, columns=["ID", "Name"])

## Властивості DataFrame​



DataFrame має наступні властивості:

- shape: повертає розмір DataFrame (кількість рядків, кількість стовпців).
- columns: повертає назви стовпців.
- index: повертає індекси рядків.
- dtypes: повертає типи даних кожного стовпця.

In [None]:
import pandas as pd

# Створення даних у формі словника, де ключі - це назви колонок, а значення - списки даних для цих колонок
data = {"Student ID": [101, 102, 103], "Score": [85, 90, 78]}

# Створення DataFrame з використанням цього словника
df = pd.DataFrame(data)

# Виводимо DataFrame
print(df)

In [None]:
# https://www.kaggle.com/datasets/heptapod/titanic
df = pd.read_csv('/Users/marinalysenko/Projects/goit_da_6/goit_da_6/module_4_python/train_and_test2.csv')
df

In [None]:
# https://www.kaggle.com/datasets/yeanzc/telco-customer-churn-ibm-dataset?resource=download

# pip install openpyxl
df = pd.read_excel(
    "/Users/marinalysenko/Projects/goit_da_6/goit_da_6/module_4_python/Telco_customer_churn.xlsx"
)
df

In [None]:
df.head()

In [None]:
df.head(3)

In [None]:
df.tail(3)

In [None]:
df.describe()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
dfr = df.rename(columns={"CustomerID": "ClientID"})
dfr.columns

In [None]:
df.drop("Zip Code", axis=1) # axis=1 - видаляє колонку, axis=0 - видаляє рядок

In [None]:
df.reset_index()

## Що робимо з рядками?

In [None]:
#df.reset_index(drop=True, inplace=True) # drop=True - видаляє колонку з індексами, inplace=True - змінює об'єкт DataFrame, а не повертає новий

In [None]:
df.set_index("CustomerID")

In [None]:
type(df["Country"])

In [None]:
df["State"].unique()

In [None]:
df["Charge_ind"] = df["Monthly Charges"] * df["Churn Score"]

In [None]:
df

In [None]:
df.isnull()

In [None]:
df.isnull().sum()   

In [None]:
df['Total Charges'].info()

In [None]:
df["Total Charges"]

In [None]:
df["Total Charges"] = df["Total Charges"].astype(float)

In [None]:
df = df.fillna(0)

In [None]:
# df замінити '' на 0
df = df.replace(" ", 0)

In [None]:
df.shape

In [None]:
# видалити рядки з пропущеними значеннями
df = df.dropna()

In [None]:
df.shape

In [None]:
# замінити значення в колонці Total Charges на середнє значення
df["Total Charges"] = df["Total Charges"].fillna(df["Total Charges"].mean())