# **1. Различие между Series и DataFrame**
### 1.1. Пример создания Series

In [3]:
import pandas as pd
import numpy as np
s = pd.Series([10,20,30,40], index=['a','b','c','d'])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


### 1.2. Пример создания DataFrame

In [None]:
data = {
    'Возраст': [25,30,22],
    'Город': ['Москва','СПб','Казань']
}
df = pd.DataFrame(data,index=['Анна','Иван','Ольга'])
print(df)

       Возраст   Город
Анна        25  Москва
Иван        30     СПб
Ольга       22  Казань
Анна     25
Иван     30
Ольга    22
Name: Возраст, dtype: int64


### 1.3. Series как часть DataFrame

In [None]:
print(df['Возраст'])

Анна     25
Иван     30
Ольга    22
Name: Возраст, dtype: int64


### 1.4. Преобразование Series в DataFrame и обратно

In [11]:
# Из Series в DataFrame
s = pd.Series([10,20,30], index=['a','b','c'])
df = s.to_frame(name='Значение')
print(df)
# Из DataFrame в Series (извлечение столбца)
s = df['Значение']
print(s)

   Значение
a        10
b        20
c        30
a    10
b    20
c    30
Name: Значение, dtype: int64


# **2. Создание DataFrame из различных источников данных**
### 2.1. Создание DataFrame из словаря (dict)

In [None]:
data = {
    'Имя': ['Анна','Иван','Ольга'],
    "Возраст": [25, 30, 22],
    "Город": ["Москва", "СПб", "Казань"]
}
df = pd.DataFrame(data)
print(df)

### 2.2. Создание DataFrame из списка (list)
### Список списков (двумерный список)

In [10]:
data = [
    ["Анна", 25, "Москва"],
    ["Иван", 30, "СПб"],
    ["Ольга", 22, "Казань"]
]
df = pd.DataFrame(data, columns=["Имя", "Возраст", "Город"])
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


### Список словарей

In [16]:
data = [
    {"Имя": "Анна", "Возраст": 25, "Город": "Москва"},
    {"Имя": "Иван", "Возраст":30}, # Город пропущен
    {"Имя": "Ольга", "Возраст":22, "Город":"Казань"}
]
df = pd.DataFrame(data)
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     NaN
2  Ольга       22  Казань


### 2.3. Создание DataFrame из массива NumPy

In [19]:
data = np.array([
    ["Анна", 25, "Москва"],
    ["Иван", 30, "СПб"],
    ["Ольга", 22, "Казань"]
])
df = pd.DataFrame(data, columns=["Имя", "Возраст", "Город"])
print(df)

     Имя Возраст   Город
0   Анна      25  Москва
1   Иван      30     СПб
2  Ольга      22  Казань


### 2.4. Создание пустого DataFrame

In [22]:
df = pd.DataFrame(columns=["Имя", "Возраст", "Город"])
print(df)

Empty DataFrame
Columns: [Имя, Возраст, Город]
Index: []


In [24]:
df.loc[0] = ["Анна", 25, "Москва"]
df.loc[1] = ["Иван", 30, "СПб"]
print(df)

    Имя  Возраст   Город
0  Анна       25  Москва
1  Иван       30     СПб


### 2.5. Чтение данных из CSV

In [28]:
df = pd.read_csv('data.csv')
print(df.head())

       Data;Price
0  01.03.2024;100
1  02.03.2024;110
2  03.03.2024;105
3  04.03.2024;120
4  05.03.2024;115


In [43]:
df = pd.read_csv('data.csv',sep=',', index_col=0) # Пример чтения CSV с параметрами

In [45]:
df.to_csv('output.csv', index=False) # Запись данных в CSV

### 2.6. Чтение данных из Excel

In [48]:
df = pd.read_excel('test.xlsx',sheet_name='Лист1')
print(df.head())

   Name   Surname
0  Egor  Ryabinin
1  Petr    Petrov
2  Ivan    Ivanov


### 2.7. Чтение данных из JSON

In [78]:
df = pd.read_json('data.json')
print(df.head())

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [80]:
# Запись данных в JSON
df.to_json('output.json', orient='records', indent=4)

### 2.8. Чтение данных из Parquet

In [68]:
df = pd.read_json('data.parquet')
print(df.head())

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


In [72]:
# Запись данных в Parquet
df.to_parquet('output.parquet', engine='pyarrow', index=False)

# **3. Основные методы для первичного анализа данных DataFrame**
### 3.1. Метод .head() - просмотр первых строк DataFrame

In [86]:
data = {
    "Имя": ["Анна","Иван","Ольга","Петр","Мария","Сергей"],
    "Возраст":[25,30,22,40,35,28],
    "Город": ["Москва","СПб","Казань","Новосибирск","Екатеринбург","Сочи"]
}
df = pd.DataFrame(data)
print(df.head())

     Имя  Возраст         Город
0   Анна       25        Москва
1   Иван       30           СПб
2  Ольга       22        Казань
3   Петр       40   Новосибирск
4  Мария       35  Екатеринбург


### 3.2. Метод .tail() - просмотр последних строк DataFrame

In [89]:
print(df.tail(2))

      Имя  Возраст         Город
4   Мария       35  Екатеринбург
5  Сергей       28          Сочи


### 3.3. Метод .info() - общая информация о DataFrame

In [94]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Имя      6 non-null      object
 1   Возраст  6 non-null      int64 
 2   Город    6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


### 3.4. Метод .describe() - статистический обзор числовых данных

In [101]:
df.describe()

Unnamed: 0,Возраст
count,6.0
mean,30.0
std,6.60303
min,22.0
25%,25.75
50%,29.0
75%,33.75
max,40.0


# **4. Доступ к данным в DataFrame**
### 4.1. Доступ к данным с .loc[] (по меткам)

In [119]:
data = {
    "Имя": ["Анна","Иван","Ольга","Петр"],
    "Возраст":[25,30,22,40],
    "Город": ["Москва","СПб","Казань","Новосибирск"]
}
df = pd.DataFrame(data, index=['a','b','c','d'])
print(df)
print('\nДоступ к одной строке по индексу:\n',df.loc['b'])
print('\nДоступ к конкретному значению:\n',df.loc['c','Город'])
print('\nДоступ к нескольким столбцам:\n',df.loc[:, ['Имя', 'Город']])
print('\nФильтрация данных по условию:\n',df.loc[df['Возраст']>25])

     Имя  Возраст        Город
a   Анна       25       Москва
b   Иван       30          СПб
c  Ольга       22       Казань
d   Петр       40  Новосибирск

Доступ к одной строке по индексу:
 Имя        Иван
Возраст      30
Город       СПб
Name: b, dtype: object

Доступ к конкретному значению:
 Казань

Доступ к нескольким столбцам:
      Имя        Город
a   Анна       Москва
b   Иван          СПб
c  Ольга       Казань
d   Петр  Новосибирск

Фильтрация данных по условию:
     Имя  Возраст        Город
b  Иван       30          СПб
d  Петр       40  Новосибирск


### 4.2. Доступ к данных с .iloc[] (по номерам строк и столбцов)

In [130]:
print('\nДоступ к строке по номеру:\n',df.iloc[1])
print('\nДоступ к отдельному значению:\n',df.iloc[2,2])
print('\nДоступ к нескольким строкам:\n',df.iloc[[0,2]])
print('\nДоступ к срезу строк:\n', df.iloc[1:3])
print('\nДоступ к нескольким столбцам:\n',df.iloc[:, [0,2]])


Доступ к строке по номеру:
 Имя        Иван
Возраст      30
Город       СПб
Name: b, dtype: object

Доступ к отдельному значению:
 Казань

Доступ к нескольким строкам:
      Имя  Возраст   Город
a   Анна       25  Москва
c  Ольга       22  Казань

Доступ к срезу строк:
      Имя  Возраст   Город
b   Иван       30     СПб
c  Ольга       22  Казань

Доступ к нескольким столбцам:
      Имя        Город
a   Анна       Москва
b   Иван          СПб
c  Ольга       Казань
d   Петр  Новосибирск


### 4.3. Доступ к отдельному элементу .at[] (по метке индекса)

In [133]:
print(df.at['c','Город'])

Казань


### 4.4. Доступ к отдельному элементу .iat[] (по номеру строки и столбца)

In [136]:
print(df.iat[2,2])

Казань


# **5. Добавление строк и столбцов в DataFrame**
### 5.1. Добавление нового столбца
### Добавление столбца с фиксированными значениями

In [143]:
data = {
    "Имя": ["Анна", "Иван", "Ольга"],
    "Возраст": [25,30,22]
}
df = pd.DataFrame(data)
df["Город"] = ["Москва", "СПб", "Казань"]
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


### Добавление столбца с одним значением

In [147]:
df["Страна"] = "Россия"
print(df)

     Имя  Возраст   Город  Страна
0   Анна       25  Москва  Россия
1   Иван       30     СПб  Россия
2  Ольга       22  Казань  Россия


### Добавление столбца на основе других столбцов

In [150]:
df["Возраст_в_месяцах"] = df["Возраст"] * 12
print(df)

     Имя  Возраст   Город  Страна  Возраст_в_месяцах
0   Анна       25  Москва  Россия                300
1   Иван       30     СПб  Россия                360
2  Ольга       22  Казань  Россия                264


### Добавление столбца с .apply()

In [153]:
df["Категория возраста"] = df["Возраст"].apply(lambda x: "Молодой" if x < 30 else "Взрослый")
print(df)

     Имя  Возраст   Город  Страна  Возраст_в_месяцах Категория возраста
0   Анна       25  Москва  Россия                300            Молодой
1   Иван       30     СПб  Россия                360           Взрослый
2  Ольга       22  Казань  Россия                264            Молодой


### 5.2. Добавление строк
### Добавление одной строки с .loc

In [171]:
df.loc[3] = {"Имя": "Петр", "Возраст": 40, "Город": "Новосибирск", "Страна": "Россия"}
print(df)

     Имя  Возраст        Город  Страна  Возраст_в_месяцах Категория возраста
0   Анна       25       Москва  Россия              300.0            Молодой
1   Иван       30          СПб  Россия              360.0           Взрослый
2  Ольга       22       Казань  Россия              264.0            Молодой
3   Петр       40  Новосибирск  Россия                NaN                NaN


### Добавление строки с pd.concat()

In [None]:
new_data = pd.DataFrame([{"Имя": "Алексей", "Возраст": 29, "Город": "Томск", "Страна": "Россия"}])
df = pd.concat([df, new_data], ignore_index=True)
print(df)

### Добавление нескольких строк

In [192]:
new_rows = pd.DataFrame([
    {"Имя": "Дмитрий", "Возраст": 31, "Город": "Самара", "Страна": "Россия"},
    {"Имя": "Егор", "Возраст": 19, "Город": "Ставрополь", "Страна": "Россия"}
])
df = pd.concat([df, new_rows], ignore_index=True)
print(df)

       Имя  Возраст        Город  Страна  Возраст_в_месяцах Категория возраста
0     Анна       25       Москва  Россия              300.0            Молодой
1     Иван       30          СПб  Россия              360.0           Взрослый
2    Ольга       22       Казань  Россия              264.0            Молодой
3     Петр       40  Новосибирск  Россия                NaN                NaN
4  Алексей       29        Томск  Россия                NaN                NaN
5  Дмитрий       31       Самара  Россия                NaN                NaN
6     Егор       19   Ставрополь  Россия                NaN                NaN


### Добавление строк .loc с новым индексом

In [197]:
df.loc["новый"] = {"Имя": "Артем", "Возраст": 33, "Город": "Калуга", "Страна": "Россия"}
print(df)

           Имя  Возраст        Город  Страна  Возраст_в_месяцах  \
0         Анна       25       Москва  Россия              300.0   
1         Иван       30          СПб  Россия              360.0   
2        Ольга       22       Казань  Россия              264.0   
3         Петр       40  Новосибирск  Россия                NaN   
4      Алексей       29        Томск  Россия                NaN   
5      Дмитрий       31       Самара  Россия                NaN   
6         Егор       19   Ставрополь  Россия                NaN   
новый    Артем       33       Калуга  Россия                NaN   

      Категория возраста  
0                Молодой  
1               Взрослый  
2                Молодой  
3                    NaN  
4                    NaN  
5                    NaN  
6                    NaN  
новый                NaN  


# **6. Удаление строк и столбцов в DataFrame**
### 6.1. Удаление столбцов
### Удаление столбца с .drop()

In [208]:
data = {
    "Имя": ["Анна", "Иван", "Ольга"],
    "Возраст": [25,30,22],
    "Город": ["Москва", "СПб", "Казань"],
    "Зарплата": [50000, 60000, 45000]
}
df = pd.DataFrame(data)
# Удаляем столбец "Зарплата"
df = df.drop(columns=["Зарплата"])
print(df)

# Для удаления нескольких столбцов нужно передать в drop несколько параметров

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


### Удаление столбца с del

In [210]:
del df["Имя"]
print(df)

   Возраст   Город
0       25  Москва
1       30     СПб
2       22  Казань


### Удаление столбца с .pop()

In [217]:
df["Имя"] = ["Анна", "Иван", "Ольга"] # Вернем столбец для примера
d_c = df.pop("Имя")
print(d_c)

0     Анна
1     Иван
2    Ольга
Name: Имя, dtype: object


### 6.2. Удаление строк
### Удаление строк по индексу с .drop()

In [220]:
df = pd.DataFrame(data)
df = df.drop(index=1)
print(df)
# Для удаления нескольких строк передаем несколько индексов index=[0,2]

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
2  Ольга       22  Казань     45000


### Удаление строк по условию

In [225]:
df = pd.DataFrame(data)
df = df[df["Возраст"] > 25]
print(df)

    Имя  Возраст Город  Зарплата
1  Иван       30   СПб     60000


### Удаление строк с reset_index()

In [228]:
df = df.reset_index(drop=True) # Сбрасываем индексы
print(df)

    Имя  Возраст Город  Зарплата
0  Иван       30   СПб     60000


### 6.3. Удаление строк с пропущенными значениями (dropna)

In [237]:
df.loc[3] = {"Имя": "Мария", "Возраст": None, "Город": "Самара", "Зарплата": "55000"} # Добавим строку с пропуском
print(df)
df = df.dropna() # Удалим все строки с пропущенными значениями
print("\n")
print(df)

     Имя Возраст   Город Зарплата
0   Иван      30     СПб    60000
3  Мария    None  Самара    55000


    Имя Возраст Город Зарплата
0  Иван      30   СПб    60000


### 6.4. Удаление дубликатов (drop_duplicates)

In [242]:
df = pd.DataFrame({
    "Имя": ["Анна", "Иван", "Анна", "Ольга"],
    "Возраст": [25,30,25,22]
})
print(df)
print("\n")
df = df.drop_duplicates()
print(df)

     Имя  Возраст
0   Анна       25
1   Иван       30
2   Анна       25
3  Ольга       22


     Имя  Возраст
0   Анна       25
1   Иван       30
3  Ольга       22


# **7. Фильтрация и условная индексация в DataFrame**
### 7.1. Фильтрация с .query()

In [246]:
data = {
    "Имя": ["Анна", "Иван", "Ольга","Петр","Мария"],
    "Возраст": [25,30,22,40,35],
    "Город": ["Москва", "СПб", "Казань","Новосибирск","СПб"],
    "Зарплата": [50000, 60000, 45000, 70000, 65000]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст        Город  Зарплата
0   Анна       25       Москва     50000
1   Иван       30          СПб     60000
2  Ольга       22       Казань     45000
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


In [254]:
df_filtered = df.query("Возраст > 30")
print(df_filtered)
# Для фильтрации по нескольким условиям нужно использовать "and, or" между ними

     Имя  Возраст        Город  Зарплата
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


### Использование переменных в query

In [257]:
min_age = 25
df_filtered = df.query("Возраст > @min_age")
print(df_filtered)

     Имя  Возраст        Город  Зарплата
1   Иван       30          СПб     60000
3   Петр       40  Новосибирск     70000
4  Мария       35          СПб     65000


### 7.2. Фильтрация с .isin()
### Фильтрация по списку значений

In [260]:
df_filtered = df[df["Город"].isin(["Москва", "СПб"])]
print(df_filtered)

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
1   Иван       30     СПб     60000
4  Мария       35     СПб     65000


### Обратная фильтрация (исключение значений)

In [266]:
df_filtered = df[~df["Город"].isin(["Москва", "СПб"])]
print(df_filtered)

     Имя  Возраст        Город  Зарплата
2  Ольга       22       Казань     45000
3   Петр       40  Новосибирск     70000


### 7.3. Фильтрация с .between()

In [271]:
df_filtered = df[df["Возраст"].between(25,35)]
print(df_filtered)
# Для исключения границ можно использовать inclusive="neither"

     Имя  Возраст   Город  Зарплата
0   Анна       25  Москва     50000
1   Иван       30     СПб     60000
4  Мария       35     СПб     65000


# **8. Подсчет значений в DataFrame**
### 8.1. Подсчет ненулевых значений: .count()

In [280]:
data = {
    "Имя": ["Анна", "Иван", "Ольга","Петр",None],
    "Возраст": [25,30,22,None,35],
    "Город": ["Москва", "СПб", "Казань","Новосибирск","СПб"],
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст        Город
0   Анна     25.0       Москва
1   Иван     30.0          СПб
2  Ольга     22.0       Казань
3   Петр      NaN  Новосибирск
4   None     35.0          СПб


In [282]:
print(df.count())

Имя        4
Возраст    4
Город      5
dtype: int64


### 8.2. Подсчет уникальных значений: .value_counts()

In [285]:
print(df["Город"].value_counts())

Город
СПб            2
Москва         1
Казань         1
Новосибирск    1
Name: count, dtype: int64


### 8.3. Подсчет количества уникальных значений: .nunique()

In [290]:
print(df.nunique())
# Если нужно учитывать NaN как уникальное значение, добавляем dropna=False

Имя        4
Возраст    4
Город      4
dtype: int64


### 8.4. Подсчет пропущенных значений: .isna().sum()

In [293]:
print(df.isna().sum())

Имя        1
Возраст    1
Город      0
dtype: int64


# **9. Сортировка данных в DataFrame**
### 9.1. Сортировка по значениям .sort_values()

In [296]:
data = {
    "Имя": ["Анна", "Иван", "Ольга","Петр","Мария"],
    "Возраст": [25,30,22,40,35],
    "Зарплата": [50000, 60000, 45000, 70000, 65000]
}
df = pd.DataFrame(data)
print(df)

     Имя  Возраст  Зарплата
0   Анна       25     50000
1   Иван       30     60000
2  Ольга       22     45000
3   Петр       40     70000
4  Мария       35     65000


### Сортировка по одному столбцу

In [299]:
df_sorted = df.sort_values(by="Возраст")
print(df_sorted)

     Имя  Возраст  Зарплата
2  Ольга       22     45000
0   Анна       25     50000
1   Иван       30     60000
4  Мария       35     65000
3   Петр       40     70000


### Сортировка по убыванию

In [302]:
df_sorted = df.sort_values(by="Возраст", ascending=False)
print(df_sorted)

     Имя  Возраст  Зарплата
3   Петр       40     70000
4  Мария       35     65000
1   Иван       30     60000
0   Анна       25     50000
2  Ольга       22     45000


### Сортировка по нескольким столбцам

In [309]:
df_sorted = df.sort_values(by=["Возраст","Зарплата"], ascending=[True,False])
print(df_sorted)

     Имя  Возраст  Зарплата
2  Ольга       22     45000
0   Анна       25     50000
1   Иван       30     60000
4  Мария       35     65000
3   Петр       40     70000


### Сортировка с na_position

In [312]:
df.loc[5] = ["Елена", None, 55000] # Добавляем строку с NaN в "Возраст"
df_sorted = df.sort_values(by="Возраст", na_position="first")
print(df_sorted)

     Имя Возраст  Зарплата
5  Елена    None     55000
2  Ольга      22     45000
0   Анна      25     50000
1   Иван      30     60000
4  Мария      35     65000
3   Петр      40     70000


### 9.2. Сортировка по индексам: .sort_index()

In [318]:
df_sorted = df.sort_index()
print(df_sorted)
# Для сортировки индексов в обратном порядке можно использовать .sort_index(ascending=False)

     Имя Возраст  Зарплата
0   Анна      25     50000
1   Иван      30     60000
2  Ольга      22     45000
3   Петр      40     70000
4  Мария      35     65000
5  Елена    None     55000


# **10. Отображение DataFrame в Jupyter Notebook**
### 10.1. Базовое отображение pandas.DataFrame
### Вывод через print() (не рекомендуется)

In [321]:
df = pd.DataFrame({
    "Имя": ["Анна", "Иван","Ольга"],
    "Возраст": [25,30,22],
    "Город": ["Москва", "СПб", "Казань"]
})
print(df)

     Имя  Возраст   Город
0   Анна       25  Москва
1   Иван       30     СПб
2  Ольга       22  Казань


### Отображение через display() (рекомендуется)

In [324]:
from IPython.display import display
display(df)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


### Использование df.head() и df.tail()

In [327]:
df.head(5)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


In [329]:
df.tail(3)

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


### 10.2. Управление настройками отображения

### Изменение количества отображаемых строк и столбцов

In [333]:
pd.set_option("display.max_rows",100) # Показывать до 100 строк

In [335]:
pd.set_option("display.max_columns",50) # Показывать до 50 столбцов

In [339]:
pd.set_option("display.max_colwidth",None) # Отключить обрезку длинных строк в таблицах

### Уменьшение количества знаков после запятой

In [344]:
pd.set_option("display.float_format","{:.2f}".format) # Будет округлять все числа до 2 зн.п.з

### 10.3. Визуализация больших таблиц
### Прокручиваемые таблицы с DataFrame.style.set_sticky()

In [347]:
df.style.set_sticky() # Позволяет зафиксировать заголовки при прокрутке

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань


### Разбиение больших таблиц на страницы (Qgrid)

In [None]:
import qgrid
qgrid_widget = qgrid.show_grid(df, show_toolbar=True)
qgrid_widget

### Улучшенное отображение с помощью tabulate

In [355]:
from tabulate import tabulate
print(tabulate(df, headers="keys", tablefmt="github"))

|    | Имя   |   Возраст | Город   |
|----|-------|-----------|---------|
|  0 | Анна  |        25 | Москва  |
|  1 | Иван  |        30 | СПб     |
|  2 | Ольга |        22 | Казань  |


### 10.4. Использование сторонних библиотек

In [368]:
df.style.set_properties(**{"background-color":"#E6E6FA","color":"black"})

Unnamed: 0,Имя,Возраст,Город
0,Анна,25,Москва
1,Иван,30,СПб
2,Ольга,22,Казань
