---

## Тема 2.1. Структуры данных в Pandas  
## Лекция. Структуры данных в Pandas: Series и DataFrame

---

## 1. Основные структуры данных Pandas

### 1.1. Series

**Series** — одномерный массив с индексом. Можно думать как о столбце таблицы или словаре.

**Пример создания:**
```python
import pandas as pd

grades = pd.Series(
    [5, 4, 5, 3, 4, 5, 5, 3, 4, 2, 4, 3, 5, 4, 2, 5, 3, 5, 4, 5],
    index=[
        'Анна','Борис','Вера','Глеб','Даша','Егор','Жанна','Зоя','Илья','Кира',
        'Лена','Михаил','Оля','Петр','Рая','Света','Тимур','Ульяна','Федор','Яна'
    ],
    name='Оценка'
)
print(grades.head())
# Обращение по индексу:
print(grades['Вера'])
# Фильтрация:
print(grades[grades >= 4])
```

---

### 1.2. DataFrame

**DataFrame** — двумерная таблица с именами строк и столбцов.

**Пример создания большого DataFrame:**
```python
data = {
    'Имя': [
        'Анна','Борис','Вера','Глеб','Даша','Егор','Жанна','Зоя','Илья','Кира',
        'Лена','Михаил','Оля','Петр','Рая','Света','Тимур','Ульяна','Федор','Яна'
    ],
    'Возраст': [19,20,19,21,20,22,19,20,18,22,20,21,19,22,18,20,19,20,22,21],
    'Город': [
        'Москва', 'Сочи', 'Казань', 'Казань', 'Москва', 'Сочи', 'Казань', 'Москва', 'Сочи', 'Казань',
        'Москва', 'Сочи', 'Казань', 'Москва', 'Сочи', 'Казань', 'Москва', 'Сочи', 'Казань', 'Москва'
    ],
    'Пол': list('ЖМЖМЖМЖЖМЖЖМЖЖМЖЖМЖМЖ'),
    'Оценка': [5,4,5,3,4,5,5,3,4,2,4,3,5,4,2,5,3,5,4,5]
}
df = pd.DataFrame(data)
print(df.head(6))    # первые 6 строк
print(df.tail(2))    # последние 2 строки
```

---

## 2. Чтение файлов в Pandas

### 2.1. CSV

```python
df = pd.read_csv('students.csv')
# Дополнительные параметры:
# sep — разделитель (по умолчанию ','), encoding — кодировка, index_col — индекс
df2 = pd.read_csv('students.csv', sep=',', encoding='utf-8', index_col=0)
```

### 2.2. Excel

```python
df_excel = pd.read_excel('students.xlsx')
```

### 2.3. Другие форматы

```python
df_tsv = pd.read_csv('data.tsv', sep='\t')
df_txt = pd.read_csv('data.txt', sep=';', encoding='cp1251')
```

---

## 3. Работа со столбцами DataFrame

### Обращение к столбцу

```python
print(df['Имя'].head())
print(df.Имя.head())
```
*Если имя столбца на кириллице, предпочтительно использовать синтаксис через [].

### Создание нового столбца

```python
df['Возраст_через_5_лет'] = df['Возраст'] + 5
```

### Изменение значения

```python
df.loc[0, 'Оценка'] = 4   # Изменить в первой строке
```

### Математические операции

```python
df['Сумма_оценка_и_возраст'] = df['Оценка'] + df['Возраст']
```

### Удаление столбца

```python
df = df.drop('Возраст_через_5_лет', axis=1)
```

### Доступ к нескольким столбцам

```python
print(df[['Имя', 'Оценка']].tail())
```

---

## 4. Фильтрация данных (выборка)

### По одному условию

```python
# Все, у кого оценка == 5
fives = df[df['Оценка'] == 5]
print(fives)
```

### По нескольким условиям (& - И, | - ИЛИ)

```python
# Женщины из Москвы с оценкой выше 4
filtered = df[
    (df['Пол'] == 'Ж') & 
    (df['Город'] == 'Москва') & 
    (df['Оценка'] > 4)
]
print(filtered)
```
```python
# Возраст 21 ИЛИ оценка 2
df_selected = df[(df['Возраст'] == 21) | (df['Оценка'] == 2)]
```

### По значениям из списка (isin)

```python
df_cities = df[df['Город'].isin(['Москва', 'Казань'])]
print(df_cities.head())
```

---

## 5. Работа с датами. Метод **to_datetime**

Для работы с датами столбцы нужно привести к типу datetime с помощью `pd.to_datetime`.

### Пример

```python
df['Дата сдачи'] = [
    '2024-05-16', '2024-05-17', '2024-05-18', '2024-05-16', '2024-05-17',
    '2024-05-19', '2024-05-16', '2024-05-18', '2024-05-18', '2024-05-20',
    '2024-05-18', '2024-05-16', '2024-05-22', '2024-05-17', '2024-05-20',
    '2024-05-21', '2024-05-17', '2024-05-21', '2024-05-18', '2024-05-19'
]

df['Дата сдачи'] = pd.to_datetime(df['Дата сдачи'])
print(df.dtypes)       # Убедитесь, что 'Дата сдачи' стал datetime64
```

Теперь с датами можно работать:

```python
# День недели из даты
df['День недели'] = df['Дата сдачи'].dt.day_name()

# Выбрать тех, кто сдавал после 18 мая
df_after_18 = df[df['Дата сдачи'] > '2024-05-18']
print(df_after_18[['Имя', 'Дата сдачи']])
```

---

## 6. Основные методы DataFrame

### info()

Информация о структуре таблицы:
```python
df.info()
```

### columns

Список названий столбцов; можно изменить их:
```python
print(df.columns)
df.columns = ['Name', 'Age', 'City', 'Gender', 'Grade', 'Date', 'Weekday']
print(df.head(1))
```

### head(), tail()

Просмотр первых и последних строк:
```python
print(df.head(7))
print(df.tail(3))
```

### rename()

Переименование столбцов:
```python
df_renamed = df.rename(columns={'Оценка': 'Балл', 'Пол': 'Gender'})
print(df_renamed.columns)
```

### astype()

Изменение типа данных столбца:
```python
df['Возраст'] = df['Возраст'].astype(float)
df['Пол'] = df['Пол'].astype('category')
print(df.dtypes)
```

### describe()

Статистика по числовым столбцам:
```python
print(df.describe())
```

### value_counts()

Частота уникальных значений:
```python
print(df['Город'].value_counts())
```

### sort_values()

Сортировка по столбцу:
```python
print(df.sort_values('Оценка', ascending=False).head())
```

### drop()

Удаление столбца:
```python
df2 = df.drop('Город', axis=1)
```
Удаление строк по индексу:
```python
df3 = df.drop([0, 1])
```

### set_index(), reset_index()

Задать столбец в качестве индекса:
```python
df_indexed = df.set_index('Имя')
```
Сбросить индекс:
```python
df_reseted = df_indexed.reset_index()
```

---

## 7. Итоги

- В pandas две основные структуры: **Series** и **DataFrame**.
- DataFrame удобен для табличных данных. Можно читать таблицы из файлов (CSV, Excel), просматривать структуру, работать со строками и столбцами.
- К столбцам обращаются через [] или как к атрибуту.
- Новые столбцы можно создавать, столбцы — менять и удалять.
- Фильтрация производится булевыми выражениями и методами типа `.isin`.
- Для работы с датами используйте `pd.to_datetime`, можно извлекать год, месяц, день недели и т.д.
- Основные методы DataFrame: `info`, `columns`, `head`, `rename`, `astype`, `describe`, `value_counts`, `sort_values`, `drop`, `set_index`, `reset_index`.


## Задачи 
---

### 1. Загрузите файл в DataFrame, назовите его `df`.
**Ответ:**
```python
import pandas as pd
df = pd.read_csv('visits_info_short.csv')
```

---

### 2. Выведите первые 3 строки DataFrame.
**Ответ:**
```python
print(df.head(3))
```

---

### 3. Сколько всего строк и столбцов в таблице?
**Ответ:**
```python
print(df.shape)
```

---

### 4. Получите список всех названий столбцов.
**Ответ:**
```python
print(df.columns.tolist())
```

---

### 5. Какой тип данных у столбца 'Session Start'?
**Ответ:**
```python
print(df['Session Start'].dtype)
```

---

### 6. Преобразуйте столбцы 'Session Start' и 'Session End' к типу datetime.
**Ответ:**
```python
df['Session Start'] = pd.to_datetime(df['Session Start'])
df['Session End'] = pd.to_datetime(df['Session End'])
```

---

### 7. Выведите информацию о DataFrame (`info`).
**Ответ:**
```python
print(df.info())
```

---

### 8. Посчитайте, сколько строк содержит устройство 'iPhone'.
**Ответ:**
```python
print(df[df['Device'] == 'iPhone'].shape[0])
```

---

### 9. Сколько уникальных каналов (Channel) есть в данных?
**Ответ:**
```python
print(df['Channel'].nunique())
```

---

### 10. Получите список уникальных каналов.
**Ответ:**
```python
print(df['Channel'].unique())
```

---

### 11. Сколько уникальных пользователей (`User Id`) в таблице?
**Ответ:**
```python
print(df['User Id'].nunique())
```

---

### 12. Переименуйте столбец 'Region' в 'Country'.
**Ответ:**
```python
df = df.rename(columns={'Region': 'Country'})
```

---

### 13. Добавьте столбец 'Session Duration' (в минутах) — разница между 'Session End' и 'Session Start'.
**Ответ:**
```python
df['Session Duration'] = (df['Session End'] - df['Session Start']).dt.total_seconds() / 60
```

---

### 14. Какое среднее время сессии по всей таблице?
**Ответ:**
```python
print(df['Session Duration'].mean())
```

---

### 15. Найдите самую длинную сессию (максимальная продолжительность).
**Ответ:**
```python
print(df['Session Duration'].max())
```

---

### 16. Сколько сессий длились более 30 минут?
**Ответ:**
```python
print((df['Session Duration'] > 30).sum())
```

---

### 17. Переведите столбец 'Device' в тип category.
**Ответ:**
```python
df['Device'] = df['Device'].astype('category')
```

---

### 18. Выведите статистику по числовым столбцам (`describe`).
**Ответ:**
```python
print(df.describe())
```

---

### 19. Сколько сессий проходило не из 'United States'?
**Ответ:**
```python
print(df[df['Country'] != 'United States'].shape[0])
```

---

### 20. Сколько сессий было через канал 'RocketSuperAds'?
**Ответ:**
```python
print(df[df['Channel'] == 'RocketSuperAds'].shape[0])
```

---

### 21. Сколько сессий было с устройства 'Mac' и каналом 'organic'?
**Ответ:**
```python
print(df[(df['Device'] == 'Mac') & (df['Channel'] == 'organic')].shape[0])
```

---

### 22. Выведите 5 последних сессий, отсортированных по 'Session End'.
**Ответ:**
```python
print(df.sort_values('Session End').tail(5))
```

---

### 23. Сколько сессий начались после 1 мая 2019 года 12:00?
**Ответ:**
```python
print(df[df['Session Start'] > pd.Timestamp('2019-05-01 12:00:00')].shape[0])
```

---

### 24. Посчитайте, сколько сессий с каждого типа устройства.
**Ответ:**
```python
print(df['Device'].value_counts())
```

---

### 25. Узнайте среднюю продолжительность сессии для каждого типа устройства.
**Ответ:**
```python
print(df.groupby('Device')['Session Duration'].mean())
```

---

### 26. Назовите столбцы DataFrame в нижнем регистре.
**Ответ:**
```python
df.columns = [col.lower() for col in df.columns]
```

---

### 27. Сколько сессий длились менее 10 минут и были с канала 'organic'?
**Ответ:**
```python
print(df[(df['session duration'] < 10) & (df['channel'] == 'organic')].shape[0])
```

---

### 28. Отфильтруйте все сессии с устройств 'iPhone' или 'Android'.
**Ответ:**
```python
print(df[df['device'].isin(['iPhone', 'Android'])])
```

---

### 29. Для каждой сессии выведите день недели начала сессии в новом столбце.
**Ответ:**
```python
df['weekday'] = df['session start'].dt.day_name()
```

---

### 30. Сохраните итоговый DataFrame (с новыми столбцами) в файл visits_info_short_result.csv.
**Ответ:**
```python
df.to_csv('visits_info_short_result.csv', index=False)
```

---

In [1]:
import pandas as pd

df = pd.DataFrame({'A': [1, None, 3], 'B': [4, 5, None]})
print(df.isna())

       A      B
0  False  False
1   True  False
2  False   True
