## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
%pip install pandas

: 

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [None]:
import pandas as pd

# Создание DataFrame
df = pd.DataFrame({'Column1': [1, 2, 3], 'Column2': ['A', 'B', 'C']})

# Вывод первых нескольких строк DataFrame
print(df.head())

: 

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
# Чтение данных из файла 'titanic.csv'
df = pd.read_csv('titanic.csv')

# Вывод первых нескольких строк DataFrame
print("Первые 5 строк данных:")
print(df.head())

: 

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
# Информация о данных
print("\nИнформация о данных:")
print(df.info())

: 

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [None]:
# Проверка на наличие NaN в DataFrame
print("\nПроверка на наличие NaN в данных:")
print(df.isna().any())

: 

Заполнение NaN

In [None]:
# Заполнение NaN определенным значением (например, нулем)
df_filled = df.fillna(0)
print("\nDataFrame после заполнения NaN нулями:")
print(df_filled.head())

: 

Удаление строк с NaN

In [None]:
# Удаление строк, содержащих NaN
df_dropped = df.dropna()
print("\nDataFrame после удаления строк с NaN:")
print(df_dropped.head())

: 

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [None]:
# Выбор столбца по метке
print("Выбор столбца 'Name':")
print(df['Name'].head())

# Выбор нескольких столбцов
print("\nВыбор столбцов 'Name' и 'Age':")
print(df[['Name', 'Age']].head())

# Выбор строк по индексу
print("\nВыбор строки с индексом 0:")
print(df.loc[0])

# Выбор строк и столбцов по условию (мужчины старше 30)
print("\nВыбор мужчин старше 30 лет:")
print(df[(df['Sex'] == 'male') & (df['Age'] > 30)])

: 

### Сортировка данных
Сортировка данных по значениям столбцов.

In [None]:
# Сортировка данных по столбцу 'Age' по возрастанию
print("\nСортировка данных по столбцу 'Age' по возрастанию:")
print(df.sort_values(by='Age').head())

: 

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [None]:
# Группировка данных и нахождение доли выживших по PClass
pclass_survival_rate = df.groupby('Pclass')['Survived'].mean()
print("\nДоля выживших по PClass:")
print(pclass_survival_rate)

: 

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
# Чтение данных из файла 'titanic.csv'
df = pd.read_csv('titanic.csv')

# Проверка на наличие NaN в DataFrame
print("Проверка на наличие NaN в данных:")
print(df.isna().any())

# Заполнение NaN нулями
df_filled = df.fillna(0)

# Вывод первых 10 строк данных
print("\nПервые 10 строк данных:")
print(df_filled.head(10))

# Выбор только тех строк, где значение в столбце 'Age' больше 30
selected_rows = df[df['Age'] > 30]
print("\nВыбор только тех строк, где возраст больше 30:")
print(selected_rows.head())

# Сортировка данных по столбцу 'Fare' в порядке убывания
sorted_data = df.sort_values(by='Fare', ascending=False)
print("\nСортировка данных по столбцу 'Fare' в порядке убывания:")
print(sorted_data.head())

# Группировка данных по столбцу 'Pclass' и вычисление среднего возраста для каждого класса
mean_age_by_pclass = df.groupby('Pclass')['Age'].mean()
print("\nСредний возраст для каждого класса (Pclass):")
print(mean_age_by_pclass)

: 