Часть 1: Введение в Pandas
Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

Установка Pandas
Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:

In [None]:
!pip install pandas

Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [None]:
import pandas as pd

Часть 2: Работа с данными
Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
df = pd.read_csv('titanic.csv')
df

Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [None]:
df.head()

Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
df.info()

Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [None]:
df.isna().sum()

Заполнение NaN

In [None]:
df_filled = df.fillna(0)
df_filled

Удаление строк с NaN

In [None]:
df_dropped = df.dropna()
df_dropped

Часть 3: Обработка DataFrame
Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [None]:
# Выбор столбца по метке
df['Name']

# Выбор нескольких столбцов
df[['Name', 'Age']]

# Выбор строк по индексу
df.loc[0:5]

# Выбор строк и столбцов по условию
df[df['Age'] > 30][['Name', 'Sex', 'Age']]

Сортировка данных
Сортировка данных по значениям столбцов.

In [None]:
df.sort_values('Age')


Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [None]:
df.groupby('PClass')['Survived'].mean()


Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'. Проверьте, есть ли пропущенные значения в данных и заполните их нулями. Выведите первые 10 строк данных. Выберите только те строки, где значение в столбце 'Age' больше 30. Отсортируйте данные по столбцу 'Fare' в порядке убывания. Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
import pandas as pd

# Чтение данны
df = pd.read_csv('titanic.csv')

# Проверка на NaN
print(df.isna().sum())

# Заполние пропусков нулями
df_filled = df.fillna(0)

# Выводим первые 10 строк
print(df_filled.head(10))

# Выберираем только те строки, где значение в столбце 'Age' больше 30
age_filtered = df_filled[df_filled['Age'] > 30]
print(age_filtered)

# Сортировка Fare по убыванию
sorted_fare = df_filled.sort_values(by='Fare', ascending=False)
print(sorted_fare.head(10))

# Группировка Pclass средний возраст
mean_age_by_class = df_filled.groupby('Pclass')['Age'].mean()
print(mean_age_by_class)
