## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
import pandas as pd

# Укажите путь к вашему CSV файлу с данными о Titanic
file_path = 'путь_к_файлу.csv'

# Чтение данных из CSV файла в DataFrame
titanic_data = pd.read_csv(file_path)

# Вывод первых нескольких строк DataFrame для проверки
titanic_data.head()

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [None]:
print(titanic_data.head(5))

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Общая информация о датасете
info = titanic_data.info()

# Статистика по числовым колонкам
describe = titanic_data.describe()

# Вывод первых нескольких строк датасета
head = titanic_data.head()

# Вывод последних нескольких строк датасета
tail = titanic_data.tail()

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [2]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Проверка наличия NaN в DataFrame
nan_check = titanic_data.isna().any()

# Заполнение NaN в DataFrame
filled_data = titanic_data.fillna(value=your_value)  # Замените your_value на значение, которым хотите заполнить NaN

# Удаление строк с NaN в DataFrame
dropped_data = titanic_data.dropna()

# Проверка наличия NaN в новом DataFrame после заполнения
nan_check_filled = filled_data.isna().any()

# Проверка наличия NaN в новом DataFrame после удаления
nan_check_dropped = dropped_data.isna().any()

Заполнение NaN

In [None]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Заполнение NaN значениями нуля
filled_data_zero = titanic_data.fillna(0)

# Проверка наличия NaN в новом DataFrame после заполнения
nan_check_filled_zero = filled_data_zero.isna().any()

# Вывод первых нескольких строк заполненного DataFrame
print(filled_data_zero.head())

Удаление строк с NaN

In [3]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Удаление строк с NaN значениями
data_without_nan = titanic_data.dropna()

# Проверка наличия NaN в новом DataFrame после удаления
nan_check_after_drop = data_without_nan.isna().any()

# Вывод первых нескольких строк нового DataFrame
print(data_without_nan.head())

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [4]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Выбор столбцов по метке
selected_column = titanic_data['название_столбца']

# Выбор нескольких столбцов
selected_columns = titanic_data[['столбец_1', 'столбец_2']]

# Выбор строк по индексу
selected_rows = titanic_data.loc[5:10]

# Выбор строк и столбцов по условию
selected_condition = titanic_data[(titanic_data['Sex'] == 'male') & (titanic_data['Age'] > 30)]

# Вывод результатов
print(selected_column)
print(selected_columns)
print(selected_rows)
print(selected_condition)

### Сортировка данных
Сортировка данных по значениям столбцов.

In [5]:
import pandas as pd

# Загрузка данных из файла
titanic_data = pd.read_csv('titanic.csv')

# Сортировка данных первого столбца по возрастанию
sorted_data = titanic_data.sort_values(by='First_Column')

# Вывод отсортированных данных
print(sorted_data.head())  # Вывод первых строк отсортированных данных

### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [6]:
titanic.groupby('Pclass').mean(1)['Survived']

In [None]:
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64

## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
titanic_df = pd.read_csv('titanic.csv')

titanic_df.fillna(0)
titanic_df.loc[0:10]
titanic_df[titanic_df['Age'] > 30]
titanic_df.sort_values(by='Fare', ascending=False)
titanic_df.groupby('Pclass').mean(1)['Age']

In [None]:
Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64