## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 print(df) 


In [None]:
# Вывод первых 5 строк данных
# Используйте метод .head()
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 print(df.head()) 


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [None]:
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 print(df.info()) 


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [2]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 print(df.isna()) 


Заполнение NaN

In [None]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 df = df.fillna(0) 
 print(df.head()) 


Удаление строк с NaN

In [3]:
# Удаление строк, содержащих NaN
# Используйте метод .dropna()
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
 df = df.dropna() 
 print(df.head()) 


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [4]:
# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df = DataFrame['PassengerId'] 
 print(df.head()) 

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df = DataFrame[['PassengerId', 'Name', 'Sex', 'Age']] 
 print(df.head()) 

# Выбор строк по индексу
# Используйте метод .loc[]
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df = DataFrame.loc[[1, 2]] 
 print(df.head()) 

# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df_man_30up = DataFrame[(DataFrame['Sex'] == 'male') & (DataFrame['Age'] > 30)] 
 print(df_man_30up.head()) 


### Сортировка данных
Сортировка данных по значениям столбцов.

In [5]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df = DataFrame.sort_values(DataFrame.columns[0]) 
 print(df.head()) 


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [6]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
 import pandas as pd 
 DataFrame = pd.DataFrame(pd.read_csv('titanic.csv')) 
 df = DataFrame.groupby('Pclass')['Survived'].mean() 
 print(df) 


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [None]:
 import pandas as pd 
 df = pd.read_csv('titanic.csv') 
  
 df.fillna(0, inplace=True)  # Заполнение пропущенных значений нулями и вывод первых 10 строк 
 print("Первые 10 строк данных:") 
 print(df.head(10)) 
  
 filtered_df = df[df['Age'] > 30]    # Выбор только тех строк, где значение в столбце 'Age' больше 30 и столбец 'Fare' в порядке убывания. 
 sorted_df = filtered_df.sort_values(by='Fare', ascending=False) 
 print("
Отфильтрованные и отсортированные данные (Age > 30):") 
 print(sorted_df) 
  
 average_age_by_class = df.groupby('Pclass')['Age'].mean()   # Сгруппированые данные по столбцу 'Pclass' и вывод среднего возраста. 
 print("
Средний возраст по классам:") 
 print(average_age_by_class) 
