## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [2]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [3]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [None]:
# Чтение данных из файла 'titanic.csv'
# Используйте метод pd.read_csv()
df = pd.read_csv('titanic.csv')

### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [None]:
# Вывод первых 5 строк данных
# Используйте метод .head()
print("Первые 5 строк данных:")
print(df.head())

Первые 5 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0

### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [6]:
print("\nИнформация о данных:")
print(df.info())


Информация о данных:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [None]:
# Проверка на наличие NaN в DataFrame
# Используйте метод .isna()
print("\nКоличество пропущенных значений:")
print(df.isna().sum())


Количество пропущенных значений:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Заполнение NaN

In [None]:
# Заполнение NaN определенным значением (например, нулем)
# Используйте метод .fillna()
df_filled = df.fillna(0)
print("\nПосле заполнения NaN нулями:")
print(df_filled.isna().sum())


После заполнения NaN нулями:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


Удаление строк с NaN

In [None]:
# Удаление строк, содержащих NaN
# Используйте метод .dropna()
df_dropped = df.dropna()
print("\nПосле удаления строк с NaN:")
print(df_dropped.isna().sum())


После удаления строк с NaN:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [None]:
# Выбор столбца по метке
# Используйте синтаксис DataFrame['название_столбца']
age_column = df['Age']
print("\nСтолбец Age:")
print(age_column.head())

# Выбор нескольких столбцов
# Используйте синтаксис DataFrame[['столбец_1', 'столбец_2']]
selected_columns = df[['Name', 'Age', 'Sex']]
print("\nНесколько столбцов:")
print(selected_columns.head())

# Выбор строк по индексу
# Используйте метод .loc[]
selected_rows = df.loc[0:2]
print("\nПервые три строки:")
print(selected_rows)

# Выбор строк и столбцов по условию
# Используя логические операции, выберите мужчин старше 30
men_over_30 = df[(df['Sex'] == 'male') & (df['Age'] > 30)]
print("\nМужчины старше 30 лет:")
print(men_over_30.head())


Столбец Age:
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Несколько столбцов:
                                                Name   Age     Sex
0                            Braund, Mr. Owen Harris  22.0    male
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female
2                             Heikkinen, Miss. Laina  26.0  female
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  female
4                           Allen, Mr. William Henry  35.0    male

Первые три строки:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   

   Parch     

### Сортировка данных
Сортировка данных по значениям столбцов.

In [None]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
# Используйте метод .sort_values()
df_sorted = df.sort_values('Fare', ascending=False)
print("\nДанные отсортированные по Fare:")
print(df_sorted.head())


Данные отсортированные по Fare:
     PassengerId  Survived  Pclass                                Name  \
737          738         1       1              Lesurer, Mr. Gustave J   
679          680         1       1  Cardeza, Mr. Thomas Drake Martinez   
258          259         1       1                    Ward, Miss. Anna   
438          439         0       1                   Fortune, Mr. Mark   
88            89         1       1          Fortune, Miss. Mabel Helen   

        Sex   Age  SibSp  Parch    Ticket      Fare        Cabin Embarked  
737    male  35.0      0      0  PC 17755  512.3292         B101        C  
679    male  36.0      0      1  PC 17755  512.3292  B51 B53 B55        C  
258  female  35.0      0      0  PC 17755  512.3292          NaN        C  
438    male  64.0      1      4     19950  263.0000  C23 C25 C27        S  
88   female  23.0      3      2     19950  263.0000  C23 C25 C27        S  


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [None]:
# Найдите долю выживших среди всех PClass
# Используйте метод .groupby()
survival_by_class = df.groupby('Pclass')['Survived'].mean()
print("\nДоля выживших по классам:")
print(survival_by_class)


Доля выживших по классам:
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [23]:
df = df.fillna(0)

print("После заполнения пропусков нулями:")
print(df.isnull().sum())

print("\nПервые 10 строк данных:")
print(df.head(10))

age_over_30_count = len(df[df['Age'] > 30])
print(f"\nПассажиров старше 30 лет: {age_over_30_count}")

print("Примеры пассажиров старше 30 лет:")
print(df[df['Age'] > 30][['Name', 'Age', 'Pclass']].head())

print("\nТоп-5 самых дорогих билетов:")
print(df.sort_values('Fare', ascending=False)[['Name', 'Pclass', 'Fare']].head())

avg_age_by_class = df.groupby('Pclass')['Age'].mean()
print("\nСредний возраст по классам:")
for pclass, avg_age in avg_age_by_class.items():
    print(f"Класс {pclass}: {avg_age:.1f} лет")

После заполнения пропусков нулями:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, 