## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [None]:
!pip install pandas

## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
pip install pandas




## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [12]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных для проверки
print(titanic_data.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [13]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных
print(titanic_data.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [14]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных
print(titanic_data.head())

# Получение информации о данных
titanic_data.info()


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [15]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных
print(titanic_data.head())

# Получение информации о данных
titanic_data.info()

# Проверка на наличие NaN в DataFrame
nan_check = titanic_data.isna().sum()

# Вывод количества NaN для каждого столбца
print(nan_check)


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

Заполнение NaN

In [16]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных
print(titanic_data.head())

# Получение информации о данных
titanic_data.info()

# Проверка на наличие NaN в DataFrame
nan_check = titanic_data.isna().sum()
print(nan_check)

# Заполнение NaN определенным значением (например, нулем)
titanic_filled = titanic_data.fillna(0)

# Вывод первых 5 строк нового датафрейма для проверки
print(titanic_filled.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

Удаление строк с NaN

In [17]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Вывод первых 5 строк данных
print(titanic_data.head())

# Получение информации о данных
titanic_data.info()

# Проверка на наличие NaN в DataFrame
nan_check = titanic_data.isna().sum()
print(nan_check)

# Удаление строк, содержащих NaN
titanic_dropped = titanic_data.dropna()

# Вывод первых 5 строк нового датафрейма для проверки
print(titanic_dropped.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
<c

## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [19]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Проверка общего количества строк в датафрейме
print(f"Общее количество строк в датафрейме: {titanic_data.shape[0]}")

# Выбор столбца по метке
age_column = titanic_data['Age']
print("Выбранный столбец 'Age':")
print(age_column.head())

# Выбор нескольких столбцов
selected_columns = titanic_data[['Name', 'Age', 'Fare']]
print("\nВыбранные столбцы 'Name', 'Age', 'Fare':")
print(selected_columns.head())

# Выбор строк по индексу
row_10 = titanic_data.loc[10]
print("\nВыбранная строка с индексом 10:")
print(row_10)

# Выбор строк и столбцов по условию (поиск по всему датафрейму)
men_over_30 = titanic_data[(titanic_data['Sex'] == 'male') & (titanic_data['Age'] > 30)]
print("\nМужчины старше 30 лет:")
print(men_over_30.head())  # Выводим первые 5 строк результата
print(f"Всего мужчин старше 30 лет: {men_over_30.shape[0]}")  # Количество найденных


Общее количество строк в датафрейме: 891
Выбранный столбец 'Age':
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Выбранные столбцы 'Name', 'Age', 'Fare':
                                                Name   Age     Fare
0                            Braund, Mr. Owen Harris  22.0   7.2500
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  71.2833
2                             Heikkinen, Miss. Laina  26.0   7.9250
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  53.1000
4                           Allen, Mr. William Henry  35.0   8.0500

Выбранная строка с индексом 10:
PassengerId                                 11
Survived                                     1
Pclass                                       3
Name           Sandstrom, Miss. Marguerite Rut
Sex                                     female
Age                                        4.0
SibSp                                        1
Parch                                        1

### Сортировка данных
Сортировка данных по значениям столбцов.

In [20]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Проверка общего количества строк в датафрейме
print(f"Общее количество строк в датафрейме: {titanic_data.shape[0]}")

# Сортировка данных по столбцу 'Age' по возрастанию
titanic_sorted = titanic_data.sort_values(by='Age')

# Вывод первых 5 строк отсортированного датафрейма для проверки
print("Данные, отсортированные по возрасту:")
print(titanic_sorted.head())


Общее количество строк в датафрейме: 891
Данные, отсортированные по возрасту:
     PassengerId  Survived  Pclass                             Name     Sex  \
803          804         1       3  Thomas, Master. Assad Alexander    male   
755          756         1       2        Hamalainen, Master. Viljo    male   
644          645         1       3           Baclini, Miss. Eugenie  female   
469          470         1       3    Baclini, Miss. Helene Barbara  female   
78            79         1       2    Caldwell, Master. Alden Gates    male   

      Age  SibSp  Parch  Ticket     Fare Cabin Embarked  
803  0.42      0      1    2625   8.5167   NaN        C  
755  0.67      1      1  250649  14.5000   NaN        S  
644  0.75      2      1    2666  19.2583   NaN        C  
469  0.75      2      1    2666  19.2583   NaN        C  
78   0.83      0      2  248738  29.0000   NaN        S  


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [21]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# Проверка общего количества строк в датафрейме
print(f"Общее количество строк в датафрейме: {titanic_data.shape[0]}")

# Группировка данных по 'Pclass' и вычисление доли выживших
survival_rate_by_pclass = titanic_data.groupby('Pclass')['Survived'].mean()

# Вывод доли выживших среди всех PClass
print("Доля выживших среди классов (PClass):")
print(survival_rate_by_pclass)


Общее количество строк в датафрейме: 891
Доля выживших среди классов (PClass):
Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [22]:
import pandas as pd

# 1. Чтение данных из файла 'titanic.csv'
titanic_data = pd.read_csv('titanic.csv')

# 2. Проверка на наличие пропущенных значений в данных
missing_values = titanic_data.isna().sum()
print("Количество пропущенных значений в каждом столбце:")
print(missing_values)

# 3. Заполнение пропущенных значений нулями
titanic_data.fillna(0, inplace=True)

# 4. Вывод первых 10 строк данных
print("\nПервые 10 строк данных:")
print(titanic_data.head(10))

# 5. Выбор только тех строк, где значение в столбце 'Age' больше 30
filtered_data = titanic_data[titanic_data['Age'] > 30]

# 6. Сортировка данных по столбцу 'Fare' в порядке убывания
sorted_data = filtered_data.sort_values(by='Fare', ascending=False)

# 7. Группировка данных по столбцу 'Pclass' и вычисление среднего возраста ('Age') для каждого класса
average_age_by_class = titanic_data.groupby('Pclass')['Age'].mean()

# Вывод результатов
print("\nДанные, отфильтрованные по 'Age' > 30 и отсортированные по 'Fare':")
print(sorted_data)

print("\nСредний возраст для каждого класса (Pclass):")
print(average_age_by_class)


Количество пропущенных значений в каждом столбце:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  fe