## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [31]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [1]:
import pandas as pd


## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [10]:
import pandas as pd

df = pd.read_csv('titanic (2).csv')
print(df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [12]:
df.head(10)  # покажет 10 первых строк


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [13]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [14]:
print(df.isna().sum())


PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


Заполнение NaN

In [17]:
# Заполнение NaN нулями
df_filled = df.fillna(0)


Удаление строк с NaN

In [18]:
# Удаление строк с пропущенными значениями
df_cleaned = df.dropna()


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

In [None]:
import pandas as pd

# Загрузка данных
df = pd.read_csv('titanic (2).csv')  # Укажи путь, если файл в другом месте
df = df.fillna(0)  # Заполнение пропущенных значений нулями для стабильной работы

# --- Выбор данных ---

# Выбор столбца по метке
age_column = df['Age']
print("Столбец 'Age':")
print(age_column.head())

#  Выбор нескольких столбцов
selected_columns = df[['Age', 'Sex']]
print("\nСтолбцы 'Age' и 'Sex':")
print(selected_columns.head())

#  Выбор строк по индексу
row_by_index = df.loc[5]
print("\nСтрока с индексом 5:")
print(row_by_index)

#  Выбор строк и столбцов по условию — мужчины старше 30 лет
men_over_30 = df[(df['Sex'] == 'male') & (df['Age'] > 30)]
print("\nМужчины старше 30:")
print(men_over_30.head())


Столбец 'Age':
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Столбцы 'Age' и 'Sex':
    Age     Sex
0  22.0    male
1  38.0  female
2  26.0  female
3  35.0  female
4  35.0    male

Строка с индексом 5:
PassengerId                   6
Survived                      0
Pclass                        3
Name           Moran, Mr. James
Sex                        male
Age                         0.0
SibSp                         0
Parch                         0
Ticket                   330877
Fare                     8.4583
Cabin                         0
Embarked                      Q
Name: 5, dtype: object

Мужчины старше 30:
    PassengerId  Survived  Pclass                         Name   Sex   Age  \
4             5         0       3     Allen, Mr. William Henry  male  35.0   
6             7         0       1      McCarthy, Mr. Timothy J  male  54.0   
13           14         0       3  Andersson, Mr. Anders Johan  male  39.0   
20           21         0   

### Сортировка данных
Сортировка данных по значениям столбцов.

In [22]:
# Сортировка данных по столбцу 'Age' по возрастанию
df_sorted = df.sort_values(by='Age')


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [25]:
# Группировка по классу и вычисление доли выживших
survival_rate = df.groupby('Pclass')['Survived'].mean()

print(survival_rate)


Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [27]:
import pandas as pd

# 1. Прочитать данные из файла
df = pd.read_csv('titanic (2).csv')  # Укажи корректный путь к файлу, если он в другом месте

# 2. Проверить наличие пропущенных значений и заполнить их нулями
print("Пропущенные значения до заполнения:")
print(df.isna().sum())
df = df.fillna(0)  # Заполнение всех NaN нулями

# 3. Вывести первые 10 строк
print("\nПервые 10 строк после заполнения NaN:")
print(df.head(10))

# 4. Выбрать строки, где 'Age' > 30
df_age_above_30 = df[df['Age'] > 30]

# 5. Отсортировать данные по 'Fare' в порядке убывания
df_sorted = df_age_above_30.sort_values(by='Fare', ascending=False)

# Показать отсортированные строки (необязательно, просто для просмотра)
print("\nПассажиры старше 30, отсортированные по стоимости билета:")
print(df_sorted.head())

# 6. Сгруппировать по 'Pclass' и вычислить средний возраст
# 6. Сгруппировать по 'Pclass' и вычислить средний возраст
avg_age_per_class = df.groupby('Pclass')['Age'].mean()
print("\nСредний возраст пассажиров по классам:")
print(avg_age_per_class)


Пропущенные значения до заполнения:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Первые 10 строк после заполнения NaN:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  fe