## Часть 1: Введение в Pandas

Pandas - это библиотека Python для работы с данными. Она предоставляет мощные инструменты для анализа и манипуляции данными.

### Установка Pandas

Для начала убедитесь, что у вас установлена библиотека Pandas. Если ее нет, установите ее с помощью команды:


In [1]:
!pip install pandas



## Импорт библиотеки
Давайте начнем с импорта библиотеки Pandas:

In [4]:
import pandas as pd

## Часть 2: Работа с данными
### Чтение данных
Мы будем использовать датасет Titanic. Давайте прочитаем данные из CSV файла.

In [21]:
import pandas as pd

# Чтение данных из файла 'titanic.csv'
df = pd.read_csv('titanic.csv')

# Вывод первых 5 строк для проверки
print(df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Предпросмотр данных
Для первого ознакомления с данными давайте выведем первые несколько строк.

In [6]:
# Вывод первых 5 строк для проверки
print(df.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


### Информация о данных
Чтобы получить общую информацию о данных, воспользуйтесь методом .info().

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### Работа с NaN
Часто данные содержат пропущенные значения, которые представляются как NaN (Not a Number). Pandas предоставляет удобные методы для работы с ними.

Проверка на наличие NaN. Методы fillna и dropna возвращают новые Dataframe, проверьте нет ли в них NaN

In [12]:
# Проверка на наличие NaN в DataFrame
nan_check = df.isna()

# Проверка, есть ли NaN в каждом столбце
nan_columns = nan_check.any()

# Проверка, есть ли NaN в каждой строке
nan_rows = nan_check.any(axis=1)

# Вывод результатов
print("Наличие NaN в каждом столбце:")
print(nan_columns)

print("\nНаличие NaN в каждой строке:")
print(nan_rows)

Наличие NaN в каждом столбце:
PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

Наличие NaN в каждой строке:
0       True
1      False
2       True
3      False
4       True
       ...  
886     True
887    False
888     True
889    False
890     True
Length: 891, dtype: bool


Заполнение NaN

In [13]:
# Заполнение NaN значением 0
filled_df = df.fillna(0)

# Вывод информации о DataFrame после заполнения NaN
print("\nИнформация о DataFrame после заполнения NaN:")
print(filled_df.info())

# Проверка на наличие NaN в заполненном DataFrame
print("\nНаличие NaN после fillna():")
print(filled_df.isna().any().any())  # Проверяет, есть ли хоть один NaN


Информация о DataFrame после заполнения NaN:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        891 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

Наличие NaN после fillna():
False


Удаление строк с NaN

In [14]:
# Удаление строк, содержащих NaN
cleaned_df = df.dropna()

# Вывод информации о DataFrame после удаления строк с NaN
print("\nИнформация о DataFrame после удаления строк с NaN:")
print(cleaned_df.info())

# Проверка на наличие NaN в очищенном DataFrame
print("\nНаличие NaN после dropna():")
print(cleaned_df.isna().any().any())  # Проверяет, есть ли хоть один NaN


Информация о DataFrame после удаления строк с NaN:
<class 'pandas.core.frame.DataFrame'>
Index: 183 entries, 1 to 889
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  183 non-null    int64  
 1   Survived     183 non-null    int64  
 2   Pclass       183 non-null    int64  
 3   Name         183 non-null    object 
 4   Sex          183 non-null    object 
 5   Age          183 non-null    float64
 6   SibSp        183 non-null    int64  
 7   Parch        183 non-null    int64  
 8   Ticket       183 non-null    object 
 9   Fare         183 non-null    float64
 10  Cabin        183 non-null    object 
 11  Embarked     183 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 18.6+ KB
None

Наличие NaN после dropna():
False


## Часть 3: Обработка DataFrame
### Выбор данных
Pandas позволяет выбирать данные по индексам, меткам столбцов и условиям.

### Сортировка данных
Сортировка данных по значениям столбцов.

In [19]:
# Сортировка данных по столбцу 'столбец_1' по возрастанию
sorted_df = df.sort_values(by='Name', ascending=True)

# Вывод первых 5 строк отсортированного DataFrame
print(sorted_df.head())

     PassengerId  Survived  Pclass                                   Name  \
845          846         0       3                    Abbing, Mr. Anthony   
746          747         0       3            Abbott, Mr. Rossmore Edward   
279          280         1       3       Abbott, Mrs. Stanton (Rosa Hunt)   
308          309         0       2                    Abelson, Mr. Samuel   
874          875         1       2  Abelson, Mrs. Samuel (Hannah Wizosky)   

        Sex   Age  SibSp  Parch     Ticket   Fare Cabin Embarked  
845    male  42.0      0      0  C.A. 5547   7.55   NaN        S  
746    male  16.0      1      1  C.A. 2673  20.25   NaN        S  
279  female  35.0      1      1  C.A. 2673  20.25   NaN        S  
308    male  30.0      1      0  P/PP 3381  24.00   NaN        C  
874  female  28.0      1      0  P/PP 3381  24.00   NaN        C  


### Группировка данных
Pandas также позволяет группировать данные и выполнять агрегирующие операции.

In [22]:
# Группировка по Pclass и вычисление доли выживших
survival_rate = df.groupby('Pclass')['Survived'].mean()

# Вывод доли выживших по классам
print(survival_rate)

Pclass
1    0.629630
2    0.472826
3    0.242363
Name: Survived, dtype: float64


## Часть 4: Задания для практики
Прочитайте данные из файла 'titanic.csv'.
Проверьте, есть ли пропущенные значения в данных и заполните их нулями.
Выведите первые 10 строк данных.
Выберите только те строки, где значение в столбце 'Age' больше 30.
Отсортируйте данные по столбцу 'Fare' в порядке убывания.
Сгруппируйте данные по столбцу 'Pclass' и вычислите средний возраст ('Age') для каждого класса.

In [23]:
import pandas as pd

# Шаг 1: Чтение данных из файла 'titanic.csv'
df = pd.read_csv('titanic.csv')

# Шаг 2: Проверка на пропущенные значения
missing_values = df.isnull().sum()
print("Пропущенные значения в каждом столбце:")
print(missing_values)

# Заполнение пропущенных значений нулями
df.fillna(0, inplace=True)

# Шаг 3: Вывод первых 10 строк данных
print("\nПервые 10 строк данных:")
print(df.head(10))

# Шаг 4: Выбор строк, где значение в столбце 'Age' больше 30
filtered_df = df[df['Age'] > 30]

# Шаг 5: Сортировка данных по столбцу 'Fare' в порядке убывания
sorted_df = filtered_df.sort_values(by='Fare', ascending=False)

# Шаг 6: Группировка данных по столбцу 'Pclass' и вычисление среднего возраста
average_age_by_class = sorted_df.groupby('Pclass')['Age'].mean()

# Вывод результата
print("\nСредний возраст по классам:")
print(average_age_by_class)


Пропущенные значения в каждом столбце:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Первые 10 строк данных:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0 