 # **Продолжение исследования данных с помощью библиотеки Pandas**


### 1. Создание Python-ноутбука и загрузка данных

In [213]:
import pandas as pd # type: ignore

# Загрузка данных из файла 'processed_titanic_data.csv'
titanic_data = pd.read_csv('processed_titanic_data.csv')

Вывод: Данные были успешно загружены и преобразованы в объект DataFrame. Это позволило получить доступ к различным методам и функциям для анализа данных.

### 2. Просмотр полученного DataFrame

In [214]:
print(titanic_data.head())

   PassengerId  Pclass                                          Name  Sex  \
0          892       3                              Kelly, Mr. James    0   
1          893       3              Wilkes, Mrs. James (Ellen Needs)    1   
2          894       2                     Myles, Mr. Thomas Francis    0   
3          895       3                              Wirz, Mr. Albert    0   
4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)    1   

   Age  SibSp  Parch   Ticket     Fare  Embarked_Q  Embarked_S  
0   34      0      0   330911   7.8292        True       False  
1   47      1      0   363272   7.0000       False        True  
2   62      0      0   240276   9.6875        True       False  
3   27      0      0   315154   8.6625       False        True  
4   22      1      1  3101298  12.2875       False        True  


Вывод: Просмотр первых строк DataFrame позволил увидеть структуру данных, включая названия колонок и первые значения. Это помогает понять, какие данные содержатся в таблице и какие колонки нужно исследовать дальше.

### 3. Вычисление описательных статистик

In [215]:
print(titanic_data.describe())

       PassengerId      Pclass         Sex         Age       SibSp  \
count   418.000000  418.000000  418.000000  418.000000  418.000000   
mean   1100.500000    2.265550    0.363636   24.019139    0.447368   
std     120.810458    0.841838    0.481622   17.604491    0.896760   
min     892.000000    1.000000    0.000000    0.000000    0.000000   
25%     996.250000    1.000000    0.000000    9.000000    0.000000   
50%    1100.500000    3.000000    0.000000   24.000000    0.000000   
75%    1204.750000    3.000000    1.000000   35.750000    1.000000   
max    1309.000000    3.000000    1.000000   76.000000    8.000000   

            Parch        Fare  
count  418.000000  418.000000  
mean     0.392344   35.627188  
std      0.981429   55.840500  
min      0.000000    0.000000  
25%      0.000000    7.895800  
50%      0.000000   14.454200  
75%      0.000000   31.500000  
max      9.000000  512.329200  


Вывод: Описательные статистики показали распределение данных по количественным колонкам, включая среднее значение, стандартное отклонение, минимальные и максимальные значения. Это помогает оценить общий характер данных и выявить возможные аномалии (например, экстремальные значения).

### 4. Использование срезов для анализа

In [216]:
# Выбор пассажиров первого класса
first_class_passengers = titanic_data[titanic_data['Pclass'] == 1]

In [217]:
# Выбор имени, пола и возраста пассажиров первого класса
first_class_fare = titanic_data.loc[titanic_data['Pclass'] == 1, ['Name', 'Sex', 'Age']]

In [218]:
# Срез для анализа пассажиров первого класса
first_class_passengers = titanic_data[titanic_data['Pclass'] == 1]

Вывод: Срезы данных позволили выделить подгруппы, такие как пассажиры первого класса или пассажиры определенного возраста или пола. Это помогает сосредоточить внимание на анализе определенных категорий и сделать более глубокие выводы по ним.

### 5. Отбор и фильтрация данных

In [219]:
# Фильтр по возрасту старше 30 лет
older_passengers = titanic_data[titanic_data['Age'] > 30]

In [220]:
# Выбор пассажиров-женщин, которые путешествовали в первом классе
first_class_woman = titanic_data[(titanic_data['Sex'] == 1) & (titanic_data['Pclass'] == 1)]

In [221]:
# Метод .loc[] позволяет задать условия отбора и выбрать определенные колонки
result = titanic_data.loc[(titanic_data['Age'] > 30) & (titanic_data['Pclass'] == 1), ['Name', 'Age', 'Pclass']]

In [222]:
# Выбор всех пассажиров, чьи имена начинаются с буквы "A"
name_starts_with_a = titanic_data[titanic_data['Name'].str.startswith('A')]

In [223]:
# Метод .query() позволяет находить подмножества данных
first_class_males = titanic_data.query("Pclass == 1 and Sex == 0")

Вывод: Фильтрация данных по условиям (например, возрасту, полу или классу) помогает лучше понять демографический состав и особенности различных подгрупп. Это позволяет выявить закономерности и проводить более целенаправленный анализ.

### 6. Сортировка данных

In [224]:
# Сортировка по возрасту
titanic_data_sorted = titanic_data.sort_values(by='Age')

In [225]:
# Сортировка по тарифу
df_sorted_by_fare = titanic_data.sort_values(by='Fare', ascending=False)

Вывод: Сортировка данных по столбцам, например по цене билета или возрасту, позволяет быстро определить крайние значения (наиболее дорогие билеты или самых старших пассажиров). Это полезно для выявления трендов и особенностей в данных.

### 7. Переименование колонок

In [226]:
# Переименование колонок
titanic_data.rename(columns={'Pclass': 'PassengerClass', 'Age': 'PassengerAge'}, inplace=True)

Вывод: Переименование колонок улучшает читаемость и понимание данных. Это особенно полезно при подготовке данных для отчетов или визуализаций, чтобы сделать их более понятными для всех участников анализа.

### 8. Проверка на пропущенные значения и дубликаты

In [227]:
# Проверка на пропущенные значения и дубликаты
missing_values = titanic_data.isnull().sum()     # Пропущенные значения по столбцам
duplicate_rows = titanic_data.duplicated().sum() # Количество строк-дубликатов

Вывод: Проверка показала отсутствие пропусков и дубликатов, потому что я обработала их в прошлой своей работе. Пропуски я заполнила средним значением, что позволило сохранить целостность данных и минимизировать влияние пропусков на анализ. А удаление дубликатов помогло избежать искажения результатов анализа и увеличило точность выводов.

### 9. Создание нового признака

In [228]:
titanic_data['FamilySize'] = titanic_data['SibSp'] + titanic_data['Parch']

Вывод: Введение нового признака, такого как "Семейный размер", добавило дополнительную ценность к анализу, позволяя изучить влияние наличия семьи на борту на различные аспекты, такие как покупка билетов или распределение пассажиров по классам.

### Эти выводы помогут систематизировать процесс анализа данных и лучше понять, что было сделано на каждом этапе работы с DataFrame.