 # **Первичное исследование данных с помощью библиотеки Pandas**


In [47]:
import pandas as pd # type: ignore

### 1. Загружаем набор данных о пассажирах легендарного "Титаника", содержащий данные о пассажирах (количество, имя, пол, возраст и т.д.)

In [48]:
# Загрузка данных из файла 'dataset.csv'
df = pd.read_csv('dataset.csv')
df

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


### 2. Анализ данных

In [49]:
# Получение основной информации о структуре данных
column_count = len(df.columns)         # Количество столбцов
column_names = df.columns              # Названия столбцов
data_info = df.info()                  # Типы данных и память
index_range = df.index                 # Индексный диапазон
non_null_counts = df.count()           # Количество ненулевых значений в каждом столбце

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         417 non-null    float64
 9   Cabin        91 non-null     object 
 10  Embarked     418 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 36.1+ KB


In [50]:
# Проверка на пропущенные значения и дубликаты
missing_values = df.isnull().sum()     # Пропущенные значения по столбцам
duplicate_rows = df.duplicated().sum() # Количество строк-дубликатов

In [51]:
# Вывод информации
{
    "column_count": column_count,
    "column_names": column_names,
    "index_range": index_range,
    "non_null_counts": non_null_counts,
    "missing_values": missing_values,
    "duplicate_rows": duplicate_rows
}

{'column_count': 11,
 'column_names': Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
        'Ticket', 'Fare', 'Cabin', 'Embarked'],
       dtype='object'),
 'index_range': RangeIndex(start=0, stop=418, step=1),
 'non_null_counts': PassengerId    418
 Pclass         418
 Name           418
 Sex            418
 Age            332
 SibSp          418
 Parch          418
 Ticket         418
 Fare           417
 Cabin           91
 Embarked       418
 dtype: int64,
 'missing_values': PassengerId      0
 Pclass           0
 Name             0
 Sex              0
 Age             86
 SibSp            0
 Parch            0
 Ticket           0
 Fare             1
 Cabin          327
 Embarked         0
 dtype: int64,
 'duplicate_rows': 0}

#### Выводы:  
1. Структура данных:
   - Количество столбцов: **11**
   - Названия столбцов: `['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']`
   - Индексный диапазон: от 0 до 417 (418 строк)


2. Информация о столбцах:
   - Типы данных:
     - Целочисленные (`int64`): `PassengerId`, `Pclass`, `SibSp`, `Parch`
     - Числовые с плавающей точкой (`float64`): `Age`, `Fare`
     - Объектные (`object`): `Name`, `Sex`, `Ticket`, `Cabin`, `Embarked`
   - Использование памяти: ~36.1 KB


3. Непустые значения:
   - `Age` имеет **332** непустых значений (86 пропусков).
   - `Fare` имеет **417** непустых значений (1 пропуск).
   - `Cabin` имеет **91** непустое значение (327 пропусков).
   

4. Проверка на пропуски и дубликаты:
   - Пропущенные значения по столбцам:
     - `Age`: 86 пропусков
     - `Fare`: 1 пропуск
     - `Cabin`: 327 пропусков
   - Дубликаты: **0** строк-дубликатов


### 3. Обработка пропусков

In [52]:
df['Age'] = df['Age'].fillna(0).astype(int)
df['Age'] = df['Age'].fillna(df['Age'].mean())

In [53]:
# Заполним пропущенное значение в 'Fare' средним значением
df['Fare'] = df['Fare'].fillna(df['Fare'].mean())

In [54]:
# Учитывая большое количество пропусков, удалим колонку 'Cabin'
df.drop(columns=['Cabin'], inplace=True)

#### Результаты:  
1. Заполнены пропуски:
   - В колонке `Age` пропуски заменены на среднее значение возраста.
   - В колонке `Fare` пропущенное значение также заменено на среднее значение.


2. Удалена колонка `Cabin` из-за большого количества пропусков (327 из 418 значений были пропущены).

### 4. Преобразование категориальных данных

In [55]:
# Преобразуем колонку 'Sex' в числовой формат: 'male' = 0, 'female' = 1
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

In [56]:
# Преобразуем колонку 'Embarked' в числовой формат: создадим dummy-переменные
df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)


#### Результаты:  
1. Категориальные переменные преобразованы:
   - Пол (`Sex`) преобразован в числовой формат: `male` = 0, `female` = 1.
   - Переменная `Embarked` преобразована в бинарные переменные `Embarked_Q` и `Embarked_S` с использованием dummy-кодирования. Значение `Embarked_C` было исключено, чтобы избежать мультиколлинеарности.

## Итоговый результат

In [57]:
# Проверим результат предобработки
df.info(), df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    int64  
 4   Age          418 non-null    int32  
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 non-null    object 
 8   Fare         418 non-null    float64
 9   Embarked_Q   418 non-null    bool   
 10  Embarked_S   418 non-null    bool   
dtypes: bool(2), float64(1), int32(1), int64(5), object(2)
memory usage: 28.7+ KB


(None,
    PassengerId  Pclass                                          Name  Sex  \
 0          892       3                              Kelly, Mr. James    0   
 1          893       3              Wilkes, Mrs. James (Ellen Needs)    1   
 2          894       2                     Myles, Mr. Thomas Francis    0   
 3          895       3                              Wirz, Mr. Albert    0   
 4          896       3  Hirvonen, Mrs. Alexander (Helga E Lindqvist)    1   
 
    Age  SibSp  Parch   Ticket     Fare  Embarked_Q  Embarked_S  
 0   34      0      0   330911   7.8292        True       False  
 1   47      1      0   363272   7.0000       False        True  
 2   62      0      0   240276   9.6875        True       False  
 3   27      0      0   315154   8.6625       False        True  
 4   22      1      1  3101298  12.2875       False        True  )

Теперь датафрейм готов для анализа или моделирования, и его структура выглядит так:

- **Всего 11 колонок**: основные числовые и категориальные данные подготовленны для анализа.

### И сохраняем наши подготовленные данные для дальнейшего анализа

In [58]:
# Сохранение DataFrame в CSV-файл
df.to_csv('processed_titanic_data.csv', index=False)