In [1]:
#Exercise 1: Loading Data with Pandas
'''
Questions:
How do you load a CSV file into a Pandas DataFrame?
What information does the info() function provide about the dataset?
How can you identify missing values in the dataset?
'''
import pandas as pd
df = pd.read_csv('titanic.csv')

#Use head(), tail(), and info() to inspect the dataset:
print(df.head())
print(df.tail())
print(df.info())

#Check for missing values and data types:
print(df.isnull().sum())
print(df.dtypes)

'''
Answers to the questions:
1)Load a CSV file using pd.read_csv().
2)info() provides column names, non-null counts, and data types.
3)Identify missing values using isnull().sum().
'''

                   PassengerId\tSurvived\tPclass\tName\tSex\tAge\tSibSp\tParch\tTicket\tFare\tCabin\tEmbarked
1\t0\t3\tBraund      Mr. Owen Harris\tmale\t22\t1\t0\tA/5 21171\t7...                                        
2\t1\t1\tCumings     Mrs. John Bradley (Florence Briggs Thayer)\tf...                                        
3\t1\t3\tHeikkinen   Miss. Laina\tfemale\t26\t0\t0\tSTON/O2. 31012...                                        
4\t1\t1\tFutrelle    Mrs. Jacques Heath (Lily May Peel)\tfemale\t3...                                        
5\t0\t3\tAllen       Mr. William Henry\tmale\t35\t0\t0\t373450\t8....                                        
                        PassengerId\tSurvived\tPclass\tName\tSex\tAge\tSibSp\tParch\tTicket\tFare\tCabin\tEmbarked
152\t1\t1\tPears          Mrs. Thomas (Edith Wearne)\tfemale\t22\t1\t0\...                                        
153\t0\t3\tMeo            Mr. Alfonzo\tmale\t55.5\t0\t0\tA.5. 11206\t8....                                    

'\nAnswers to the questions:\n1)Load a CSV file using pd.read_csv().\n2)info() provides column names, non-null counts, and data types.\n3)Identify missing values using isnull().sum().\n'

In [3]:
#Exercise 2: Handling Missing Data
# Загрузка данных
df = pd.read_csv('titanic.csv', sep='\t')

# 1. Идентификация пропущенных значений
missing_values = df.isnull().sum()
print("Пропущенные значения в каждом столбце:\n", missing_values)

# 2. Удаление строк с пропущенными значениями
df_dropped = df.dropna()
print("\nДанные после удаления строк с пропущенными значениями:\n", df_dropped.head())

# 3. Заполнение пропусков средним значением для числовых данных
df_filled_mean = df.copy()
df_filled_mean['Age'].fillna(df['Age'].mean(), inplace=True)
df_filled_mean['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)  # Заполнение модой для категорий

print("\nДанные после заполнения средним значением (и модой для 'Embarked'):\n", df_filled_mean.head())

# 4. Прямое заполнение пропусков (forward fill)
df_ffill = df.fillna(method='ffill')
print("\nДанные после прямого заполнения (ffill):\n", df_ffill.head())

# 5. Обратное заполнение пропусков (backward fill)
df_bfill = df.fillna(method='bfill')
print("\nДанные после обратного заполнения (bfill):\n", df_bfill.head())
'''
Answers to the questions:
1)Strategy could be filling with mean, median, or dropping based on data context.
2)Filling values retains rows, while dropping may remove potentially useful data.
3)Drop rows if missing data is significant and cannot be reliably imputed.
'''

Пропущенные значения в каждом столбце:
 PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             30
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          125
Embarked         1
dtype: int64

Данные после удаления строк с пропущенными значениями:
     PassengerId  Survived  Pclass  \
1             2         1       1   
3             4         1       1   
6             7         0       1   
10           11         1       3   
11           12         1       1   

                                                 Name     Sex   Age  SibSp  \
1   Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
3        Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
6                             McCarthy, Mr. Timothy J    male  54.0      0   
10                    Sandstrom, Miss. Marguerite Rut  female   4.0      1   
11                           Bonnell, Miss. Eliza

  df_ffill = df.fillna(method='ffill')
  df_bfill = df.fillna(method='bfill')


'\nAnswers to the questions:\n1)Strategy could be filling with mean, median, or dropping based on data context.\n2)Filling values retains rows, while dropping may remove potentially useful data.\n3)Drop rows if missing data is significant and cannot be reliably imputed.\n'

In [5]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

# Загрузка данных
df = pd.read_csv('titanic.csv', sep='\t')

# 1. Нормализация числовых данных с использованием Min-Max Scaling
scaler = MinMaxScaler()
df[['Age', 'Fare']] = scaler.fit_transform(df[['Age', 'Fare']])

# если нужна стандартизация (Z-score), можно заменить на:
# standard_scaler = StandardScaler()
# df[['Age', 'Fare']] = standard_scaler.fit_transform(df[['Age', 'Fare']])

# 2. Кодирование категориальных переменных с использованием One-Hot Encoding
df_encoded = pd.get_dummies(df, columns=['Sex', 'Embarked'], drop_first=True)

df_encoded['Age'] = pd.to_numeric(df_encoded['Age'], errors='coerce')  # Преобразование в числовой тип, ошибки будут заменены на NaN
df_encoded['Age'].fillna(df_encoded['Age'].mean(), inplace=True)  # Заполнение пропусков средним значением

# 3. Бининг (разбиение на категории) возраста
# Разделение возраста на 5 категорий: 'Very Young', 'Young', 'Middle Aged', 'Old', 'Very Old'
df_encoded['Age_binned'] = pd.cut(df_encoded['Age'], bins=5, labels=['Very Young', 'Young', 'Middle Aged', 'Old', 'Very Old'])

# Вывод преобразованных данных
print(df_encoded.head())

'''
Answers to the questions:
1)Normalization scales data between 0-1, while standardization centers it around the mean (0).
2)One-hot encoding converts categorical data into binary vectors.
3)Binning helps simplify continuous data into discrete categories for easier analysis.
'''


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name       Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  0.301696      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  0.529714      1      0   
2                             Heikkinen, Miss. Laina  0.358700      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  0.486960      1      0   
4                           Allen, Mr. William Henry  0.486960      0      0   

             Ticket      Fare Cabin  Sex_male  Embarked_Q  Embarked_S  \
0         A/5 21171  0.001951   NaN      True       False        True   
1          PC 17599  0.251837   C85     False       False       False   
2  STON/O2. 3101282  0.004585   NaN     False       False        True   
3         

'\nAnswers to the questions:\n1)Normalization scales data between 0-1, while standardization centers it around the mean (0).\n2)One-hot encoding converts categorical data into binary vectors.\n3)Binning helps simplify continuous data into discrete categories for easier analysis.\n'

In [8]:
#Exercise 4: Feature Engineering
from sklearn.preprocessing import PolynomialFeatures
from sklearn.impute import SimpleImputer

df = pd.read_csv('titanic.csv', sep='\t')

# Преобразование и заполнение пропущенных значений для 'Age' и 'Fare'
df['Age'] = pd.to_numeric(df['Age'], errors='coerce')
df['Fare'] = pd.to_numeric(df['Fare'], errors='coerce')

# Использование импьютатора для заполнения NaN значений
imputer = SimpleImputer(strategy='mean')
df[['Age', 'Fare']] = imputer.fit_transform(df[['Age', 'Fare']])

# Создание полиномиальных признаков
poly = PolynomialFeatures(degree=2, include_bias=False)
poly_features = poly.fit_transform(df[['Age', 'Fare']])
df_poly = pd.DataFrame(poly_features, columns=['Age', 'Fare', 'Age^2', 'Age*Fare', 'Fare^2'])

# Добавление новых признаков к исходным данным
df = pd.concat([df, df_poly], axis=1)

# 2. Извлечение признаков из даты
# Предположим, у нас есть столбец с датой, например, 'Date'
# df['Date'] = pd.to_datetime(df['Date'])  # Пример преобразования столбца в формат даты
# df['Year'] = df['Date'].dt.year
# df['Month'] = df['Date'].dt.month
# df['Day'] = df['Date'].dt.day

# 3. Использование предметных знаний для создания признаков
# Например, можно создать признак 'IsAlone', который определяет, путешествовал ли пассажир один
if 'SibSp' in df.columns and 'Parch' in df.columns:
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
else:
    print("Столбцы 'SibSp' и/или 'Parch' отсутствуют в данных.")

print(df[['SibSp', 'Parch', 'FamilySize']].head())

# Например, создание признака 'IsAlone'
df['IsAlone'] = (df['FamilySize'] == 1).astype(int)

# Вывод первых строк после создания новых признаков
print(df.head())

'''
Answers to the questions
1)New features can capture interactions or higher-order relationships.
2)Date-based features allow capturing time-based trends in data.
'''

   SibSp  Parch  FamilySize
0      1      0           2
1      1      0           2
2      0      0           1
3      1      0           2
4      0      0           1
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked   Age     Fare   Age^2  \
0      0         A/5 21171   7.2500   NaN        S  22.0   7.2500   484.0  

'\nAnswers to the questions\n1)New features can capture interactions or higher-order relationships.\n2)Date-based features allow capturing time-based trends in data.\n'

In [9]:
#Exercise 5: Data Cleaning
from scipy import stats

# Загрузка данных
df = pd.read_csv('titanic.csv', sep='\t')

# 1. Удаление дубликатов
df_cleaned = df.drop_duplicates()

# Проверка, были ли удалены дубликаты
print("Дубликаты удалены:", df.shape[0] - df_cleaned.shape[0], "строк")

# 2. Обнаружение и удаление выбросов с использованием Z-score
z_scores = stats.zscore(df_cleaned[['Age', 'Fare']])
abs_z_scores = abs(z_scores)
df_cleaned_no_outliers = df_cleaned[(abs_z_scores < 3).all(axis=1)]

# Альтернатива: Использование метода межквартильного размаха (IQR)
Q1 = df_cleaned[['Age', 'Fare']].quantile(0.25)
Q3 = df_cleaned[['Age', 'Fare']].quantile(0.75)
IQR = Q3 - Q1

df_cleaned_no_outliers = df_cleaned[~((df_cleaned[['Age', 'Fare']] < (Q1 - 1.5 * IQR)) | (df_cleaned[['Age', 'Fare']] > (Q3 + 1.5 * IQR))).any(axis=1)]

print("Выбросы удалены:", df_cleaned.shape[0] - df_cleaned_no_outliers.shape[0], "строк")

# 3. Исправление несоответствий в категориальных данных
# Приведение значений категориальных столбцов к нижнему регистру для стандартизации
df_cleaned_no_outliers['Sex'] = df_cleaned_no_outliers['Sex'].str.lower()
df_cleaned_no_outliers['Embarked'] = df_cleaned_no_outliers['Embarked'].str.upper()

# Проверка результатов
print(df_cleaned_no_outliers.head())

'''
Answers to the questions
1)Duplicates are handled with drop_duplicates().
2)Outliers are detected with Z-score or IQR methods depending on data distribution.
3)Categorical inconsistencies can be addressed by standardizing formats or merging similar categories.
'''

Дубликаты удалены: 0 строк
Выбросы удалены: 19 строк
   PassengerId  Survived  Pclass  \
0            1         0       3   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   

                                           Name     Sex   Age  SibSp  Parch  \
0                       Braund, Mr. Owen Harris    male  22.0      1      0   
2                        Heikkinen, Miss. Laina  female  26.0      0      0   
3  Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0   
4                      Allen, Mr. William Henry    male  35.0      0      0   
5                              Moran, Mr. James    male   NaN      0      0   

             Ticket     Fare Cabin Embarked  
0         A/5 21171   7.2500   NaN        S  
2  STON/O2. 3101282   7.9250   NaN        S  
3            113803  53.1000  C123        S  
4            373450   8.0500   NaN        S  
5            330877   8.4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_no_outliers['Sex'] = df_cleaned_no_outliers['Sex'].str.lower()
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned_no_outliers['Embarked'] = df_cleaned_no_outliers['Embarked'].str.upper()


'\nAnswers to the questions\n1)Duplicates are handled with drop_duplicates().\n2)Outliers are detected with Z-score or IQR methods depending on data distribution.\n3)Categorical inconsistencies can be addressed by standardizing formats or merging similar categories.\n'

In [11]:
#Exercise 6: Splitting Data into Training and Testing Sets
from sklearn.model_selection import train_test_split

# Загрузка данных
df = pd.read_csv('titanic.csv', sep='\t')  # Укажите путь к вашему CSV-файлу

# Предположим, что целевая переменная — это 'Survived', а остальные — признаки
X = df.drop('Survived', axis=1)  # Признаки (фичи)
y = df['Survived']  # Целевая переменная

# 1. Разделение данных на обучающую и тестовую выборки (70-30)
X_train_70, X_test_30, y_train_70, y_test_30 = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. Разделение данных на обучающую и тестовую выборки (80-20)
X_train_80, X_test_20, y_train_80, y_test_20 = train_test_split(X, y, test_size=0.2, random_state=42)

# Проверка размеров выборок
print("Размер обучающей выборки (70-30):", X_train_70.shape, y_train_70.shape)
print("Размер тестовой выборки (70-30):", X_test_30.shape, y_test_30.shape)

print("Размер обучающей выборки (80-20):", X_train_80.shape, y_train_80.shape)
print("Размер тестовой выборки (80-20):", X_test_20.shape, y_test_20.shape)
'''
Answers to the questions
1)Consider the balance between training data and generalization.
2)A smaller training set may underfit, while a too-large set might not generalize well.
'''

Размер обучающей выборки (70-30): (109, 11) (109,)
Размер тестовой выборки (70-30): (47, 11) (47,)
Размер обучающей выборки (80-20): (124, 11) (124,)
Размер тестовой выборки (80-20): (32, 11) (32,)


'\nAnswers to the questions\n1)Consider the balance between training data and generalization.\n2)A smaller training set may underfit, while a too-large set might not generalize well.\n'

In [12]:
#Exercise 7: Data Preprocessing Pipeline
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier


df = pd.read_csv('titanic.csv', sep='\t')

# 1. Разделение данных на признаки и целевую переменную
X = df.drop(columns=['Survived'])
y = df['Survived']

# 2. Разделение на тренировочные и тестовые выборки (70-30)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. Создание конвейера предобработки данных

# Определение числовых и категориальных столбцов
numeric_features = ['Age', 'Fare']
categorical_features = ['Sex', 'Embarked']

# Конвейер для числовых признаков: заполнение пропусков и масштабирование
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Заполнение пропусков средним значением
    ('scaler', StandardScaler())  # Масштабирование данных
])

# Конвейер для категориальных признаков: заполнение пропусков и One-Hot кодирование
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Объединение всех преобразований с помощью ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# 4. Интеграция конвейера предобработки с моделью (например, RandomForestClassifier)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier())
])

# 5. Обучение модели
pipeline.fit(X_train, y_train)

# 6. Оценка модели
score = pipeline.score(X_test, y_test)
print(f"Точность модели: {score:.2f}")
'''
Answer to the questions:
1)Pipelines streamline preprocessing and ensure consistency between training and testing.
2)It allows the easy addition of more steps (e.g., feature encoding).
'''

Точность модели: 0.74


'\nAnswer to the questions:\n1)Pipelines streamline preprocessing and ensure consistency between training and testing.\n2)It allows the easy addition of more steps (e.g., feature encoding).\n'