#### Описание
Этот набор данных содержит более 80 000 сообщений о наблюдениях НЛО за последнее столетие.

### Подключение модулей

In [3]:
import pandas as pd   
import numpy as np
import seaborn as sns    
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

### Загрузка данных

In [5]:
df = pd.read_csv('scrubbed.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'scrubbed.csv'

In [None]:
df.info()

#### Описание данных

- **datetime (Дата)** - Дата обнаружения НЛО.
- **city (Город)** - Город в котором обнаружили НЛО.
- **state (Штат)** - Штат в котором обнаружили НЛО.
- **country (Страна)** - Страна в которой обнаружили НЛО.
- **shape (Форма)** - Форма НЛО.
- **duration(seconds) (Длительность(секунды))** - Продолжиетльность наблюдения НЛО в секундах.
- **duration(hours/min) (Длительность(часы/минуты))** - Продолжиетльность наблюдения НЛО в часах/минутах.
- **coments (коментарии)** - Коментарии наблюдателя.
- **date posted (дата публикации)** - Дата публикации наблюдения.
- **coments (коментарии)** - Коментарии наблюдателя.
- **latitude (широта)** - широта на которой наблюдали НЛО.
- **longitude (долгота)** - долгота на которой наблюдали НЛО.

In [None]:
df.shape

In [None]:
df.describe(include='all').T

In [None]:
df.describe().T

In [None]:
df.describe(include=[object])

In [None]:
df.dtypes

In [None]:
df.columns

In [None]:
# проверка на отсутствующие значения для всех колонок датафрейма
df.isna().sum()

In [None]:
for col in df.columns:
    print('Кол-во пропусков в колонке %s = %d' % (col, df[col].isna().sum()))

In [None]:
for col in df.columns:
    print(f'Кол-во пропусков в колонке {col} = {df[col].isna().sum()/df.shape[0] * 100:.2f} % ')

In [None]:
# Подсчет пропущенных значений в каждом столбце
missing_data = df.isna().sum()/df.shape[0] * 100

# Построение гистограммы пропущенных значений
missing_data.plot(kind='bar', figsize=(8, 4))
plt.title("Отсутствующие значения")
plt.ylabel("Количество пропущенных значений")
plt.show()

In [None]:
# Проверка на дублирование записей
df.duplicated().sum()

In [None]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)

df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()    # проверка

In [None]:
df.state.fillna(df['state'].mode()[0], inplace=True )
df.country.fillna(df['country'].mode()[0], inplace=True )
df.ufo_shape.fillna(df['ufo_shape'].mode()[0], inplace=True )
df.datetime.fillna(df['datetime'].mode()[0], inplace=True )
df.city.fillna(df['city'].mode()[0], inplace=True )
df.duration_seconds.fillna(df['duration_seconds'].mode()[0], inplace=True )
df.duration_hours_min.fillna(df['duration_hours_min'].mode()[0], inplace=True )
df.comments.fillna(df['comments'].mode()[0], inplace=True )
df.date_posted.fillna(df['date_posted'].mode()[0], inplace=True )
df.latitude.fillna(df['latitude'].mode()[0], inplace=True )
df.longitude.fillna(df['longitude'].mode()[0], inplace=True )

In [None]:
df.isna().sum()

In [None]:
df.hist(figsize=(20,20), bins = 30);

In [None]:
numerical_all_colslist = df.select_dtypes(include=['float64', 'int64','int32']).columns
numerical_all_cols = df[numerical_all_colslist]
numerical_all_cols.head()

In [None]:
# 1. Separate categorical and numerical columns
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns
categorical_cols = df.select_dtypes(include=['object']).columns

print(numerical_cols)
print(categorical_cols)
from sklearn.impute import SimpleImputer

# Imputation for numerical data (using mean)
num_imputer = SimpleImputer(strategy='mean')
df[numerical_cols] = num_imputer.fit_transform(df[numerical_cols])

# Imputation for categorical data (using most frequent)
cat_imputer = SimpleImputer(strategy='most_frequent')
df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols])

In [None]:
numerical_cols

In [None]:
corr_matrix = numerical_all_cols.corr()

plt.figure(figsize=(15, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title("Correlation Matrix of Numerical Features")
plt.show()

In [None]:
corr_matrix = df[numerical_cols].corr()
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.show()

In [None]:
sns.set(font_scale=2.5)
plt.figure(figsize=(40,30))
corr_matrix=numerical_all_cols.corr()
sns.heatmap(corr_matrix,annot=True,fmt = ".2f",cbar = True,annot_kws={"size":18})