# Функция для первичного изучения датасета

Функция `show_info` позволяет провести предварительный анализ датасета в формате `pandas DataFrame` по нескольким направлениям:

- Общая информация о файле
- Проверка на полные дубликаты по строкам
- Проверка на количество пропусков в столбцах
- Статистика по текстовым и числовым данным датасета при наличии (выводится в транспонированном виде для удобства чтения)
- Вывод первых пяти строк таблицы

Параметр `whole` позволяет сократить выведение данных для более краткого анализа. При указании значения `False` доступны:

- Общая информация о файле
- Статистика по текстовым и числовым данным датасета при наличии (также в транспонированном виде)
- Вывод первых пяти строк таблицы

Функция использует `display`, что обеспечивает удобный вывод данных, особенно в средах, таких как Jupyter Notebook.

In [1]:
#функция для первичного изучения датасета
def show_info(df, whole=True):
    #общая информация
    display(df.info())
    print('-' * 25)

    if whole:
        #проверка на дубликаты
        print('Проверка на дубликаты:', df.duplicated().sum())
        print('-' * 25)
        #проверка на пропуски
        print('Проверка на пропуски:')
        display(df.isnull().sum())
        print('-' * 25)

    #статистика
    print('Статистика:')
    display(df.describe(include=['object']).T)
    if not df.select_dtypes(include=['int64', 'float64']).empty:
        display(df.select_dtypes(include=['int64', 'float64']).describe().T)
    #первые пять строк
    print('-' * 25)
    display(df.head())

Чтобы увидеть, как функция `show_info` работает и какие результаты выводит при различных способах вызова, создадим тестовый датасет, который содержит следующую информацию:

- **customer_id** — Идентификатор клиента (с дубликатами)
- **name** — Имя клиента (с дубликатами)
- **age** — Возраст клиента (с пропусками)
- **gender** — Пол клиента
- **purchase_amount** — Сумма покупки (с пропусками)

In [2]:
import pandas as pd

#создаём тестовый датасет
data = {'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 1],
        'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Hannah', 'Alex', 'Jack', 'Alice'],
        'age': [25, 30, 35, 40, 22, 29, 36, None, 28, 25],
        'gender': ['Female', 'Male', 'Male', 'Male', 'Female', 'Male', 'Female', 'Male', 'Male','Female'],
        'purchase_amount': [100.5, 200.0, 150.75, 300.0, 50.25, None, 120.0, 160.5, 220.0, 100.5]}
df = pd.DataFrame(data)

In [3]:
#применяем полную функцию
show_info(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   customer_id      10 non-null     int64  
 1   name             10 non-null     object 
 2   age              9 non-null      float64
 3   gender           10 non-null     object 
 4   purchase_amount  9 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 532.0+ bytes


None

-------------------------
Проверка на дубликаты: 1
-------------------------
Проверка на пропуски:


Unnamed: 0,0
customer_id,0
name,0
age,1
gender,0
purchase_amount,1


-------------------------
Статистика:


Unnamed: 0,count,unique,top,freq
name,10,9,Alice,2
gender,10,2,Male,6


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
customer_id,10.0,4.6,2.875181,1.0,2.25,4.5,6.75,9.0
age,9.0,30.0,5.91608,22.0,25.0,29.0,35.0,40.0
purchase_amount,9.0,155.833333,75.378317,50.25,100.5,150.75,200.0,300.0


-------------------------


Unnamed: 0,customer_id,name,age,gender,purchase_amount
0,1,Alice,25.0,Female,100.5
1,2,Bob,30.0,Male,200.0
2,3,Charlie,35.0,Male,150.75
3,4,David,40.0,Male,300.0
4,5,Eva,22.0,Female,50.25


In [4]:
#применяем укороченную функцию
show_info(df, whole=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   customer_id      10 non-null     int64  
 1   name             10 non-null     object 
 2   age              9 non-null      float64
 3   gender           10 non-null     object 
 4   purchase_amount  9 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 532.0+ bytes


None

-------------------------
Статистика:


Unnamed: 0,count,unique,top,freq
name,10,9,Alice,2
gender,10,2,Male,6


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
customer_id,10.0,4.6,2.875181,1.0,2.25,4.5,6.75,9.0
age,9.0,30.0,5.91608,22.0,25.0,29.0,35.0,40.0
purchase_amount,9.0,155.833333,75.378317,50.25,100.5,150.75,200.0,300.0


-------------------------


Unnamed: 0,customer_id,name,age,gender,purchase_amount
0,1,Alice,25.0,Female,100.5
1,2,Bob,30.0,Male,200.0
2,3,Charlie,35.0,Male,150.75
3,4,David,40.0,Male,300.0
4,5,Eva,22.0,Female,50.25
