# 🧾Введение в мир данных 🧾
## 🌞 1. Упр. - данные 

Пример:

Компания собирает данные о продажах, клиентах, маркетинговых кампаниях. Анализ этих данных поможет оптимизировать расходы, улучшить взаимодействие с клиентами и увеличить прибыль.

Упражнение:

-Опишите различные типы данных, с которыми вы сталкиваетесь в своей работе.
-Приведите примеры того, как данные используются для принятия решений в вашей отрасли.

### ✅РЕШЕНИЕ ✅

#### Выделяют следующие категории данных, которые собираются в хранилище банка:

 - **Метаданные.** Это «данные о данных», они содержат полное описание логической и физической структуры данных, информацию обо всех элементах хранилища, способы извлечения информации из различных источников, методы их преобразования из различных структур и форматов и доставки в хранилище. 

 - **Детальные данные.** Это информация, поступающая из транзакционных систем, отражающая состояние предметной области в конкретные моменты времени. 
 - **Агрегированные данные.** Это обобщённые данные, полученные на основании детальных данных. 

#### Некоторые типы данных, которые используются в банковском секторе:
 - **Информация о клиентах.** Включает не только внутренние банковские сведения о состоянии счёта и истории трансакций, но и внешнюю информацию: как человек ведёт себя в соцсетях, что ищет в интернете, с кем переписывается по e-mail и какую рассылку получает. 
 - **Информация о транзакциях.** Банки обрабатывают сотни миллиардов финансовых транзакций ежедневно.  
 - **Финансовая отчётность.** На основе данных принимаются решения, связанные с разработкой политики, анализом финансовой отчётности, банковскими правилами и положениями. 
 - **Кредитные рейтинги.** Их используют, чтобы определить, какие клиенты могут быть правильным кандидатом на конкретный кредит или другой продукт. 
 - **Сведения о ссуде.**  

## 🌞 2. Упр. - Пример профилирования данных с помощью ydata-profiling

#### 1. Установка:
Убедитесь, что у вас установлена библиотека ydata-profiling. Если нет, установите ее с помощью pip

In [1]:
# !pip install -U ydata-profiling

Collecting ydata-profiling
  Downloading ydata_profiling-4.16.1-py2.py3-none-any.whl.metadata (22 kB)
Downloading ydata_profiling-4.16.1-py2.py3-none-any.whl (400 kB)
Installing collected packages: ydata-profiling
  Attempting uninstall: ydata-profiling
    Found existing installation: ydata-profiling 4.12.1
    Uninstalling ydata-profiling-4.12.1:
      Successfully uninstalled ydata-profiling-4.12.1
Successfully installed ydata-profiling-4.16.1


In [3]:
# Если библиотека установлена, команда покажет её версию
!pip show ydata-profiling

Name: ydata-profiling
Version: 4.16.1
Summary: Generate profile report for pandas DataFrame
Home-page: https://ydata.ai
Author: 
Author-email: YData Labs Inc <opensource@ydata.ai>
License: 
Location: C:\Users\79181\anaconda3\Lib\site-packages
Requires: dacite, htmlmin, imagehash, jinja2, matplotlib, multimethod, numba, numpy, pandas, phik, pydantic, PyYAML, requests, scipy, seaborn, statsmodels, tqdm, typeguard, visions, wordcloud
Required-by: 


#### 2. Подготовка данных

Для примера возьмем датасет penguins из библиотеки seaborn. Загрузим его и выведем первые несколько строк:

In [4]:
import seaborn as sns
import pandas as pd
from ydata_profiling import ProfileReport

In [5]:
penguins = sns.load_dataset("penguins")
penguins.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female


#### 3.Создание отчета профилирования:
Создадим отчет профилирования с помощью ProfileReport:

In [9]:
profile = ProfileReport(
    penguins, 
    title="Penguin Profiling Report", 
    explorative=True)

profile.to_file('data/penguins_report.html')

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]


100%|██████████| 7/7 [00:00<00:00, 116.67it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

#### 4.Анализ отчета:

Откройте файл отчета в браузере. Вы увидите, что он содержит:

Обзор данных:  информация о количестве строк, столбцов, типах данных, пропущенных значениях.
![](../images/02_02_07.png) <br>
![](../images/02_02_01.png) <br>
Статистика по каждому столбцу:
Для числовых столбцов: гистограмма распределения, среднее, медиана, минимум, максимум, стандартное отклонение и т.д.
![](../images/02_02_06.png) <br>
Для категориальных столбцов: количество уникальных значений, частота встречаемости каждого значения.<br>
![](../images/02_02_02.png) <br>
Матрица корреляции:  показывает взаимосвязь между числовыми столбцами.
![](../images/02_02_03.png) <br>
Взаимодействия:  позволяет визуализировать взаимосвязи между парами столбцов.
![](../images/02_02_04.png) <br>
Пропущенные значения:  визуализация пропущенных значений в каждом столбце.
 ![](../images/02_02_05.png) <br>
