# Разведочный анализ данных (РАД) | Exploratory Data Analysis (EDA)
Разработан в лаборатории Bell Labs Джоном Тьюки (John Tukey), математиком и статистиком, в конце 1970-ых гг. В одной из своих работ сказал: " Единственный шанс людей сделать что-то **лучше**, чем компьютеры, - это попытаться сделать **меньше**, чем они".
1. **IDA - Initial Data Analysis** позволяет:
  * завершить наблюдения или отметить пропущенные случаи с помощью соответствующих признаков;
  * преобразовать текстовые или категориальные признаки;
  * создавать новые признаки, основываясь на знании предметной области данных;
  * получать числовой набор данных, где строки - это наблюдения, а столбцы - признаки (*датафрейм* - фрейм данных).
2. **EDA - Exploratory Data Analysis** позволяет:
  * описать данные;
  * внимательно изучить их распределение;
  * понять отношения между признаками;
  * обратить внимание на неожиданные значения;
  * группировать данные и проводить анализ по группам (обратить внимание на неожиданные значения по группам, на различия в группах).

## Подготовка нужных библиотек python

In [None]:
pip list | grep profiling

In [None]:
pip install 'pandas-profiling==3.3.0'

**Не забудьте сделать Restart runtime!**

# Найти и собрать данные
"Data wrangling" занимает большую часть времени.
- Полезно проверять очевидные вещи - данные большие, переделывать обработку несколько раз будет особенно неэффективно
- Пригодятся инструменты командной строки для быстрых, одноразовых операций не требовательных к правильности формата

## Примеры данных уже в colab

In [None]:
!pwd

In [None]:
cd /content

In [None]:
ls

In [None]:
cd sample_data

In [None]:
ls -lh

In [None]:
!apt-get install file

In [None]:
!file *

In [None]:
!wc *

In [None]:
!head -n 3 /content/sample_data/*

In [None]:
cat /content/sample_data/README.md

## Snapshot serengeti

[Проект на zooniverse](https://www.zooniverse.org/projects/zooniverse/snapshot-serengeti)

[Статья в Nature](https://www.nature.com/articles/sdata201526)

[Статья по машинному обучению на этих данных](https://medium.com/@neurohiveru/%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D0%B6%D0%B8%D0%B2%D0%BE%D1%82%D0%BD%D1%8B%D1%85-%D0%B2-%D0%B4%D0%B8%D0%BA%D0%BE%D0%B9-%D0%BF%D1%80%D0%B8%D1%80%D0%BE%D0%B4%D0%B5-5c4ff57e0c7)

![snapshot Serengeti image](https://media.springernature.com/lw685/springer-static/image/art%3A10.1038%2Fsdata.2015.26/MediaObjects/41597_2015_Article_BFsdata201526_Fig4_HTML.jpg?as=webp)

Опубликованный датасет
<http://lila.science/datasets/snapshot-serengeti>


In [None]:
!curl -I https://lilablobssc.blob.core.windows.net/snapshotserengeti-v-2-0/SnapshotSerengetiS01.json.zip
!curl -I https://lilablobssc.blob.core.windows.net/snapshotserengeti-v-2-0/SnapshotSerengeti_v2_0.csv.zip
!curl -I https://lilablobssc.blob.core.windows.net/snapshotserengeti-v-2-0/SnapshotSerengeti_v2_0.json.zip
!curl -I https://lilablobssc.blob.core.windows.net/snapshotserengeti-v-2-0/SnapshotSerengeti_S1-11_v2_1.json.zip

In [None]:
mkdir -p /content/serengeti

In [None]:
cd /content/serengeti

In [None]:
!wget -c https://lilablobssc.blob.core.windows.net/snapshotserengeti-v-2-0/SnapshotSerengetiS01.json.zip
!file *

In [None]:
!unzip -l SnapshotSerengetiS01.json.zip

In [None]:
!unzip -n SnapshotSerengetiS01.json.zip
!ls -lh

In [None]:
!file *

In [None]:
!head -n 20 SnapshotSerengetiS01.json
!echo ...
!tail -n 20 SnapshotSerengetiS01.json

### Задание 1
1.   Выбрать какой-нибудь набор открытых данных
  - государственные источники (Российские и зарубежные)
    - климат
    - демография
    - ковид
    - экономика
  - открытые научные данные
  - соревнования по машинному обучению (kaggle)
2. Загрузить и проверить формат данных

# Чтение и загрузка данных в pandas (python)

![Pandas logo](https://pandas.pydata.org/static/img/pandas.svg)

## Примеры из colab

In [None]:
ls -lh /content/sample_data

In [None]:
!head -n2 /content/sample_data/california_housing_*.csv 

In [None]:
import pandas as pd
housing_train = pd.read_csv('/content/sample_data/california_housing_train.csv')
housing_test = pd.read_csv('/content/sample_data/california_housing_test.csv')
print(len(housing_train))
housing_train.head(2)


In [None]:
print(len(housing_test))
housing_test.head(2)

In [None]:
help(housing_train)

https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

* [Учебник по NumPy](https://pythonworld.ru/numpy/1.html)
* [Ускоренный курс по Pandas](https://teletype.in/@python_academy/YzdI5z1NUP)

In [None]:
type(housing_train.values)

In [None]:
housing_train.values.shape

In [None]:
pd.DataFrame({'a':[1,2,3], 'b': ['x', 'y', 'z']})

In [None]:
pd.DataFrame([(1, 'x'), (2, 'y'), (3, 'z')], columns=['a', 'b'])

In [None]:
pd.DataFrame([{'a': 1, 'b': 'x'}, {'a': 2, 'b': 'y'}, {'a': 3, 'b': 'z'}])

In [None]:
cat '/content/sample_data/anscombe.json'

In [None]:
quartet = pd.read_json('/content/sample_data/anscombe.json')
quartet

## Snapshot serengeti

In [None]:
# ss = pd.read_json('/content/serengeti/SnapshotSerengetiS01.json')

In [None]:
import json
with open('/content/serengeti/SnapshotSerengetiS01.json') as file_in:
  raw_s1 = json.load(file_in)

In [None]:
for k, v in raw_s1.items():
    print(f'{k:10}\t\t{type(v)}\t\t{len(v)}')

In [None]:
raw_s1['info']

In [None]:
raw_s1['categories'][:10]

In [None]:
raw_s1['images'][:2]

In [None]:
s1_images = pd.DataFrame(raw_s1['images'])
s1_images.head(10)

In [None]:
raw_s1['annotations'][:2]

In [None]:
s1_categories = pd.DataFrame(raw_s1['categories'])
s1_categories

In [None]:
s1_annotations = pd.DataFrame(raw_s1['annotations'])
s1_annotations.head(10)

### Задание 2

1.   Загрузить в DataFrame свой набор данных


# Data cleaning / preprocessing / profiling / IDA

## Data profiling

In [None]:
quartet.info()

In [None]:
housing_train.info()

In [None]:
housing_train.describe()

In [None]:
quartet.describe()

In [None]:
quartet.groupby('Series').describe()

### pandas-profiling
https://pandas-profiling.github.io/pandas-profiling/docs/master/rtd/

In [None]:
from pandas_profiling import ProfileReport
ProfileReport(quartet)

In [None]:
ProfileReport(housing_train)

In [None]:
ProfileReport(s1_images)

In [None]:
ProfileReport(s1_annotations)

### Задание 3

1.   Провести профилирование на своих данных

## Data cleaning

In [None]:
print(len(s1_images))
s1_images.head(2)

In [None]:
s1_images.isnull().any()

In [None]:
with_holes = pd.DataFrame({'x': [1, 2, 3, None, 5, 6]})
with_holes

In [None]:
with_holes.fillna(method='pad')

In [None]:
with_holes.dropna()

In [None]:
s1_images.datetime[0]

In [None]:
pd.to_datetime(s1_images.datetime)

In [None]:
print(s1_images.corrupt.dtype)
s1_images.corrupt.any()

In [None]:
len(s1_images), len(s1_images.id.unique()), len(s1_images.seq_id.unique())

In [None]:
"abcd.jpg"[0:-4]

In [None]:
(s1_images.id == s1_images.file_name.str.slice(0, -4)).all()

In [None]:
(s1_images.file_name.str.slice(-4) == '.JPG').all()

In [None]:
s1_images_clean = s1_images.drop(columns=['file_name', 'corrupt']).set_index('id')
s1_images_clean.datetime = pd.to_datetime(s1_images_clean.datetime)
s1_images_clean

In [None]:
s1_annotations.head(2)

In [None]:
print(len(s1_annotations), len(s1_annotations.id.unique()), len(s1_annotations.image_id.unique()), len(s1_annotations.seq_id.unique()), len(s1_annotations.subject_id.unique()))
s1_annotations.sequence_level_annotation.all()

In [None]:
s1_annotations_clean = s1_annotations.drop(columns=['sequence_level_annotation']).set_index('id')
s1_annotations_clean.datetime = pd.to_datetime(s1_annotations_clean.datetime)
s1_annotations_clean.head()

In [None]:
s1 = s1_annotations_clean.join(s1_images_clean, on='image_id', how='outer', rsuffix='_img')
s1

In [None]:
(s1.seq_id == s1.seq_id_img).all()

In [None]:
s1_clean = s1_annotations_clean

In [None]:
s1_good = s1_clean[s1_clean.category_id != 0].join(s1_categories.set_index('id'), on='category_id')
s1_good

In [None]:
ProfileReport(s1_good)

### Задание 4

1. Почистить свой набор данных по результатам профилирования
2. Провести профилирование очищенных данных

# Визуализация и EDA


In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
import numpy as np
plt.plot([0, 1, 4, 2])
plt.plot(np.random.rand(4))


In [None]:
plt.plot(quartet.X)
plt.plot(quartet.Y)

In [None]:
quartet.plot()

In [None]:
quartet.groupby('Series').plot()

In [None]:
quartet.groupby('Series').plot.scatter('X', 'Y')

In [None]:
import seaborn as sns
sns.relplot('X', 'Y', hue='Series', data=quartet)

In [None]:
housing_train.head(2)

In [None]:
housing_train.hist(figsize=(25,25),bins=50)
plt.show()

In [None]:
housing_train.plot.scatter(x='longitude', y='latitude', c=housing_train.median_house_value)

In [None]:
sns.relplot(x='longitude', y='latitude', hue='median_house_value', size='total_rooms', data=housing_train)

In [None]:
house = housing_train.copy()
house['coast_dist'] = house.latitude + house.longitude
sns.relplot(x='coast_dist', y='total_rooms', hue='median_house_value', data=house)

In [None]:
house = housing_train.copy()
house['lat'] = (house.latitude * 0.4).round().astype(int)
house['long'] = (house.longitude * 0.4).round().astype(int)
sns.relplot(x='housing_median_age', y='median_house_value', col='long', row='lat', data=house)

In [None]:
sns.catplot(x='name', y='standing', kind='box', data=s1_good[s1_good.category_id<=4])

In [None]:
sns.relplot(x='resting', y='moving', col='name', data=s1_good[s1_good.category_id<6])

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
cd /content/drive/MyDrive/trackml

In [None]:
!file *