<a href="https://colab.research.google.com/github/vddavydova/public/blob/main/colab/week05_sem_diamonds_colab_dap.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Week 05. Seminar. Exploratory data analysis using Python packages: part 1 </center>

# <center> diamonds

# Введение в pandas

- Pandas — библиотека языка Python для удобных обработки и анализа данных.
- Официальная документация [тут](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
---

Необязательное ДЗ
- проработать [статью](https://habr.com/ru/company/ods/blog/322626/) про то как в pandas можно делать разные штуки

## Загружаем и смотрим датасет

In [None]:
# импортируем библиотеку `pandas` 
    
import pandas as pd

In [None]:
# ! pip install pandas # установка модуля, если его нет и выше ошибка
# ! pip install --upgrade pandas # обновление модуля

- Будем анализировать классический датасет о бриллиантах. 
- Больше информации о нем [тут](https://www.kaggle.com/shivam2503/diamonds).
- Скачать можно [тут](https://github.com/vddavydova/public/blob/main/data/diamonds.csv)

Описание колонок датасета:
- `price` – цена бриллианта (в долларах)

- `carat` – масса бриллианта (в каратах)

- `cut` – качество огранки бриллианта (Fair, Good, Very Good, Premium, Ideal)

- `color` – цвет бриллианта, from J (худший) to D (лучший)

- `clarity` – чистота бриллианта (I1 (худший), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (лучший))

- `x`, `y`, `z` – длина, ширина, высота (в мм)

- `depth` – процент глубины равный 2 * z / (x + y)

- `table` – ширина площадки сверху бриллианта

Загружаем датасет из `csv`-файла в переменную `df` специального типа `pd.DataFrame`. Внимательно указываем путь к файлу.

Если не хотите указывать путь к файлу, переместите датасет в ту же папку, где и ноутбук!

In [None]:
## если вы потерялись, где вы, проверьте!
import os 
os.getcwd()

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/vddavydova/public/main/data/diamonds.csv', index_col=0)

## если нужно указать путь к файлу
#df = pd.read_csv('~/Downloads/diamonds.csv')

In [None]:
df

In [None]:
type(df)

у функции `read_csv`, есть ряд важных параметров, которые иногда могут пригодиться
- `sep` — разделитель данных, по умолчанию `','`
- `decimal` — разделитель числа на целую и дробную часть, по умолчанию `'.'`
- `names` — список с названиями колонок
- `skiprows` — если файл содержит системную информацию, можно просто её пропустить
- `index_col` - номер колонки с индексом

Посмотрим на первые 10 строк датасета с помощью метода `.head()` и последние 5 строк с помощью метода `.tail()`

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail()

Посмотрим на размер нашего датасета c помощью атрибута `shape`, который выводит `кортеж` из двух чисел
- первое число – количество строк (наблюдений)
- второе число – количество столбцов

In [None]:
df.shape

In [None]:
df.shape[0] # кол-во строк

In [None]:
df.shape[1] # кол-во колонок

Давайте посмотрим на информацию о датасете. 

У метода `.info()` можно передать дополнительные параметры, среди которых:

- `verbose`: печатать ли информацию о `DataFrame` полностью (если таблица очень большая, то некоторая информация может потеряться)
- `memory_usage`: печатать ли потребление памяти (по умолчанию используется `True`, но можно поставить либо `False`, что уберёт потребление памяти, либо `'deep'` , что подсчитает потребление памяти более точно)
- `null_counts`: подсчитывать ли количество пустых элементов (по умолчанию `True`)

In [None]:
df.info()

Можно вывести только тип данных в каждой колонке

In [None]:
df.dtypes

## Считаем различные характеристики

### Агрегирующие функции

Метод `.describe()` показывает основные статистические характеристики данных по каждому числовому признаку (типы `int64` и `float64`):  
- `count` – число непропущенных значений
- `mean`, `std` – среднее, стандартное отклонение
- `min`, `max` – минимум, максимум
- `25%`, `50%`, `75%` – квартили уровней 0.25, 0.50, 0.75

In [None]:
df.describe()

Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (`object`) или булевым (`bool`) данным), нужно явно указать интересующие нас типы в параметре `include` метода `describe`, тогда
- `unique` – число уникальных категорий в колонке
- `top` – самая часто встречаемая категория
- `freq` – количество вхождений самой часто встречаемой категории в датасете

In [None]:
df.describe(include = ['object'])

Из таблицы мы можем "достать" отдельный столбец, который будет уже другого специального типа `pd.Series`

Это можно сделать несколькими способами, например:
```python
df['col']
```

Если название колонки на латинице без пробелов, можно писать:
 ```python
df.col
```

In [None]:
df['cut']

In [None]:
df.color

In [None]:
type(df.cut)

In [None]:
df['cut'].describe()

У отдельного столбца также можно посчитать все характеристики, которые выводятся у метода `describe`

In [None]:
df['carat'].mean()

In [None]:
df['carat'].median()

In [None]:
df['cut'].mode() # наиболее часто встречаемое значение в колонке

### Группировки

![](https://i.imgur.com/Ij090Kn.jpg)

Таблицы можно также группировать для того, чтобы посмотреть разные характеристики датасета.

Например, посмотрим на среднюю цену бриллианта в зависимости от цвета.

```python
df.groupby('col to group')['col of interest'].mean().sort_values()
```
- `mean` – агрегирующая функция, можно использовать другие
- `sort_values` – функция сортировки

In [None]:
# применяем метод groupby
#df.groupby(by='color')

# выбираем интересующий столбец
#df.groupby(by='color')['price']

# выбираем, что хотим посчитать
#df.groupby(by='color')['price'].mean()


df.groupby(by='color')['price'].mean()
# на выходе pd.series

In [None]:
df.groupby('color')[['price']].mean()

# на выходе pd.dataframe – посмотрите на разницу!

In [None]:
# ['price','carat'] - список из названий колонок
gr = df.groupby('color')[['price','carat']].mean()
gr

In [None]:
# можно список отдельно задать
cols_to_use = ['price','carat']
gr = df.groupby('color')[cols_to_use].mean()
gr

В pandas строено много способов построения простых графиков. Подробнее о них [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html). О более сложных позднее.

Воспользуемся методом `.plot()` и построим столбчатую диаграмму (`kind='bar'`) средней цены бриллианта в зависимости от цвета.

In [None]:
# самый простой график
df.groupby('color')['price'].mean().sort_values().plot()

In [None]:
# столбчатый график
df.groupby('color')['price'].mean().sort_values().plot(kind='bar')

Можно посмотреть сразу несколько характеристик с помощью метода `.agg(['some_char_1','some_char_2'])`у нескольких колонок

In [None]:
df.groupby('color')[['price', 'carat']].agg(['mean','median'])

In [None]:
df.groupby('color')['price'].agg(['mean','median']).plot(kind='bar')

![title](https://i.imgur.com/6PannTm.jpg)

Можно строить сложные сводные таблицы. 

Например, можно посмотреть на среднюю цену бриллианта в зависимости от цвета (color) и качества огранки (cut)

In [None]:
# columns='color' - что будет колонками в сводной таблице
# index='cut' - что будет строками в сводной таблице
# values='price' - какую колонку будем использовать для подсчета чего-нибудь
# aggfunc='mean' - что будем считать

df.pivot_table(columns='color', index='cut', values='price', aggfunc='mean')

In [None]:
df.pivot_table(columns='color', index='cut', values='price', aggfunc='mean').sort_values(by='J').plot()

### Уникальные значения

Посмотрим, как часто бриллианты различного качества (колонка cut) встречаются в датасете, с помощью метода `.value_counts()`

In [None]:
df['cut']

In [None]:
df['cut'].value_counts()

In [None]:
# посмотрим аргументы
?pd.value_counts

In [None]:
df['cut'].value_counts(normalize=True)

Просто посмотреть уникальные категории в колонке можно с помощью метода `.unique()`

In [None]:
df['cut'].unique()

А просто количество уникальных категорий (или значений) можно посмотреть с помощью метода `.nunique()`

In [None]:
df['cut'].nunique()

In [None]:
df['cut'].value_counts().plot(kind='pie')

## Гистограмма распределения

In [None]:
df['price'].describe()

In [None]:
df['price'].plot(kind='hist', bins=30)

### Среднее, медиана, мода

<img src='https://i.pinimg.com/originals/5e/70/90/5e70902088cb6036fa8954327c426aa4.png' width=300>

## Создаем и удаляем колонки

In [None]:
df.head()

Добавим в таблицу новую колонку объем бриллианта (volume), используя длину, высоту и глубину брилланта

In [None]:
df['x']

In [None]:
df['y']

In [None]:
df['z']

In [None]:
df['z'] * df['y']

In [None]:
df['volume'] = df['x'] * df['y'] * df['z']

In [None]:
df.head()

А колонки с длинной, высотой и глубиной удалим с помощью метода `.drop()`

- укажем колонки, которые нужно удалить – список `drop_cols`
- `axis=0` – означает, что удаляем строки
- `axis=1` – означает, что удаляем колонки, а не строки
- `inplace=True` – означает, что удаляем колонки в текущем датасете, а не выводим новый

In [None]:
# без inplace удалим carat
df.drop('carat', axis=1).head(2)

In [None]:
# carat остались!
df.head(2)

In [None]:
drop_cols = ['x', 'y', 'z']
df.drop(drop_cols, axis=1, inplace=True)

# или то же самое без inplace – лучше первый способ
### df = df.drop(drop_cols, axis='columns')

In [None]:
df.head(2)

Переведем также караты в миллиграммы (умножив массу в каратах на 200)

In [None]:
# просто выводится на экран
df['carat']*200

In [None]:
# записываем в колонку
df['carat'] = df['carat']*200
df.head()

Переименуем колонку

In [None]:
# передадим словарь, где укажем что на что менять
# {'carat':'weight'} - словарь с одной парой key-value

df.rename(columns={'carat':'weight'}, inplace=True)

Посмотрим теперь на датасет 

In [None]:
# название поменялось
df.head()

Для построения точечного графика зависимости цены от массы используем метод `.plot()`, указываем его тип `kind=` и остальные необходимые аргументы.

In [None]:
# s – размер точек
# x,y – что по каким осям
df.plot(kind='scatter', x='weight', y='price', s=0.2)

In [None]:
# логарифмируем x и y
df.plot(kind='scatter', x='weight', y='price', s=0.2, loglog=True)

## Индексация и срезы

### Индексация

Разберемся с тем, как доставать определенные строки и столбцы из датасета

- для индексации по номеру строки и столбца используется атрибут `iloc[:, :]`
    - сначала указываются индексы строк, затем – столбцов
- для индексации по имени строки и столбца используется атрибут `loc[:, :]`
    - сначала указываются имена строк, затем – столбцов

In [None]:
# индексы от 1 до 53940
df

In [None]:
# ровно 45 и 50 индексы
df.loc[[45,50]]

In [None]:
# можно взять часть колонок
df.loc[[45,50], ['weight','price']]

In [None]:
# индексы по счёту 45 и 50 по счёту от 0
df.iloc[[45,50]]

In [None]:
# добавим колонки
df.iloc[[45,50], [0,4]]

In [None]:
# можно также использовать срезы
df.iloc[[45,50], 0:4]

### Условные срезы

Вместо срезов (например, 45:50), можно использовать условия.

Рассмотрим пример. Если рассмотреть  описательные статистики у колонки volume, то у нее встречаются нулевые значения.

In [None]:
df[['weight','volume']].describe()

При этом если рассмотреть массу и объем бриллиантов с нулевым значением объема, то масса у таких бриллиантов в большинстве оказывается значительно выше среднего, поэтому вряд ли их настоящий объем равен нулю. 

In [None]:
# сравнение каждой строки с нулем
df['volume'] == 0

In [None]:
# оставляем только те строки, где нулевой объем
df.loc[df['volume'] == 0]

In [None]:
# посмотрим на часть колонок
df.loc[df['volume']==0, ['weight', 'volume', 'price']]

Оставим в датасете только строчки с ненулевым объемом

In [None]:
# было
df.shape

In [None]:
df = df[df['volume']>0]

In [None]:
# стало
df.shape

### Условные операторы

Также можно делать срезы из таблицы, используя несколько условий с помощью операторов 
    - `|` (или)
    - `&` (и)

```python
df[(`condition_1`) | (`condition_2`)]
```

In [None]:
df[(df['volume'] >= 100) & (df['volume'] <= 200)]

In [None]:
# то же самое по шагам и без лишних скобок
over100 = df['volume'] >= 100
under200 = df['volume'] <= 200
df[over100 & under200]

In [None]:
df[over100 & under200].describe()

Посмотрим на все идеальные и премиум бриллианты

In [None]:
df['cut'].unique()

In [None]:
condition_1 = df['cut']=='Ideal'
condition_2 = df['cut']=='Premium'
df[condition_1 | condition_2]

Посмотрим на все идеальные бриллианты массой больше 500 миллиграмм

In [None]:
df[(df['cut']=='Ideal') & (df['weight']>500)]

### Работа со строками

Для работы со строкововыми колонками можно также воспользоваться методами 

- `.isin()` – для того, чтобы оставить лишь те строки, категории которой лежат в некотором списке

```python 
df['col'].isin(['category1', 'category2'])
```

- `.str` – для того, чтобы использовать методы, которые есть у строк
- `.str.contains()` – для того, чтобы оставить строки, содержание которых имеет определенный текст

```python 
df['col'].str.contains(['some_text'])
```

In [None]:
# снова строки с логическими переменными
cut_interested = ['Ideal', 'Premium']
df['cut'].isin(cut_interested)

In [None]:
# делаем условный срез
df[df['cut'].isin(['Ideal', 'Premium'])]

In [None]:
df[df['cut'].str.contains('Good')]

# Ревью

Сегодня мы научились: 
- загружать таблички 
    - `df = pd.read_csv('some_data.csv')`
- смотреть на них 
    - `df.head()`,`df.tail()`, 
    - `df.shape`, `df.info()`, `df.dtypes()`
- считать различные характеристики
    - `df.describe()` 
    - `df['col'].mean()`, `df['col'].median()`
- делать группировки
    - `df.groupby('col1')['col2'].agg(['mean','median'])`
    - `df.pivot_table(columns='col1', index='col2', values='col3', aggfunc='mean')`
- считать уникальные значения
    - `df['col'].value_counts(normalize=True)`, `df['col'].unique()` `df['col'].nunique()`
- даже строить немного графики
    - `df['col'].value_counts(normalize=True).plot(kind='bar')`
- удалять и переименовывать столбцы
    - `df.drop(['col1', 'col2'], axis=1, inplace=True)`
    - `df.rename(columns={'old_col_name':'new_col_name'}, inplace=True)`
- фильтровать таблички, используя сложные условия
    - `df.loc[df['col']==some_value, ['col1', 'col2']]`
    - `df[(df['col1']==some_value) | (df['col2']!=some_value)]`
    - `df[(df['col1']>some_value) & (df['col2']<some_value)]`
    - `df['col'].isin(['category1', 'category2'])`
    - `df['col'].str.contains(['some_text'])`

# Практика

У бриллиантов какого качества (колонка cut) самая большое значение медианной цены?

`Fair`

Какой самый распространенный цвет брилланта (color)?

`G`

Какой самый распространенный цвет брилланта (color) среди тех, у которых значение цены (price) выше медианной?

`G`

Какое самое распространенное качество брилланта (cut) среди тех, у которых значение цены (price) выше медианной, а масса (weight) выше среднего?

`Premium`

Чему равна средняя цена брилланта (price) среди бриллиантов Premium и Ideal качества (cut)? 

`3894.8`