# Анализ данных на Python


По материалам *Элен Теванян*

Автор: Полина Полунина 

**18.02.2024**

# Про Python

**Python** - язык программирования общего назначения, т.е. на нем можно написать все, что угодно. 

1) Open-source, т.е. он свободно и бесплатно доступен <br>
2) Много библиотек, т.е. кода, для работы со специфическими задачами. 

**Python** - это свободный интерпретируемый объектно-ориентированный расширяемый встраиваемый язык программирования очень высокого уровня (Г.Россум, Ф.Л.Дж.Дрейк, Д.С.Откидач "Язык программирования Python").

Python - это язык, который могут читать и "понимать" разные программные средства.

----------------------------

# Где мы сейчас

Мы находимся в **Jupyter Notebook**. Это интерактивная среда, в которой можно не только писать код, а создавать полноценный аналитический документ с кодом, комментариями, графиками, формулами. 

Файл, в котором мы работаем сейчас, называется **ноутбуком**. Его стандартное расширение .ipynb, читать и запускать его можно через Jupyter Notebook. Но его можно скачать в виде html-страницы или pdf-документа.

# Anaconda Navigator

Это сборка инструментов для анализа данных на Python, она содержит в том числе  Jupyter Notebook, библиотеки для Python и другие инструменты.

Среди наиболее популярных библиотек:
 - <a href="http://numpy.org">Numpy</a> - это один из основных пакетов для научных вычислений. Он содержит функциональные средства для работы с многомерными массивами и высокоуровневыми математическими функциями.
 - <a href="http://numpy.org">SciPy</a> - научные вычисления. Методы оптимизации, интегрирования, модули обработки сигналов и изображений, статистика, линейная алгебра, сплайны, кластеризация и многое другое. 
 -  <a href="http://pandas.pydata.org/">Pandas</a> - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.
 - <a href="http://scikit-learn.org/stable/">Scikit-learn</a> - реализация очень многих методов машинного обучения и интеллекуального анализа данных (data mining) с отличной документацией. 
 - <a href="http://http://matplotlib.org/">matplotlib</a> - библиотека для визаулизации данных, в основном двухмерная графика.

# Как устроен Jupyter Notebook

- Любой ноутбук состоит из ячеек. Даже текущий текст написан в ячейке.<br>

## Создание ячейки.
- Чтобы создать новую ячейку, можно воспользоваться одной из следующих опций: <br> 
    1) воспользоваться кнопкой "+" на верхней панели управления;<br> 
    
    2) с клавиатуры нажать на букву "B", и появится новая ячейка после текущей активной; <br> 
    3) с клавиатуры нажать на букву "A", и появится новая ячейка перед текущей активной. <br> 

## Изменение типа ячейки
- Ячейки бывают двух типов: <br> 
    1) Кодовая<br>
    2) Текстовая <br> <br> 
- Смена типа ячейки осуществляется через верхнюю панель управления, необходимо нажать на ячейку и выбрать ее тип

## Редактирование ячейки

- Ячейка, которая не активна, серого цвета
- Ячейка активируется одним нажатием курсора и становится синего цвета
- Ячейка переходит в режим редактирования двойным нажатием курсора и становится зеленого цвета

## Запуск ячейки с кодом
- Ячейка с кодом, которая еще не была ни разу запущена - слева в квадратных скобках [] пусто.

- В последних версиях Jupyter Notebook при приближении к ячейке слева появляется кнопка проигрывания, которая запускает ячейку.

- Запустить код можно также из панельной строки. Запускается код ячейки, которая была выбрана!

- Если ячейка успешно запущена, то слева в квадратных скобках появляется число. Вот результат успешного выполнения команды:

## Прерывание работы

Иногда требуется искусственно остановить работу ячейки.

- Можно нажать кнопку стоп при работе активной ячейки. Знак СТОП вверху.
- Можно воспользоваться опцией в меню Kernel - Interrupt
- Можно радикально "перезагрузить" ноутбук в меню Kernel - Restart and Clear Output

# Основы Python 

Для прикладных целей важно овладеть несколькими аспектами:

- Стандартные функции языка
- Переменные и типы данных
- Основные конструкции
- Написание пользовательских функций
- Загрузка и использование библиотек

## Стандартные функции языка

Функции - это маленькие программки, которые умеют выполнять какую-то операцию <br />
Функции <b>вызываются</b>, после имени функции следуют круглые скобки, в которых указываются <b>аргументы</b> (над каким объектом будет выполнена операция) и <b>параметры </b> (с какими условиями)

### print()
Функция для вывода содержимого на экран. <br>
**Обязательно**: передать хотя бы какой-то объект, который нужно напечатать.

Ее полный синтаксис:

print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False)¶
- objects: один или несколько объектов для вывода, перечисленные через запятую
- sep: разделитель между несколькими объектами; стандартно установлен пробел
- end: окончание строки; стандартно установлен перевод на новую строчку '\n'

In [None]:
print(5)

In [None]:
print(5, 6, 7, 8)

In [None]:
print(5, 6, 7, 8, sep='_')

In [None]:
print('October')

#### Задача 1

Выведите на экран фразу "Hello, world!"

In [None]:
print('Hello, world!')

### input()
Функция для ввода данных в программу с клавиатуры. <br>
Обязательных аргументов нет. Можно передавать строчку, которая будет выведена перед ячейкой ввода. 

In [None]:
name = input()
print(name)

А здесь небольшое преобразование позволит вывести перед ячейкой ввода нужный текст

In [None]:
name = input('Введите ваше имя: ')
print(name)

### Арифметические операции
- Сложение: +
- Вычитание: -
- Умножение: *
- Деление: /
- Возведение в степень: **
- Целочисленное деление: //
- Остаток от деления: %

In [None]:
print('Работаем с числами', 5, 'и', 2)
print(5 + 2)
print(5 - 2)
print(5*2)
print(5 / 2)
print( 5 // 2)
print('Результат остатка от деления:', 5 % 2)
print('Результат возведения в степени:', 5**2)

#### Задача 2

Представим, что у нас в активе $100, которые можно инвестировать с 10%-ным ежегодным доходом. <br>
Сколько денег мы заработаем через 7 лет? Выведите ответ на экран. 

### Переменные и типы переменных

Результаты операций и манипуляций иногда нужно сохранять, поэтому мы определяем переменные - именованные объекты, которым присваиваем значения. 

In [None]:
savings_2017 = 2000
savings_2016 = 1800
increase = ((2000 - 1800) / 1800)*100

In [None]:
#Вывести на печать % роста накоплений
print(round(increase), '%', sep='')

#### Задача 3

Представим, что у нас в активе $100, которые можно инвестировать с 10%-ным ежегодным доходом. <br>
Сколько денег мы заработаем через 7 лет? 

- Создайте переменную savings со значением 100
- Создайте переменную rate, которая отвечает за ежегодный рост
- Сохраните результат вычисления в переменную result
- Выведите на печать результаты

Функция **type** позволяет определить, какого типа переменная нам дана или какого типа переменную мы записали. 

In [None]:
print(type(savings_2017))
print(type(increase))

In [None]:
text = 'Monatery Savings in 2017'
print(type(text))

In [None]:
x = False
print(type(x))

Если нужно поменять тип переменной, то полезны функции:

- int() - возвращает целочисленную переменную
- float() - возвращает нецелочисленную переменную
- bool() - возвращает булеву переменную
- str() - возвращает строковую переменную

In [None]:
print(savings_2017, type(savings_2017))
savings_2017_new = str(savings_2017)
print(savings_2017_new, type(savings_2017_new))
print('Savings ' +  'in 2017: ' + savings_2017_new)

In [None]:
print(int(savings_2017_new) - savings_2016)

#### Задача 4

Поправьте строчку кода так, чтобы она работала:

In [None]:
print("I started with $" + savings + " and now have $" + result + ". Not good!")

### Листы

Четыре рассмотренных типа данных устроены так, что в одной переменной записано одно значение:
- int: целое число
- float: число с дробной частью
- str: текст
- bool: логическая переменная

Например, если мы хотим зафиксировать накопления членов семьи, мы можем создать ряд переменных и вписать туда информацию

In [None]:
savings1 = 500
savings2 = 1000
savings3 = 746
savings4 = 456

Но это не очень удобно, мы можем записать всю информацию в одной переменной:

In [None]:
savings_family = [500, 1000, 746, 2000]

Эта конструкция называется листом и является отдельным типом данных. 

In [None]:
savings_family = ['mom', 500,'dad', 1000, 'brother', 746, 'me', 2000]

А здесь - лист листов :)

In [None]:
savings_family = [['mom', 500], ['dad', 1000], ['brother', 746], ['me', 2000]]

In [None]:
s = 0
for member in savings_family:
    s = s + member[1]
print(s)

In [None]:
print(savings_family)

#### Задача 5

Создайте лист home, в котором записан название и метраж комнат в доме. Распечатайте лист. 

К элементам листа можно обращаться по индексу:

Есть много методов (т.е. функций, которые присущи только листам) для работы с листами:

Методы
- list.append(x)	Добавляет элемент в конец списка
- list.extend(L)	Расширяет список list, добавляя в конец все элементы списка L
- list.insert(i, x)	Вставляет на i-ый элемент значение x
- list.remove(x)	Удаляет первый элемент в списке, имеющий значение x. ValueError, если такого элемента не существует
- list.pop([i])	Удаляет i-ый элемент и возвращает его. Если индекс не указан, удаляется последний элемент
- list.index(x, [start [, end]])	Возвращает положение первого элемента со значением x (при этом поиск ведется от start до end)
- list.count(x)	Возвращает количество элементов со значением x
- list.sort([key=функция])	Сортирует список на основе функции
- list.reverse()	Разворачивает список
- list.copy()	Поверхностная копия списка
- list.clear()	Очищает список

In [None]:
#удаляем запись про последнего члена семьи
savings_family.pop()
print(savings_family)

In [None]:
#а теперь добавим
savings_family.append(['me', 2000])

In [None]:
#Создайте список из двух списков, в котором хранится информация о сбережениях дяди в 3000 и о сбережениях тети в 10000
savings_relatives = [['uncle', 4000], ['aunt', 10000]]

In [None]:
savings_family.extend(savings_relatives)
print(savings_family)

#### Задача 6

Посчитайте сумму сбережений всей семьи

In [None]:
for member in savings_family:
    ...
    print(member)

## Основные конструкции языка

### Логические выражения

По аналогии с арифметическими выражениями существуют логические выражения, которые могут быть истинными или ложными. Простое логическое выражение имеет вид <br /> 

<арифметическое выражение> <знак сравнения> <арифметическое выражение>. <br /> 

Например, если у нас есть переменные x и y с какими-то значениями, то логическое выражение <br /> x + y < 3y <br /> в качестве первого арифметического выражения имеет x + y, в качестве знака сравнения < (меньше), а второе арифметическое выражение в нём 3y.

<center> 
    <table>
        <tr>
            <th>Логическое выражение </th>
            <th> Значение </th>
        </tr> 
        <tr><td>&lt;</td><td> Меньше</td></tr>
        <tr><td>&gt;</td><td> Больше</td></tr>
        <tr><td>&lt;=</td><td> Меньше или равно</td></tr>
        <tr><td>&gt;=</td><td> Больше или равно</td></tr>
        <tr><td>==</td><td> Равно </td></tr>
        <tr><td>!=</td><td> Не равно</td></tr>
    </table>
</center>

In [None]:
x = 1 > 2
print(type(x))
print(x)
print(int(x))

Чтобы записать сложное логическое выражение, часто бывает необходимо воспользоваться логическими связками "и", "или" и "не". В Питоне они обозначаются как and, or и not соответственно. Операции and и or являеются бинарными, т.е. должны быть записаны между операндами, например x < 3 or y > 2. Операция not - унарная и должна быть записана перед единственным своим операндом.

In [None]:
x = int(input())
y = int(input())
z = int(input())
print(x == y)
print(x > y and y < z)

#### Задача 7

Сравните, больше ли x 10. Результат распечатайте

In [None]:
x = 7


**Задача 8**

Сбережения мамы попадают в интервал с 300 до 500? Напишите логическое выражение, проверяющее это условие


In [None]:
savings_mom = 500



### Условный оператор

Наиболее частое применение логические выражения находят в условных операторах.

Синтаксис в питоне: <br />
**if** условие1:<br />
&emsp; команды<br />
**elif** условие2:<br />
&emsp; команды<br />
**elif** условие3:<br />
&emsp; команды<br />
**else**: <br />
&emsp; команды<br />

In [None]:
x = 5
y = 7
if x > y:
    print('X больше Y')
    print(x - y)
else:
    print(' ')
    print('Y не меньше, чем X')

In [None]:
x = int(input())
y = int(input())
if x > y:
    print('X больше Y')
    print(x - y)
elif y > x:
    print('Y больше X')
    print(y - x)
else:
    print('X равно Y')

#### Задачи 9-10

1) Дана площадь кухни. Если она превышает 15 кв.м, то должна появиться строчка "Кухня большая!", в противном случае - "Кухня маленькая"

In [None]:
room = "kit"
area = 14.0

if :
    print()
else:
    print()

2) Дано натуральное число. Требуется определить, является ли год с данным номером високосным. Если год является високосным, то выведите YES, иначе выведите NO. Напомним, что в соответствии с григорианским календарем, год является високосным, если его номер кратен 4, но не кратен 100, а также если он кратен 400.

In [None]:
n = int(input())
if :
    print('YES')
    
else:
    print('NO')

### Цикл while

Как только строчка кода выполнилась, она "забывается", т.е. чтобы повторить это действие, нужно явно прописать еще раз. Для многократного повторения одних и тех же действий используются циклические конструкции. 

While переводится как "пока" и позволяет выполнять команды, до тех пор, пока условие верно. После окончания выполнения блока команд, относящихся к while, управление возвращается на строку с условием и, если оно выполнено, то выполнение блока команд повторяется, а если не выполнено, то продолжается выполнение команд, записанных после while.

Важно случайно не сделать бесконечный цикл!

**while** условие1:<br />
&emsp; команды<br />

Все команды пишутся с отступом. .

In [None]:
# нажать на стоп, чтобы прекратить воспроизведение
temperature = 5
while temperature > 0:
    print('The weather is OK.')
    #temperature = temperature - 1

#### Задача 11

По данному целому числу N распечатайте квадраты всех чисел, предшествующих N (включая N), в порядке убывания

**Образец**

Входные данные: <br />
3

Вывод программы: <br />
9<br />
4<br />
1<br />


### Цикл for

#### Функция range(n)
Создается объект класса range, внутри которого содержится арифметическая прогрессия в заданных диапазонах и с определенным шагом

Ее синтаксис:
- range(start, stop[, step])

In [None]:
print(range(5))
print(list(range(5)))
print(list(range(2, 7)))
print(list(range(2, 6, 2)))

## Цикл for
Цикл for позволяет поочередно перебрать элементы из чего-нибудь итерируемого.

Ее синтаксис: <br />
**for** i **in** диапазон изменений i:<br />
&emsp; команды

Все команды пишутся с отступом

In [None]:
n = 5
for i in range(n + 1):
    print(i**2)

In [None]:
for color in ['red', 'green', 'yellow']:
    print(color, 'apple')

#### Задача 12

Выведите сумму сбережений всех членов семьи из листа savings_family в цикле for

In [None]:
savings_family

## Написание функций

Если какие-то операции надо повторять из раза в раз и нет готовых функций, то можно создать свою. 

Синтаксис: <br /> 
**def** название функции(список аргументов):<br /> 
&emsp; команды<br /> 
&emsp; **return** результат выполнения функции<br /> 

Все команды пишутся с отступом. 

Функция должна быть записана в любом месте до ее первого вызова.

In [None]:
def power(number, p):
    result = number**p
    return result

number = int(input())
p = int(input())
print(power(number, p))

In [None]:
6**5

#### Задача 13

Напишите функцию, которая считает площадь треугольника по трем сторонам. Стороны вводятся вне функции. <br /> 
Подсказка: используйте формулу Герона
$$ S = \sqrt{p(p-a)(p-b)(p-c)} $$
$$ p = \frac{a + b + c}{2}$$
**Образец**

Входные данные:<br />
3
4
5

Вывод программы: <br />
6

In [None]:
def square_triangle(a, b, c):
    ...
    return 

In [None]:
a = int(input())
b = int(input())
c = int(input())
print(square_triangle(a, b, c))

# Основной материал этого файла

Наша цель на сегодня: **учиться "видеть" данные**. 

В классе мы будем учиться по датасету **про вина** (приближаем пятницу как можем).
Что мы будем делать с винами? 

Один человек, который собрал данные, предлагает следующее:

*After watching Somm (a documentary on master sommeliers) I wondered how I could create a predictive model to identify wines through blind tasting like a master sommelier would. The first step in this journey was gathering some data to train a model. I plan to use deep learning to predict the wine variety using words in the description/review. The model still won't be able to taste the wine, but theoretically it could identify the wine based on a description that a sommelier could give. If anyone has any ideas on how to accomplish this, please post them!*

Мы в будущем тоже захотим оценить, а сможем ли по описанию вин узнать их качество и побыть сомелье, основанными на искусственном интеллекте. **Хорошее ли вино? Какую оценку ему поставить? Какую цену?** 


**!Но до этого нам надо познакомиться с данными - вдруг нам дали какую-то кучку мусора, из которого заказчик хочет прекрасное!**. 

Можно, конечно, знакомиться с данными в эксель. Но не на курсе DS, даже для новичков :)

Помогать будет нам python, а особенно - библиотека pandas

## Pandas. Загрузка библиотек

 -  <a href="http://pandas.pydata.org/">Pandas</a> - библиотека для обработки и анализа данных. Предназначена для данных разной природы - матричных, панельных данных, временных рядов. Претендует на звание самого мощного и гибкого средства для анализа данных с открытым исходным кодом.


Чтобы использовать (любую) библиотеку, нужно подгрузить ее в наш рабочий документ. <br>
Команда устроена так:


**import** название библиотеки 


Для дальнейшего использования название библиотеки могут сократить, но тогда в загрузке указывают ее псевдоним


**import** название библиотеки **as** псевдоним


In [None]:
import pandas as pd

В пандас есть две структуры данных:
- Series: одномерный массив с именованными индексами (чаще всего, данные одного типа)
- DataFrame: двухмерный массив, имеет табличную структуру, легко изменяется по размерам, может содержать в себе данные разных типов

Оба типа можно создавать вручную с помощью функций из самой библиотеки:
- pandas.Series(data=None, index=None, dtype=None)
- pandas.DataFrame(data=None, index=None, columns=None, dtype=None)

- **data** - данные, которые надо записать в структуру
- **index** - индексы строк
- **columns** - названия столбцов
- **dtype** - тип данных

Кроме data, остальные параметры опциональны


Мы, конечно, можем сами создавать датафреймы!


Давайте разберемся, что здесь что и запишем в известную нам конструкцию - листы. 

In [None]:
columns = ['country', 'province', 'region_1', 'region_2']
index = [0, 1, 10, 100]
data = [['Italy', 'Sicily & Sardinia', 'Etna', 'NaN'], 
        ['Portugal', 'Douro', 'NaN', 'NaN'],
       ['US', 'California', 'Napa Valley', 'Napa'],
       ['US', 'New York', 'Finger Lakes', 'Finger Lakes']]

А теперь соберем в датафрейм

In [None]:
df = pd.DataFrame(data, columns = columns, index = index)
df

## Задача 1

Создайте датафрейм

### Загрузка и запись данных

Правда в том, что мы не будем так жестоко к себе и вручную вбивать данные не будем. А будем загружать из файла. 


- Функции типа **pd.read_формат** и **pd.to_формат**
считывают и записывают данные соответственно. <br /> Полный список можно найти в документации:
http://pandas.pydata.org/pandas-docs/stable/io.html

Я лично перестала пользоваться экселем даже для беглого смотра данных, потому что на моем ноутбуке файлы больше 50Мб представляют сложности для чтения, а я просматриваю гигабайтные файлы. Pandas грузит их в худшем случае минуту-полторы. 

Научимся считывать данные в формате csv (comma separated value) функцией:

- <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csv"> pd.read_csv()</a>: 

Аргументов у нее очень много, критически важные:
 - **filepath_or_buffer** - текстовая строка с названием (адресом) файла
 - **sep** - разделитель между данными
 - **header** - номер строки, в которой в файле указаны названия столбцов, None, если нет
 - **names** - список с названиями колонок
 - **index_col** - или номер столбца, или список,  или ничего - колонка, из которой надо взять названия строк


У вас он должен был скачаться под именем: 'dpo_1-2_winemag-data_first150k.csv', поэтому на первом месте вы вписываете ровно вот это название.

In [None]:
data = pd.read_csv('dpo_1-2_winemag-data_first150k.csv')


### Смотрим, что загрузилось

In [None]:
data.head(5)

Что-то не то с первым столбцом, немного поправим

In [None]:
data = pd.read_csv('dpo_1-2_winemag-data_first150k.csv', index_col = 0)

In [None]:
data.head(3)

### Смотрим, что загрузилось:

- Посчитаем, сколько записей
- Посмотрим, какого типа данные
- Проверим, есть ли пропуски

Посчитаем, сколько записей в данных.

- Помогает метод **count()**. Это значит, что к любому датафрейму стучимся в гости с этим методом:

In [None]:
data.count()

- Метод info() заодно показывает, какого типа данные в столбцах

In [None]:
data.info()

In [None]:
data.dtypes

Начнем проверять на пропуски! 

- .isnull() - выдает табличку, где False - ячейка заполнена, True - ячейка пуста :( Ближайшая родня - isna()

In [None]:
data.isnull()

Немного опережу события и покажу, как оценить масштаб бедствия визуально. 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

fig, ax = plt.subplots(figsize=(20,12))
sns_heatmap = sns.heatmap(data.isnull(), yticklabels=False, cbar=False, cmap='viridis')
plt.show()

Что с ним делать?

Выбора не очень много: <br>

1) Удалять: 
- dropna(axis=0, how='any'): axis = 0 - удаляем построчно, axis = 1 выкидываем столбец; how ='any' - выкидываем, если есть хотя бы одна ячейка пустая. how = 'all' - выкидываем, если есть полностью пустая строка или столбец

2) Вставлять информацию самим:
- fillna() - это отдельное искусство, как заполнять. 


Пока не будем трогать данные. 

### Описательные статистики

Теперь посмотрим, а что содержательно у нас есть на руках. 

Глазами просматривать не будем, а попросим посчитать основные описательные статистики. Причем сразу все :) 

- describe() - метод, который возвращает табличку с описательными статистиками. В таком виде считает все для числовых столбцов

In [None]:
data.describe()

Немножко магии, и для нечисловых данные тоже будут свои описательные статистики. 

In [None]:
data.describe(include=['O'])

Вообще, все можно считать для отдельных колонок. 

Но мы с вами не изучили, как отбирать колонки. Что ж, время действовать. 

### Срезы данных

Допустим, нам не нужен датасет, а только определенные столбцы или строки или столбцы и строки. 


Как делать?
Помним, что:
- у столбцов есть названия
- у строк есть названия
- если нет названий, то они пронумерованы с нуля

Основываясь на этой идее, мы начнем отбирать данные.

In [None]:
data.head(1)

#### Отбираем по столбцам. Версия 1. 

In [None]:
data['price']

In [None]:
data[['price','country']]

#### Отбираем по  строкам. Версия 1. 

Были бы названия - вместо цифр подставили бы названия и все вышло бы также :)

In [None]:
data[0:1]

In [None]:
data[:1]

#### Отбор по столбцам. Версия 2. Все еще по названиям 

In [None]:
data.loc[:, ['price']]

#### Отбор по  строкам. Версия 2. Все еще по названиям 

In [None]:
data.loc[0,:]

#### Отбор по строчкам и столбцам

In [None]:
data.loc[0:5,['price', 'country']]

#### Отбор по строчкам и столбцам. Версия 3. По номеру строк и столбцов

In [None]:
data.iloc[2:5, [5,7]]

## Задача 6

Выберите первую строчку из датасета (вы его создавали в первом задании)

## Задача 7

Сделайте срез (по номерам строк) 

#### Отбор с условиями

Так, а если мне нужны вина дороже $15 долларов? Как быть?

In [None]:
#задаем маску
mask = data['price'] > 15

In [None]:
#и отбираем данные

temp = data[mask]
temp

## Задача 8 

### Посмотрим на данные еще раз! Картинками :)

Уменьшаем стресс и не идем знакомиться с бибилотеками для визуалиации, потому что...

В библиотеке pandas есть инструмент для рисования! 

- df.plot() - метод для рисования

Давайте попробуем  просто вызвать без всего и посмотрим, что выйдет.

In [None]:
data.plot()

Не очень.

In [None]:
data['price'].plot()

In [None]:
data['points'].plot()

Что-то все не очень. Давайте попробуем добиться какой-нибудь разумной визуализации столбца points.

In [None]:
data['points'].value_counts().plot(kind='bar')

А что это новое за value_counts()? (Без него не советую запускать код выше, будет больно)

In [None]:
data['points'].value_counts()

In [None]:
data['points'].value_counts().plot(kind='barh')

In [None]:
data['points'].value_counts().plot(kind='line')

Опять некрасиво. Потому что у нас индексы не отсортированы при value_counts()!

Поправим

In [None]:
data['points'].value_counts().sort_index().plot(kind='line')

In [None]:
data['points'].value_counts().sort_index().plot(kind='area')

In [None]:
data['points'].sort_index().plot(kind='hist')

In [None]:
data['points'].plot(kind='box')

Ну вроде про один столбец разобрались. А как красиво сразу про все столбцы нарисовать?

In [None]:
data.plot(kind ='box')

In [None]:
data.plot(kind='box', subplots=True)

А совместно как распределены цены и оценки сомелье?

In [None]:
 data.plot(x='points', y='price', kind='scatter')

In [None]:
wine_counts = pd.read_csv('dpo_1-2_top-five-wine-score-counts.csv')
wine_counts.head(3)

In [None]:
wine_counts.plot.line(x='points')

In [None]:
wine_counts.plot.area(x='points')

In [None]:
wine_counts.plot.bar(x='points', stacked=True)

# Домашнее задание №1

## Задача 9

Нарисовать barplot для столбца 'country' топ-10 стран производителей.

1) Нужно взять столбец country <br>
2) Применить к нему метод value_counts() <br>
3) Потом применить к нему метод sort_index() <br>
4) Потом применить к нему метод head(10) <br>
5) Потом применить метод plot(kind='bar') <br>