<a href="https://colab.research.google.com/github/sergeymasl/pandas_cource/blob/main/Creating_Reading_and_Writing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Creating, Reading and Writing**

## Вступление
В этом мини-курсе вы познакомитесь и изучите основы библиотеки [pandas](https://pandas.pydata.org/), самой популярной библиотеки Python для анализа данных.

Во время обучения, вы самостоятельно выполните несколько упражнений на реальных данных. После прочтения блоков курса, рекомендуется выполнять блоки соответствующих упражнений.


В этом блоке вы изучете, как создать ваш собственный массив данных и как работать с уже созданными данными.

## Начало работы

При работе с библиотекой pandas, вы, как правило, будете начинать свою работу со следующего кода:

In [None]:
import pandas as pd

## Создание фрейма данных

В библиотеке Pandas есть два ключевых объекта: **DataFrame** и **Series**

### DataFrame

Говоря простыми словами DataFrame это таблица. Он содержит набор *ячеек* каждая из которых содержит собственное значение. Каждой ячейке соответсвует *строка* и *столбец*.

Для примера, расмотрим ниже простой DataFrame:


In [None]:
pd.DataFrame({'Yes' : [50, 21], 'No' : [131, 2]})

Out:


|    |   Yes |   No |
|---:|------:|-----:|
|  0 |    50 |  131 |
|  1 |    21 |    2 |

\

В этом примере, *ячейка* с *адресом* "0, No" имеет значение 131. *ячейка* с *адресом* "0, Yes" имеет значение 50, и так далее.


Значения в DataFrame не ограничиваются только целыми числами (```Int```). Для примера вот DataFrame в котором данные являются строками (```Str```)

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Out:

|    | Bob           | Sue          |
|---:|:--------------|:-------------|
|  0 | I liked it.   | Pretty good. |
|  1 | It was awful. | Bland.       |

Мы использовали конструкцию ```pd.DataFrame()``` для создания этих объектов DataFrame. Синтаксис, сообщающий системе о создании нового DataFrame, это словарь (```dict```), ключи которого ивляются **именами столбцов** (```Bod``` и ```Sue``` в примере), а значения - это списки (```list```) с данными в столбцах. Это один из стандартных способ создания нового DataFrame, который будет встречаться вам наиболее часто.

\
Конструкция со словарем сообщает **имена столбцов**, но при этом использует нумерация строк от 0 (0,1,2,3,...) для **имен строк**. Иногда это нормально, но чаще всего мы заходим дать **имена этим строка** самостоятельно, для лучшей ориентации в данных.

**Имена строк** в DataFrame (и не только в нем) именуются как **index**. Мы можем самостоятельно назначить индексы использую параметр ```index``` при создании DataFrame.

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Out:

|           | Bob           | Sue          |
|:----------|:--------------|:-------------|
| Product A | I liked it.   | Pretty good. |
| Product B | It was awful. | Bland.       |


### Series

Series представляет собой набор данных. Если DataFrame это таблица, то Series это список. Поэтому вы можете создать Series используя лишь один список:

In [None]:
pd.Series([1, 2, 3, 4, 5])

Out:

|    |   0 |
|---:|----:|
|  0 |   1 |
|  1 |   2 |
|  2 |   3 |
|  3 |   4 |
|  4 |   5 |

Series, по сути, это один столбец из DataFrame. Так что вы можете создать **имена строк** так же как мы сделали это ранее, использую параметр ```index```. Однако Sereies не имеет **имен столбцов**, у неё есть лишь общее название, параметр ```name```.

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

Out:

|            |   Product A |
|:-----------|------------:|
| 2015 Sales |          30 |
| 2016 Sales |          35 |
| 2017 Sales |          40 |

Series и DataFrame тесно связаны. На самом деле DataFrame, это "склееный вместе" набор Series. **То есть отдельно взятый столбец DataFrame будет являться Series.**  Мы познакомимся с этим поближе в следующих блоках курса. 

### Чтение файлов с данными

Возможность создавать DataFrame и Series вручную очень важна и удобна. Но, в большинстве случаев, мы не будем создавать наши данные вручную. Вместо этого, мы будем работать с данными каторые уже созданы.

Данные могут храниться во множестве разных форм и форматов. Безусловно, самый распространенный и простой из них это CSV файл. Если вы откроете CSV файл вы увидите что то похожее на это:

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

То есть CSV файл это строчки с данными, столбцы в которых разделены запятыми.CSV так и расшифрововется: "Comma-Separated Values" - данные разделенные запятыми.
Стоит отметить, что разделитем может выступать и другие символы, наиболее распространенные из них, наряду с запятой, это точка с запятой и табуляция.


Давайте отложим наши игрушечные наборы данных и посмотри как выглядит реальный набор данных, когда мы загрузим его в DataFrame. Мы будем использовать конструкцию ```pd.read_csv()```. Это происходит вот так:

In [None]:
# https://clck.ru/sP8zH это ссылка на файл .csv на GoogleDrive
# название файла winemag-data-130k-v2
wine_reviews = pd.read_csv('https://clck.ru/sP8zH')

Для просмотра размера нашего DataFrame, мы можем использовать команду ```shape```:

In [None]:
wine_reviews.shape

(129971, 14)

Out:

(129971, 14)

Итак наш новый DataFrame имеет около 130 000 записей разделенных на 14 разных столбцов. Это почти 2 миллиона ячеек!

Мы можем ознакомиться с наполнением DataFrame используя команду ```head()```, которая выводит первые пять строк из DataFrame:

In [None]:
wine_reviews.head()

Out:

|    |   Unnamed: 0 | country   | description                                                                                                                                                                                                                                               | designation                        |   points |   price | province          | region_1            | region_2          | taster_name        | taster_twitter_handle   | title                                                                               | variety        | winery              |
|---:|-------------:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:--------------------|:------------------|:-------------------|:------------------------|:------------------------------------------------------------------------------------|:---------------|:--------------------|
|  0 |            0 | Italy     | Aromas include tropical fruit, broom, brimstone and dried herb. The palate isn't overly expressive, offering unripened apple, citrus and dried sage alongside brisk acidity.                                                                              | Vulkà Bianco                       |       87 |     nan | Sicily & Sardinia | Etna                | nan               | Kerin O’Keefe      | @kerinokeefe            | Nicosia 2013 Vulkà Bianco  (Etna)                                                   | White Blend    | Nicosia             |
|  1 |            1 | Portugal  | This is ripe and fruity, a wine that is smooth while still structured. Firm tannins are filled out with juicy red berry fruits and freshened with acidity. It's  already drinkable, although it will certainly be better from 2016.                       | Avidagos                           |       87 |      15 | Douro             | nan                 | nan               | Roger Voss         | @vossroger              | Quinta dos Avidagos 2011 Avidagos Red (Douro)                                       | Portuguese Red | Quinta dos Avidagos |
|  2 |            2 | US        | Tart and snappy, the flavors of lime flesh and rind dominate. Some green pineapple pokes through, with crisp acidity underscoring the flavors. The wine was all stainless-steel fermented.                                                                | nan                                |       87 |      14 | Oregon            | Willamette Valley   | Willamette Valley | Paul Gregutt       | @paulgwine              | Rainstorm 2013 Pinot Gris (Willamette Valley)                                       | Pinot Gris     | Rainstorm           |
|  3 |            3 | US        | Pineapple rind, lemon pith and orange blossom start off the aromas. The palate is a bit more opulent, with notes of honey-drizzled guava and mango giving way to a slightly astringent, semidry finish.                                                   | Reserve Late Harvest               |       87 |      13 | Michigan          | Lake Michigan Shore | nan               | Alexander Peartree | nan                     | St. Julian 2013 Reserve Late Harvest Riesling (Lake Michigan Shore)                 | Riesling       | St. Julian          |
|  4 |            4 | US        | Much like the regular bottling from 2012, this comes across as rather rough and tannic, with rustic, earthy, herbal characteristics. Nonetheless, if you think of it as a pleasantly unfussy country wine, it's a good companion to a hearty winter stew. | Vintner's Reserve Wild Child Block |       87 |      65 | Oregon            | Willamette Valley   | Willamette Valley | Paul Gregutt       | @paulgwine              | Sweet Cheeks 2012 Vintner's Reserve Wild Child Block Pinot Noir (Willamette Valley) | Pinot Noir     | Sweet Cheeks        |

Функция ```pd.read_csv()``` очень настраиваемая и имеет более 30 параметров, каждый из которых, вы можете использовать. Например, в этом наборе данных вы можете увидеть, что файл CSV уже имеет столбец с индексами, который pandas не определил автоматически. Для того, чтобы pandas использовал данные из этого столбца как индексы для строк, мы можем использовать параметр ```index_col```:

In [None]:
wine_reviews = pd.read_csv('https://clck.ru/sP8zH', index_col=0)
wine_reviews.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


Out:

|    | country   | description                                                                                                                                                                                                                                               | designation                        |   points |   price | province          | region_1            | region_2          | taster_name        | taster_twitter_handle   | title                                                                               | variety        | winery              |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:--------------------|:------------------|:-------------------|:------------------------|:------------------------------------------------------------------------------------|:---------------|:--------------------|
|  0 | Italy     | Aromas include tropical fruit, broom, brimstone and dried herb. The palate isn't overly expressive, offering unripened apple, citrus and dried sage alongside brisk acidity.                                                                              | Vulkà Bianco                       |       87 |     nan | Sicily & Sardinia | Etna                | nan               | Kerin O’Keefe      | @kerinokeefe            | Nicosia 2013 Vulkà Bianco  (Etna)                                                   | White Blend    | Nicosia             |
|  1 | Portugal  | This is ripe and fruity, a wine that is smooth while still structured. Firm tannins are filled out with juicy red berry fruits and freshened with acidity. It's  already drinkable, although it will certainly be better from 2016.                       | Avidagos                           |       87 |      15 | Douro             | nan                 | nan               | Roger Voss         | @vossroger              | Quinta dos Avidagos 2011 Avidagos Red (Douro)                                       | Portuguese Red | Quinta dos Avidagos |
|  2 | US        | Tart and snappy, the flavors of lime flesh and rind dominate. Some green pineapple pokes through, with crisp acidity underscoring the flavors. The wine was all stainless-steel fermented.                                                                | nan                                |       87 |      14 | Oregon            | Willamette Valley   | Willamette Valley | Paul Gregutt       | @paulgwine              | Rainstorm 2013 Pinot Gris (Willamette Valley)                                       | Pinot Gris     | Rainstorm           |
|  3 | US        | Pineapple rind, lemon pith and orange blossom start off the aromas. The palate is a bit more opulent, with notes of honey-drizzled guava and mango giving way to a slightly astringent, semidry finish.                                                   | Reserve Late Harvest               |       87 |      13 | Michigan          | Lake Michigan Shore | nan               | Alexander Peartree | nan                     | St. Julian 2013 Reserve Late Harvest Riesling (Lake Michigan Shore)                 | Riesling       | St. Julian          |
|  4 | US        | Much like the regular bottling from 2012, this comes across as rather rough and tannic, with rustic, earthy, herbal characteristics. Nonetheless, if you think of it as a pleasantly unfussy country wine, it's a good companion to a hearty winter stew. | Vintner's Reserve Wild Child Block |       87 |      65 | Oregon            | Willamette Valley   | Willamette Valley | Paul Gregutt       | @paulgwine              | Sweet Cheeks 2012 Vintner's Reserve Wild Child Block Pinot Noir (Willamette Valley) | Pinot Noir     | Sweet Cheeks        |

## Ваш черед

Вы прочли первую часть курса, пора закрепить это на практике.
Решите задачки [здесь](https://github.com/sergeymasl/pandas_cource/blob/main/Exercise_Creating%2C_Reading_and_Writing.ipynb)