27сен23

# Продолжение Pandas. CSV, DataFrame.
* Как создать DataFrame?
* Почему у DataFrame самая удобная индексация?
* Что такое csv файл и почему он так называется?
* Откуда мне взять csv файл и как открыть его в питоне?
* Какие методы есть у обьекта DataFrame?

## Создание и индексация DataFrame

Полная документация по [**ссылке**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

В общем-то DataFrame – самая обычная таблица, многомерный массив (не обязательно двумерный). В этом курсе будут в основном двумерные таблицы, так как я убежден, что в любом типе данных самое главное это не количество измерений, а умение пользоваться его методами.

In [1]:
from pandas import DataFrame
df = DataFrame({'A' : [1, 2, 3],
                'B' : [4, 5, 6],
                'C' : [7, 8, 9]})
df.index = [100, 200, 300]
df

Unnamed: 0,A,B,C
100,1,4,7
200,2,5,8
300,3,6,9


Индексация DataFrame предоставляет пользователю практически неограниченные возможности.

In [2]:
# можно дать новые значения всему столбцу
df['A'] = [10, 11, 12]
df

Unnamed: 0,A,B,C
100,10,4,7
200,11,5,8
300,12,6,9


In [3]:
# можно дать новые значения всей строке по индексу строки
df.loc[200] = [13, 14, 15]
df

Unnamed: 0,A,B,C
100,10,4,7
200,13,14,15
300,12,6,9


In [4]:
# можно дать новые значения всей строке по номеру строки
df.iloc[0] = [16, 17, 18]
df

Unnamed: 0,A,B,C
100,16,17,18
200,13,14,15
300,12,6,9


In [5]:
# можно дать новое значение элементу по обоим индексам
df.at[300, 'C'] = 19
df

Unnamed: 0,A,B,C
100,16,17,18
200,13,14,15
300,12,6,19


In [6]:
# можно дать новые значения элементам по нескольким координатам
df.loc[[200, 300], 'A'] = 20
df

Unnamed: 0,A,B,C
100,16,17,18
200,20,14,15
300,20,6,19


In [7]:
# можно дать новые значения элементам по какому-либо условию
df.loc[df['B'] > 10, 'C'] = 21
df

Unnamed: 0,A,B,C
100,16,17,21
200,20,14,21
300,20,6,19


## Создаем DataFrame из *.csv*
Как пишет [**Википедия**](https://ru.wikipedia.org/wiki/CSV), "CSV" расшифровывается как "Comma-Separated Values", что (на случай, если ты не знаешь английского) означает "значения, разделенные запятой". В названии все сказано, csv файл это просто набор значений, записанных через запятую.

В этом курсе для чтения csv файлов мы будем использовать функцию *read_csv()* из библиотеки pandas. Она создает обьект типа DataFrame и кладет туда все значения из файлов.

In [8]:
# так можно загрузить csv в питон
from pandas import read_csv

url = "https://raw.githubusercontent.com/MainakRepositor/Datasets/master/anime.csv"

# здесь я указал, по какому из столбцов индексировать DataFrame
anime = read_csv(url, index_col="anime_id")

# так можно вывести первые несколько строк
anime.head(10)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
32935,Haikyuu!!: Karasuno Koukou VS Shiratorizawa Ga...,"Comedy, Drama, School, Shounen, Sports",TV,10,9.15,93351
11061,Hunter x Hunter (2011),"Action, Adventure, Shounen, Super Power",TV,148,9.13,425855
820,Ginga Eiyuu Densetsu,"Drama, Military, Sci-Fi, Space",OVA,110,9.11,80679
15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
15417,Gintama&#039;: Enchousen,"Action, Comedy, Historical, Parody, Samurai, S...",TV,13,9.11,81109


Сам csv файл я никак не редактировал и даже не сохранял себе на компьютер. Он лежит по ссылке, которая записана в переменной *url*.

Далее некоторые функции и методы, применимые к обьекту DataFrame.

In [9]:
# так можно узнать количество строк в DataFrame
len(anime)

12294

Так вот у нас 12294 строки, в каждой есть id этого аниме, его название, его жанры, тип, поличество эпизодов, рейтиг и "*members*", что бы это не значило. 

Для начала отсортирую по "*anime_id*", так как будто приятнее.

In [10]:
# сортировка по индексу
anime = anime.sort_index()
anime

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",TV,26,8.82,486824
5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",Movie,1,8.40,137636
6,Trigun,"Action, Comedy, Sci-Fi",TV,26,8.32,283069
7,Witch Hunter Robin,"Action, Drama, Magic, Mystery, Police, Superna...",TV,26,7.36,64905
8,Beet the Vandel Buster,"Adventure, Fantasy, Shounen, Supernatural",TV,52,7.06,9848
...,...,...,...,...,...,...
34514,Pokemon Generations,"Action, Adventure, Fantasy, Game, Kids",ONA,18,7.21,295
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9,5.67,94
34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,Unknown,,381
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",TV,Unknown,,108


Так он выводит первые и последние 5 строчек, а так же размеры. Часто в некоторых местах встречается значение NaN, если ты забыл, что это – чекни [**предыдущий урок**](https://github.com/teacher57/data_analysis_course/blob/main/2nd%20Lesson.ipynb).

In [11]:
from pandas import Series
from numpy import NaN

# нужно создать массив с такими же индексами, как названия столбцов DataFrame
new_row = Series({"anime_id" : 15000,
                  "name"     : "BEST_ANIME_EVER",
                  "genre"    : NaN,
                  "type"     : "TV",
                  "episodes" : 57,
                  "rating"   : 10,
                  "members"  : 57000000})

# добавление строки
anime.loc[34528] = new_row
anime

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",TV,26,8.82,486824
5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",Movie,1,8.40,137636
6,Trigun,"Action, Comedy, Sci-Fi",TV,26,8.32,283069
7,Witch Hunter Robin,"Action, Drama, Magic, Mystery, Police, Superna...",TV,26,7.36,64905
8,Beet the Vandel Buster,"Adventure, Fantasy, Shounen, Supernatural",TV,52,7.06,9848
...,...,...,...,...,...,...
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9,5.67,94
34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,Unknown,,381
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",TV,Unknown,,108
34527,Gou-chan. Moko to Chinjuu no Mori no Nakama-tachi,"Adventure, Kids",Movie,1,,5


In [12]:
# добавление столбца
anime["col"] = [NaN] * 12295
anime.head(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members,col
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",TV,26,8.82,486824,
5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",Movie,1,8.4,137636,
6,Trigun,"Action, Comedy, Sci-Fi",TV,26,8.32,283069,
7,Witch Hunter Robin,"Action, Drama, Magic, Mystery, Police, Superna...",TV,26,7.36,64905,
8,Beet the Vandel Buster,"Adventure, Fantasy, Shounen, Supernatural",TV,52,7.06,9848,


Удаление чего-либо из таблицы – вообще одно удовольствие, потому что в pandas одна функция позволяет удалять строки и столбцы, в зависимости от указанных параметров.

Параметр *axis* отвечает за то, по какой оси будет происходить поиск указанного индекса. Параметр *inplace* позволяет произвести изменение в таблице, без присвоения.

In [13]:
# удаление строки с помощью метода drop
anime.drop(34528, axis=0, inplace=True)

# так можно вывести несколько последних элементов
anime.tail(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members,col
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
34514,Pokemon Generations,"Action, Adventure, Fantasy, Game, Kids",ONA,18,7.21,295,
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9,5.67,94,
34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,Unknown,,381,
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",TV,Unknown,,108,
34527,Gou-chan. Moko to Chinjuu no Mori no Nakama-tachi,"Adventure, Kids",Movie,1,,5,


Если с помощью метода *.drop()* попытаться удалить элемент, которого нет в таблице – питон выдаст ошибку.

In [14]:
# удаление столбца (по названию)
anime.drop("col", axis=1, inplace=True)
anime.head(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Cowboy Bebop,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",TV,26,8.82,486824
5,Cowboy Bebop: Tengoku no Tobira,"Action, Drama, Mystery, Sci-Fi, Space",Movie,1,8.4,137636
6,Trigun,"Action, Comedy, Sci-Fi",TV,26,8.32,283069
7,Witch Hunter Robin,"Action, Drama, Magic, Mystery, Police, Superna...",TV,26,7.36,64905
8,Beet the Vandel Buster,"Adventure, Fantasy, Shounen, Supernatural",TV,52,7.06,9848


Без параметра *inplace* метод *.drop()* не поменяет саму таблицу. Без него можно использовать конструкцию:
```python
anime = anime.drop("col", axis=1)
```


Причина, по которой мы на прошлом уроке проходили Series, заключается в том, что выделение одного столбца или строки из DataFrame выдает именно обьект типа Series.

In [15]:
print(type(anime["rating"]))
anime["rating"]

<class 'pandas.core.series.Series'>


anime_id
1        8.82
5        8.40
6        8.32
7        7.36
8        7.06
         ... 
34514    7.21
34519    5.67
34522     NaN
34525     NaN
34527     NaN
Name: rating, Length: 12294, dtype: float64

In [16]:
print(type(anime.loc[1]))
anime.loc[1]

<class 'pandas.core.series.Series'>


name                                           Cowboy Bebop
genre       Action, Adventure, Comedy, Drama, Sci-Fi, Space
type                                                     TV
episodes                                                 26
rating                                                 8.82
members                                              486824
Name: 1, dtype: object

In [17]:
# так можно узнать размеры таблицы
anime.shape

(12294, 6)

In [18]:
# а вот так можно получить краткую статистическую информацию о численных столбцах таблицы
anime.describe()

Unnamed: 0,rating,members
count,12064.0,12294.0
mean,6.473902,18071.34
std,1.026746,54820.68
min,1.67,5.0
25%,5.88,225.0
50%,6.57,1550.0
75%,7.18,9437.0
max,10.0,1013917.0


* *mean* – среднее арифметическое
* *std*  – стандартное отклонение


В задачах для самостоятельного выполнения пригодится знание еще пары фишек.

### 1. Remove

In [19]:
anime.tail(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
34514,Pokemon Generations,"Action, Adventure, Fantasy, Game, Kids",ONA,18,7.21,295
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9,5.67,94
34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,Unknown,,381
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",TV,Unknown,,108
34527,Gou-chan. Moko to Chinjuu no Mori no Nakama-tachi,"Adventure, Kids",Movie,1,,5


Вспомним, что в таблице есть значения "Unknown" в столбце "*episodes*".

Допустим, нам нужно заменить эти значения на NaN.

In [20]:
anime["episodes"].replace("Unknown", NaN, inplace=True)
anime.tail(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
34514,Pokemon Generations,"Action, Adventure, Fantasy, Game, Kids",ONA,18.0,7.21,295
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9.0,5.67,94
34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,,,381
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",TV,,,108
34527,Gou-chan. Moko to Chinjuu no Mori no Nakama-tachi,"Adventure, Kids",Movie,1.0,,5


И это не единственное, что может сделать этот метод. Вот еще один пример его возможностей.

In [21]:
anime["type"].replace(["ONA", "TV"], ["Original", "Television"], inplace=True)
anime.tail(5)

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
34514,Pokemon Generations,"Action, Adventure, Fantasy, Game, Kids",Original,18.0,7.21,295
34519,Mobile Suit Gakuen: G-Reco Koushien,Comedy,Special,9.0,5.67,94
34522,"Wake Up, Girls! Shin Shou","Drama, Music",Television,,,381
34525,Centaur no Nayami,"Comedy, Fantasy, Slice of Life, Supernatural",Television,,,108
34527,Gou-chan. Moko to Chinjuu no Mori no Nakama-tachi,"Adventure, Kids",Movie,1.0,,5


*inplace* в этом случае значит то же, что и в методе *.drop()*

## 2. NaN != NaN

In [22]:
from numpy import nan
nan == nan

False

NaN не равен сам себе. Так что, чтобы проверить является ли значение NaN используется:

In [23]:
from numpy import isnan
if isnan(nan):
    print("is nan")
    

is nan


---
## Задачи для самостоятельного выполнения
Дедлайн 3окт23 23:59.

|Вариант 1|Вариант 2|
|:-----------:|:----------:|
|CSV файл по [ссылке](https://raw.githubusercontent.com/toUpperCase78/formula1-datasets/master/Formula1_2023season_raceResults.csv)|CSV файл по [ссылке](https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv)|
|1. На каждом треке найти лучшего гонщика и его время (вывести всех одним фреймом)|1. В каждом классе найти самого молодого и самого старого выжившего пассажира (вывести всех одним фреймом)|
|2. Найти среднее время на каждом треке (только среди тех, кто доехал до финиша)|2. Посчитать количество выживших в каждом классе|
|3. Посчитать (программно, разумеется) сколько раз Верстаппен обогнал Гамильтона, а сколько – наоборот |3. Заменить неуказанный возраст у тех, кто не выжил на "В полном расцвете сил" (вывести только их одним фреймом)|

Не забудь, что домашку нужно присылать в формате .ipynb