<a href="https://colab.research.google.com/github/Ulugbek9403/ml_edu/blob/master/notebooks/08_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas (Часть 3)

# Новый раздел

> 🚀 В этой практике нам понадобятся: `numpy==1.26.4, pandas==2.2.2`

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.26.4 pandas==2.2.2`


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV)

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)),
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,0,2,6
B,3,8,8
C,3,9,9


In [3]:
# Для сохранения задается путь до файла
df.to_csv("my_first_file.csv")

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv("my_first_file.csv")
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,0,2,6
1,B,3,8,8
2,C,3,9,9


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv("my_first_file.csv", index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,0,2,6
B,3,8,8
C,3,9,9


Теперь все отлично, и данные загрузились.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы индекс в файл не сохранялся.

In [6]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)),
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

import pandas as pd
import numpy as np
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)),
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)

df.to_csv("no_index.csv", index=False)


## Задачки

Создайте фрейм с четыремя колонками:
- колонка с именами (тип - объекты);
- колонка с стажем работы (тип - вещественный);
- колонка с возрастом (тип - целочисленный);
- колонка с названием любимого цвета (тип - категориальный).

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [7]:

import pandas as pd

data = {
    "Имя": ["Иван", "Мария", "Петр"],
    "Стаж": [2.5, 5.0, 1.8],
    "Возраст": [28, 35, 24],
    "Любимый цвет": ["Синий", "Красный", "Зеленый"]
}

df = pd.DataFrame(data)
df["Стаж"] = df["Стаж"].astype(float)
df["Возраст"] = df["Возраст"].astype(int)
df["Любимый цвет"] = df["Любимый цвет"].astype("category")

print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   Имя           3 non-null      object  
 1   Стаж          3 non-null      float64 
 2   Возраст       3 non-null      int64   
 3   Любимый цвет  3 non-null      category
dtypes: category(1), float64(1), int64(1), object(1)
memory usage: 335.0+ bytes
None


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [8]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

import pandas as pd

ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

result = ds1[~ds1.isin(ds2)]

print(result)


1    2
2    3
dtype: int64


Оставьте в ряду два наиболее частых значения, остальные замените значением "Другое":

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [9]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

import pandas as pd

ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

top_two = ds.value_counts().index[:2]

ds = ds.where(ds.isin(top_two), "Другое")

print(ds)


0     Другое
1     Другое
2     Другое
3          4
4          4
5          4
6     Другое
7          1
8          1
9          1
10         1
11         4
dtype: object


Сделайте каждую первую букву в словах ряда заглавной:

In [10]:
ds = pd.Series(["how", "to", "use", "pandas?"])

import pandas as pd

ds = pd.Series(["how", "to", "use", "pandas?"])

ds = ds.apply(lambda x: x.capitalize())

print(ds)


0        How
1         To
2        Use
3    Pandas?
dtype: object


Выберите записи с максимальным значением по колонке `x1`:

In [11]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)),
    columns=["x1", "x2", "x3"]
)

import pandas as pd
import numpy as np

df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)),
    columns=["x1", "x2", "x3"]
)

max_x1 = df["x1"].max()
filtered_df = df[df["x1"] == max_x1]

print(df)
print("\nЗаписи с максимальным значением по колонке x1:")
print(filtered_df)


    x1  x2  x3
0    2   3   0
1    3   0   1
2    2   3   0
3    2   0   0
4    2   0   1
5    3   2   0
6    2   2   2
7    2   3   0
8    2   2   2
9    3   0   2
10   0   1   3
11   3   3   0
12   1   1   3
13   0   3   1
14   3   2   3

Записи с максимальным значением по колонке x1:
    x1  x2  x3
1    3   0   1
5    3   2   0
9    3   0   2
11   3   3   0
14   3   2   3


Выведите количество пропусков в каждой колонке данных:

In [12]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

print(df.isnull().sum())


Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64


Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [13]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")


mean_min_price = df["Min.Price"].mean()
df["Min.Price"].fillna(mean_min_price, inplace=True)

print(df["Min.Price"].isnull().sum()) # Должно вывести 0


0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Min.Price"].fillna(mean_min_price, inplace=True)


Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [14]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list("fbecda"))

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list("fbecda"))

df = df.reindex(sorted(df.columns), axis=1)

print(df)


   a  b  c  d  e  f
0  3  8  1  4  7  0
1  4  0  8  7  9  3
2  2  3  3  4  1  0
3  8  9  6  3  7  8
4  7  1  7  8  4  2


Отобразите каждую тринадцатую запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [15]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

df_subset = df.iloc[::13][["Manufacturer", "Model", "Type"]]
print(df_subset)


   Manufacturer    Model     Type
0         Acura  Integra    Small
13    Chevrolet   Camaro   Sporty
26        Dodge  Dynasty  Midsize
39          Geo    Storm   Sporty
52        Mazda      323    Small
65       Nissan    Quest      Van
78       Saturn       SL    Small
91        Volvo      240  Compact


Получите ряд, который содержит длины строк:

In [16]:
ds = pd.Series(["how", "to", "use", "pandas?"])

import pandas as pd

ds = pd.Series(["how", "to", "use", "pandas?"])

ds_lengths = ds.apply(len)

print(ds_lengths)


0    3
1    2
2    3
3    7
dtype: int64
