# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.26.4, pandas==2.2.2` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.26.4 pandas==2.2.2` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,5,5,5
B,8,4,8
C,5,7,6


In [3]:
# Для сохранения задается путь до файла
df.to_csv("my_first_file.csv")

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv("my_first_file.csv")
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,5,5,5
1,B,8,4,8
2,C,5,7,6


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv("my_first_file.csv", index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,5,5,5
B,8,4,8
C,5,7,6


Теперь все отлично, и данные загрузились.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы индекс в файл не сохранялся.

In [6]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=["x1", "x2", "x3"],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

df.to_csv('no_index.csv', index=False)
df = pd.read_csv('no_index.csv')
df.head(3)

Unnamed: 0,x1,x2,x3
0,9,5,7
1,1,0,9
2,1,2,5


## Задачки

Создайте фрейм с четыремя колонками:
- колонка с именами (тип - объекты);
- колонка с стажем работы (тип - вещественный);
- колонка с возрастом (тип - целочисленный);
- колонка с названием любимого цвета (тип - категориальный).

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [7]:
name=pd.Series(['Volkswagen','Audi','Porshe','Skoda','Lamborgini'], dtype=object)
exp=pd.Series([3.5,5.2,2.8,4,6.1], dtype=np.float32)
age=pd.Series([22,25,23,24,28], dtype=np.int32)
color=pd.Series(['violet','blue','yellow','green','red'],dtype=pd.CategoricalDtype)
df=pd.DataFrame({
    'name':name,
    'exp':exp,
    'age':age,
    'color':color
})
df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   name    5 non-null      object  
 1   exp     5 non-null      float32 
 2   age     5 non-null      int32   
 3   color   5 non-null      category
dtypes: category(1), float32(1), int32(1), object(1)
memory usage: 425.0+ bytes


  color=pd.Series(['violet','blue','yellow','green','red'],dtype=pd.CategoricalDtype)


Unnamed: 0,name,exp,age,color
0,Volkswagen,3.5,22,violet
1,Audi,5.2,25,blue
2,Porshe,2.8,23,yellow
3,Skoda,4.0,24,green
4,Lamborgini,6.1,28,red


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [8]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

out=ds1.isin(ds2)
ds1[out==False]

1    2
2    3
dtype: int64

Оставьте в ряду два наиболее частых значения, остальные замените значением "Другое":

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [9]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

out=list(ds.value_counts().index)
for i in range (len(ds)):
    if (ds[i]!=out[0])&(ds[i]!=out[1]):
        ds[i]='другое'
ds

  ds[i]='другое'


0     другое
1     другое
2     другое
3          4
4          4
5          4
6     другое
7          1
8          1
9          1
10         1
11         4
dtype: object

Сделайте каждую первую букву в словах ряда заглавной:

In [10]:
ds = pd.Series(["how", "to", "use", "pandas?"])

def capital(x):
    return str.capitalize(x)
ds=ds.apply(capital)
ds

0        How
1         To
2        Use
3    Pandas?
dtype: object

Выберите записи с максимальным значением по колонке `x1`:

In [11]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
mask=df['x1'].max()
df[df['x1']==mask]

Unnamed: 0,x1,x2,x3
5,3,2,1
9,3,3,1
12,3,2,3


Выведите количество пропусков в каждой колонке данных:

In [12]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

df.isna().sum()

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [13]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

df['Min.Price'].fillna(df['Min.Price'].mean(), inplace=True)
df.isna().sum()


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Min.Price'].fillna(df['Min.Price'].mean(), inplace=True)


Manufacturer           4
Model                  1
Type                   3
Min.Price              0
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags               38
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [14]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list("fbecda"))

df_sorted=sorted(df.columns, reverse=True)
df=df.reindex(df_sorted, axis=1)
df


Unnamed: 0,f,e,d,c,b,a
0,7,7,2,8,3,3
1,8,8,6,2,2,1
2,8,2,5,4,4,8
3,6,0,3,5,9,5
4,1,5,1,4,7,8


Отобразите каждую тринадцатую запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [15]:
df = pd.read_csv("https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv")

cols=['Manufacturer','Model','Type']
df_cols=df.loc[:,cols]
df_cols
new=df_cols.iloc[range(0, len(df.index), 20)]
new

Unnamed: 0,Manufacturer,Model,Type
0,Acura,Integra,Small
20,Chrysler,LeBaron,Compact
40,Honda,Prelude,Sporty
60,Mercury,Cougar,Midsize
80,Subaru,Loyale,Small


Получите ряд, который содержит длины строк:

In [16]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
new=[]
for i in range(0,len(ds)):
    new=np.append(new,len(ds[i]))
print(new)
result=pd.Series(new,dtype=np.int64)
result

[3. 2. 3. 7.]


0    3
1    2
2    3
3    7
dtype: int64