# Pandas (Часть 3)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Сохранение / загрузка данных (работа с CSV)](#Сохранение-/-загрузка-данных-работа-с-CSV)
  * [Задание - чуток самостоятельного разбора](#Задание---чуток-самостоятельного-разбора)
* [Задачки](#Задачки)


В этом ноутбуке:
- CSV файлы
- Кто не работает тот ест: землю при встрече с трудностями. Задачки

In [1]:
import pandas as pd
import numpy as np

## Сохранение / загрузка данных (работа с CSV) 

Одним из важных инструментов в работе с таблицами является возможность сохранить результаты работы в файл или загрузить данные из файла. Пользоваться мы будем форматом CSV, который является текстовым форматом для хранения таблицы. Формат представляет собой текстовые строки, каждая колонка разделяется разделителем (запятая, точка запятой и др.), поэтому его просто понять и обрабатывать, так как не требуется никакого специального протокола для понимания.

Для сохранения данных имеется метод `DataFrame.to_csv()`:

In [2]:
import string

df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

Unnamed: 0,x1,x2,x3
A,0,8,0
B,0,1,9
C,6,4,2


In [3]:
# Для сохранения задается путь до файла
df.to_csv('my_first_file.csv')

Чтобы убедиться в работе метода найдите файл рядом с ноутбуком и откройте его через редактор.

> При работе в Google Colab слева есть вкладка, которая показывает файлы на сервере.

При открытии можно увидеть четыре колонки:
- Колонка индекса;
- Три колонки из наших данных.

Теперь, когда мы имеем файл CSV в системе - можем испытать функцию загрузки `pd.read_csv()`:

In [4]:
df = pd.read_csv('my_first_file.csv')
df.head(3)

Unnamed: 0.1,Unnamed: 0,x1,x2,x3
0,A,0,8,0
1,B,0,1,9
2,C,6,4,2


Видна одна явная проблема - у нас появилась колонка, которая должна быть индексом, но она стала новой колонкой, а индексы создались новые. Для решения проблемы при загрузке необходимо явно задать, какая колонка считается индексом:

In [5]:
df = pd.read_csv('my_first_file.csv', index_col=0)
df.head(3)

Unnamed: 0,x1,x2,x3
A,0,8,0
B,0,1,9
C,6,4,2


Теперь все отлично и данные загрузились так, как они должны быть.

### Задание - чуток самостоятельного разбора

Разберитесь в аргументах `DataFrame.to_csv()` и сохраните данные в файл так, чтобы в файл индекс не сохранялся.

In [6]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3'],
    index=list(string.ascii_uppercase)[:15]
)
df.head(3)

df.to_csv('no_index.csv',index=False)
# TODO - сохранить в файл no_index.csv без индексов
df

Unnamed: 0,x1,x2,x3
A,4,7,9
B,1,3,4
C,4,5,4
D,6,1,2
E,5,2,6
F,1,2,2
G,2,4,8
H,7,0,7
I,3,8,6
J,4,5,5


## Задачки

Создайте фрейм с четыремя колонками:
- Колонка с именами (тип - объекты);
- Колонка с стажем работы (тип - вещественный);
- Колонка с возрастом (тип - целочисленный);
- Колонка с названием любимого цвета (тип - категориальный);

Имена колонок и значения любые, не менее трех записей (строк) в фрейме.

In [7]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 4)), 
    columns=['name', 'years', 'age','f_color'],
    index=list(string.ascii_uppercase)[:5]
)
df['age'].astype(int)

name=['One','Two','Three','Foure','Five']
years=[4.3,1.7,3.7,2.0,3.3]
age=[22,41,50,36,29]
f_color = ['red','green','blue','purple','yellow']

df['name']=name
df['years']=years
df['age']=age
df['f_color']=f_color
df = df.astype({"f_color": 'category'})
df.info()
print(df)
# TODO - создайте фрейм и настройте правильные типы колонок
#           DataFrame.info() дожен отображать указанные типы

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   name     5 non-null      object  
 1   years    5 non-null      float64 
 2   age      5 non-null      int64   
 3   f_color  5 non-null      category
dtypes: category(1), float64(1), int64(1), object(1)
memory usage: 377.0+ bytes
    name  years  age f_color
A    One    4.3   22     red
B    Two    1.7   41   green
C  Three    3.7   50    blue
D  Foure    2.0   36  purple
E   Five    3.3   29  yellow


Выберите числа в ряду `ds1`, которых нет в ряду `ds2`:

> Почитайте и примение метод `Series.isin()`

In [8]:
ds1 = pd.Series([1, 2, 3, 4, 5])
ds2 = pd.Series([4, 5, 6, 7, 8, 1, 9])

f=ds1.isin(ds2)
list(ds1[~f])
# TODO - выберите значения в ds1, которых нет в ds2: 
# [2, 3]

[2, 3]

Оставьте в ряду два наиболее частых значения, остальные замените значением 'Другое':

<details>
<summary>Подсказка 1</summary>

Для определения наиболее частых значений воспользуйтесь методом `Series.value_counts()`
</details>

<details>
<summary>Подсказка 2</summary>

Чтобы получить наиболее частые значения можно воспользоваться результатом `Series.value_counts()` - атрибутом `Series.index`
</details>

<details>
<summary>Подсказка 3</summary>

Получив наиболее частые значения, можно индексировать другие через маску метода `Series.isin()`
</details>


In [9]:
ds = pd.Series([2, 2, 2, 4, 4, 4, 3, 1, 1, 1, 1, 4])

f=ds.value_counts()
filter=~ds.isin(f.index[0:2])

for i in ds[filter]:
  ds.replace(i,'Другое', inplace=True)

print(list(ds))
# TODO - определите два наиболее частых значения в ряду (1, 4),
#           остальные замените значением 'Другое'
# ['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]

['Другое', 'Другое', 'Другое', 4, 4, 4, 'Другое', 1, 1, 1, 1, 4]


Сделайте каждую первую букву в словах ряда заглавной:

In [10]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
def my_func(x):
  str(x)
  return x.title()
k = ds.apply(my_func)
print(k)

# TODO - сделайте каждую первую букву заглавной с помощью Series.apply()

0        How
1         To
2        Use
3    Pandas?
dtype: object


Выберите записи с максимальным значением по колонке `x1`:

In [11]:
df = pd.DataFrame(
    np.random.randint(0, 4, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
print(df)
max=df.aggregate(['max'], axis='rows')
x1_max=max['x1']
mask = (df['x1'] == int(x1_max))
df[mask]
# TODO - выберите те записи, которые имеют x1 равный 
#           максимальному значению в колонке x1

    x1  x2  x3
0    2   0   0
1    1   1   0
2    2   2   2
3    0   3   1
4    1   2   3
5    3   0   0
6    1   3   3
7    3   1   3
8    2   3   0
9    3   0   2
10   0   2   3
11   2   2   1
12   0   0   0
13   1   3   3
14   0   1   0


Unnamed: 0,x1,x2,x3
5,3,0,0
7,3,1,3
9,3,0,2


Выведите количество пропусков в каждой колонке данных:

In [12]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')
df.isna().sum()
# TODO - отобразите количество пропусков в данных по каждой колонке

Manufacturer           4
Model                  1
Type                   3
Min.Price              7
Price                  2
Max.Price              5
MPG.city               9
MPG.highway            2
AirBags                6
DriveTrain             7
Cylinders              5
EngineSize             2
Horsepower             7
RPM                    3
Rev.per.mile           6
Man.trans.avail        5
Fuel.tank.capacity     8
Passengers             2
Length                 4
Wheelbase              1
Width                  6
Turn.circle            5
Rear.seat.room         4
Luggage.room          19
Weight                 7
Origin                 5
Make                   3
dtype: int64

Замените пропущенные значения в колонке `Min.Price` средним значениям по этой колонке:

In [13]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')


mean=df.aggregate(['mean'], axis='rows')
p_mean=mean['Min.Price']
df['Min.Price'].fillna(int(p_mean), inplace=True)
print(df)

pr=df.filter(items=['Min.Price'], axis='columns').isna()
print(pr.value_counts())

# TODO - заполните NaN в колонке Min.Price средним значением по этой колонке
# NOTE - после заполнения убедитесь, что в этой колонке нет пропущенных

   Manufacturer    Model     Type  Min.Price  Price  Max.Price  MPG.city  \
0         Acura  Integra    Small       12.9   15.9       18.8      25.0   
1           NaN   Legend  Midsize       29.2   33.9       38.7      18.0   
2          Audi       90  Compact       25.9   29.1       32.3      20.0   
3          Audi      100  Midsize       17.0   37.7       44.6      19.0   
4           BMW     535i  Midsize       17.0   30.0        NaN      22.0   
..          ...      ...      ...        ...    ...        ...       ...   
88   Volkswagen  Eurovan      Van       16.6   19.7       22.7      17.0   
89   Volkswagen   Passat  Compact       17.6   20.0       22.4      21.0   
90   Volkswagen  Corrado   Sporty       22.9   23.3       23.7      18.0   
91        Volvo      240  Compact       21.8   22.7       23.5      21.0   
92          NaN      850  Midsize       24.8   26.7       28.5      20.0   

    MPG.highway             AirBags DriveTrain  ... Passengers  Length  \
0          31

Отсортируйте и выведите фрейм с колонками в алфавитном порядке:

In [14]:
df = pd.DataFrame(np.random.randint(0, 10, size=(5, 6)), columns=list('fbecda'))
col=list('fbecda')
col_s=sorted(col, reverse=True)
df.filter(items=col_s, axis='columns')

# TODO - получите фрейм с отсортированными по именам колонкам (f e d c b a)
# NOTE - сортировка должна быть автоматической

Unnamed: 0,f,e,d,c,b,a
0,6,9,4,7,5,2
1,6,1,3,8,5,6
2,3,8,8,1,7,0
3,0,2,0,5,3,4
4,9,9,0,8,2,9


Отобразите каждую 20ю запись во фрейме и только колонки `Manufacturer`, `Model`, `Type`:

In [15]:
df = pd.read_csv('https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/datasets/Cars93_miss.csv')

df.iloc[::20][['Manufacturer', 'Model', 'Type']]

# TODO - отобразите запись с периодичностью во фрейме и определенные колонки

Unnamed: 0,Manufacturer,Model,Type
0,Acura,Integra,Small
20,Chrysler,LeBaron,Compact
40,Honda,Prelude,Sporty
60,Mercury,Cougar,Midsize
80,Subaru,Loyale,Small


Получите ряд, который содержит длины строк:

In [16]:
ds = pd.Series(['how', 'to', 'use', 'pandas?'])
l=[]
for i in list(ds):
  l.append(len(i))
df = pd.Series(l)
df
# TODO - создайте ряд, содержащий длины строк:
# 0    3
# 1    2
# 2    3
# 3    7
# dtype: int64

0    3
1    2
2    3
3    7
dtype: int64