In [None]:
#!pip install pandas



In [None]:
import pandas as pd
import numpy as np

Библиотека pandas, которая применяется для обработки и анализа табличных данных. В этой библиотеке используется numpy для удобного хранения данных и вычислений.

В библиотеке pandas определены два класса объектов для работы с данными:

Series — одномерный массив, который может хранить значения любого типа данных;
DataFrame — двумерный массив (таблица), в котором столбцами являются объекты класса Series.

В качестве данных объекта Series могут выступать: массив numpy, словарь, число. В аргумент index передаётся список меток осей. Метка может быть числом или строкой. Если индекс не передается, то меткам автоматически неазначается список  [0, ..., len(data) - 1]

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print(s)
print()

s = pd.Series(np.linspace(0, 1, 5))
print(s)
print()
#задать Series с помощью словаря
s = {"a": 10, "b": 20, "c": 30, "g": 40}
print(pd.Series(s))
print()

a    0
b    1
c    2
d    3
e    4
dtype: int64

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

a    10
b    20
c    30
g    40
dtype: int64



### Обращение к элементам Series

In [None]:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print(s)
print()
print("Выбор одного элемента")
print(s["a"])
print()
print("Выбор нескольких элементов")
print(s[["a", "d"]])
print()
print("Срез")
print(s[1:])
print()
print("Поэлементное сложение")
print(s + s)

a    0
b    1
c    2
d    3
e    4
dtype: int64

Выбор одного элемента
0

Выбор нескольких элементов
a    0
d    3
dtype: int64

Срез
b    1
c    2
d    3
e    4
dtype: int64

Поэлементное сложение
a    0
b    2
c    4
d    6
e    8
dtype: int64


In [None]:
#Для Series можно применять фильтрацию данных по условию, записанному в качестве индекса:
s = pd.Series(np.arange(5), index=["a", "b", "c", "d", "e"])
print("Фильтрация")
print(s[s > 2])

Фильтрация
d    3
e    4
dtype: int64


#DataFrame

DataFrame — это структуры, которые состоят из:

*   данных, организованных в двух измерениях — строках и столбцах;
*   и соответствующих этим строкам и столбцам меток.




### Создание и заполнение DataFrame

In [None]:
#из словаря
students_marks_dict = {"student": ["Студент_1", "Студент_2", "Студент_3"],
                       "math": [5, 3, 4],
                       "physics": [4, 5, 5]}
students = pd.DataFrame(students_marks_dict)
print(students)

     student  math  physics
0  Студент_1     5        4
1  Студент_2     3        5
2  Студент_3     4        5


In [None]:
#создание пустого DataFrame с последующим заполнением
empty_df = pd.DataFrame(columns = ['кот', 'возраст'])
empty_df.head()

Unnamed: 0,кот,возраст


In [None]:
#заполнение пустого DF списками
empty_df['кот'] = ['Вася', 'Пушистик', 'Рыжик']
empty_df.head()

Unnamed: 0,кот,возраст
0,Вася,
1,Пушистик,
2,Рыжик,


In [None]:
#важно, чтобы длина списка была одинакова с длиной DF
empty_df['возраст'] = [1, 5]
empty_df.head()

ValueError: ignored

In [None]:
empty_df['возраст'] = [1, 5, np.nan]
empty_df.head()

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0
2,Рыжик,


In [None]:
#вывод нескольких строк
#по умолчанию head выводит 5 строк
empty_df.head(2)

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0


In [None]:
#вывод части DF
empty_df[1:3]

Unnamed: 0,кот,возраст
1,Пушистик,5.0
2,Рыжик,


In [None]:
#вывод индексов и колонок
print(empty_df.index)
print(empty_df.columns)
#print(list(empty_df.columns))

RangeIndex(start=0, stop=3, step=1)
Index(['кот', 'возраст'], dtype='object')


### Доступ к элементам DF

In [None]:
#доступ к строке
empty_df.loc[2]

кот        Рыжик
возраст      NaN
Name: 2, dtype: object

In [None]:
type(empty_df.loc[2])

pandas.core.series.Series

In [None]:
#доступ к колонке
empty_df['кот']

0        Вася
1    Пушистик
2       Рыжик
Name: кот, dtype: object

In [None]:
list(empty_df['кот'])

['Вася', 'Пушистик', 'Рыжик']

In [None]:
#доступ к одному элементу
empty_df.at[1, 'кот']

'Пушистик'

In [None]:
empty_df['кот'][1]

'Пушистик'

доступ по условиям

In [None]:
empty_df[empty_df['кот'] == 'Вася']

Unnamed: 0,кот,возраст
0,Вася,1.0


In [None]:
empty_df[empty_df['кот'] == 'Шурик']

Unnamed: 0,кот,возраст


### Добавление и удаление элементов DF

In [None]:
#добавить колонку
empty_df['шерсть'] = [True, True, False]
empty_df.head()

Unnamed: 0,кот,возраст,шерсть
0,Вася,1.0,True
1,Пушистик,5.0,True
2,Рыжик,,False


In [None]:
#добавить строку с помощью Series
new_cat = pd.Series(data=['Шурик', 15, False], index=empty_df.columns, name = len(empty_df))
empty_df = empty_df.append(new_cat)
empty_df.head()

  empty_df = empty_df.append(new_cat)


Unnamed: 0,кот,возраст,шерсть
0,Вася,1.0,True
1,Пушистик,5.0,True
2,Рыжик,,False
3,Шурик,15.0,False


In [None]:
#данные в одной колонке могут быть разного типа
new_cat = pd.Series(data=['Шурик', 15, 'нет'], index=empty_df.columns, name = len(empty_df))
empty_df = empty_df.append(new_cat)
empty_df.head()

  empty_df = empty_df.append(new_cat)


Unnamed: 0,кот,возраст,шерсть
0,Вася,1.0,True
1,Пушистик,5.0,True
2,Рыжик,,False
3,Шурик,15.0,False
4,Шурик,15.0,нет


In [None]:
#удаление строк
empty_df = empty_df.drop(labels=[4])
empty_df.head()

Unnamed: 0,кот,возраст,шерсть
0,Вася,1.0,True
1,Пушистик,5.0,True
2,Рыжик,,False
3,Шурик,15.0,False
5,Шурик,15.0,нет


In [None]:
#удаление столбца
empty_df = empty_df.drop(labels='шерсть', axis=1)
empty_df.head()

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0
2,Рыжик,
3,Шурик,15.0


### Сортировка и фильтрация данных

In [None]:
#сортировка
#ascending=False - по убыванию, True = по возрастанию
empty_df.sort_values(by='возраст', ascending=False)


Unnamed: 0,кот,возраст
3,Шурик,15.0
1,Пушистик,5.0
0,Вася,1.0
2,Рыжик,


In [None]:
#данная сортировка не сохраняется
empty_df.head()

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0
2,Рыжик,
3,Шурик,15.0


In [None]:
#чтобы сохранить сортировку необходимо переприсвоить переменную
empty_df = empty_df.sort_values(by='возраст', ascending=True)
empty_df.head()

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0
3,Шурик,15.0
2,Рыжик,


In [None]:
#фильтрация данных
filter = empty_df['возраст'] < 6
filter

0     True
1     True
3    False
2    False
Name: возраст, dtype: bool

In [None]:
empty_df[filter]
#тоже самое
#empty_df[empty_df['возраст'] < 6]

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0


## Работа с файлами

DataFrame отлично работает с файлами формата csv

In [None]:
#подключение библиотеки для синхронизации с google диском
from google.colab import drive
drive.mount('drive')

Mounted at drive


In [None]:
#сохранение файла
empty_df.to_csv('/content/drive/MyDrive/empty_df.csv', index = True)

In [None]:
#открытие файла
new_df = pd.read_csv('/content/drive/MyDrive/empty_df.csv')
new_df.head()

Unnamed: 0,кот,возраст
0,Вася,1.0
1,Пушистик,5.0
2,Шурик,15.0
3,Рыжик,
