# Pandas

**Pandas** это высокоуровневая Python библиотека для анализа данных. 

В экосистеме Python, pandas является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных.

Pandas добавляет в Python новые структуры данных — **Series** и **DataFrame**. 

Для подключения и использования библиотеки, её необходимо подключить следующей командой:


```
import pandas as pd
```

Конструкция `as`  позволяет переименовать библиотеку в более короткое название для удобства в дальнейшем при обращении к этой библиотеке и ее методам.



In [None]:
import pandas as pd

# pip install pandas

##Структура данных Series

**Series** - одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в **Series** — поэлементно.

Конструктор класса Series выглядит следующим образом:



```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```
- **data** – массив, словарь или скалярное значение, на базе которого будет построен Series;

- **index** – список меток, который будет использоваться для доступа к элементам Series. Длина списка должна быть равна длине data;

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Создать структуру Series можно на базе различных типов данных:

- словари Python;
- списки Python;
- массивы из numpy: ndarray;
- скалярные величины.

###Создание Series из списка Python

In [None]:
lst = [1, 2, 3, 4, 5] # создание списка Python

s = pd.Series(lst) # создание Series
# Если индекс явно не задан, то pandas автоматически создаёт RangeIndex от 0 до N-1, где N общее количество элементов.

s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
type(s)

pandas.core.series.Series

In [None]:
lst = ['Мария', 18, 'Петров'] # создание списка Python

s = pd.Series(data=lst , index=['name', 'age', 'smt']) # создание Series с заданием меток (именованые метки - a, b, c)

s

###Создание Series из ndarray массива из numpy

In [None]:
import numpy as np

ndarr = np.array([1, 2, 3, 4, 5])
type(ndarr)

numpy.ndarray

In [None]:
s2 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

###Создание Series из словаря (dict)

In [None]:
d = {'a':1, 'b':2, 'c':3}
s3 = pd.Series(d)
s3

a    1
b    2
c    3
dtype: int64

###Создание Series с использованием константы

In [None]:
a = 7

s4 = pd.Series(a, ['a', 'b', 'c'])

s4

a    7
b    7
c    7
dtype: int64

In [None]:
type(s4)

pandas.core.series.Series

У объекта **Series** есть атрибуты через которые можно получить список элементов и индексы, это **values** и **index** соответственно.

In [None]:
print(s4.index)
print('_'*10)
print(s4.values)

Index(['a', 'b', 'c'], dtype='object')
__________
[7 7 7]


###Работа с элементами Series

К элементам Series можно обращаться по численному индексу, при таком подходе работа со структурой не отличается от работы со списками в Python.

In [None]:
# Создание Series из списка Python
s5 = pd.Series(['Иван', 'Петр', 'Мария', 'Анастасия', 'Федор'], ['a', 'b', 'c', 'd', 'e'])
s5

a         Иван
b         Петр
c        Мария
d    Анастасия
e        Федор
dtype: object

In [None]:
# Обращание ко третьему элементу Series (нумерация начинается с 0)
print(s5[2])

Мария


Можно использовать метку, тогда работа с **Series** будет похожа на работу со словарем (dict) в Python.

In [None]:
# Обращание ко третьему элементу Series по заданному индексу (нумерация начинается с 0)
print(s5['c'])

Мария


В поле для индекса можно поместить условное выражение.

In [None]:
s6 = pd.Series([10, 13, 1, 5, 0], ['a', 'b', 'c', 'd', 'e'])

# Выведет все значения в Series меньше трех
s6[s6 == 0]

e    0
dtype: int64

In [None]:
s6

a    10
b    13
c     1
d     5
e     0
dtype: int64

In [None]:
# Получение элементов с метками 'a', 'c' и 'e':
s6[['a', 'c', 'e']]

a    10
c     1
e     0
dtype: int64

In [None]:
s6

a    10
b    13
c     1
d     5
e     0
dtype: int64

Обращение по слайсу (срезу) меток.

Получение элементов структуры с метками от 'a' до 'd':

In [None]:
s6['a':'d']

a    10
b    13
c     1
d     5
dtype: int64

Получение элементов стурктуры с индексами от 0 до 4:

In [None]:
s6[:]

a    10
b    13
c     1
d     5
dtype: int64

###Работа с Series

Со структурами Series можно работать как с векторами: складывать, умножать вектор на число и т.п.

In [None]:
s7 = pd.Series([10, 2, 30, 40, 50, 8], ['a', 'b', 'c', 'd', 'e', 'a'])
s7

a    10
b     2
c    30
d    40
e    50
a     8
dtype: int64

In [None]:
s7[s7 < 10] / 10

b    0.2
a    0.8
dtype: float64

In [None]:
s7

a    10
b     2
c    30
d    40
e    50
a     8
dtype: int64

In [None]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'c', 'b', 'd', 'e'])
s8 = pd.Series([1, 1, 5, 1, 0, 7], ['a', 'b', 'c', 'd', 'e', 'n'])

# сложение
# к каждому элементу s7 прибавляется каждый элемент s8
# для корректного сложения необходимо, чтобы длинна Series совпадла
s9 = s7 + s8
s9

a    11.0
b    31.0
c    25.0
d    41.0
e    50.0
n     NaN
dtype: float64

In [None]:
# Каждый элемент s7 увеличится в 3 раза
s9 = s7 * 3

s9

a     30
b     60
c     90
d    120
e    150
dtype: int64

##Структура данных DataFrame

Если **Series** представляет собой одномерную структуру, которую для себя можно представить как таблицу с одной строкой, то **DataFrame** – это уже двумерная структура – полноценная таблица с множеством строк и столбцов.

Конструктор класса DataFrame выглядит так:



```
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

- **data** – массив ndarray, словарь (dict) или другой DataFrame;

- **index** – список меток для записей (имена строк таблицы);

- **columns** – список меток для полей (имена столбцов таблицы);

- **dtype** – объект numpy.dtype, определяющий тип данных;

- **copy** – создает копию массива данных, если параметр равен True в ином случае ничего не делает.

Cтруктуру **DataFrame** можно создать на базе:

- словаря (dict) в качестве элементов которого должны выступать: одномерные - ndarray, списки, другие словари, структуры Series;
- двумерные ndarray;
 структуры Series;
- структурированные ndarray;
- другие DataFrame.



###Создание DataFrame из словаря

In [None]:
import pandas as pd

d = {"Name":pd.Series(['Виктор', 'Мария', 'Иван']),
     "Age": pd.Series([18, 21, 19])}

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


###Создание DataFrame из списка словарей

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


###Создание DataFrame из двумерного массива

In [None]:
import numpy as np

nda = np.array([[1, 2, 3], [10, 20, 30]])

df = pd.DataFrame(nda, columns=['col1', 'cols2', 'cols3'])
df

Unnamed: 0,col1,cols2,cols3
0,1,2,3
1,10,20,30


###Работа с элементами DataFrame

Обращение к столбцу DataFrame:

- df['Название столбца']
- df.название_столбца

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df['Name']

0    Виктор
1     Мария
2      Иван
Name: Name, dtype: object

In [None]:
df.Name

0    Виктор
1     Мария
2      Иван
Name: Name, dtype: object

Также для работы со строками и столбцами существуют методы:

**DataFrame.loc[]**- Доступ к группе строк и столбцов (или только к столбцам, или только к строкам) по меткам или логическому массиву. 

Допустимые входы:
- Одиночная метка, например 5 или 'a', (обратите внимание, что 5 - интерпретируется как метка индекса, а не как целочисленная позиция по индексу).
- Список или массив меток, например ['a', 'b', 'c']
- Объект среза с метками, например 'a':'f'.

**DataFrame.iloc[]** - позволяет получить доступ к элементам DataFrame по целочисленном индексам. 

Допустимые входы:
- Целое число, например 5.
- Список или массив целых чисел, например .[4, 3, 0]
- Объект среза с целыми числами, например 1:7.

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.iloc[0] # по индексу вернет 0 строку DataFrame

Name    Виктор
Age         18
Name: 0, dtype: object

In [None]:
df.iloc[2,1]

19

Для доступа к элементам и по строке и по столбцу используется следующая конструкция:

- DataFrame.iloc[строка, столбце]
- DataFrame.iloc[диапазон:строк, диапазон:столбцов]

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.iloc[0,1] # по индексу вернет элемент DataFrame на пересечении 0 строки и 1 столбца [строка, столбца]

df.iloc[:, 1] # вернет все элементы 1 столбца для всех строк

df.iloc[0:2,:] # вернет значения всех стобцов для 0 и 1 строк

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21


In [None]:
df.loc[:, ['Name','Age']] # доступ по метке: вернет значения всех элементов в столбце Name для всех строк

df.loc[0:1, 'Name'] # доступ по метке: вернет значения всех элементов в столбце Name для 0 и 1 строк

0    Виктор
1     Мария
Name: Name, dtype: object

Методы .loc[], .iloc[] также применимы к структуре Series.

Также в поле для индекса можно писать логические условия для фильтрации значений.

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df['Age'] >= 20

0    False
1     True
2    False
Name: Age, dtype: bool

In [None]:
#  Вывести все строки, в которых значение в столбце Age больше и равно 20
df[df['Name'] == "Мария"]

Unnamed: 0,Name,Age
1,Мария,21


###Методы и атрибуты DataFrame

У объекта DataFrame (также как и у Series) есть атрибуты через которые можно получить индексы, а также метод позволяющий получить названия колонок.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
print(df.index) # возвращает индексы DataFrame
print(df.columns) # возвращает названия колонок
print(df.head(2))) # вывод первых двух строчек DataFrame
print(df.tail(2)) # вывод последних двух строчек DataFrame

RangeIndex(start=0, stop=3, step=1)
Index(['Name', 'Age'], dtype='object')
     Name  Age
0  Виктор   18
1   Мария   21
    Name  Age
1  Мария   21
2   Иван   19


DataFrame - это двумерная структура, напоминающая таблицу размерностью NxM, где N - это количество строк, M - количество стобцов.

**shape** - атрибут DataFrame, который возвращает его размерность.

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19


In [None]:
df.shape

(3, 2)

In [None]:
df.info() # метод возвращает полную информацию о данном DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes


Часто при работе с данными, их необходимо проверять на пропуски (NaN).

Для этого существуют методы - **isna()**, **isnull()**.

Они возвращают два объекта DataFrame с булевыми значениями, где True для значений NaN в DataFrame, а False — на его отсутствие. Эти функции часто используются в фильтрах для создания условий.

In [None]:
import numpy as np 

d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0


In [None]:
df.isnull()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False


In [None]:
df.isna()

Unnamed: 0,Name,Age
0,False,False
1,False,True
2,False,False


In [None]:
df.isna().sum()

Name    0
Age     1
dtype: int64

In [None]:
# Фильтр, который вернет все строки, в которых отсутсвуют пустые значения в колонке Age

df[df['Age'].isnull() == False]

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0


In [None]:
# подсчет пустых значений в каждой колонке DataFrame
# False = 0
# True = 1
df.isna().sum()

Name    0
Age     1
dtype: int64

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

# Подсчет уникальных значений в стобце
print(df['Name'].unique())

# Подсчет количества для каждого значения в столбце
df['Name'].value_counts()

['Виктор' 'Мария' 'Иван']


Иван      2
Виктор    1
Мария     1
Name: Name, dtype: int64

In [None]:
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


Удаление значений из DataFrame.

Существуют различные методы, позволяющие удалять сроки или столбцы из DataFrame.

`DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')`

- labels - Метки индекса или столбца, которые нужно удалить
- axis - {0 или 'index', 1 или 'columns'}
- index - Альтернатива указанию оси (эквивалент axis=0)
- columns - Альтернатива указанию оси (эквивалент axis=1)
- level - Для MultiIndex - уровень, с которого будут удалены метки
- inplace - Если False, вернет копию DataFrame. В противном случае перезапишет изменения в этот же DataFrame.


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)
df
# Удалить столбцы
# df.drop(['Age'], axis=1)
df.drop(columns = ['Age'])

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
df

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
# Удалить строки
df.drop(0, axis=0, inplace=True)
# df.drop(index = 0)

Unnamed: 0,Name,Age
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# по умолчанию inplace = False, поэтому в предыдущей ячейке
# операция drop() вернула копию измененного DataFrame
# исходный DataFrame остался без изменений
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
df.drop(['Age'], axis=1, inplace=True)
df

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25}]

df = pd.DataFrame(d)

df.drop(columns=['Age'])

Unnamed: 0,Name
0,Виктор
1,Мария
2,Иван
3,Иван


In [None]:
df.drop([0, 1])
# две строки удалились 0,1 

Unnamed: 0,Name,Age
2,Иван,19.0
3,Иван,25.0


Также существует метод dropna(), который позволяет удалять строки или столбцы, содержащие пустые значения.

`DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)`

- axis - {0 или 'index', 1 или 'columns'}, по умолчанию 0. Определяет, удаляются строки или столбцы, содержащие отсутствующие значения. 0 или «index»: удалить строки, содержащие пропущенные значения. 1 или «columns»: удалить столбцы, содержащие отсутствующее значение.
- how - Определяет, удаляется ли строка или столбец из DataFrame, когда у нас есть хотя бы одно NA или все NA. 'any': если присутствуют какие-либо значения NA, отбросьте эту строку или столбец. 'all': если все значения - NA, отбросьте эту строку или столбец.

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": np.NaN},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": np.NaN, "Age": np.NaN}]

df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0
4,,


In [None]:
df.isna().sum()

Name    1
Age     2
dtype: int64

In [None]:
# удалить строки (axis=0), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=0, how='any')

Unnamed: 0,Name,Age
0,Виктор,18.0
2,Иван,19.0
3,Иван,25.0


In [None]:
# удалить столбцы (axis=1), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=1, how='any')

In [None]:
# удалить строки (axis=0), которые содержат все одно пропущенные значения
df.dropna(axis=0, how='all')

Unnamed: 0,Name,Age
0,Виктор,18.0
1,Мария,
2,Иван,19.0
3,Иван,25.0


In [None]:
# удалить столбцы (axis=1), которые содержат хотя бы одно пропущенное значение
df.dropna(axis=1, how='all')

Добавление строк или столбцов в существующий DataFrame.

Добавить новый столбец в существующий DataFrame можно воспользовавшись следующей конструкцией:

`df['new_column'] = values`

- values - значения в новом столбце (числов, список, Series)


In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": "Алексей", "Age": 20}]

df = pd.DataFrame(d)

df

Unnamed: 0,Name,Age
0,Виктор,18
1,Мария,21
2,Иван,19
3,Иван,25
4,Алексей,20


In [None]:
# Добавление нового столбца - значения которого переданы в виде списка
df['University'] = ['NRNU MEPhI', 'MIPT', 'MITP', 'NRNU MEPhI', 'BMSTU']

df

Unnamed: 0,Name,Age,University
0,Виктор,18,NRNU MEPhI
1,Мария,21,MIPT
2,Иван,19,MITP
3,Иван,25,NRNU MEPhI
4,Алексей,20,BMSTU


In [None]:
# Добавление нового столбца - все значения будут одинаковы и равны 'bachelor'
df['level'] = 'bachelor'
df

Unnamed: 0,Name,Age,University,level
0,Виктор,18,NRNU MEPhI,bachelor
1,Мария,21,MIPT,bachelor
2,Иван,19,MITP,bachelor
3,Иван,25,NRNU MEPhI,bachelor
4,Алексей,20,BMSTU,bachelor


Также существует метод позволяющий объединять объекты Series и DataFrame.

`pandas.concat( objs , axis = 0 , join = 'outer' , ignore_index = False , keys = None , levels = None , names = None , verify_integrity = False , sort = False , copy = True )`

- objs последовательность или сопоставление объектов Series или DataFrame
- ось {0 / 'index', 1 / 'columns'}, по умолчанию 0. Ось для объединения (объединение по столбцам или по строкам).


In [None]:
# Объединение двух Series
# так как параметр ignore_index по умолчанию False
# то сохраняется старая нумерация в Series
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
s_final = pd.concat([s1, s2])

In [None]:
s_final = s_final.reset_index()

Unnamed: 0,index,0
0,0,a
1,1,b
2,0,c
3,1,d


In [None]:
# Объединение двух Series
# очистить существующий индекс и сбросить его в результате
# можно задав ignore_index=True
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

In [None]:
# Объединений двух DataFrame
df1 = pd.DataFrame([['Петр', 19], ['Иван', 22]], columns=['Name', 'Age'])
df1

Unnamed: 0,Name,Age
0,Петр,19
1,Иван,22


In [None]:
df2 = pd.DataFrame([['Мария', 20], ['Анастасия', 18]], columns=['Name', 'Age'])
df2

Unnamed: 0,Name,Age
0,Мария,20
1,Анастасия,18


In [None]:
#  объединение по строкам
df1 = pd.concat([df1, df2]) 
df1

Unnamed: 0,Name,Age
0,Петр,19
1,Иван,22
0,Мария,20
1,Анастасия,18


In [None]:
# объединение по столбцам
pd.concat([df1, df2], axis=1) 

Unnamed: 0,Name,Age,Name.1,Age.1
0,Петр,19,Мария,20
1,Иван,22,Анастасия,18


In [None]:
df1 = pd.DataFrame([['Петр', 19], ['Иван', 22]], columns=['Name', 'Age'])
df2 = pd.DataFrame([['MIPT'], ['MIPT']], columns=['University'])

pd.concat([df1, df2], axis=1) 

Unnamed: 0,Name,Age,University
0,Петр,19,MIPT
1,Иван,22,MIPT


## Импорт данных

Для создания DataFrame можно использовать внешние данные, например из файлов .csv или  .xlsx.

**CSV** (Comma-Separated Values — значения, разделённые запятыми) — текстовый формат, предназначенный для представления табличных данных.

Каждая строка - это отдельная строка таблицы, а столбцы отделены один от другого специальными символами - разделителями (например, запятой).

Для загрузки .csv файла с данными в pandas используется функция **read_csv()**.

У функции есть ряд ключевых параметров:
- filepath_or_buffer - путь к файлу, который необходимо считать
- sep - Используемый разделитель

По умолчанию предполагается, что поля разделены запятыми.

In [None]:
import pandas as pd

df = pd.read_csv("my_fires_dataframe.csv", sep=',')

Существует анологичная функция для чтения данных с Excel.

In [None]:
import pandas as pd

df = pd.read_excel("my_fires_dataframe.xlsx")

## Экспорт данных

DataFrame и Series можно сохранять в виде файлов .csv и .xlsx

`DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)`

- path_or_buf - пусть к файлу 
- sep - Строка длиной 1. Разделитель полей для выходного файла.

Чтобы записать отдельный объект в файл Excel .xlsx, необходимо только указать имя целевого файла. Для записи на несколько листов необходимо создать объект ExcelWriter с именем целевого файла и указать лист в файле для записи.

`DataFrame.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None)`

In [None]:
d = [{"Name": "Виктор", "Age": 18},
     {"Name": "Мария", "Age": 21},
     {"Name": "Иван", "Age": 19},
     {"Name": "Иван", "Age": 25},
     {"Name": "Алексей", "Age": 20}]

df = pd.DataFrame(d)

df.to_csv("my.csv")
df.to_excel("my_excel.xlsx")

## Домашнее задание

Сегодня на занятиии мы с вами рассмотрим данные с олимпиады НТИ по профилю "Исскусственный интеллект" за 2019-2020 год.

Задачу можно найти по ссылке:

https://www.kaggle.com/c/onti-students-performance/data

### **Как загрузить данные в Google Colab?**

1. Из Github (файлы <25 МБ)
2. С локального диска
3. С Google Диска

In [None]:
# Github
# 1. Нажмите на файл с данными, которые хотите подключить
# 2. Нажмите "Raw"
# 3. Скопируйте ссылку открывшейся старницы
import pandas as pd

url = 'https://raw.githubusercontent.com/Adelaaas/Data_science_basic_22-23_1/main/class_work_4_Pandas/ONTI%20Students%20performance/X_train.csv'
df1 = pd.read_csv(url)

df1.head()

Unnamed: 0.1,Unnamed: 0,STD_ID,НАПРАВЛЕНИЕ,ГОД,КУРС,СЕМЕСТР,АТТЕСТАЦИЯ,ДИСЦИПЛИНА
0,51081,175711,38.03.02 Менеджмент,2018-2019,2.0,4.0,Экзамен,Маркетинг
1,72921,100647,31.05.01 Лечебное дело,2015-2016,3.0,5.0,Экзамен,"Пропедевтика внутренних болезней, лучевая диаг..."
2,96438,199311,31.05.03 Стоматология,2019-2020,1.0,1.0,Экзамен,Химия
3,273044,162002,38.03.02 Менеджмент,2017-2018,2.0,3.0,Экзамен,Статистика
4,371309,108384,31.05.01 Лечебное дело,2018-2019,5.0,9.0,Экзамен,Педиатрия


In [None]:
# С локального компьютера

from google.colab import files
uploaded = files.upload()

Saving studs_info.csv to studs_info.csv
Saving X_train.csv to X_train.csv
Saving y_train.csv to y_train.csv
Saving zachety.csv to zachety.csv


In [None]:
studs_info = pd.read_csv('studs_info.csv')
X_train = pd.read_csv('X_train.csv')
y_train = pd.read_csv('y_train.csv')
zachety = pd.read_csv('zachety.csv')

In [None]:
# Google disk

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
path = "copied path"
# /content/drive/MyDrive/Data Science для школьников/ОНТИ /ONTI Students performance/X_train.csv
df_bonus = pd.read_csv(path)