**Pandas** — одна из популярных библиотек для работы с данными и их удобного представления в виде таблиц.

Эта библиотека станет нашей основой для погружения в машиное обучение.

Поскольку библиотека Pandas не встроена в Python по умолчанию, её необходимо импортировать. Чаще всего Pandas импортируют под псевдонимом pd:



In [None]:
import pandas as pd

### Новый тип данных **Series**


* — это структура данных, которую можно рассматривать как одну колонку таблицы, одномерный массив.

Создадим Series, где будут содержаться названия первых четырёх месяцев года, и передадим их в виде списка:

      

In [None]:
data = pd.Series(["Январь", "Февраль", "Март", "Апрель"],
             index = ['Первый', "Второй", "Третий", "Четвёртый"])

In [None]:
data

Первый        Январь
Второй       Февраль
Третий          Март
Четвёртый     Апрель
dtype: object

Доступ осуществляется с использованием .loc или .iloc.

* **.loc** принимает определенные метки из индекса, например:

In [None]:
data.loc[["Первый", "Третий"]]

Первый    Январь
Третий      Март
dtype: object

.loc можно опустить и писать напрямую.



In [None]:
data["Первый"]

'Январь'

In [None]:
data[["Первый", "Третий"]]

Первый    Январь
Третий      Март
dtype: object

.iloc принимает на вход порядковые номера элементов Series, например:


In [None]:
data.iloc[0]

'Январь'

In [None]:
data.iloc[[0,3]]

Первый       Январь
Четвёртый    Апрель
dtype: object

.iloc в коде так же можно опустить

In [None]:
data[[0,3]]

Первый       Январь
Четвёртый    Апрель
dtype: object

Если в .loc передать название индекса, а в .iloc номер индекса, которого в данных нет, возникнет ошибка.

### Новый тип данных **DataFrame**

![](https://sun9-67.userapi.com/s/v1/if2/hK4VFO3gHtZvHg_j6zbc23EhGIN0THvqNMadlyItQ2GVJbu1wWz0yBrvhqjU9XDW_ooyYP8cr3FBWdelRL46DxP2.jpg?size=285x113&quality=96&type=album)

Объект **DataFrame** лучше всего объяснять на примере обычной таблицы. В таблице есть строки и столбцы. Столбцами в объекте **DataFrame** выступают объекты **Series**, а их элементы будут строками.

Создать **DataFrame** проще всего из словаря:


In [None]:
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})

df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [None]:
d = {'col1': pd.Series([1, 2, 3, 4]), 'col2': pd.Series([5, 6, 7, 8])}
df = pd.DataFrame(data=d)


df

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


In [None]:
df = pd.DataFrame({'столбец 1': [1, 2], 'столбец 2': [3, 4]}, index=['строка 1', 'строка 2'])

df

Unnamed: 0,столбец 1,столбец 2
строка 1,1,3
строка 2,2,4


In [None]:
df['столбец 1']

строка 1    1
строка 2    2
Name: столбец 1, dtype: int64

In [None]:
df.iloc[0]

столбец 1    1
столбец 2    3
Name: строка 1, dtype: int64

In [None]:
# доступ к конретреной ячейке

df.iloc[0][1]

3

#### **Новая функция**

**read_csv()** - считать новый датасет

Некоторые параметры функции read_csv:
* sep — разделитель данных, по умолчанию ',' ;
* decimal — разделитель числа на целую и дробную часть, по умолчанию '.' ;
* names — список с названиями колонок, необязательный параметр;
* index_col - какая строчка станет индексом датафрейма


In [None]:
df = pd.read_csv("https://ai-academy.ru/upload/files/football.csv")

In [None]:
type(df)

pandas.core.frame.DataFrame

In [None]:
df.head(20)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
5,5,E. Hazard,27,Belgium,Chelsea,93000000,340000,LF,81,84,...,86,91,34,27,22,11,12,6,8,8
6,6,L. Modrić,32,Croatia,Real Madrid,67000000,420000,RCM,86,72,...,82,84,60,76,73,13,9,7,14,9
7,7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS,77,93,...,85,85,62,45,38,27,25,31,33,37
8,8,Sergio Ramos,32,Spain,Real Madrid,51000000,380000,RCB,66,60,...,75,82,87,92,91,11,8,9,7,11
9,9,J. Oblak,25,Slovenia,Atlético Madrid,68000000,94000,GK,13,11,...,11,70,27,12,18,86,92,78,88,89


In [None]:
df = pd.read_csv("https://ai-academy.ru/upload/files/football.csv", index_col = 0)

In [None]:
df.head()

Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,70,...,75,96,33,28,26,6,11,15,14,8
1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,89,...,85,95,28,31,23,7,11,15,14,11
2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,62,...,81,94,27,24,33,9,9,15,15,11
3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,21,...,40,68,15,21,13,90,85,87,88,94
4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,55,...,79,88,68,58,51,15,13,5,10,13


### Функции и параметры для анализа набора данных

**.shape** - возвращает кортеж из числа строк и столбцов у df

**.columns** - возвращает коллекцию с названиями колонок

**.info()** - базовая информация о всех строках в датасете

In [None]:
df.shape

(12897, 42)

In [None]:
df.columns

Index(['Unnamed: 0', 'Name', 'Age', 'Nationality', 'Club', 'Value', 'Wage',
       'Position', 'Crossing', 'Finishing', 'HeadingAccuracy', 'ShortPassing',
       'Volleys', 'Dribbling', 'Curve', 'FKAccuracy', 'LongPassing',
       'BallControl', 'Acceleration', 'SprintSpeed', 'Agility', 'Reactions',
       'Balance', 'ShotPower', 'Jumping', 'Stamina', 'Strength', 'LongShots',
       'Aggression', 'Interceptions', 'Positioning', 'Vision', 'Penalties',
       'Composure', 'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving',
       'GKHandling', 'GKKicking', 'GKPositioning', 'GKReflexes'],
      dtype='object')

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12897 entries, 0 to 12896
Data columns (total 42 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       12897 non-null  int64 
 1   Name             12897 non-null  object
 2   Age              12897 non-null  int64 
 3   Nationality      12897 non-null  object
 4   Club             12897 non-null  object
 5   Value            12897 non-null  int64 
 6   Wage             12897 non-null  int64 
 7   Position         12897 non-null  object
 8   Crossing         12897 non-null  int64 
 9   Finishing        12897 non-null  int64 
 10  HeadingAccuracy  12897 non-null  int64 
 11  ShortPassing     12897 non-null  int64 
 12  Volleys          12897 non-null  int64 
 13  Dribbling        12897 non-null  int64 
 14  Curve            12897 non-null  int64 
 15  FKAccuracy       12897 non-null  int64 
 16  LongPassing      12897 non-null  int64 
 17  BallControl      12897 non-null