# Чтение файлов с помощью Pandas

In [5]:
import pandas as pd

За чтение файлов форматов Excel, таких как xlsx, xls, odf и других, отвечает функция pd.read_excel():

In [6]:
help(pd.read_excel)

Help on function read_excel in module pandas.io.excel._base:

read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, mangle_dupe_cols=True)
    Read an Excel file into a pandas DataFrame.
    
    Supports `xls`, `xlsx`, `xlsm`, `xlsb`, `odf`, `ods` and `odt` file extensions
    read from a local filesystem or URL. Supports an option to read
    a single sheet or a list of sheets.
    
    Parameters
    ----------
    io : str, bytes, ExcelFile, xlrd.Book, path object, or file-like object
        Any valid string path is acceptable. The string could be a URL. Valid
        URL schemes include http, ftp, s3, and file. For file URLs, a host is
        expected. A local file c

Функции в качестве пути к файлу передадим только название 'partner_data.xlsx'. 

В параметре `sheet_name` передадим название листа 'partner_data1'. 

Для параметра `header` укажем значение 0 (по умолчанию метки столбцов берутся из первой по счёту строки, которой соответствует нулевой индекс, поэтому передача параметра в данном случае также не обязательна).

Документация по `pd.read_excel`: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html


In [7]:
df = pd.read_excel('partner_data.xlsx', sheet_name='partner_data1', header=0)
df

Unnamed: 0,id,age,job,marital,education,balance,housing,loan,default
0,1,26.0,unemployed,married,tertiary,454,yes,yes,no
1,2,25.0,technician,married,secondary,517,no,no,no
2,3,36.0,technician,single,secondary,1044,yes,no,no
3,4,45.0,blue-collar,married,secondary,146,yes,yes,no
4,5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...,...
995,996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
996,997,58.0,management,married,tertiary,1271,yes,no,no
997,998,31.0,services,single,secondary,297,no,no,no
998,999,31.0,entrepreneur,,tertiary,312,no,no,no


Размер таблицы уже распечатан под датафреймом, но мы можем проверить это отдельно:

In [8]:
df.shape

(1000, 9)

На первой позиции количество строк, на второй – столбцов.

Имена колонок df:

In [9]:
df.columns

Index(['id', 'age', 'job', 'marital', 'education', 'balance', 'housing',
       'loan', 'default'],
      dtype='object')

Столбец `index` (первый безымянный столбец в датафрейме) создаётся автоматически, содержит уникальный идентификатор для каждой строки и служит для нумерации строк в таблице, подобно столбцу `id`. Столбец может содержать не только числа, но и другие уникальные значения, например, строки. Чтобы посмотреть значения вспомогательного столбца необходимо прописать:

In [10]:
df.index

RangeIndex(start=0, stop=1000, step=1)

Чтобы обозначить столбец `id` в качестве столбца индексов, используем параметр `index_col`: 

In [11]:
df = pd.read_excel('partner_data.xlsx', sheet_name='partner_data1', header=0, index_col='id')
df

Unnamed: 0_level_0,age,job,marital,education,balance,housing,loan,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,26.0,unemployed,married,tertiary,454,yes,yes,no
2,25.0,technician,married,secondary,517,no,no,no
3,36.0,technician,single,secondary,1044,yes,no,no
4,45.0,blue-collar,married,secondary,146,yes,yes,no
5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...
996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
997,58.0,management,married,tertiary,1271,yes,no,no
998,31.0,services,single,secondary,297,no,no,no
999,31.0,entrepreneur,,tertiary,312,no,no,no


Метод `head` по умолчанию распечатывает первые 5 строк, метод `tail`  —  последние 5. 


In [12]:
df.head()

Unnamed: 0_level_0,age,job,marital,education,balance,housing,loan,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,26.0,unemployed,married,tertiary,454,yes,yes,no
2,25.0,technician,married,secondary,517,no,no,no
3,36.0,technician,single,secondary,1044,yes,no,no
4,45.0,blue-collar,married,secondary,146,yes,yes,no
5,27.0,management,married,tertiary,145,no,no,no


In [13]:
df.tail()

Unnamed: 0_level_0,age,job,marital,education,balance,housing,loan,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
997,58.0,management,married,tertiary,1271,yes,no,no
998,31.0,services,single,secondary,297,no,no,no
999,31.0,entrepreneur,,tertiary,312,no,no,no
1000,23.0,blue-collar,single,secondary,780,yes,no,no


Передадим 10  в `head`, чтобы распечатать первые 10 строк.

In [14]:
df.head(10)

Unnamed: 0_level_0,age,job,marital,education,balance,housing,loan,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,26.0,unemployed,married,tertiary,454,yes,yes,no
2,25.0,technician,married,secondary,517,no,no,no
3,36.0,technician,single,secondary,1044,yes,no,no
4,45.0,blue-collar,married,secondary,146,yes,yes,no
5,27.0,management,married,tertiary,145,no,no,no
6,45.0,unemployed,divorced,primary,11,no,no,yes
7,35.0,management,married,tertiary,298,yes,no,no
8,27.0,technician,single,secondary,905,yes,yes,no
9,,management,married,tertiary,-485,yes,no,yes
10,32.0,unemployed,married,secondary,10,yes,no,no


Для чтения файлов формата csv существует функция `pd.read_csv`:

In [15]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers:

read_csv(filepath_or_buffer: Union[str, pathlib.Path, IO[~AnyStr]], sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal: str = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)
    Read a comma-separated values (csv) file in

In [16]:
pd.read_csv('partner_data.csv')

Unnamed: 0,id,age,job,marital,education,balance,housing,loan,default
0,1,26.0,unemployed,married,tertiary,454,yes,yes,no
1,2,25.0,technician,married,secondary,517,no,no,no
2,3,36.0,technician,single,secondary,1044,yes,no,no
3,4,45.0,blue-collar,married,secondary,146,yes,yes,no
4,5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...,...
995,996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
996,997,58.0,management,married,tertiary,1271,yes,no,no
997,998,31.0,services,single,secondary,297,no,no,no
998,999,31.0,entrepreneur,,tertiary,312,no,no,no


Чтение файла 'partner_data_semicolon.csv' с разделителем `;`:

In [17]:
pd.read_csv('partner_data_semicolon.csv')

Unnamed: 0,id;age;job;marital;education;balance;housing;loan;default
0,1;26.0;unemployed;married;tertiary;454;yes;yes;no
1,2;25.0;technician;married;secondary;517;no;no;no
2,3;36.0;technician;single;secondary;1044;yes;no;no
3,4;45.0;blue-collar;married;secondary;146;yes;y...
4,5;27.0;management;married;tertiary;145;no;no;no
...,...
995,996;41.0;entrepreneur;married;secondary;-1882;...
996,997;58.0;management;married;tertiary;1271;yes;...
997,998;31.0;services;single;secondary;297;no;no;no
998,999;31.0;entrepreneur;;tertiary;312;no;no;no


Разделитель можно передать в параметре `sep` или `delimiter`:

In [18]:
pd.read_csv('partner_data_semicolon.csv', sep=';')

Unnamed: 0,id,age,job,marital,education,balance,housing,loan,default
0,1,26.0,unemployed,married,tertiary,454,yes,yes,no
1,2,25.0,technician,married,secondary,517,no,no,no
2,3,36.0,technician,single,secondary,1044,yes,no,no
3,4,45.0,blue-collar,married,secondary,146,yes,yes,no
4,5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...,...
995,996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
996,997,58.0,management,married,tertiary,1271,yes,no,no
997,998,31.0,services,single,secondary,297,no,no,no
998,999,31.0,entrepreneur,,tertiary,312,no,no,no


In [19]:
pd.read_csv('partner_data_semicolon.csv', delimiter=';')

Unnamed: 0,id,age,job,marital,education,balance,housing,loan,default
0,1,26.0,unemployed,married,tertiary,454,yes,yes,no
1,2,25.0,technician,married,secondary,517,no,no,no
2,3,36.0,technician,single,secondary,1044,yes,no,no
3,4,45.0,blue-collar,married,secondary,146,yes,yes,no
4,5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...,...
995,996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
996,997,58.0,management,married,tertiary,1271,yes,no,no
997,998,31.0,services,single,secondary,297,no,no,no
998,999,31.0,entrepreneur,,tertiary,312,no,no,no


Указываем столбец `id` как индекс:

In [20]:
df = pd.read_csv('partner_data_semicolon.csv', sep=';', index_col='id')
df

Unnamed: 0_level_0,age,job,marital,education,balance,housing,loan,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,26.0,unemployed,married,tertiary,454,yes,yes,no
2,25.0,technician,married,secondary,517,no,no,no
3,36.0,technician,single,secondary,1044,yes,no,no
4,45.0,blue-collar,married,secondary,146,yes,yes,no
5,27.0,management,married,tertiary,145,no,no,no
...,...,...,...,...,...,...,...,...
996,41.0,entrepreneur,married,secondary,-1882,yes,no,no
997,58.0,management,married,tertiary,1271,yes,no,no
998,31.0,services,single,secondary,297,no,no,no
999,31.0,entrepreneur,,tertiary,312,no,no,no


Для обращения к элементам таблицы — строкам и столбцам — существует два основных метода:
* .iloc — выбор элементов по индексу;
* .loc — выбор элементов по названию. 

Значение элемента на позиции [0,0]:

In [21]:
df.iloc[0,0]

26.0

Также в качестве индекса можно передать числовые срезы:


In [22]:
df.iloc[0:3, 0]

id
1    26.0
2    25.0
3    36.0
Name: age, dtype: float64

Полный срез для первого (нулевого) столбца:

In [23]:
df.iloc[:, 0]

id
1       26.0
2       25.0
3       36.0
4       45.0
5       27.0
        ... 
996     41.0
997     58.0
998     31.0
999     31.0
1000    23.0
Name: age, Length: 1000, dtype: float64

Полный срез для первой (нулевой) строки:


In [24]:
df.iloc[0, :]

age                  26
job          unemployed
marital         married
education      tertiary
balance             454
housing             yes
loan                yes
default              no
Name: 1, dtype: object

4 и 5 запись для 2 и 3 столбца, которыми являются семейное положение и образование:


In [25]:
df.iloc[4:6, 2:4]

Unnamed: 0_level_0,marital,education
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,married,tertiary
6,divorced,primary


Заменим `.iloc` на `.loc`:

In [26]:
df.loc[0,0]

KeyError: ignored

В `.loc` требуется передавать не индексы строк и столбцов, а их названия, поэтому пропишем явно индекс `id` — 1 и название колонки — 'age'.




In [27]:
df.loc[1, 'age']

26.0

При этом мы всё так же можем управлять срезами, передавая границы отрезков или запрашивая все значения.

In [28]:
df.loc[1:3, 'age']

id
1    26.0
2    25.0
3    36.0
Name: age, dtype: float64

In [29]:
df.loc[:, 'age']

id
1       26.0
2       25.0
3       36.0
4       45.0
5       27.0
        ... 
996     41.0
997     58.0
998     31.0
999     31.0
1000    23.0
Name: age, Length: 1000, dtype: float64

In [30]:
df.loc[5:6, 'marital':'education']

Unnamed: 0_level_0,marital,education
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,married,tertiary
6,divorced,primary


Обратите внимание: для выбора элементов по индексу правая граница отрезка отсекалась и не выводилась. При выборе элементов по названию всё иначе — значения обеих границ включаются в вывод.

Названия строк и столбцов можно также передать в списках: 

In [31]:
df.loc[[5,10], ['marital','default']]

Unnamed: 0_level_0,marital,default
id,Unnamed: 1_level_1,Unnamed: 2_level_1
5,married,no
10,married,no


Вывод значений целого столбца:



In [32]:
df['age']

id
1       26.0
2       25.0
3       36.0
4       45.0
5       27.0
        ... 
996     41.0
997     58.0
998     31.0
999     31.0
1000    23.0
Name: age, Length: 1000, dtype: float64

Если требуется получить значения по нескольких столбцам, нужно заключить названия столбцов в двойные квадратные скобки:

In [33]:
df[['age', 'marital']]

Unnamed: 0_level_0,age,marital
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,26.0,married
2,25.0,married
3,36.0,single
4,45.0,married
5,27.0,married
...,...,...
996,41.0,married
997,58.0,married
998,31.0,single
999,31.0,
