# Датафрейм и серии
Датафрейм и серии представляют собой два основных объекта библиотеки pandas, использующихся на протяжении этой книги. В этой главе мы узнаем, как считывать данные в датафрейм и понимать его компоненты. Мы также узнаем, как выбрать одну колонку из датафрейма (такая колонка называется серией) и понимать ее компоненты. 

# 2.1 Чтение внешних данных с помощью pandas
Еденственная вещь, которая тебе нужна для анализа – данные. Если у тебя нет данных, то ты не сможешь использовать pandas для анализа. Эта книга содержит много наборов данных, хранящихся в директории данных на один уровень выше этого файла ("ноутбука"). Большинство этих наборов данных хранится в формате **.csv**. Эти CSV-файлы считываются человеком, а каждый отдельный фрагмент данных разделен запятой. Запятая обозначается понятием "разделитель". Несмотря на это, CSV-файлы могут использовать и другие односимвольные разделители, помимо запятых.  
  
### Велопробег в городе Чикаго
Мы начинаем наше путешествие в анализ данных с публичного набора данных о велопробеге города Чикаго. Данные содержатся в файле **bikes.csv**. В нем содержится около 50000 зарегистрированных велосипедистов с 2013 по 2017 год. Каждая строка набора данных представляет собой одну поездку, совершенную одним человеком с использованием общественных велосипедных станций города. Также имеется 19 колонок, которые содержат информацию о половой принадлежности пользователя, времени начала поездки, продолжительности поездки, названии велосипедной остановки, температуре, скорости ветра и так далее. Давайте выведем первые три строки из **bikes.csv**, используя встроенные возможности Python для чтения файлов. Обратите внимание на запятые, разделяющие значения в каждой строке.

In [1]:
 with open('../data/bikes.csv') as f:
        for i in range(3):
            print(f.readline())

trip_id,usertype,gender,starttime,stoptime,tripduration,from_station_name,latitude_start,longitude_start,dpcapacity_start,to_station_name,latitude_end,longitude_end,dpcapacity_end,temperature,visibility,wind_speed,precipitation,events

7147,Subscriber,Male,2013-06-28 19:01:00,2013-06-28 19:17:00,993,Lake Shore Dr & Monroe St,41.88105,-87.61697,11.0,Michigan Ave & Oak St,41.90096039,-87.62377664,15.0,73.9,10.0,12.7,-9999.0,mostlycloudy

7524,Subscriber,Male,2013-06-28 22:53:00,2013-06-28 23:03:00,623,Clinton St & Washington Blvd,41.883379999999995,-87.64116999999996,31.0,Wells St & Walton St,41.89993001,-87.63443007,19.0,69.1,10.0,6.9,-9999.0,partlycloudy



### Общие сведения о расположении файла
Выше была строка **'data/bikes.csv'**, которая использовалась для предоставления пути к файлу с данными. Это расположение относится папки, в которой находится этот файл ("ноутбук") на компьютере. Давайте разберем по частям эти строки, чтобы быть уверенными в их понимании.  
  
Путь к файлу начинается с двоеточия **..**. Это значит, что мы переходим на уровень выше относительно текущей директории. Далее в строке появляется **/data**, что означает даленейший переход в папку **data**.  
  
Обратите внимание, что передний слеш был записан для разделения дерикторий. И операционная система macOS, и Linux используют передний слеш для разделения директорий и файлов друг от друга. С другой стороны, операционная система Windows использует обратный слеш. К счастью, мы можем всегда использовать прямой слеш независимо от нашей операционной системы, так как Python будет автоматически обрабатывать путь к файлу за нас.  
  
Строка заканчивается на **/bikes.csv**, что означает "ссылка на файл под названием **bikes.csv**". Таким образом, расположение файла **../data/bikes.csv** соответствует расположению набора данных. 

# Подключение библиотеки pandas
Для использования библиотеки pandas, нам необходимо импортировать ее в наше пространство имен. Согласно общепринятому правилу, pandas импортируется и переименовывается на имя **pd**. После выполнения следующей инструкции подключения библиотеки, у нас появится доступ ко всем объектам pandas через **pd**. В качестве псевдонима можно использовать любое допустимое имя переменной, но лучше всего использовать **pd**, так как данное сокращение используется в официальной документации. 

In [2]:
import pandas as pd

# Чтение CSV-файла с помощью метода read_csv
Pandas предоставляет метод **read_csv** для чтения CSV-файлов и представления их в датафрейм. Первый аргумент передает методу **read_csv** путь к файлу в виде строки относительно текущей директории, которая совпадает со строкой ранее. Давайте вызовем этот метод и прочтем наши данные.

In [3]:
bikes = pd.read_csv('../data/bikes.csv')

# Отображение датафрейма в Jupyter Notebook
Переменная **bikes** содержит ссылку на выходные данные метода **read_csv**, датафрейм. Для визуализации датафрейма необходимо поместить имя переменной в качестве последней строки в ячейке кода. По умолчанию pandas выводит 60 строк и 20 столбцов.  
  
### Методы head и tail
Наиболее используемым и простым методом является **head**, который по умолчанию возвращает первые 5 строк датафрейма. Этот метод предотвращает длинный вывод данных по умолчанию и настоятельно рекомендуется при анализе данных в ноутбуке. Метод **tail** по умолчанию возвращает последние 5 строк. В книге будет мало случаев, когда метод **head** не будет использоваться, так как отображение 60 строк займет слишком ного места на экране.

In [4]:
bikes.head()

Unnamed: 0,trip_id,usertype,gender,starttime,stoptime,tripduration,from_station_name,latitude_start,longitude_start,dpcapacity_start,to_station_name,latitude_end,longitude_end,dpcapacity_end,temperature,visibility,wind_speed,precipitation,events
0,7147,Subscriber,Male,2013-06-28 19:01:00,2013-06-28 19:17:00,993,Lake Shore Dr & Monroe St,41.88105,-87.61697,11.0,Michigan Ave & Oak St,41.90096,-87.623777,15.0,73.9,10.0,12.7,-9999.0,mostlycloudy
1,7524,Subscriber,Male,2013-06-28 22:53:00,2013-06-28 23:03:00,623,Clinton St & Washington Blvd,41.88338,-87.64117,31.0,Wells St & Walton St,41.89993,-87.63443,19.0,69.1,10.0,6.9,-9999.0,partlycloudy
2,10927,Subscriber,Male,2013-06-30 14:43:00,2013-06-30 15:01:00,1040,Sheffield Ave & Kingsbury St,41.909592,-87.653497,15.0,Dearborn St & Monroe St,41.88132,-87.629521,23.0,73.0,10.0,16.1,-9999.0,mostlycloudy
3,12907,Subscriber,Male,2013-07-01 10:05:00,2013-07-01 10:16:00,667,Carpenter St & Huron St,41.894556,-87.653449,19.0,Clark St & Randolph St,41.884576,-87.63189,31.0,72.0,10.0,16.1,-9999.0,mostlycloudy
4,13168,Subscriber,Male,2013-07-01 11:16:00,2013-07-01 11:18:00,130,Damen Ave & Pierce Ave,41.909396,-87.677692,19.0,Damen Ave & Pierce Ave,41.909396,-87.677692,19.0,73.0,10.0,17.3,-9999.0,partlycloudy


Последние 5 строк датафрейма могут быть выведены с помощью метода **tail**

In [5]:
bikes.tail()

Unnamed: 0,trip_id,usertype,gender,starttime,stoptime,tripduration,from_station_name,latitude_start,longitude_start,dpcapacity_start,to_station_name,latitude_end,longitude_end,dpcapacity_end,temperature,visibility,wind_speed,precipitation,events
50084,17534938,Subscriber,Male,2017-12-30 13:07:00,2017-12-30 13:34:00,1625,State St & Pearson St,41.897448,-87.628722,27.0,Clark St & Elm St,41.902973,-87.63128,27.0,5.0,10.0,16.1,-9999.0,partlycloudy
50085,17534969,Subscriber,Male,2017-12-30 13:34:00,2017-12-30 13:44:00,585,Halsted St & 35th St (*),41.830661,-87.647172,16.0,Union Ave & Root St,41.819102,-87.643278,11.0,5.0,10.0,16.1,-9999.0,partlycloudy
50086,17534972,Subscriber,Male,2017-12-30 13:34:00,2017-12-30 13:48:00,824,Kingsbury St & Kinzie St,41.889177,-87.638506,31.0,Halsted St & Blackhawk St (*),41.908537,-87.648627,20.0,5.0,10.0,16.1,-9999.0,partlycloudy
50087,17535645,Subscriber,Female,2017-12-31 09:30:00,2017-12-31 09:33:00,178,Clinton St & Lake St,41.885637,-87.641823,23.0,Kingsbury St & Kinzie St,41.889177,-87.638506,31.0,7.0,10.0,11.5,-9999.0,partlycloudy
50088,17536246,Subscriber,Male,2017-12-31 15:22:00,2017-12-31 15:26:00,214,Clarendon Ave & Leland Ave,41.967968,-87.650001,15.0,Clifton Ave & Lawrence Ave,41.968812,-87.657659,15.0,10.9,10.0,15.0,-9999.0,partlycloudy


### Первые и последние n строк
Пара методов **head** и **tail** получает на вход единственный целочисленный параметр **n**, контролирующий количество выводимых строк. Здесь мы выведем первые три строки.

In [6]:
bikes.head(3)

Unnamed: 0,trip_id,usertype,gender,starttime,stoptime,tripduration,from_station_name,latitude_start,longitude_start,dpcapacity_start,to_station_name,latitude_end,longitude_end,dpcapacity_end,temperature,visibility,wind_speed,precipitation,events
0,7147,Subscriber,Male,2013-06-28 19:01:00,2013-06-28 19:17:00,993,Lake Shore Dr & Monroe St,41.88105,-87.61697,11.0,Michigan Ave & Oak St,41.90096,-87.623777,15.0,73.9,10.0,12.7,-9999.0,mostlycloudy
1,7524,Subscriber,Male,2013-06-28 22:53:00,2013-06-28 23:03:00,623,Clinton St & Washington Blvd,41.88338,-87.64117,31.0,Wells St & Walton St,41.89993,-87.63443,19.0,69.1,10.0,6.9,-9999.0,partlycloudy
2,10927,Subscriber,Male,2013-06-30 14:43:00,2013-06-30 15:01:00,1040,Sheffield Ave & Kingsbury St,41.909592,-87.653497,15.0,Dearborn St & Monroe St,41.88132,-87.629521,23.0,73.0,10.0,16.1,-9999.0,mostlycloudy


# 2.2 Компоненты датафрейма
Датафрейм составлен из трёх отдельных основных компонент – колонки, индексы, данные. Эти термины будут использоваться на протяжении всей книги, а понимание их важно для использования библиотеки pandas. В приведенном ниже рисунке наш датафрейм **bikes** стилизован так, чтобы сделать акцент на каждой основной компоненте.

### Колонки
Колонки можно именовать, а их названия всегда отображены жирным шрифтом над данными. Колонка – одиночная вертикальная последовательность данных. В вышепреведенном датафрейме имя столбца **tripduration** ссылается на все значения в этом столбце (993, 623, 1040, ...)  
  
Столбцы также называются   
  
Большинство датафреймов, таких, как выше, используют строки для именования, но также возможно для этого использовать и другие типы, даже целочисленные. Наименования колонок не должны быть уникальными, хотя наличие повторяющихся столбцов было бы некорректным, так как необходимо иметь возможность уникальной идентификации каждого столбца.  
  
### Индекс
Индекс – метка для каждой строки и всегда отображается слева от данных. Строка – горизонтальная последовательность данных. Например, используя индекс с меткой 3 получаем все значения этой строки (12907, Subscriber, Male, ...)  
  
Индекс также называют именами/метками индекса или именами/метками строк с отдельными значениями.  
  
В вышеупомянутом датафрейме, индексом является целочисленная последовательность от нуля. Значения индекса можно задвать не только целыми числами. Тип **string** тоже можно использовать в качестве индекса, что делает его более информативным.  
  
Удивительно, но значения индексов не обязательно должны быть уникальными. Действительно, значения всех индексов могут совпадать. Метка строки не гарантирует сопоставление "один к одному" с одной конкретной строкой.  
  
### Данные  
Сами данные расположены справа от индексов и снизу от наименований колонок и всегда имеют обычный шрифт. Данные также называют значениями. Данные содержат все значения колонок. Важно отметить, что наименования индексов и колонк не являются частью данных. Они представляют собой отдельные объекты, выполняющие роль меток для строк или столбцов.  
  
### Направление оси  
Также индексы и колонки одновременно называют осями (axes) датафрейма. Если "axes = 0", то имеются ввиду индексы, если "axes = 1", то колонки.

# 2.3 Какого типа объект bikes?
Давайте убедимся с помощью функции **type**, что bikes является объектом датафрейм.

In [7]:
type(bikes)

pandas.core.frame.DataFrame

### Полностью определенное имя  
Результат, выведенный в предыдущей ячейке называется полным именем (fully-qualified name). Только последнее слово после точки является наименованием типа. Теперь мы убеждены, что переменная **bikes** имеет тип датафрейм. Полностью определенное имя всегда выводит наименования пакета и модуля, где определен этот тип. Имя пакета является первой частью полностью определенного имени, в данном примере это **pandas**. Имя модуля находится непосредственно перед именем типа. В данном случае это **frame**  
  
### Пакет и Модуль
Питоновский пакет – директория, содержащая другие директории или модули, которые содержат код на питоне. Питоновский модуль – файл (обычный текстовый файл, оканчивающийся на .py), содержащий код на питоне.  
  
### Подпакеты
Любая директория, содержащая другие директории или модули в пакете Python, считается подпакетом. В этом случае, ядром является подпакет.  
  
### Где расположены пакеты на моем компьютере?
Пакеты сторонних разработчиков устанавливаются в директорию **site-packages**, которая автоматически создается при установке Python. Фактическое местоположение можно получить с помощью функции **getsitepackages** из библиоткеки **site**.

In [8]:
import site
site.getsitepackages()

['/Users/Sergey/anaconda3/lib/python3.7/site-packages']

Если Вы перейдете в полученную директорию вашей файловой системы, то вы там найдете папку "pandas". Внутри нее будет лежать папка "core", которая будет содержать файл "frame.py". Именно этот файл содержит Python-код, в котором определен класс DataFrame

# 2.4 Выделение одного столбца (Series) из DataFrame  
Для выбора одного столбца из DataFrame, необходимо добавить пару квадратных скобок, [], после переменной, ссылающейся на DataFrame. Для выбора столбца необходимо записать его имя в эти скобки. Таким образом мы получим один столбец из набора данных - пандасовскую серию (pandas Series). Это отдельный тип объекта, но похожий на DataFrame.  
  
Давайте выберем столбец с названием **tripduration** и выведем несколько первых значений на экран. Методы **tail** и **head** работают точно также, как и с объектами DataFrame.

In [10]:
td = bikes['tripduration']
td.head()

0     993
1     623
2    1040
3     667
4     130
Name: tripduration, dtype: int64

Теперь посмотрим на последние три значения серии, передав методу **tail** целочисленное значение 3

In [11]:
td.tail(3)

50086    824
50087    178
50088    214
Name: tripduration, dtype: int64

# 2.5 Компоненты Series  
Объект Series похож на DataFrame, но является одномерным типом данных. У него есть две компоненты – индекс и сами данные. Давайте рассмотрим визуальную составляющую Series.

Важно отметить, что Series не имеет ни строк, ни столбцов. Внешне он напоминает одиночную колонку DataFrame, но технически столбцов не имеет, а только последовательность значений, которые помечены индексом.

### Индекс  
Индекс в Series служит в качестве метки для значения. Одна метка всегда ссылается только на одно значение. На ранее представленной картинке индекс с меткой **3** соответствует значению 667. Индекс объекта Series практически идентичен индексу объекта DataFrame, таким образом, к нему применяются те же правила. Индексы могут повторяться и могут быть не только числовыми, но и строковыми.

### Сравнение вывода Series и DataFrame  
Обратите внимание на отсутствие хорошего стиля оформления вывода Series. Это просто текст. Под выводом Series, вы можете заметить несколько других элементов на экране – имя(name), длина(length), тип данных(dtype). Эти элементы не являются частью Series, а являются дополнительной информацией к ней, которая помогает понять Series.  

 - Имя на данный момент не столь важная информация. Если Series сформирована из столбца DataFrame, то имя будет совпадать с названием столбца.
 - Длина – количество значений в Series
 - dtype - тип хранимых данных в Series. Более подробно будет рассмотрено в следующей главе.

# 2.6 Изменение настроек отображения  
Pandas дает вам возможность изменять способ отображения выходных данных на экране. Например, по умолчанию при отображении DataFrame выводится на экран 20 колонок. Это значит, что если ваш DataFrame содержит более 20 столбцов, то только первые и последние 10 столбцов будут показаны на экране. Все остальные столбцы будут скрыты и не могут быть отображены. Это представляет собой некоторую проблему, по скольку многие датафреймы (DataFrames)имеют более 20 столбцов.

### Просмотр текущих параметров вывода DataFrame с помощью функции get_option  
Существует несколько десятков настраиваемых парметров отображения вашего DataFrame. Не обязательно запоминать все названия параметров, так как в официальной документации содержатся описания всех доступных параметров.  
  
Давайте для начала узнаем, как извлечь значение каждого параметра с помощью функции **get_option**. Это не метод DataFrame, а функция, доступ к которой осуществляется непосредственно из pandas (pd). Ниже представлены три наиболее распространенных параметра.

In [12]:
pd.get_option('display.max_columns')

20

In [13]:
pd.get_option('display.max_rows')

60

In [14]:
pd.get_option('display.max_colwidth')

50

### Изменение параметров вывода DataFrame с помощью функции set_option  
Изменить параметы вывода можно с помощью функции set_option. Вы можете задать любое количество параметров, что выглядит немного странно. Необходимо передать функции название параметра в виде строки и следом за ней значение, которое вы хотите присвоить данному параметру. Таким образом можно настроить любое количество новых параметров. В следующем примере мы задаем максимальное количество столбцов, равное 100, и максимальное количество строк, равное 4

In [15]:
pd.set_option('display.max_columns', 100, 'display.max_rows', 4)

Теперь мы прочтем набора данных **housing**, содержащий 81 столбец, каждый их которых будет выведен на экран.

In [16]:
housing = pd.read_csv('../data/housing.csv')
housing.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,LandSlope,Neighborhood,Condition1,Condition2,BldgType,HouseStyle,OverallQual,OverallCond,YearBuilt,YearRemodAdd,RoofStyle,RoofMatl,Exterior1st,Exterior2nd,MasVnrType,MasVnrArea,ExterQual,ExterCond,Foundation,BsmtQual,BsmtCond,BsmtExposure,BsmtFinType1,BsmtFinSF1,BsmtFinType2,BsmtFinSF2,BsmtUnfSF,TotalBsmtSF,Heating,HeatingQC,CentralAir,Electrical,1stFlrSF,2ndFlrSF,LowQualFinSF,GrLivArea,BsmtFullBath,BsmtHalfBath,FullBath,HalfBath,BedroomAbvGr,KitchenAbvGr,KitchenQual,TotRmsAbvGrd,Functional,Fireplaces,FireplaceQu,GarageType,GarageYrBlt,GarageFinish,GarageCars,GarageArea,GarageQual,GarageCond,PavedDrive,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,Gtl,CollgCr,Norm,Norm,1Fam,2Story,7,5,2003,2003,Gable,CompShg,VinylSd,VinylSd,BrkFace,196.0,Gd,TA,PConc,Gd,TA,No,GLQ,706,Unf,0,150,856,GasA,Ex,Y,SBrkr,856,854,0,1710,1,0,2,1,3,1,Gd,8,Typ,0,,Attchd,2003.0,RFn,2,548,TA,TA,Y,0,61,0,0,0,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,Gtl,Veenker,Feedr,Norm,1Fam,1Story,6,8,1976,1976,Gable,CompShg,MetalSd,MetalSd,,0.0,TA,TA,CBlock,Gd,TA,Gd,ALQ,978,Unf,0,284,1262,GasA,Ex,Y,SBrkr,1262,0,0,1262,0,1,2,0,3,1,TA,6,Typ,1,TA,Attchd,1976.0,RFn,2,460,TA,TA,Y,298,0,0,0,0,0,,,,0,5,2007,WD,Normal,181500
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,Gtl,Crawfor,Norm,Norm,1Fam,2Story,7,5,1915,1970,Gable,CompShg,Wd Sdng,Wd Shng,,0.0,TA,TA,BrkTil,TA,Gd,No,ALQ,216,Unf,0,540,756,GasA,Gd,Y,SBrkr,961,756,0,1717,1,0,1,0,3,1,Gd,7,Typ,1,Gd,Detchd,1998.0,Unf,3,642,TA,TA,Y,0,35,272,0,0,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,Gtl,NoRidge,Norm,Norm,1Fam,2Story,8,5,2000,2000,Gable,CompShg,VinylSd,VinylSd,BrkFace,350.0,Gd,TA,PConc,Gd,TA,Av,GLQ,655,Unf,0,490,1145,GasA,Ex,Y,SBrkr,1145,1053,0,2198,1,0,2,1,4,1,Gd,9,Typ,1,TA,Attchd,2000.0,RFn,3,836,TA,TA,Y,192,84,0,0,0,0,,,,0,12,2008,WD,Normal,250000


# 2.7 Задания  
Используй DataFrame **bikes** для следующих упражнений.

### Упражнение 1  
Выбери столбец **events** и тип зарегистрированной погоды и создай переменную с таким же именем. Выведи первые 10 значений.

### Управжнение 2  
Какого типа объект **events**?

### Упражнение 3  
Выбери последние две строки из DataFrame **bikes** и присвой их переменной **bikes_last_2**. Какого типа объект **bikes_last_2**?

### Упражнение 4  
Примени **pd.reset_option('all')** для возвращения параметров к настройкам по умолчанию. Убедись, что все вернулось.