## Базовые структуры данных

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Для начала познакомимся с базовыми структурами данных. В Pandas их всего двe: _Series_ и _DataFrame_.

> __Series__ – одномерный массив, в котором может хранится любой тип данных

Пример создания объекта Series:

In [3]:
base1 = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
base1

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
dtype: int64

> DataFrame – двумерная структура данных, хранящая данные в виде двумерного массива или таблицы (похожей на ту, что в Excel)

Пример создания двух объектов DataFrame:

In [4]:
base2 = pd.DataFrame(np.random.randn(5,4),\
                      index = ['A', 'B', 'C', 'D', 'E'],\
                          columns = ['W', 'X', 'Y', 'Z'])
base2

Unnamed: 0,W,X,Y,Z
A,0.305405,0.61686,-0.608562,0.365858
B,-0.580549,0.855959,1.936875,1.092844
C,1.587333,0.413268,0.625869,-0.4474
D,-1.791953,1.624531,1.385438,1.340472
E,0.603651,-0.410443,1.471116,0.389615


In [5]:
base3 = pd.DataFrame([{ 'A': 1, 'B': 2, 'C': 3, 'D': 4},\
                       { 'A': 5, 'B': 6, 'C': 7, 'D': 8},\
                        { 'A': 9, 'B': 10, 'C': 11, 'D': 12}])
base3

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


## Загрузка данных

Первое, что делает любой аналитик – ~~20 минут лежит на кровати и обдумывает жизнь~~ загружает __датасет__.

 > Датасет – это набор данных, организованный в виде таблицы, где строки обычно соответствуют наблюдениям (записям), а столбцы - различным характеристикам (переменным или признакам). Датасеты обычно хранятся в файлах с расширениями csv, xlsx/xls и sql.

Pandas поддерживает загрузку через множество популярных расширений, но я рассмотрю функции для двух самых популярных – csv и xlsx.


__Файлы .csv (Comma-Separated Value)__ – один из самых популярных форматов хранения табличных данных. Мало того, что csv это обычный текстовый формат, который может открыть любой редактор текста (в отличие от бинарного или XML-формата у xls/xlsx), так он еще и обрабатывается быстрее и весит меньше!

### read_csv()



Файлы csv открываются с помощью __pandas.read_csv()__. В скобках можно указать полный путь к файлу, относительный путь к файлу, имя файла (если он находится в одной папке с тетрадкой), а также ссылку на файл из интернета.

Если ваш csv использует отличный от запятой разделитель, то используйте параметр __sep='разделитель'__. Если в вашем файле есть свой столбик с индексами, то его можно указать посредством аргумента **index_col='имя колонки'**. Остальные параметры можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas-read-csv).

In [None]:
df = pd.read_csv('https://drive.google.com/uc?export=download&id=1dLwh-PaDERYQJ32IQHUCCMyaCVdFq4ot', sep=',')

### read_excel()

Файлы Excel открываются функцией __pandas.read_excel()__. В скобках в качестве ссылки на файл можно указать все то же, что и для csv. Если в вашем файле несколько листов, то с помощью параметра __sheet_name__ вы сможете обратиться к определенному листу по его имени или номеру листа (нумерация начинается с нуля). Остальные параметры можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html#pandas-read-excel).

In [None]:
df2 = pd.read_excel('https://drive.google.com/uc?export=download&id=1yzKCpvNk3r5p0ZrBzxkqyiB6sxtZqpbX', sheet_name=0)

### Встроенные в seaborn датасеты


Если вам очень хочется потренироваться, то вам не нужно искать датасеты (хотя так тоже можно), – в модуле seaborn есть встроенные датасеты, которые можно подгрузить напрямую из модуля. Список всех датасетов в README [здесь](https://github.com/mwaskom/seaborn-data).

In [None]:
sns_df = sns.load_dataset('titanic')
sns_df.head() # эту функцию рассмотрим подробнее в следующем стэпе

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Просмотр данных

Далее, эти данные нам нужно посмотреть. Как же?


### df


Во-первых, можно просто обратиться к датасету по названию, тогда выведутся первые 15 и последние 15 его строк.

In [None]:
df

Unnamed: 0,Brand,Item ID,Ram(Gb),StoraGe(Gb),Price(Rs),Processor speed(GHz),Touch,Color,Weight,DisplAy size(Inch)
0,Apple,32,16.0,256.0,315000,2.2,No,Space grey,1.83,15.4
1,Apple,8,8.0,512.0,232000,3.2,No,Dark Black,1.29,13.3
2,Apple,32,16.0,1024.0,382000,2.3,No,Silver,2.0,16.0
3,Apple,26,8.0,,195000,2.3,No,Space grey,1.37,13.3
4,Apple,32,4.0,128.0,92400,1.8,No,Silver,1.35,11.6
5,Apple,4,8.0,256.0,60000,2.6,No,Silver,1.0,13.3
6,Apple,32,8.0,512.0,192000,1.2,No,Silver,0.9,12.0
7,Apple,4,8.0,128.0,224700,1.8,No,Silver,1.23,13.3
8,Apple,26,8.0,128.0,102000,1.6,No,Rose Gold,1.25,13.3
9,Apple,4,16.0,,382000,2.6,No,Silver,2.0,16.0


### head()

С помощью метода __head()__ можно посмотреть первые 5 строк датасета. Можно добавить число _x_ в скобки, тогда функция покажет первые _x_ строк датасета. Если же _x_ < 0, функция покажет N-|x| строк датасета, то есть все строчки датасета без последних _x_.

In [None]:
df.head()

Unnamed: 0,Brand,Item ID,Ram(Gb),StoraGe(Gb),Price(Rs),Processor speed(GHz),Touch,Color,Weight,DisplAy size(Inch)
0,Apple,32,16.0,256.0,315000,2.2,No,Space grey,1.83,15.4
1,Apple,8,8.0,512.0,232000,3.2,No,Dark Black,1.29,13.3
2,Apple,32,16.0,1024.0,382000,2.3,No,Silver,2.0,16.0
3,Apple,26,8.0,,195000,2.3,No,Space grey,1.37,13.3
4,Apple,32,4.0,128.0,92400,1.8,No,Silver,1.35,11.6


### tail()

По аналогии работает функция __tail()__ – здесь все то же самое, только с концом датасета.

In [None]:
df.tail()

Unnamed: 0,Brand,Item ID,Ram(Gb),StoraGe(Gb),Price(Rs),Processor speed(GHz),Touch,Color,Weight,DisplAy size(Inch)
25,Dell,4,8.0,1024.0,170000,1.6,No,Black,2.2,15.6
26,Dell,4,4.0,250.0,25000,2.35,No,Black,1.63,15.6
27,Dell,8,8.0,128.0,60000,2.5,No,Black,1.42,15.6
28,Dell,8,6.0,650.0,33200,2.26,No,White,2.84,15.6
29,Dell,26,4.0,128.0,47000,2.2,No,Black,0.78,12.5


### sample()

Метод __sample()__ выводит случайное наблюдение из датасета. Если в скобках написать число _n_, то метод выведет _n_ случайных строк. У этого метода есть много полезных параметров:
* __frac__ – доля от всех значений, которая должна попасть в сэмпл. Невозможно использовать вместе с _n_
* __replace__ – булевое значение, отвечающее за то, может ли одна и та же строчка попасть в сэмпл несколько раз. По умолчанию стоит False

In [None]:
df.sample(frac=0.3, replace=True)

Unnamed: 0,Brand,Item ID,Ram(Gb),StoraGe(Gb),Price(Rs),Processor speed(GHz),Touch,Color,Weight,DisplAy size(Inch)
7,Apple,4,8.0,128.0,224700,1.8,No,Silver,1.23,13.3
16,Dell,4,8.0,256.0,185000,1.8,No,Silver,1.23,13.3
11,Dell,32,8.0,256.0,90000,1.6,No,Black,1.82,15.6
23,Apple,4,8.0,256.0,255000,2.3,No,Silver,1.37,13.3
16,Dell,4,8.0,256.0,185000,1.8,No,Silver,1.23,13.3
1,Apple,8,8.0,512.0,232000,3.2,No,Dark Black,1.29,13.3
6,Apple,32,8.0,512.0,192000,1.2,No,Silver,0.9,12.0
7,Apple,4,8.0,128.0,224700,1.8,No,Silver,1.23,13.3
2,Apple,32,16.0,1024.0,382000,2.3,No,Silver,2.0,16.0


## Получение базовой информации

Давайте посмотрим, как находить _метаданные_ нашего датасета (они так наверняка не называются, но "данные о данных" вполне подходит под то, что мы сейчас будем искать)

### shape

С помощью свойства __shape__ можно узнать размер вашего датасета в виде кортежа, в котором первое число – количество наблюдений, второе – количество признаков.

P.s. Обратите внимание, что shape это свойство структуры dataframe, а не метод, поэтому скобочки ставить не надо. После аттрибутов скобки тоже не ставятся

In [None]:
df.shape

(30, 10)

### columns

К аттрибуту __columns__ можно обратиться, чтобы узнать название признаков (столбцов) датасета. Есть еще и аттрибут __index__, но он не всегда применим.

In [None]:
df.columns

Index(['Brand', 'Item ID', 'Ram(Gb)', 'StoraGe(Gb)', 'Price(Rs)',
       'Processor speed(GHz)', ' Touch ', 'Color ', 'Weight',
       'DisplAy size(Inch)'],
      dtype='object')

### dtypes

Свойство __dtypes__ выведет тип данных для каждого из столбцов.

In [None]:
df.dtypes

Unnamed: 0,0
Brand,object
Item ID,int64
Ram(Gb),float64
StoraGe(Gb),float64
Price(Rs),int64
Processor speed(GHz),float64
Touch,object
Color,object
Weight,float64
DisplAy size(Inch),float64


### notnull().sum() и isnull().sum()

С помощью __notnull().sum()__ и __isnull().sum()__ можно посмотреть сумму количества значений/пропусков по столбикам.

In [None]:
df.notnull().sum()

Unnamed: 0,0
Brand,30
Item ID,30
Ram(Gb),29
StoraGe(Gb),28
Price(Rs),30
Processor speed(GHz),30
Touch,30
Color,30
Weight,27
DisplAy size(Inch),30


In [None]:
df.isnull().sum()

Unnamed: 0,0
Brand,0
Item ID,0
Ram(Gb),1
StoraGe(Gb),2
Price(Rs),0
Processor speed(GHz),0
Touch,0
Color,0
Weight,3
DisplAy size(Inch),0


### info()

Ультимативная функция, которая совмещает в себе columns, notnull().sum() и dtypes – __info()__. С ее помощью можно быстро ознакомиться с метаданными датасета.

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Brand                 30 non-null     object 
 1   Item ID               30 non-null     int64  
 2   Ram(Gb)               29 non-null     float64
 3   StoraGe(Gb)           28 non-null     float64
 4   Price(Rs)             30 non-null     int64  
 5   Processor speed(GHz)  30 non-null     float64
 6    Touch                30 non-null     object 
 7   Color                 30 non-null     object 
 8   Weight                27 non-null     float64
 9   DisplAy size(Inch)    30 non-null     float64
dtypes: float64(5), int64(2), object(3)
memory usage: 2.5+ KB
