### Конструктор класса DataFrame:
### DataFrame(data=None, index=None, columns=None ...)

### Структуру DataFrame можно создать на базе:

 - словаря, в качестве значений которого могут выступать: одномерные массивы numpy, списки, другие словари, структуры Series;
 - двумерного массива;
 - структуры Series;
 - другого DataFrame.

In [1]:
import pandas as pd
import numpy as np

### ЧАСТЬ 1 - Создание DataFrame из словаря

#### Пример № 1

In [2]:
# Создание DataFrame из словаря
# словарь на основе списков одинаковой длины:
d1 = {'цена':[100, 200, 300], 'количество':[10, 20, 30]}
df1 = pd.DataFrame(d1, index=['товар_1', 'товар_2', 'товар_3'])
df1

Unnamed: 0,цена,количество
товар_1,100,10
товар_2,200,20
товар_3,300,30


#### Пример № 2

In [3]:
# Создание DataFrame из словаря
# словарь на основе массивов numpy одинаковой длины:
d2 = {'цена':np.array([100, 200, 300]), 'количество': np.array([10, 20, 30])}
df2 = pd.DataFrame(d2, index=['товар_1', 'товар_2', 'товар_3'])
df2

Unnamed: 0,цена,количество
товар_1,100,10
товар_2,200,20
товар_3,300,30


#### Пример № 3

In [4]:
# Создание DataFrame из словаря
# Создадим словарь словарей
# ключи внешнего словаря будут интерпретированы как СТОЛБЦЫ 
# ключи внутреннего словаря будут интерпретированы как ИНДЕКСЫ

d3 = {'цена': {'товар_1': 100, 'товар_2': 200, 'товар_3': 300},
       'количество': {'товар_1': 10, 'товар_2': 20, 'товар_3': 30}}
df3 = pd.DataFrame(d3)
df3

Unnamed: 0,цена,количество
товар_1,100,10
товар_2,200,20
товар_3,300,30


In [5]:
# результат можно транспонировать - поменять строки и столбцы местами
df3.T

Unnamed: 0,товар_1,товар_2,товар_3
цена,100,200,300
количество,10,20,30


#### Пример № 4

In [6]:
# Создание DataFrame из словаря
# Создадим словарь, элементы которого - структуры Series

d4 = {'цена':pd.Series([100, 200, 300], index=['товар_1', 'товар_2', 'товар_3']),
     'количество':pd.Series([10, 20, 30], index=['товар_1', 'товар_2', 'товар_3'])}
df4 = pd.DataFrame(d4)
df4

Unnamed: 0,цена,количество
товар_1,100,10
товар_2,200,20
товар_3,300,30


In [7]:
df4.index

Index(['товар_1', 'товар_2', 'товар_3'], dtype='object')

In [8]:
df4.columns

Index(['цена', 'количество'], dtype='object')

### ЧАСТЬ 2 - Создание DataFrame из списка словарей

#### Пример № 5/1

In [9]:
ld_1 = [{'цена': 100, 'количество':10}, {'цена': 200, 'количество': 20}]
df5_1 = pd.DataFrame(ld_1, index=['товар_1', 'товар_2'])
# количество элементов списка index = количество элементов-словарей списка ld_1.
df5_1

Unnamed: 0,цена,количество
товар_1,100,10
товар_2,200,20


#### Пример № 5/2

In [10]:
#А что будет, если мы во втором словаре укажем другие названия ключей?

ld_2 = [{'цена': 100, 'количество':10}, {'сорт': 1, 'рейтинг': 5}]
df5_2 = pd.DataFrame(ld_2, index=['товар_1', 'товар_2'])
df5_2

# Добавятся две дополнительные колонки - "сорт" и "рейтинг", а также появятся значения NaN.
# NaN (сокращение от Not a Number)

Unnamed: 0,цена,количество,сорт,рейтинг
товар_1,100.0,10.0,,
товар_2,,,1.0,5.0


#### Пример № 5/3

In [11]:
ld_3 = [{'цена': 100, 'количество':10}, 
        {'сорт': 1, 'рейтинг': 5}, 
        {'цена': 300, 'количество':30, 'сорт': 1}]
df5_3 = pd.DataFrame(ld_3, index=['товар_1', 'товар_2', 'товар_3'])
df5_3

Unnamed: 0,цена,количество,сорт,рейтинг
товар_1,100.0,10.0,,
товар_2,,,1.0,5.0
товар_3,300.0,30.0,1.0,


In [12]:
df5_3['цена']

товар_1    100.0
товар_2      NaN
товар_3    300.0
Name: цена, dtype: float64

In [13]:
type(df5_3['цена'][1])
# NaN относится к типу данных float

numpy.float64

In [14]:
# можно почитать вот этот материал "Nullable integer data type"
# http://pandas.pydata.org/pandas-docs/stable/user_guide/integer_na.html

df5_3['цена'] = df5_3['цена'].astype('Int64')
df5_3['цена']

товар_1     100
товар_2    <NA>
товар_3     300
Name: цена, dtype: Int64

In [15]:
# в колонке "цена" получаем целочисленные значения и вместо NaN - <NA>
df5_3

Unnamed: 0,цена,количество,сорт,рейтинг
товар_1,100.0,10.0,,
товар_2,,,1.0,5.0
товар_3,300.0,30.0,1.0,


### ЧАСТЬ 3 -  Создание DataFrame из двумерного массива

#### Пример № 6/1

In [16]:
n1 = np.array([[1, 2, 3], [4, 5, 6]])
df6_1 = pd.DataFrame(n1)
df6_1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6


In [17]:
df6_1.columns

RangeIndex(start=0, stop=3, step=1)

In [18]:
df6_1.index

RangeIndex(start=0, stop=2, step=1)

In [19]:
# даем имена строкам и столбцам
df6_1.columns = ['1 col', '2 col', '3 col']
df6_1.index = ['1 row', '2 row']
df6_1

Unnamed: 0,1 col,2 col,3 col
1 row,1,2,3
2 row,4,5,6


#### Пример № 6/2

In [20]:
# передаем в конструктор параметры в ПРАВИЛЬНОМ порядке (без указания названий параметров)
df6_2 = pd.DataFrame([[1, 2, 3], [4, 5, 6]], ['1 row', '2 row'], ['1 col', '2 col', '3 col'])
df6_2

Unnamed: 0,1 col,2 col,3 col
1 row,1,2,3
2 row,4,5,6


#### Пример № 6/3

In [21]:
# если указать названия параметров, то можно передать их в любом порядке
df6_3 = pd.DataFrame(columns=['1 col', '2 col', '3 col'], 
                     index=['1 row', '2 row'], 
                     data=[[1, 2, 3], [4, 5, 6]])
df6_3

Unnamed: 0,1 col,2 col,3 col
1 row,1,2,3
2 row,4,5,6


#### Пример № 6/4

In [22]:
# удалим элемент "6" из второго списка и посмотрим на результат
df6_4 = pd.DataFrame(data=[[1, 2, 3], [4, 5]],
                     columns=['1 col', '2 col', '3 col'], 
                     index=['1 row', '2 row'])
df6_4
# Видим Nan вместо отсутствующего значения, тип данных столбца "3 col" поменялся на float

Unnamed: 0,1 col,2 col,3 col
1 row,1,2,3.0
2 row,4,5,


#### Пример № 6/5

In [23]:
df6_5 = pd.DataFrame(data=[["yes", "no", "no"], ["yes", "yes"]],
                     columns=['1 col', '2 col', '3 col'], 
                     index=['1 row', '2 row'])
df6_5

# None - это внутренний тип Python ( NoneType ) 

Unnamed: 0,1 col,2 col,3 col
1 row,yes,no,no
2 row,yes,yes,
