## **`pd.DataFrame(list, columns=[], index=[])`**
* cf) columns : 열, index(row) : 행

In [1]:
import pandas as pd

In [2]:
td_list = [['a', 50, 55], ['b', 60, 78], ['c', 90, 80], ['d', 40, 60]]

In [3]:
df = pd.DataFrame(td_list)
df

Unnamed: 0,0,1,2
0,a,50,55
1,b,60,78
2,c,90,80
3,d,40,60


In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df = pd.DataFrame(td_list, columns=['name', 'Eng Score', 'Math Score'], index=['1', '2', '3', '4'])
df

Unnamed: 0,name,Eng Score,Math Score
1,a,50,55
2,b,60,78
3,c,90,80
4,d,40,60


In [6]:
df.columns

Index(['name', 'Eng Score', 'Math Score'], dtype='object')

In [7]:
df.index

Index(['1', '2', '3', '4'], dtype='object')

### `df.dtypes()` : 각 열의 자료형  
**object : 문자열**

---
### 같은 열 안에서는 같은 자료형이여야 한다!

In [8]:
df.dtypes

name          object
Eng Score      int64
Math Score     int64
dtype: object

## From list of lists, array of arrays, list of series
---

2차원 리스트나 2차원 numpy array로 DataFrame을 만들 수 있다.  
심지어 pandas Series를 담고 있는 리스트로도 DataFrame을 만들 수 있다.


따로 column과 row(index)에 대한 설정이 없으면 그냥 0, 1, 2, ... 순서로 값이 매겨진다.

In [9]:
import numpy as np

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]
two_dimensional_array = np.array(two_dimensional_list)
list_of_series = [
    pd.Series(['dongwook', 50, 86]), 
    pd.Series(['sineui', 89, 31]), 
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

# 아래 셋은 모두 동일
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)

df1

Unnamed: 0,0,1,2
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


## From dict of lists, dict of arrays, dict of series
---
파이썬 사전(dictionary)으로도 DataFrame을 만들 수 있다.


사전의 key로는 column 이름을 쓰고, 그 column에 해당하는 리스트, numpy array, 혹은 pandas Series를 사전의 value로 넣어주면 된다.

In [10]:
names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}


# 아래 셋은 모두 동일
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2)
df3 = pd.DataFrame(dict3)

df1

Unnamed: 0,name,english_score,math_score
0,dongwook,50,86
1,sineui,89,31
2,ikjoong,68,91
3,yoonsoo,88,75


## From list of dicts
---

리스트가 담긴 사전이 아니라, 사전이 담긴 리스트로도 DataFrame을 만들 수 있다.

In [11]:
my_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

df = pd.DataFrame(my_list)

df

Unnamed: 0,english_score,math_score,name
0,50,86,dongwook
1,89,31,sineui
2,68,91,ikjoong
3,88,75,yoonsoo


## Dictionary 리스트로 만들 때 열 순서가 왜 바뀌는가?
---
Dictionary는 data의 순서가 없기 때문입니다.  

  
이를 이해하기 위해서는 데이터 자료구조에 대한 이해가 필요한데요.  
lists, arrays, series는 순서가 있는 자료구조이기 때문에, 입력한 순서대로 column을 만들어 줍니다.  


list를 예를 들어 `[1,1,3,4]` 가 있으면,  
index 0 = 1, index 1 = 1, index 2 = 3, index 3 = 4 이런 식으로 indexing 이 가능합니다.  
하지만, python의 set 또는 dictionary 와 같은 데이터 타입은 순서가 없는 자료구조 입니다.  
마치 데이터가 바구니에 순서 없이 뒤엉켜 담겨 있다고 생각하시면 쉽습니다.  
그러면 set과 dictionary와 같은 데이터 자료구조가 가지고 있는 이점이 궁금할 수 있는데요.   장점으로는 중복된 값을 가질 수 없다는 점입니다.  
`[1,1,3,4]`를 set으로 바꾸면 `{1,3,4}`가 되고, dictionary의 경우는 동일한 key값이 중복해서 등장할 수 없습니다.  