# Pandas의 DataFrame
#### 2차원 형태의 데이터를 다루기 위한 자료형

#### DataFrame : 표형식의 데이터를 담는 자료형
#### 행(row)과 열(column)로 이루어짐
#### row : 레코드,  column : 데이터의 특징

### Series 객체
#### 1차원 배열과 같은 자료구조 index가 같이 출력됨
#### DataFrame의 한 개의 컬럼에 해당하는 데이터 모음

# 괄호
#### 대부분의 함수에는 ()
#### 데이터프레임, 리스트, 배열 인덱싱에는 []

# loc 
#### 기본적으로 index(행) 데이터를 선택할 때 사용
#### column도 가능함
#### loc['index'] 하나
#### loc[['inex1', 'index2']] 두개
#### loc['index1' : 'index5']

#### []에 row의 내용이 들어가면 무조건 loc 사용
#### column만 인덱싱하는 경우는 df[]만

#### df.loc[row condition, column condition]

#### 판다스는 넘파이를 기반으로 만든 모듈


In [2]:
import pandas as pd
import numpy as np

In [2]:
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 68, 91], ['yoonsoo', 88, 75]]

In [5]:
np.array(two_dimensional_list)

array([['dongwook', '50', '86'],
       ['sineui', '68', '91'],
       ['yoonsoo', '88', '75']], dtype='<U11')

In [11]:
my_df = pd.DataFrame(two_dimensional_list, columns = ['name', 'english_score', 'math_score'], index = ['a','b','c'])
my_df

Unnamed: 0,name,english_score,math_score
a,dongwook,50,86
b,sineui,68,91
c,yoonsoo,88,75


In [9]:
type(my_df)

pandas.core.frame.DataFrame

In [12]:
my_df.columns

Index(['name', 'english_score', 'math_score'], dtype='object')

In [13]:
my_df.index

Index(['a', 'b', 'c'], dtype='object')

In [15]:
my_df.dtypes 
# object는 판다스에서 문자열을 의미
# 같은 row 내에서는 다양한 자료형이 있을 수 있지만
# 같은 column에서는 같은 데이터 형태를 가져야 한다.

name             object
english_score     int64
math_score        int64
dtype: object

# DataFrame을 만드는 다양한 방법

## From list of lists, array of arrays, list of series

### 2차원 리스트나 2차원 numpy array로 DataFrame을 만들 수 있습니다. 심지어 pandas Series를 담고 있는 리스트로도 DataFrame을 만들 수 있습니다.

### 따로 column과 row(index)에 대한 설정이 없으면 그냥 0, 1, 2, ... 순서로 값이 매겨집니다.

In [16]:
import numpy as np
import pandas as pd

# 2차원 파이썬 리스트(가장 많이 씀)
two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

# numpy array 
two_dimensional_array = np.array(two_dimensional_list)

# pandas series
list_of_series = [
    pd.Series(['dongwook', 50, 86]), 
    pd.Series(['sineui', 89, 31]), 
    pd.Series(['ikjoong', 68, 91]), 
    pd.Series(['yoonsoo', 88, 75])
]

# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(two_dimensional_list)
df2 = pd.DataFrame(two_dimensional_array)
df3 = pd.DataFrame(list_of_series)

print(df1)

          0   1   2
0  dongwook  50  86
1    sineui  89  31
2   ikjoong  68  91
3   yoonsoo  88  75


## From dict of lists, dict of arrays, dict of series

### 파이썬 사전(dictionary)으로도 DataFrame을 만들 수 있습니다.
### 사전의 key로는 column 이름을 쓰고, 그 column에 해당하는 리스트, numpy array, 혹은 pandas Series를 사전의 value로 넣어주면 됩니다.

In [17]:
import numpy as np
import pandas as pd

# column 별로 리스트를 만들기
names = ['dongwook', 'sineui', 'ikjoong', 'yoonsoo']
english_scores = [50, 89, 68, 88]
math_scores = [86, 31, 91, 75]

dict1 = {
    'name': names, 
    'english_score': english_scores, 
    'math_score': math_scores
}

dict2 = {
    'name': np.array(names), 
    'english_score': np.array(english_scores), 
    'math_score': np.array(math_scores)
}

dict3 = {
    'name': pd.Series(names), 
    'english_score': pd.Series(english_scores), 
    'math_score': pd.Series(math_scores)
}


# 아래 셋은 모두 동일합니다
df1 = pd.DataFrame(dict1)
df2 = pd.DataFrame(dict2) # 내용의 중점 : numpy array 를 그대로 DF로만들 수 있다.
df3 = pd.DataFrame(dict3)

print(df1)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


## From list of dicts

### 리스트가 담긴 사전이 아니라, 사전이 담긴 리스트로도 DataFrame을 만들 수 있습니다.

### 사전이 뭐였더라??
http://localhost:8888/notebooks/3_%ED%8C%8C%EC%9D%B4%EC%8D%AC%20%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D%20%EA%B0%9C%EB%85%90/000.%20%EA%B0%9C%EB%85%90.ipynb

In [18]:
import numpy as np
import pandas as pd

my_list = [
    {'name': 'dongwook', 'english_score': 50, 'math_score': 86},
    {'name': 'sineui', 'english_score': 89, 'math_score': 31},
    {'name': 'ikjoong', 'english_score': 68, 'math_score': 91},
    {'name': 'yoonsoo', 'english_score': 88, 'math_score': 75}
]

df = pd.DataFrame(my_list)
print(df)

       name  english_score  math_score
0  dongwook             50          86
1    sineui             89          31
2   ikjoong             68          91
3   yoonsoo             88          75


# Pandas의 데이터 타입

In [19]:
import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])

print(my_df.dtypes)

name             object
english_score     int64
math_score        int64
dtype: object


int64 : 정수 64비트
float64 : 소수
object : 텍스트
bool : 불린
datetime64 : 날짜 시간
category : 카테고리
dtype : object 는 문자열임을 의미

# pandas로 데이터 읽어들이기

In [13]:
import pandas as pd

In [14]:
iphone_df = pd.read_csv('data/iphone.csv')

In [15]:
iphone_df
# 데이터에서 가장 첫 줄을 자동으로 헤더로 인식
# 헤더가 없는 경우에는 iphone_df = pd.read_csv('data/iphone.csv', header = None)

Unnamed: 0.1,Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
0,iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
1,iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
2,iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
3,iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
4,iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
5,iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
6,iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [10]:
type(iphone_df)

pandas.core.frame.DataFrame

In [12]:
iphone_df = pd.read_csv('data/iphone.csv', index_col = 0)
# 첫 컬럼의 값을 row 이름으로 지정하고 싶을 때
iphone_df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes
