In [1]:
import pandas as pd

# 데이터 프레임 기초

### 데이터 프레임을 만들기 위한 2차원 데이터 예

In [2]:
data = [ [0,1,2], [3,4,5] ] # 2차원 데이터[ [행데이터], [행데이터], ... ]

In [3]:
# 2차원 데이터도 아래와 같이 행단위로 줄바꿈을 하게 되면 2차원 데이터로 해석하기 용이하다.
data = [
    [0,1,2],
    [3,4,5]
]

### 데이터 프레임 만들기1

In [4]:
df = pd.DataFrame(data = data) # 데이터 프레임 관련 변수는 통산 df로 축약해서 관용적으로 사용한다.
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


In [5]:
data_source = [ ['동준', 90, 85, 75], ['지원', 85, 49, 78] ]
# 데이터 소스도 아래와 같이 가독성을 위해 데이터 프레임처럼 선언한다.
data_source = [ 
    ['동준', 90, 85, 75],
    ['지원', 85, 49, 78]
]
df = pd.DataFrame(data = data_source)
df

Unnamed: 0,0,1,2,3
0,동준,90,85,75
1,지원,85,49,78


### 행렬에 의미 부여

In [6]:
df = pd.DataFrame(data=[ 
    [95,80,60], 
    [100,95,95], 
    [90,95,85]
])
df

Unnamed: 0,0,1,2
0,95,80,60
1,100,95,95
2,90,95,85


In [7]:
df = pd.DataFrame(
    data=[ 
        [95,80,60], 
        [100,95,95], 
        [90,95,85]
    ], # 데이터 소스
    index = ['홍길동', '이순신', '김유신'], # 행에 대한 설정은 index 속성으로 지정
    columns = ['국어', '영어', '수학']    # 열에 대한 설정은 columns 속성으로 지정
)
df

Unnamed: 0,국어,영어,수학
홍길동,95,80,60
이순신,100,95,95
김유신,90,95,85


In [8]:
type(df)

pandas.core.frame.DataFrame

* 행 정보 확인

In [9]:
df.index

Index(['홍길동', '이순신', '김유신'], dtype='object')

* 열 정보 확인

In [10]:
df.columns

Index(['국어', '영어', '수학'], dtype='object')

* 데이터 소스 정보

In [11]:
df.values

array([[ 95,  80,  60],
       [100,  95,  95],
       [ 90,  95,  85]], dtype=int64)

In [12]:
type(df.values)

numpy.ndarray

* 속성 생략

In [13]:
df1 = pd.DataFrame(
 [
     [1,2,3],
     [4,5,6],
     [7,8,9]
 ]
)
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


# 기본 연산

* 파이썬 버전

In [14]:
 list1 = [
     [1,2,3],
     [4,5,6],
     [7,8,9]
 ]
list2 =  [
     [3,3,3],
     [4,4,4],
     [5,5,5]
 ]

# for column_index in range(len(list1[0])):
#     print(column_index):
total_result = []
    
for row_index in range(len(list1)):
    # print(row_index)
    rows = []
    for column_index in range(len(list1[0])):
        # print(list2[row_index][column_index])
        rows.append(list1[row_index][column_index] + list2[row_index][column_index])
    total_result.append(rows)

total_result

[[4, 5, 6], [8, 9, 10], [12, 13, 14]]

### 동일한 차원(요소)간의 연산

In [15]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
df2 = pd.DataFrame(
 [
     [3,3,3],
     [4,4,4],
     [5,5,5]
 ]
)
df2

Unnamed: 0,0,1,2
0,3,3,3
1,4,4,4
2,5,5,5


In [17]:
df1 + df2

Unnamed: 0,0,1,2
0,4,5,6
1,8,9,10
2,12,13,14


### 단일 값 연산

In [18]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [19]:
df1 + 99

Unnamed: 0,0,1,2
0,100,101,102
1,103,104,105
2,106,107,108


### 단일행 연산

In [20]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [21]:
df1 + [3,4,5] # 행단위로 전체 행의 내용을 확장하여 차원을 맞춰 연산한다.

Unnamed: 0,0,1,2
0,4,6,8
1,7,9,11
2,10,12,14


### 차원이 다른 프레임간 연산

In [22]:
df3 = pd.DataFrame(
    [
        [3,3],
        [4,4]
    ]
)
df3

Unnamed: 0,0,1
0,3,3
1,4,4


In [23]:
df1 + df3

Unnamed: 0,0,1,2
0,4.0,5.0,
1,8.0,9.0,
2,,,


### 실전 데이터 연습

* csv 데이터 읽기  
read_csv 함수 활용

In [24]:
# 헤더행을 지정하지 않으면 기본값으로 csv의 첫번째 행을 헤더로 인식한다.
college = pd.read_csv('data/2017_college_tuition.csv', encoding='cp949')
college

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
...,...,...,...
191,호남대학교,사립,6482
192,호남신학대학교,사립,6438
193,호서대학교,사립,7695
194,호원대학교,사립,6929


In [25]:
college.columns

Index(['학교명', '설립구분', '평균등록금'], dtype='object')

### 초간단 데이터 둘러보기

* 데이터요소 차원 확인하기

In [26]:
college.shape

(196, 3)

* 시작데이터 확인

In [27]:
college.head() # 기본값은 앞에 5개 데이터 조회

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967


In [28]:
college.head(10)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


In [29]:
college.head(20)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


In [30]:
college.head(60)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


In [31]:
college.head(61)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
...,...,...,...
56,계명대학교,사립,7151
57,고려대학교,사립,8215
58,고신대학교,사립,6594
59,광신대학교,사립,5986


* 특정 열 선택하기  
데이터프레임['열이름']

In [32]:
college['학교명']

0        강릉원주대학교
1          강원대학교
2      경남과학기술대학교
3          경북대학교
4          경상대학교
         ...    
191        호남대학교
192      호남신학대학교
193        호서대학교
194        호원대학교
195        홍익대학교
Name: 학교명, Length: 196, dtype: object

In [33]:
type(college['학교명'])

pandas.core.series.Series

In [34]:
college['설립구분']

0      국공립
1      국공립
2      국공립
3      국공립
4      국공립
      ... 
191     사립
192     사립
193     사립
194     사립
195     사립
Name: 설립구분, Length: 196, dtype: object

In [35]:
college['설립구분'].head()

0    국공립
1    국공립
2    국공립
3    국공립
4    국공립
Name: 설립구분, dtype: object

In [36]:
college['평균등록금'].head()

0    4262
1    4116
2    3771
3    4351
4    3967
Name: 평균등록금, dtype: int64

# 연습문제

* 평균 등록금의 모든 값에 1000을 곱한 값을 조회

In [37]:
college['평균등록금'] * 1000

0      4262000
1      4116000
2      3771000
3      4351000
4      3967000
        ...   
191    6482000
192    6438000
193    7695000
194    6929000
195    8297000
Name: 평균등록금, Length: 196, dtype: int64

### 열의 값 갱신

In [38]:
college['평균등록금']

0      4262
1      4116
2      3771
3      4351
4      3967
       ... 
191    6482
192    6438
193    7695
194    6929
195    8297
Name: 평균등록금, Length: 196, dtype: int64

In [39]:
college['평균등록금'] = college['평균등록금'] * 1000

In [40]:
college['평균등록금']

0      4262000
1      4116000
2      3771000
3      4351000
4      3967000
        ...   
191    6482000
192    6438000
193    7695000
194    6929000
195    8297000
Name: 평균등록금, Length: 196, dtype: int64

In [41]:
college

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262000
1,강원대학교,국공립,4116000
2,경남과학기술대학교,국공립,3771000
3,경북대학교,국공립,4351000
4,경상대학교,국공립,3967000
...,...,...,...
191,호남대학교,사립,6482000
192,호남신학대학교,사립,6438000
193,호서대학교,사립,7695000
194,호원대학교,사립,6929000


### 신규열 추가

In [42]:
college['평균등록금k'] = college['평균등록금'] // 1000
college

Unnamed: 0,학교명,설립구분,평균등록금,평균등록금k
0,강릉원주대학교,국공립,4262000,4262
1,강원대학교,국공립,4116000,4116
2,경남과학기술대학교,국공립,3771000,3771
3,경북대학교,국공립,4351000,4351
4,경상대학교,국공립,3967000,3967
...,...,...,...,...
191,호남대학교,사립,6482000,6482
192,호남신학대학교,사립,6438000,6438
193,호서대학교,사립,7695000,7695
194,호원대학교,사립,6929000,6929
