In [1]:
import pandas as pd

# 데이터 프레임 기초

## 데이터 프레임을 만들기 위한 2차원 데이터 예

In [2]:
data =[ [0,1,2],[3,4,5] ] # 2차원 데이터 [ [ 행데이터 ], [ 행데이터 ] ... ]

In [None]:
# 2차원 데이터를 아래와 같이 행단위로 줄바꿈을 하게 되면 2차원 데이터로 해석하기 용이하다.
data = [
    [0,1,2],
    [3,4,5]
]

# 데이터 프레임 만들기1

In [3]:
df = pd.DataFrame(data = data) # 데이터 프레임 관련 함수는 통산 df로 축약하여
df

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


# 행렬에 의미 부여

* 의미 부여 전

In [4]:
df = pd.DataFrame(data=[
    [95,80,60],
    [100,95,95],
    [88,98,85]
])
df
    

Unnamed: 0,0,1,2
0,95,80,60
1,100,95,95
2,88,98,85


In [9]:
df = pd.DataFrame(data=[
    [95,80,60],
    [100,95,95],
    [88,98,85]
    ],  #데이터 소스
    index = ['홍길동', '이순신', '김유신'], #행에 대한 설정은 index 속성으로 지정
    columns = ['국어','영어', '수학'] # 열에 대한 설정은 columns 속성으로 지정
)
df
    

Unnamed: 0,국어,영어,수학
홍길동,95,80,60
이순신,100,95,95
김유신,88,98,85


 - 타입확인

In [10]:
type(df)

pandas.core.frame.DataFrame

* 행 정보 확인

In [11]:
df.index

Index(['홍길동', '이순신', '김유신'], dtype='object')

* 열 정보 확인

In [12]:
df.columns

Index(['국어', '영어', '수학'], dtype='object')

* 데이터 소스 정보

In [13]:
df.values

array([[ 95,  80,  60],
       [100,  95,  95],
       [ 88,  98,  85]])

* 속성 생략

In [14]:
type(df.values)

numpy.ndarray

# 기본연산

* 파이썬 버전

In [15]:
list1 =[
     [1,2,3],
     [4,5,6],
     [7,8,9]
 ]
list2 =  [
     [3,3,3],
     [4,4,4],
     [5,5,5]
 ]

# for column_index in range (len(list1[0])):
#     print(column_index);
total_result = []

for row_index in range(len(list1)):
    # print(row_index)
    rows = []
    for column_index in range (len(list1[0])):
        # print(list2[row_index][column_index])
        rows.append(list1[row_index][column_index] + list2[row_index][column_index])
    total_result.append(rows)

total_result

[[4, 5, 6], [8, 9, 10], [12, 13, 14]]

In [None]:
동인한 차원간의 데이터 프레임 연산은 각각 행/열이 일치하는 요소간 연산을 한다.

In [16]:
df1 =pd.DataFrame(list1)
df2 =pd.DataFrame(list2)
df1 + df2

Unnamed: 0,0,1,2
0,4,5,6
1,8,9,10
2,12,13,14


# 단일 값 연산

In [None]:
단일 값은 연산하고자하는 데이터 프레임의 행열값의 요소에 맞게 확장하여 동일한 요소간 연산을 수행한다.

In [17]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [19]:
df1+10

Unnamed: 0,0,1,2
0,11,12,13
1,14,15,16
2,17,18,19


## 단일 행 연산

In [None]:
단일행은 연산하고자 하는 데이터 프레임의 행의 갯수에 맞게 확장하여 동일 요소간 연산을 수행한다.

In [20]:
df1

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [22]:
df1 +[10,11,12]

Unnamed: 0,0,1,2
0,11,13,15
1,14,16,18
2,17,19,21


## 차원이 다른 데이터 프레임간 연산

In [None]:
차원이 작은 데이터프레임에서 차원을 확장한후 NaN으로 채운뒤 동일 요소간 연산을 수행한다

In [None]:
df1

In [None]:
df3 =pd.DataFrame

# 실전 데이터 연습

* csv 데이터 읽기  
read_csv 함수 활용  
read_csv의 수행 결과는 data frame으로 변환  
윈도우 관련 인코딩은 cp949로 지정한다.  
헤더행을 지정하지 않으면 기본값으로 csv의 첫번째 행을 헤더로 인식한다.


In [24]:
college = pd.read_csv('data/2017_college_tuition.csv', encoding='cp949')
college

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
...,...,...,...
191,호남대학교,사립,6482
192,호남신학대학교,사립,6438
193,호서대학교,사립,7695
194,호원대학교,사립,6929


In [25]:
 college.columns

Index(['학교명', '설립구분', '평균등록금'], dtype='object')

### 초간단 데이터 둘러보기

* 데이터요소 차원 확인하기

In [26]:
college.shape

(196, 3)

* 시작데이터 확인

In [27]:
college.head() #기본값은 앞에서 부터 5개 데이터를 조회한다.

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967


In [30]:
college.head(10) #인자의 수만큼 

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


In [31]:
college.tail()

Unnamed: 0,학교명,설립구분,평균등록금
191,호남대학교,사립,6482
192,호남신학대학교,사립,6438
193,호서대학교,사립,7695
194,호원대학교,사립,6929
195,홍익대학교,사립,8297


In [32]:
college.tail(10)

Unnamed: 0,학교명,설립구분,평균등록금
186,한양대학교,사립,8423
187,한영신학대학교,사립,6636
188,한일장신대학교,사립,6196
189,한중대학교,사립,7159
190,협성대학교,사립,7300
191,호남대학교,사립,6482
192,호남신학대학교,사립,6438
193,호서대학교,사립,7695
194,호원대학교,사립,6929
195,홍익대학교,사립,8297


* 특정 열 선택하기  
  데이터프레임['열이름']

In [33]:
college.columns

Index(['학교명', '설립구분', '평균등록금'], dtype='object')

In [34]:
college['학교명']

0        강릉원주대학교
1          강원대학교
2      경남과학기술대학교
3          경북대학교
4          경상대학교
         ...    
191        호남대학교
192      호남신학대학교
193        호서대학교
194        호원대학교
195        홍익대학교
Name: 학교명, Length: 196, dtype: object

In [35]:
type(college['학교명'])

pandas.core.series.Series

In [36]:
college['학교명'].tail()

191      호남대학교
192    호남신학대학교
193      호서대학교
194      호원대학교
195      홍익대학교
Name: 학교명, dtype: object

In [37]:
college['설립구분']

0      국공립
1      국공립
2      국공립
3      국공립
4      국공립
      ... 
191     사립
192     사립
193     사립
194     사립
195     사립
Name: 설립구분, Length: 196, dtype: object

# 연습문제

* 평균 등록금의 모든 값에 1000을 곱한 값을 조회

In [38]:
college['평균등록금'] * 1000

0      4262000
1      4116000
2      3771000
3      4351000
4      3967000
        ...   
191    6482000
192    6438000
193    7695000
194    6929000
195    8297000
Name: 평균등록금, Length: 196, dtype: int64

### 열의 값 갱신

In [45]:
college['평균등록금'] = college['평균등록금'] *100
college

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262000.0
1,강원대학교,국공립,4116000.0
2,경남과학기술대학교,국공립,3771000.0
3,경북대학교,국공립,4351000.0
4,경상대학교,국공립,3967000.0
...,...,...,...
191,호남대학교,사립,6482000.0
192,호남신학대학교,사립,6438000.0
193,호서대학교,사립,7695000.0
194,호원대학교,사립,6929000.0


### 신규열 추가

In [47]:
college['평균등록금k']= college['평균등록금'] // 1000
college

Unnamed: 0,학교명,설립구분,평균등록금,평균등록금k
0,강릉원주대학교,국공립,4262000.0,4262.0
1,강원대학교,국공립,4116000.0,4116.0
2,경남과학기술대학교,국공립,3771000.0,3771.0
3,경북대학교,국공립,4351000.0,4351.0
4,경상대학교,국공립,3967000.0,3967.0
...,...,...,...,...
191,호남대학교,사립,6482000.0,6482.0
192,호남신학대학교,사립,6438000.0,6438.0
193,호서대학교,사립,7695000.0,7695.0
194,호원대학교,사립,6929000.0,6929.0
