# 02. Pandas를 이용한 데이터 셋 구축 및 관리
> Numpy 기반의 라이브러리인 Pandas를 배워보고, 데이터셋을 구축해봅시다.

- toc: true 
- badges: true
- comments: true
- categories: [Day 3]
- permalink: /pandas_practice
- exec: colab

이번 강의에서는 파이썬 데이터셋 관리의 표준이라고 해도 무방한 pandas에 대해 배워봅니다. 그리고, 학습 데이터와 테스트 데이터를 구성하는 방법에 대해 배웁니다.

<br><br>

### 1. 파일에서 데이터 불러오기
pandas에서 파일에 저장되어있는 데이터를 불러오는 방법은 read_csv 함수를 이용하는 방법이 있습니다.


In [2]:
import pandas as pd
data_frame = pd.read_csv('sample_data/friend_list.csv')
data_frame.head()

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager


head 함수는 앞에서부터 n개씩 출력하는 함수입니다.

In [3]:
data_frame.head(3)

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher


비슷한 함수로 뒤에서 부터 출력하는 tail 함수가 있습니다. 

In [4]:
data_frame.tail()

Unnamed: 0,name,age,job
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


In [5]:
data_frame.tail(3)

Unnamed: 0,name,age,job
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


<br>

### 2. 데이터 프레임 생성, 저장하기

#### 2.1 데이터 프레임 생성
데이터 프레임을 생성하기 위한 여러가지 방법이 있습니다.

1.   딕셔너리
2.   콜렉션
3.   리스트

우선 딕셔너리를 이용한 방법입니다.

In [6]:
friend_dict_list = [
    {'name' : 'John', 'age' : 25, 'job' : 'student'},
    {'name' : 'Jenny', 'age' : 20, 'job' : 'developer'},
    {'name' : 'Nate', 'age' : 30, 'job' : 'teacher'}
]
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,John,25,student
1,Jenny,20,developer
2,Nate,30,teacher


콜렉션을 이용한 방법입니다.

In [8]:
from _collections import OrderedDict
friend_ordered_list = (
    [
        ('name', ['John', 'Nate']),
        ('age', [25, 30]),
        ('job', ['student', 'teacher'])
    ]
)
df = pd.DataFrame(friend_ordered_list)
df

Unnamed: 0,0,1
0,name,"[John, Nate]"
1,age,"[25, 30]"
2,job,"[student, teacher]"


다음으로 리스트를 이용한 방법입니다.

In [9]:
friend_list = [
    ['John', 25, 'student'],
    ['Nate', 30, 'teacher']
]
column_name = ['name', 'age', 'job']
df = pd.DataFrame.from_records(friend_list,columns = column_name)
df

Unnamed: 0,name,age,job
0,John,25,student
1,Nate,30,teacher


<br>

#### 2.4 데이터 프레임 저장
데이터 프레임을 저장하려면 to_csv 함수를 이용해서 파일 형태로 저장 할 수 있습니다.

In [10]:
friend_list = [
    {'name' : 'John', 'age' : 25, 'job' : 'student'},
    {'name' : 'Jenny', 'age' : 20, 'job' : 'developer'},
    {'name' : 'Nate', 'age' : 30, 'job' : 'teacher'}
]
df = pd.DataFrame(friend_list)
df.to_csv('sample_data/friends.csv')

friends.csv 파일을 열어보면


```
,name,age,job
0,John,25,student
1,Jenny,20,developer
2,Nate,30,teacher
```
위와 같은 형태로 저장된 것을 확인 할 수 있습니다.


### 3. 데이터 행,열 선택 및 필터 하기


#### 3.1 데이터 행, 열 선택
데이터셋에서 우리가 원하는 데이터를 추출 해야 할 필요가 있습니다.

In [11]:
df = pd.DataFrame(friend_dict_list)
df[0:2]

Unnamed: 0,name,age,job
0,John,25,student
1,Jenny,20,developer


0:2는 0번째 인덱스부터 2번째 인덱스 전까지 출력하는다는 의미입니다.  
loc 함수를 이용해서 출력 할 수 있습니다.

In [12]:
df.loc[ [0,2] ]

Unnamed: 0,name,age,job
0,John,25,student
2,Nate,30,teacher


loc 함수를 이용해서 0번째와 2번째 인덱스만 출력하였습니다.

In [13]:
df[df.age>20]

Unnamed: 0,name,age,job
0,John,25,student
2,Nate,30,teacher


In [14]:
df[ (df.age>20) & (df.name == 'Nate') ]

Unnamed: 0,name,age,job
2,Nate,30,teacher


컬럼에 조건을 붙여서 출력 할 수 있습니다.

#### 3.2 데이터 행, 열 필터링
원하는 데이터를 출력하기 위해 조건에 맞게 필터링 할 필요가 있습니다.

In [15]:
friend_list = [
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher'],
]
df = pd.DataFrame.from_records(friend_list)
df.iloc[:, 0:2]

Unnamed: 0,0,1
0,John,20
1,Jenny,30
2,Nate,30


iloc 함수를 통해 데이터를 필터링 해보았습니다.  
':'는 모두 가져온다는 뜻이고, '0:2'는 0번째 인덱스부터 2번째 인덱스 전까지 가져온다는 뜻입니다.  


In [16]:
df = pd.read_csv('sample_data/friend_list.csv')
df

Unnamed: 0,name,age,job
0,John,20,student
1,Jenny,30,developer
2,Nate,30,teacher
3,Julia,40,dentist
4,Brian,45,manager
5,Chris,25,intern


위와 같은 데이터가 있다고 했을때 특정 컬럼의 데이터만 가져 올 수 있습니다.

In [17]:
df_filtered = df[['name', 'age']]
df_filtered

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


name과 age 컬럼의 데이터만 가져왔습니다.

In [18]:
df.filter(items=['age', 'job'])

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher
3,40,dentist
4,45,manager
5,25,intern


filter 함수를 통해 더 효율적으로 필터링 할 수 있습니다.

In [19]:
df.filter(like='a', axis=1)

Unnamed: 0,name,age
0,John,20
1,Jenny,30
2,Nate,30
3,Julia,40
4,Brian,45
5,Chris,25


컬럼에 'a'만 들어가는 컬럼들만 출력해 보았습니다.  
axis=1은 세로 방향이라는 뜻이고 axis=0는 가로방향 이라는 뜻입니다.

### 4. 데이터 프레임 행,열 생성 및 수정하기


#### 4.1 데이터 프레임 행, 열 생성

데이터 프레임에 새로운 행과 열을 추가해야 할 때가 있습니다.

In [22]:
df = pd.DataFrame(friend_dict_list)
df

Unnamed: 0,name,age,job
0,John,25,student
1,Jenny,20,developer
2,Nate,30,teacher


새로운 컬럼을 생성하는 방법입니다.

In [23]:
df['salary'] = 0
df

Unnamed: 0,name,age,job,salary
0,John,25,student,0
1,Jenny,20,developer,0
2,Nate,30,teacher,0


다른 컬럼의 조건에 따라 새롭게 쓰여질 컬럼의 값을 다르게 저장 할 수 있습니다.

In [25]:
import numpy as np
df['salary'] = np.where(df['job'] != 'student', 'yes', 'no')
df

Unnamed: 0,name,age,job,salary
0,John,25,student,no
1,Jenny,20,developer,yes
2,Nate,30,teacher,yes


job 컬럼에서 student가 아니면 yes, student이면 no라는 값을 저장하도록 하였습니다.  

다른 컬럼들의 값을 계산한 후에 새로운 컬럼으로 추가 할 수 있습니다.

In [26]:
friend_test_list = [
    {'name' : 'John', 'midterm' : 90, 'final' : 95},
    {'name' : 'Jenny', 'midterm' : 70, 'final' : 75},
    {'name' : 'Nate', 'midterm' : 30, 'final' : 50}
]
df = pd.DataFrame(friend_test_list)
df

Unnamed: 0,name,midterm,final
0,John,90,95
1,Jenny,70,75
2,Nate,30,50


midterm과 final의 값을 더한 total이라는 컬럼을 추가해 보겠습니다.

In [27]:
df['total'] = df['midterm'] + df['final']
df

Unnamed: 0,name,midterm,final,total
0,John,90,95,185
1,Jenny,70,75,145
2,Nate,30,50,80


평균 점수도 추가해 보겠습니다.

In [29]:
df['average'] = df['total'] / 2
df

Unnamed: 0,name,midterm,final,total,average
0,John,90,95,185,92.5
1,Jenny,70,75,145,72.5
2,Nate,30,50,80,40.0


점수에 따라 학점을 매겨보겠습니다.  
for문과 if문을 통해 점수를 분류 합니다.

In [30]:
grade = []
for row in df['average'] :
    if row >= 90 :
        grade.append('A')
    elif row >= 70 :
        grade.append('B')
    else :
        grade.append('F')
df['grade'] = grade
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,90,95,185,92.5,A
1,Jenny,70,75,145,72.5,B
2,Nate,30,50,80,40.0,F


grade라는 리스트에 점수에 따라 학점을 append 하고 grade컬럼에 추가한 것입니다.

#### 4.2 데이터 프레임 수정하기
apply 함수를 통해서 데이터 프레임 내부의 값을 수정 할 수 있습니다.


In [31]:
def pass_or_fail(row) :
    if row != 'F' :
        return 'Pass'
    else :
        return 'Fail'
df.grade = df.grade.apply(pass_or_fail)
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,90,95,185,92.5,Pass
1,Jenny,70,75,145,72.5,Pass
2,Nate,30,50,80,40.0,Fail


날짜에 대한 데이터도 수정 할 수 있습니다.

In [32]:
date_list = [
    {
        'yyyy-mm-dd' : '2002-05-31'
    },
    {
        'yyyy-mm-dd' : '2010-06-27'
    }
]
df = pd.DataFrame(date_list, columns=['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2002-05-31
1,2010-06-27


위와 같은 날짜 형태에서 몇년도인지 추출해 보겠습니다.

In [33]:
def extract_year (row) :
    return row.split('-')[0]
df['yyyy-mm-dd'] = df['yyyy-mm-dd'].apply(extract_year)
df

Unnamed: 0,yyyy-mm-dd
0,2002
1,2010


임의의 함수를 작성하여 '-'로 구분되는 row중에 첫번째 인덱스에 해당하는 값만 받아와서 수정하였습니다.

### 5. 데이터 프레임 행,열 삭제하기


#### 5.1 데이터 프레임 삭제

In [34]:
friends = [
    {'age' : 15, 'job' : 'student'},
    {'age' : 25, 'job' : 'developer'},
    {'age' : 30, 'job' : 'teacher'},
]
df = pd.DataFrame(friends, index=['John', 'Jenny', 'Nate'], columns=['age', 'job'])
df

Unnamed: 0,age,job
John,15,student
Jenny,25,developer
Nate,30,teacher


위와 같은 데이터 프레임이 있습니다.  
여기서 특정 row만 제거해 보겠습니다.

In [35]:
df.drop(['John', 'Nate'])

Unnamed: 0,age,job
Jenny,25,developer


이 정보를 저장하기 위해서는

In [36]:
df = df.drop(['John', 'Nate'])
df

Unnamed: 0,age,job
Jenny,25,developer


이렇게 df 변수에 저장하면 됩니다.  
더욱 간편히 하기 위해서는 inplace를 해주시면 됩니다.

In [37]:
df = pd.DataFrame(friends, index=['John', 'Jenny', 'Nate'], columns=['age', 'job'])
df.drop(['John', 'Nate'], inplace=True)
df

Unnamed: 0,age,job
Jenny,25,developer


특정 로우의 인덱스를 지정해서 삭제해 보겠습니다.

In [38]:
friend_list = [
    {'name' : 'John', 'age' : 25, 'job' : 'student'},
    {'name' : 'Jenny', 'age' : 20, 'job' : 'developer'},
    {'name' : 'Nate', 'age' : 30, 'job' : 'teacher'}
]
df = pd.DataFrame(friend_list, columns=['name', 'age', 'job'])
df = df.drop(df.index[ [0,2] ])
df

Unnamed: 0,name,age,job
1,Jenny,20,developer


#### 5.2 데이터 프레임 조건부 삭제
조건문을 통해서 데이터 프레임의 일부만 삭제 할 수 있습니다.

In [39]:
df = pd.DataFrame(friend_list, columns=['name', 'age', 'job'])
df = df[df.age > 20]
df

Unnamed: 0,name,age,job
0,John,25,student
2,Nate,30,teacher


#### 5.3 컬럼 삭제
특정 컬럼만 삭제 할 수 있습니다.

In [40]:
df = pd.DataFrame(friend_list, columns=['name', 'age', 'job'])
df = df.drop('age', axis=1)
df

Unnamed: 0,name,job
0,John,student
1,Jenny,developer
2,Nate,teacher


마찬가지로 inplace를 통해 간단하게 만들 수 있습니다.

In [41]:
df = pd.DataFrame(friend_list, columns=['name', 'age', 'job'])
df.drop('age', axis=1, inplace=True)
df

Unnamed: 0,name,job
0,John,student
1,Jenny,developer
2,Nate,teacher


### 6. 데이터 그룹 만들기
데이터를 원하는 항목별로 그룹화 할 수 있습니다.

#### 6.1 그룹화

In [42]:
student_list = [
        {'name': 'John', 'major': "Computer Science", 'sex': "male"},
        {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
        {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
        {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
        {'name': 'Janny', 'major': "Economics", 'sex': "female"},
        {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
        {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
        {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
        {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
        {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
        {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

Unnamed: 0,name,major,sex
0,John,Computer Science,male
1,Nate,Computer Science,male
2,Abraham,Physics,male
3,Brian,Psychology,male
4,Janny,Economics,female
5,Yuna,Economics,female
6,Jeniffer,Computer Science,female
7,Edward,Computer Science,male
8,Zara,Psychology,female
9,Wendy,Economics,female


#### 6.2 분류
사용자가 원하는 기준에 따라 분류해 보겠습니다.

In [43]:
groupby_major = df.groupby('major')
groupby_major.groups

{'Computer Science': Int64Index([0, 1, 6, 7], dtype='int64'),
 'Economics': Int64Index([4, 5, 9], dtype='int64'),
 'Physics': Int64Index([2], dtype='int64'),
 'Psychology': Int64Index([3, 8, 10], dtype='int64')}

각 전공별로 몇명이 있는지 확인 할 수 있지만 더 보기 쉽게 for문을 통해 분류 하겠습니다.

In [44]:
for name, group in groupby_major :
    print(name + " : " + str(len(group)))
    print(group)
    print()

Computer Science : 4
       name             major     sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics : 3
    name      major     sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics : 1
      name    major   sex
2  Abraham  Physics  male

Psychology : 3
     name       major     sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



count라는 컬럼에 몇명이 있는지 추가했습니다.

In [45]:
df_mafor_cnt = pd.DataFrame( {'count' : groupby_major.size()}).reset_index()
df_mafor_cnt

Unnamed: 0,major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


성별에 따라 나누어 보겠습니다.

In [46]:
groupby_sex = df.groupby('sex')
for name, group in groupby_sex :
    print(name + " : " + str(len(group)))
    print(group)
    print()

female : 6
        name             major     sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male : 5
      name             major   sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



### 7. 다양한 함수 써보기


#### 7.1 map 함수
특정 데이터 값을 변경하고 싶을 때 사용합니다.



날짜 형식의 데이터 프레임이 있습니다. 여기서 몇년도인지 추출해 보겠습니다.

In [49]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [50]:
def extract_year(row) :
    return row.split('-')[0]
df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


전에 배웠던 apply 함수와 같은 방법으로 사용되었지만 다른점이 있습니다.  
바로 딕셔너리를 직접 전달한다는 것입니다.

In [52]:
job_list = [{'age': 20, 'job': 'student'},
         {'age': 30, 'job': 'developer'},
         {'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(job_list)
df

Unnamed: 0,age,job
0,20,student
1,30,developer
2,30,teacher


In [53]:
df.job = df.job.map({"student":1,"developer":2,"teacher":3})
df

Unnamed: 0,age,job
0,20,1
1,30,2
2,30,3


#### 7.2 applymap 함수
모든 값을 변경시키고 싶을때에 사용합니다.

In [54]:
x_y = [{'x': 5.5, 'y': -5.6},
         {'x': -5.2, 'y': 5.5},
         {'x': -1.6, 'y': -4.5}]
df = pd.DataFrame(x_y)
df

Unnamed: 0,x,y
0,5.5,-5.6
1,-5.2,5.5
2,-1.6,-4.5


모든 값을 numpy를 통해 반올림 해보겠습니다.

In [55]:
df = df.applymap(np.around)
df

Unnamed: 0,x,y
0,6.0,-6.0
1,-5.0,6.0
2,-2.0,-4.0


#### 7.3 unique 함수
많은 데이터 중에 특별한 몇가지 데이터만 출력합니다.

In [56]:
job_list = [{'name': 'John', 'job': "teacher"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Fred', 'job': "teacher"},
                {'name': 'Abraham', 'job': "student"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Janny', 'job': "developer"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Obrian', 'job': "dentist"},
                {'name': 'Yuna', 'job': "teacher"},
                {'name': 'Rob', 'job': "lawyer"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Matt', 'job': "student"},
                {'name': 'Wendy', 'job': "banker"},
                {'name': 'Edward', 'job': "teacher"},
                {'name': 'Ian', 'job': "teacher"},
                {'name': 'Chris', 'job': "banker"},
                {'name': 'Philip', 'job': "lawyer"},
                {'name': 'Janny', 'job': "basketball player"},
                {'name': 'Gwen', 'job': "teacher"},
                {'name': 'Jessy', 'job': "student"}
         ]
df = pd.DataFrame(job_list, columns = ['name', 'job'])
df

Unnamed: 0,name,job
0,John,teacher
1,Nate,teacher
2,Fred,teacher
3,Abraham,student
4,Brian,student
5,Janny,developer
6,Nate,teacher
7,Obrian,dentist
8,Yuna,teacher
9,Rob,lawyer


In [57]:
df.job.unique()

array(['teacher', 'student', 'developer', 'dentist', 'lawyer', 'banker',
       'basketball player'], dtype=object)

데이터 프레임에서 직업의 갯수를 출력해 보겠습니다.

In [58]:
df.job.value_counts()

teacher              8
student              5
banker               2
lawyer               2
basketball player    1
dentist              1
developer            1
Name: job, dtype: int64

### 8. 데이터 프레임 합치기
데이터 프레임을 합치기 위해서는 두가지 함수를 사용하면 됩니다.

1.   concat
2.   append



#### 8.1 concat 함수

In [62]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Fred', 'job': "developer"}]

l2 = [{'name': 'Ed', 'job': "dentist"},
      {'name': 'Jack', 'job': "farmer"},
      {'name': 'Ted', 'job': "designer"}]

df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['name', 'job'])

In [63]:
df1

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer


In [64]:
df2

Unnamed: 0,name,job
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


In [66]:
frames = [df1, df2]
result = pd.concat(frames)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
0,Ed,dentist
1,Jack,farmer
2,Ted,designer


위 결과값의 인덱스를 보시면 012가 반복되는걸 보실 수 있습니다. 인덱스를 보기 좋게 만드시려면 'ignore_index=True' 를 추가해 주시면 됩니다.



In [67]:
result = pd.concat(frames, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


#### 8.2 append 함수
concat 함수와 다르게 df1에 df2를 추가하는 방법입니다.

In [69]:
result = df1.append(df2, ignore_index=True)
result

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Fred,developer
3,Ed,dentist
4,Jack,farmer
5,Ted,designer


#### 8.3 row로 합치는 방법
지금까지는 컬럼의 형태로 합쳤지만 이번엔 로우의 형태로 합쳐보겠습니다.

In [70]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Jack', 'job': "developer"}]

l2 = [{'age': 25, 'country': "U.S"},
      {'age': 30, 'country': "U.K"},
      {'age': 45, 'country': "Korea"}]

df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df2 = pd.DataFrame(l2, columns = ['age', 'country'])

In [71]:
df1

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Jack,developer


In [72]:
df2

Unnamed: 0,age,country
0,25,U.S
1,30,U.K
2,45,Korea


In [73]:
result = pd.concat([df1, df2], axis=1, ignore_index=True)
result

Unnamed: 0,0,1,2,3
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Jack,developer,45,Korea
