In [1]:
import pandas as pd

# 컬럼 추가 또는 변경하기

In [None]:
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])

In [3]:
df.head()

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


아래와 같은 방법으로 새로운 컬럼을 기본값과 함께 추가하실 수 있습니다.

In [4]:
df['salary'] = 0  # salary열 추가

In [5]:
df.head()

Unnamed: 0,name,age,job,salary
0,Jone,15,student,0
1,Jenny,30,developer,0
2,Nate,30,teacher,0


넘파이를 사용하셔서, 한줄에 새로운 컬럼값을 생성하실 수도 있습니다.

In [6]:
import numpy as np

 넘파이를 사용하여 학생은 월급이 no

In [7]:
df['salary'] = np.where(df['job'] != 'student' , 'yes', 'no')  

In [8]:
df.head()

Unnamed: 0,name,age,job,salary
0,Jone,15,student,no
1,Jenny,30,developer,yes
2,Nate,30,teacher,yes


In [22]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 30, 'final': 10}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,30,10


아래는 기존에 있는 두 컬럼값을 더해서 새로운 컬럼을 만드는 예제입니다.

In [23]:
df['total'] = df['midterm'] + df['final']  # 총점 컬럼을 추가

In [24]:
df.head()

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,30,10,40


기존의 컬럼을 사용하여 새로운 컬럼을 만드는 예제입니다.

In [25]:
df['average'] = df['total'] / 2  # 평균 점수

In [26]:
df.head()

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,30,10,40,20.0


아래와 같이, 리스트에 조건별 값을 담아서, 새로운 컬럼으로 추가시킬 수 있습니다.

In [27]:
grades = []

for row in df['average']:   # 평균 점수를 가져와서
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    else:
        grades.append('F')
        
df['grade'] = grades

In [28]:
df.head()

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,30,10,40,20.0,F


apply 함수 사용 예제입니다.  
apply를 사용하시면, 깔끔하게 컬럼의 값을 변경하는 코드를 구현하실 수 있습니다.

In [29]:
def pass_or_fail(row):
    if row != "F":
        return 'Pass'
    else:
        return 'Fail'

In [30]:
df.grade = df.grade.apply(pass_or_fail)  # 위의 함수 결과를 grade에 넣어라

In [31]:
df.head()

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,30,10,40,20.0,Fail


apply를 사용해서 연월일의 정보에서 연도만 빼보는 예제입니다.

In [None]:
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])

In [33]:
df.head()

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [34]:
def extract_year(row):  
    return row.split('-')[0] # 첫번째 인자만 같는다.즉 년도만

In [35]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)  # 행 year을 추가하고 함수에서 만든값을 넣어라

In [36]:
df.head()

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


# 데이터프레임에 로우 추가하기

In [37]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])

In [38]:
df.head()

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [41]:
df2 = pd.DataFrame([
    ['Ben', 50,50]
], columns = ['name', 'midterm', 'final'])

In [43]:
df2.head()

Unnamed: 0,name,midterm,final
0,Ben,50,50


In [45]:
# df.append(df2, ignore_index = True)  # 옛날 방법
df=pd.concat([df,df2])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30
0,Ben,50,50
