In [1]:
import pandas as pd

In [2]:
# 컬럼 추가 or 변경
friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


In [3]:
# 새로운 컬럼 기본값과 함께 추가하는 법
df['salary'] = 0
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,0
1,Jenny,30,developer,0
2,Nate,30,teacher,0


In [4]:
# 응용 예제

friend_dict_list = [{'name': 'Jone', 'age': 15, 'job': 'student'},
         {'name': 'Jenny', 'age': 30, 'job': 'developer'},
         {'name': 'Nate', 'age': 30, 'job': 'teacher'}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'age', 'job'])
df

Unnamed: 0,name,age,job
0,Jone,15,student
1,Jenny,30,developer
2,Nate,30,teacher


In [5]:
# 넘파이 사용해서 새로운 컬럼값 생성
import numpy as np
df['salary'] = np.where(df['job'] != 'student', 'yes', 'no')
# salary 라는 컬럼 추가 --> 'job'이라는 컬럼 인덱스가 'student'가 아니면 'yes',
# 맞으면 'no'
df

Unnamed: 0,name,age,job,salary
0,Jone,15,student,no
1,Jenny,30,developer,yes
2,Nate,30,teacher,yes


In [6]:
friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
         {'name': 'Jenny', 'midterm': 85, 'final': 80},
         {'name': 'Nate', 'midterm': 10, 'final': 30}]
df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
df

Unnamed: 0,name,midterm,final
0,John,95,85
1,Jenny,85,80
2,Nate,10,30


In [7]:
# 두 컬럼값을 더해서 새로운 컬럼 만들기
df['total'] = df['midterm'] + df['final']
df

Unnamed: 0,name,midterm,final,total
0,John,95,85,180
1,Jenny,85,80,165
2,Nate,10,30,40


In [8]:
# 중간, 기말고사 컬럼 평균값 구하는 컬럼 추가
df['average'] = df['total'] / 2
df

Unnamed: 0,name,midterm,final,total,average
0,John,95,85,180,90.0
1,Jenny,85,80,165,82.5
2,Nate,10,30,40,20.0


In [9]:
# 조건별 값을 담는 반복문 생성 및 새로운 컬럼으로 추가
grades = []

for row in df['average']:
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    else:
        grades.append('F')
# 반복문 설명: 만약 지정 점수 이상이면 append함수 'a,b,c'점수 지정
# 그 외의 값은 'f'지정
df['grade'] = grades
# 컬럼 생성하여 반복문 돌린 변수 삽입
df

Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,A
1,Jenny,85,80,165,82.5,B
2,Nate,10,30,40,20.0,F


In [10]:
# apply 함수 사용 예제
def pass_or_fail(row):
    print(row)
    if row != 'F':
        return 'Pass'
    else:
        return 'Fail'
# 함수 설명: 컬럼값이 'F'가 아닐시 'pass'반환, 그 외에는 'fail'반환
df.grade = df.grade.apply(pass_or_fail)
# 기존 컬럼인 grade에 apply함수를 이용해 앞서 작성한 함수값으로 수정
df

A
B
F


Unnamed: 0,name,midterm,final,total,average,grade
0,John,95,85,180,90.0,Pass
1,Jenny,85,80,165,82.5,Pass
2,Nate,10,30,40,20.0,Fail


In [11]:
# apply 사용하여 연월일 정보에서 연도만 빼기
date_list = [{'yyyy-mm-dd': '2000-06-27'},
         {'yyyy-mm-dd': '2002-09-24'},
         {'yyyy-mm-dd': '2005-12-20'}]
df = pd.DataFrame(date_list, columns = ['yyyy-mm-dd'])
df

Unnamed: 0,yyyy-mm-dd
0,2000-06-27
1,2002-09-24
2,2005-12-20


In [13]:
def extract_years(row):
    return row.split('-')[0]
# 연도를 빼기위한 함수 --> split으로 첫번째'-'전까지 자르기

df['year'] = df['yyyy-mm-dd'].apply(extract_years)
# 'year'이라는 컬럼 추가 --> 연도만 빼옴
df

Unnamed: 0,yyyy-mm-dd,year
0,2000-06-27,2000
1,2002-09-24,2002
2,2005-12-20,2005


In [27]:
# friend_dict_list = [{'name': 'John', 'midterm': 95, 'final': 85},
#          {'name': 'Jenny', 'midterm': 85, 'final': 80},
#          {'name': 'Nate', 'midterm': 10, 'final': 30}]
# df = pd.DataFrame(friend_dict_list, columns = ['name', 'midterm', 'final'])
# df.head()
# df2 = pd.DataFrame([
#     ['Ben', 50, 50]
# ], columns=['name', 'midterm', 'final'])
# df2.head()
# df.append()

Unnamed: 0,name,midterm,final
0,Ben,50,50


Unnamed: 0,name,midterm,final
0,Ben,50,50


In [None]:
df.append()