## Pandas

#### Pandas란? 데이터 분석 및 가공에 사용하는 파이썬 라이브러리

In [None]:
import pandas as pd

In [None]:
data_frame = pd.read_csv('data/friend_list.csv')
data_frame

#### DataFrame이란? 행과 열의 구조를 갖는 엑셀과 같은 테이블 형태의 데이터 구조

In [None]:
# 데이터프레임에서 상위 데이터 5개를 출력. head()
data_frame.head()

In [None]:
data_frame.head(3)

In [None]:
data_frame.tail(3)

#### 시리즈(Series)란? 데이터프레임의 컬럼(열)을 말한다.
##### 3개의 시리즈로 구성된 데이터프레임이다. 

In [None]:
type(data_frame) # 변수의 타입 확인

In [None]:
type(data_frame.name) # 변수의 타입 확인

In [None]:
data_frame.name

In [None]:
data_frame['name']

In [None]:
data_frame

In [None]:
data_frame.job

In [None]:
data_frame.job.str.upper()

In [None]:
data_frame.job = data_frame.job.str.upper()
data_frame.head()

In [None]:
data_frame.age

### Pandas는 3가지의 자료구조
#### Series, DataFrame, Panel

In [None]:
# Series 생성
data = [1,3,5,7,9] # 리스트 자료형

s = pd.Series(data)
s

In [None]:
# DataFrame 생성
data = {
    'year': [2016, 2017, 2018],
    'GDP rate': [2.8, 3.1, 3.0],
    'GDP': ['1.00M', '1.7M', '2.6M']
} # 딕셔너리 자료형. key → 컬럼, value → 행

df = pd.DataFrame(data)
df

In [None]:
# Panel 생성
import pandas as pd
import numpy as np

In [None]:
data = np.random.rand(2, 3, 4)
data

In [None]:
p = pd.Panel(data) # Panel()명령어 지원 안됨(확인 할 것)

In [None]:
# Series s1 과 s2를 각각 생성
s1 = pd.core.series.Series(['one', 'two', 'three'])
s2 = pd.core.series.Series([1, 2, 3])

In [None]:
# Series s1, s2를 이용하여 DataFrame 생성하기
pd.DataFrame(data=dict(word=s1, num=s2)) # dict() 함수: 딕셔너리로 변환하는 함수

### 파일을 데이터프레임으로 불러오기

#### pandas는 기본적으로 csv 파일포맷을 지원한다. 구분자로 데이터가 구성되어있는 것은 가능하다.

In [None]:
df = pd.read_csv('data/friend_list.csv')
df

In [None]:
df = pd.read_csv('data/friend_list.txt') # csv파일은 아니지만, 구분자 콤마(,)로 구분되어있어 가능하다.
df

In [None]:
df = pd.read_csv('data/friend_list_tab.txt', delimiter='\t') # 데이터가 TAB키로 구분되어 있음
df

In [None]:
# 파일에 제목행이 없음
df = pd.read_csv('data/friend_list_no_head.csv')
df

In [None]:
# 제목행이 없을 경우 데이터를 제목행으로 사용하는 것을 방지
df = pd.read_csv('data/friend_list_no_head.csv', header=None)
df

In [None]:
# 위의 데이터프레임에 제목행을 지정한다.
df.columns = ['name', 'age', 'job']

In [None]:
df

In [None]:
# 데이터프레임 생성 시 헤더(제목)을 지정하는 경우
df = pd.read_csv('data/friend_list_no_head.csv', names=['name', 'age', 'job'])
df

#### 파이썬 코드로 데이터프레임 생성하기

In [None]:
# 딕셔너리로 데이터프레임 생성하기(key: 열, value: 행)
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df.head()

In [None]:
# 데이터프레임의 컬럼순서 변경하기
df = df[['age', 'job', 'name']]
df

In [None]:
# 데이터프레임의 컬럼순서 변경하기
df = df[['name', 'age', 'job']]
df

In [None]:
# 데이터프레임의 컬럼 제거하기
df = df[['name', 'job']]
df

In [None]:
df['job'] # Series 관점으로 정보를 보기

In [None]:
df[['job']] # 데이터프레임으로 보기

In [None]:
# list로 데이터프레임 생성하기(list 2차원 구조로 존재해야한다.)
data = [1,2,3,4,5]  # 1차원 구조
s1 = pd.Series(data)
s1

In [None]:
# 2차원구조의 list로 데이터프레임 생성하기
friend_list = [
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]
# 컬럼
colum_name = ['name', 'age', 'job']
# 아래 두 문장은 동일하다.
df = pd.DataFrame(friend_list, columns=colum_name )
# df = pd.DataFrame.from_records(friend_list, columns=colum_name )

In [None]:
df

In [None]:
# 제목까지 포함한 리스트로 데이터프레임 생성하기
friend_list = [
    ['name', ['John', 'Jenny', 'Nate']],
    ['age', [20, 30, 30]],
    ['job', ['student', 'developer', 'teacher']]
]
df = pd.DataFrame.from_items(friend_list) # 현재 버전에서 에러발생(체크버전 확인 할 것.)
df

#### 데이터프레임을 파일로 저장하기

In [None]:
friend_list = [
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]

colum_name = ['name', 'age', 'job']

df = pd.DataFrame(friend_list, columns=colum_name )

In [None]:
df

In [None]:
# 데이터프레임을 파일로 저장하기

df.to_csv('data/friend_list_from_df.csv')

In [None]:
df.to_csv('data/friend_list_from_df.txt')

In [None]:
df.to_csv('data/friend_list_from_df.csv', header=['name', 'age', 'job'])

In [None]:
df

### 행 선택하기

In [None]:
friend_list = [
    ['John', 20, 'student'],
    ['Jenny', 30, 'developer'],
    ['Nate', 30, 'teacher']
]

colum_name = ['name', 'age', 'job']

# df = pd.DataFrame(friend_list, columns=colum_name )
df = pd.DataFrame.from_records(friend_list, columns=colum_name )

In [None]:
df

In [None]:
# 컬럼을 기준으로
df[['name']]

In [None]:
df[['name', 'job']]

In [None]:
df[['job', 'age']]

In [None]:
# 행을 기준으로. 인덱스 1에서 인덱스 3을 포함하지 않은 데이터 행을 출력하라. (순차적 의미)
df[1:3]

In [None]:
# 행을 선택적으로 보기. (비순차적 의미)
df.loc[[0, 2]]

### 컬럼에 필터링 적용하기.(조건식)

In [None]:
df_filtered = df[df.age > 25] # 조건식이 적용된 데이터프레임

In [None]:
df_filtered

In [None]:
# 조건식 사용하기 2
df_filtered = df.query('age > 25')
df_filtered

In [None]:
# 조건식 여러개 사용하기
df_filtered = df[(df.age > 25) & (df.name == 'Nate')]
df_filtered

In [None]:
df

In [None]:
# 행, 열 인덱스를 이용한 필터링 하기 df[(행)시작인덱스:끝인덱스, (열)시작인덱스:끝인덱스]
df.iloc[:, 0:2]

In [None]:
df = pd.read_csv('data/friend_list.csv')
df

In [None]:
# 정규식 사용
df.filter(regex='e$', axis=1)

### 행 삭제하기

##### 리스트 자료형을 사용하여 데이터프레임 생성하기(2차원 구조) → [[ ],[ ]]
##### 딕셔너리 자료형을 사용하여 데이터프레임 생성하기

In [None]:
# 딕셔너리로 데이터프레임을 생성
# 딕셔너리로 표현할 경우 key는 이름이 동일해야 한다.

friend_dict_list = [
    
    {'age': 20, 'job': 'student'},
    {'age': 30, 'job': 'developer'},
    {'age': 20, 'job': 'teacher'}
]

# 데이터프레임 생성 시 데이터행을 가리키는 인덱스가 자동저장되어 있다.
df = pd.DataFrame(friend_dict_list, index=['John','Jenny','Nate'])
df

In [None]:
df.drop(['John', 'Nate']) # 'John', 'Nate' 인덱스 행을 삭제한다.

In [None]:
df

In [None]:
df = df.drop(['John', 'Nate']) # 인덱스 행이 삭제된 상태의 반환 결과를 새로 저장
df

In [None]:
# 다시 데이터프레임 생성

friend_dict_list = [
    
    {'age': 20, 'job': 'student'},
    {'age': 30, 'job': 'developer'},
    {'age': 20, 'job': 'teacher'}
]

df = pd.DataFrame(friend_dict_list, index=['John','Jenny','Nate'])
df

In [None]:
df.drop(['John', 'Nate'])
df

In [None]:
df.drop(['John', 'Nate'], inplace=True)
df

In [None]:
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

In [None]:
df = df.drop('age', axis=1) # age 컬럼 삭제하기

In [None]:
df

In [None]:
# 데이터프레임 생성하기
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

#### 컬럼 추가, 변경하기

In [None]:
# 컬럼추가하기
df['salary'] = 0

In [None]:
df

In [None]:
# 데이터프레임 생성하기
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

In [None]:
import numpy as np

In [None]:
df

In [None]:
# df['NEW컬럼명'] =  값
# job이 student인 경우에는 no, 아닌 경우에는 yes

df['salary'] = np.where(df['job'] != 'student', 'yes', 'no')

In [None]:
df

In [None]:
# 데이터프레임 생성하기

friend_dic_list = [
    
    {'name': 'John', 'midterm': 95, 'final': 85},
    {'name': 'Jenny', 'midterm': 70, 'final': 90},
    {'name': 'Nate', 'midterm': 45, 'final': 30}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

In [None]:
# 중간고사(midterm) + 기말고사(final) = 합계(total)

df['total'] = df['midterm'] + df['final']

In [None]:
df

In [None]:
# 평균(average) 추가

df['average'] = df['total'] / 2

In [None]:
df

In [None]:
# 평균값을 사용하여 등급(grade) 컬럼을 추가
# 평균 점수가 90이상 A, 80이상 B, 70이상 C, 나머지 F

# 등급을 판단하는 구문

grades = []

for row in df['average']:
    if row >= 90:
        grades.append('A')
    elif row >= 80:
        grades.append('B')
    elif row >= 70:
        grades.append('C')
    else:
        grades.append('F')
        
df['grade'] = grades
df

In [None]:
# 등급을 판단해서 성공, 실패여부 확인
def success_or_fail(row):
    print(row)
    
    if row != 'F':
        return 'Success'
    else:
        return 'Fail'

In [None]:
df['status'] = df.grade.apply(success_or_fail)

In [None]:
df

In [None]:
date_list = [
    
    {'yyyy-mm-dd': '2008-06-27'},
    {'yyyy-mm-dd': '2012-09-24'},
    {'yyyy-mm-dd': '2000-12-26'}
]

df = pd.DataFrame(date_list)
df

In [None]:
# 연도를 구하는 함수
def extract_year(row):
    return row.split('-')[0]

In [None]:
df['year'] = df['yyyy-mm-dd'].apply(extract_year)

In [None]:
df

### apply()함수에 파라미터 사용하기

In [None]:
def extract_year(row, cur_year): # 2020 - 2000
    return cur_year - int(row)

In [None]:
df['age'] = df['year'].apply(extract_year, cur_year = 2020)

In [None]:
df

### apply() 함수에 파라미터 여러개 사용하기

In [None]:
def get_intro(age, prefix, suffix):
    return prefix + str(age) + suffix

In [None]:
df['intro'] = df['age'].apply(get_intro, prefix = '나는 ', suffix = '세 입니다.')
df

### apply()함수에 여러개의 컬럼 파라미터로 사용하기

In [None]:
def get_intro2(row):
    return "나는 " + str(row.year) + "년도 출생이고, 나이는 " + str(row.age)

In [None]:
df.intro = df.apply(get_intro2, axis=1) # 기존 컬럼명을 이용하여 처리

In [None]:
df

### Map() 함수로 컬럼 추가 및 변경하기

In [None]:
# 연도를 구하는 함수
def extract_year(row):
    return row.split('-')[0]

In [None]:
date_list = [
    
    {'yyyy-mm-dd': '2008-06-27'},
    {'yyyy-mm-dd': '2012-09-24'},
    {'yyyy-mm-dd': '2000-12-26'}
]

df = pd.DataFrame(date_list)
df

In [None]:
# apply()함수와 동일하게 사용이 가능.
df['year'] = df['yyyy-mm-dd'].map(extract_year)
df

In [None]:
# 데이터프레임 생성하기
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)
df

#### apply()와 Map()일 다른 사용 예제

In [None]:
df.job = df['job']. map({'student': 1, 'developer': 2, 'teacher': 3})
df

### applymap() 함수 사용하기

In [None]:
# 데이터프레임 전체 요소의 값을 한번에 변경하기
x_y = [
    {'x': 5.5, 'y': -5.6},
    {'x': -5.2, 'y': 5.2},
    {'x': -1.6, 'y': -4.5}
]

df = pd.DataFrame(x_y)
df

In [None]:
df = df.applymap(np.around)
df

In [None]:
# 데이터프레임 생성하기
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

In [None]:
# 파일로 생성. 인덱스 포함해서 생성
df.to_csv('data/friend_dic_list.csv', index=False)

In [None]:
df2 = pd.read_csv('data/friend_dic_list.csv')

In [None]:
df2

### 데이터프레임에 행(row) 추가하기

In [None]:
# 데이터프레임 생성하기
friend_dic_list = [
    {'name': 'Jone', 'age': 20, 'job': 'student'},
    {'name': 'Jenny', 'age': 30, 'job': 'developer'},
    {'name': 'Nate', 'age': 30, 'job': 'teacher'}
]
df = pd.DataFrame(friend_dic_list)

In [None]:
df

In [None]:
# 1개의 데이터 행을 구성하고 데이터프레임 생성
df2 = pd.DataFrame([['Kim', 35, 'developer']], columns=['name', 'age', 'job'])

In [None]:
df2

In [None]:
df = df.append(df2, ignore_index=True)

In [None]:
df

In [None]:
# 딕셔너리를 이용하여 데이터프레임 생성
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

In [None]:
# major컬럼을 그룹화
groupby_major = df.groupby('major')

In [None]:
groupby_major.groups

In [None]:
for name, group in groupby_major:
    print(name + ":" + str(len(group)))
    print(group)
    print()

In [None]:
# 그룹화된 정보를 데이터프레임으로 생성하기
df_major_cnt =  pd.DataFrame({'count': groupby_major.size()}).reset_index()

In [None]:
df_major_cnt

In [None]:
# sex컬럼을 그룹화
group_sex = df.groupby('sex')

In [None]:
group_sex.groups # 그룹화된 요약 정보

In [None]:
# name: 그릅화에 사용한 데이터, group: 그룹화된 데이터 내역
for name, group in group_sex:
    print(name + ": " + str(len(group)))
    print(group)
    print()

In [None]:
# 그룹화 정보(group_sex)를 내용으로 데이터프레임 생성
df_sex_cnt = pd.DataFrame({'count': group_sex.size()}).reset_index()

In [None]:
df_sex_cnt

In [None]:
# 딕셔너리를 이용하여 데이터프레임 생성
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': "male"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

In [None]:
# 중복된데이터 확인하기
df.duplicated()

In [None]:
# 중복된 데이터 삭제하기
df = df.drop_duplicates()
df

In [None]:
# 딕셔너리를 이용하여 데이터프레임 생성
student_list = [{'name': 'John', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Nate', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Abraham', 'major': "Physics", 'sex': "male"},
                {'name': 'Brian', 'major': "Psychology", 'sex': "male"},
                {'name': 'Janny', 'major': "Economics", 'sex': "female"},
                {'name': 'Yuna', 'major': "Economics", 'sex': "female"},
                {'name': 'Jeniffer', 'major': "Computer Science", 'sex': "female"},
                {'name': 'Edward', 'major': "Computer Science", 'sex': "male"},
                {'name': 'Zara', 'major': "Psychology", 'sex': "female"},
                {'name': 'Wendy', 'major': "Economics", 'sex': "female"},
                {'name': 'Sera', 'major': "Psychology", 'sex': "female"},
                {'name': 'John', 'major': "Computer Science", 'sex': "male"}
         ]
df = pd.DataFrame(student_list, columns = ['name', 'major', 'sex'])
df

In [None]:
# name컬럼에 중복된 데이터 확인
df.duplicated(['name'])

In [None]:
# name컬럼에 중복된 데이터 삭제하기
# 중복된 데이터 중 마지막 데이터 유지
df.drop_duplicates(['name'], keep='last')

In [None]:
# # 중복된 데이터 중 첫번 째 데이터 유지
df.drop_duplicates(['name'], keep='first')

### None 처리하기(DB관점으로 보면 Null의미)

In [None]:
school_id_list = [{'name': 'John', 'job': "teacher", 'age': 40},
                {'name': 'Nate', 'job': "teacher", 'age': 35},
                {'name': 'Yuna', 'job': "teacher", 'age': 37},
                {'name': 'Abraham', 'job': "student", 'age': 10},
                {'name': 'Brian', 'job': "student", 'age': 12},
                {'name': 'Janny', 'job': "student", 'age': 11},
                {'name': 'Nate', 'job': "teacher", 'age': None},
                {'name': 'John', 'job': "student", 'age': None}
         ]
df = pd.DataFrame(school_id_list, columns = ['name', 'job', 'age'])
df

In [None]:
df.to_csv('data/school_id_list.csv', index=False)

### Null 또는 NaN 정보 확인하기

In [None]:
df.info()

In [None]:
df.isna() # 데이터프레임의 기본정보

In [None]:
df.isnull()

### Null 또는 NaN값 변경하기

In [None]:
temp = df
temp['age'] = temp['age'].fillna(0) # Null을 0으로 변경
temp

In [None]:
school_id_list = [{'name': 'John', 'job': "teacher", 'age': 40},
                {'name': 'Nate', 'job': "teacher", 'age': 35},
                {'name': 'Yuna', 'job': "teacher", 'age': 37},
                {'name': 'Abraham', 'job': "student", 'age': 10},
                {'name': 'Brian', 'job': "student", 'age': 12},
                {'name': 'Janny', 'job': "student", 'age': 11},
                {'name': 'Nate', 'job': "teacher", 'age': None},
                {'name': 'John', 'job': "student", 'age': None}
         ]
df = pd.DataFrame(school_id_list, columns = ['name', 'job', 'age'])
df

In [None]:
# 0으로 설정되어 있는 데이터를 직업군의 성격에 맞게 각각 교사, 학생의 평균나이로 대체
df['age'].fillna(df.groupby("job")["age"].transform('median'), inplace=True)

In [None]:
df

### Unique

In [None]:
job_list = [{'name': 'John', 'job': "teacher"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Fred', 'job': "teacher"},
                {'name': 'Abraham', 'job': "student"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Janny', 'job': "developer"},
                {'name': 'Nate', 'job': "teacher"},
                {'name': 'Obrian', 'job': "dentist"},
                {'name': 'Yuna', 'job': "teacher"},
                {'name': 'Rob', 'job': "lawyer"},
                {'name': 'Brian', 'job': "student"},
                {'name': 'Matt', 'job': "student"},
                {'name': 'Wendy', 'job': "banker"},
                {'name': 'Edward', 'job': "teacher"},
                {'name': 'Ian', 'job': "teacher"},
                {'name': 'Chris', 'job': "banker"},
                {'name': 'Philip', 'job': "lawyer"},
                {'name': 'Janny', 'job': "basketball player"},
                {'name': 'Gwen', 'job': "teacher"},
                {'name': 'Jessy', 'job': "student"}
         ]
df = pd.DataFrame(job_list, columns = ['name', 'job'])

In [None]:
df

In [None]:
print(df.job.unique()) # 중복된 데이터를 제거하여, 직업군의 종류를 표시함

In [None]:
# 각 직업별 데이터의 개수를 파악
df.job.value_counts()

In [None]:
# 2개의 데이터프레임 병합하기
list1 = [
    {'name': 'John', 'job': 'teacher'},
    {'name': 'Nate', 'job': 'student'},
    {'name': 'Jenny', 'job': 'developer'}
]

list2 = [
    {'name': 'Ed', 'job': 'dentist'},
    {'name': 'Jack', 'job': 'farmer'},
    {'name': 'Ted', 'job': 'designer'}
]

df1 = pd.DataFrame(list1)
df2 = pd.DataFrame(list2)

In [None]:
df1

In [None]:
df2

In [None]:
frames = [df1, df2] # Series: 데이터 행의 의미, 파이썬의 리스트형을 
result = pd.concat(frames, ignore_index=True)
result

In [None]:
# 첫 번째 데이터프레임 두번 째 데이터프레임의 데이터를 추가하기
# 2개의 데이터프레임 병합하기
list1 = [
    {'name': 'John', 'job': 'teacher'},
    {'name': 'Nate', 'job': 'student'},
    {'name': 'Jenny', 'job': 'developer'}
]

list2 = [
    {'name': 'Ed', 'job': 'dentist'},
    {'name': 'Jack', 'job': 'farmer'},
    {'name': 'Ted', 'job': 'designer'}
]

df1 = pd.DataFrame(list1)
df2 = pd.DataFrame(list2)

In [None]:
result = df1.append(df2, ignore_index=True)
result

In [None]:
# 첫 번째 데이터프레임에 두번 째 데이터프레임의 컬럼을 추가하기(합치기)
list1 = [
    {'name': 'John', 'job': 'teacher'},
    {'name': 'Nate', 'job': 'student'},
    {'name': 'Jenny', 'job': 'developer'}
]

list2 = [
    {'age': 25, 'country': 'U.S'},
    {'age': 30, 'country': 'U.K'},
    {'age': 45, 'country': 'Korea'}
]

df1 = pd.DataFrame(list1)
df2 = pd.DataFrame(list2)

In [None]:
result = pd.concat([df1, df2], axis=1)
result

In [None]:
# 2개의 리스트를 사용하여, 데이터프레임 생성하기
label = [1,2,3,4,5]
prediction = [1,2,3,4,5]

# 딕셔너리로 데이터프레임 생성
comparison = pd.DataFrame(
        {'label': label, 'prediction': prediction}
)

In [None]:
comparison