파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pandas (판다스) : Series, DataFrame 등의 자료구조를 활용한 데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

판다스 기초

pandas
- Series, DataFrame 등의 자료구조를 활용한
- 데이터 분석 기능을 제공해주는 라이브러리

pandas 라이브러리 구성
- 여러 종류의 클래스와 다양한 내장함수로 구성
- 시리즈와 데이터프레임이라는 데이터 구조 클래스 객체 포함
- 자주 사용되는 내장 함수 : Series(), DataFrame(), read_excel(), read_csv()

Series와 DataFrame : 구조화된 데이터 형식
- Series : 1차원 배열
- DataFrame : 2차원 테이블 형태

판다스의 1차적인 목적
- 서로 다른 여러 가지 유형의 데이터를 공동의 포맷으로 정리하는 것
- 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
- 데이터 분석 실무에서 자주 사용됨


시리즈부터 시작

시리즈
- 데이터가 순차적으로 나열된 1차원 배열 형태
- 인덱스(index)와 데이터 값(value)이 일대일로 대응됨
- 딕셔너리와 비슷한 구조 : [key : value]
- 시리즈의 인덱스 = 데이터의 값의 위치를 나타내는 이름표 (숫자, 문자)

시리즈 만들기 : 판다스의 내장 함수인 Series() 함수 사용
 1. 리스트로 시리즈 만들기
 2. 딕셔너리로 시리즈 만들기

In [1]:
# pandas 불러오기 
import pandas as pd

In [2]:
# 시리즈 만들기 : Series() 함수 사용
# 1. 리스트로 시리즈 만들기
# Sefies(1차원배열:리스트)
s = pd.Series([1,2,3])
s
# 인덱스 : 0부터 시작하는 정수값으로 자동 지정

0    1
1    2
2    3
dtype: int64

In [3]:
# 2. 딕셔너리로 시리즈 만들기
scores = {'홍길동':95, '이몽룡':100, '성춘향':88}
s = pd.Series(scores)
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [4]:
# 숫자 인덱스 지정하면서 시리즈 생성
s = pd.Series([10,20,30],index=[1,2,3])
s

1    10
2    20
3    30
dtype: int64

In [5]:
# 문자 인덱스 사용
s = pd.Series([95,100,88],
             index = ['홍길동','이몽룡','성춘향'])
s


홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [6]:
# 123456, 345678, 384567, 148324
# 인덱스 : 서울, 부산, 인천, 대구
# 시리즈 s 생성
s = pd.Series([123456, 345678, 384567, 148324],index=['서울','부산','인천','대구'])
s

서울    123456
부산    345678
인천    384567
대구    148324
dtype: int64

In [7]:
# range() 함수를 사용해서 일정 범위의 값으로 시리즈 생성
pd.Series(range(10,14))
# 인덱스는 항상 0부터 시작

0    10
1    11
2    12
3    13
dtype: int64

In [8]:
# 시리즈의 인덱스는 index 속성으로 접근해서 확인 가능
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [9]:
# 시리즈의 값은 values 속성으로 접근해서 확인 가능
s.values

array([123456, 345678, 384567, 148324], dtype=int64)

In [10]:
# 인덱스와 데이터에 이름 붙이기
# index.name 속성으로 시리즈의 인덱스에 이름을 붙일 수 있음
s.index.name = "도시"
s

도시
서울    123456
부산    345678
인천    384567
대구    148324
dtype: int64

In [11]:
# 데이터에는 name 속성을 이용해서 시리즈에 이름 붙일 수 있음
s.name = "인구"
s

도시
서울    123456
부산    345678
인천    384567
대구    148324
Name: 인구, dtype: int64

시리즈 인덱싱 (indexing)
- 데이터에서 인덱스를 사용해서 특정 데이터만 골라내는 것 (추출하는 것)

인덱스 종류
1. 정수형 위치 인덱스 (integer position)
2. 인덱스 이름(index name) 또는 인덱스 라벨(index label)
    - 인덱스 아룸 예 : 서울, 부산, 인천, 대구


In [12]:
# 정수형 위치 인덱스를 사용한 인덱싱
s[0] # 첫 번째 요소(원소)

123456

In [13]:
# 인덱스 이름 (또는 인덱스 라벨)을 이용한 인덱싱
s['부산']

345678

In [14]:
# 정수형 위치 인덱스, 인덱스 이름(인덱스 라벨)
s[3], s['대구']

(148324, 148324)

In [15]:
# 배열 인덱싱을 하면 데이터의 순서 변경하기
# 특정 데이터만 선택 가능
# 인덱스 사용법 : s[0] : 인덱스값이 1개인 경우
# 인덱스 값이 여러 개인 경우 리스트로 표현 : [0,3,1]
# - s[[0,3,1]]
s[[0,3,1]]

도시
서울    123456
대구    148324
부산    345678
Name: 인구, dtype: int64

In [16]:
# 인덱스 라벨을 사용해서 서울, 대구, 부산만 출력
s[['서울','대구','부산']]

도시
서울    123456
대구    148324
부산    345678
Name: 인구, dtype: int64

In [17]:
# 시리즈 슬라이싱
# 정수형 위치 인덱스를 사용한 슬라이싱
# [start,end-1]
# 2~3번째
s[1:3]

도시
부산    345678
인천    384567
Name: 인구, dtype: int64

In [18]:
#인덱스 라벨(문자열)을 사용한 슬라이싱도 가능
# 부산, 인천, 대구 추출
# [start, end]
s['부산':'대구']

도시
부산    345678
인천    384567
대구    148324
Name: 인구, dtype: int64

In [19]:
# 라벨 값이 영문인 문자열인 경우
# 속성인 것처럼 점(.)을 이용해서 접근이 가능
# s.a
s1 = pd.Series(range(3),index=['a','b','c'])
s1

a    0
b    1
c    2
dtype: int64

In [20]:
# 인덱스 : a, b, c (영문 문자열)
# 속성인 것처럼 점(.)을 이용해서 접근
s1.a

0

시리즈의 데이터 갱신, 추가, 삭제
인덱싱을 이용하면 딕셔너리처럼 데이터를 찾아서 갱신(update)하고
추가, 삭제 가능

In [21]:
# '부산'의 데이터 변경
s['부산'] = 156789
s

도시
서울    123456
부산    156789
인천    384567
대구    148324
Name: 인구, dtype: int64

In [22]:
# 데이터 삭제 : del 명령어 사용
del s['서울']
s

도시
부산    156789
인천    384567
대구    148324
Name: 인구, dtype: int64

In [23]:
# 데이터 추가
s['광주'] = 234000
s

도시
부산    156789
인천    384567
대구    148324
광주    234000
Name: 인구, dtype: int64

del s
s # s가 삭제되어 오류 발생

In [None]:
# 정수형 위치 인덱스를 사용한 인덱싱
s[0] # 첫 번째 요소(원소)
# 인덱스 이름 (또는 인덱스 라벨)을 이용한 인덱싱
s['부산']

# 정수형 위치 인덱스, 인덱스 이름(인덱스 라벨)
s[3], s['대구']

# 배열 인덱싱을 하면 데이터의 순서 변경하기
# 특정 데이터만 선택 가능
# 인덱스 사용법 : s[0] : 인덱스값이 1개인 경우
# 인덱스 값이 여러 개인 경우 리스트로 표현 : [0,3,1]
# - s[[0,3,1]]
s[[0,3,1]]

# 인덱스 라벨을 사용해서 서울, 대구, 부산만 출력
s[['서울','대구','부산']]

# 시리즈 슬라이싱
# 정수형 위치 인덱스를 사용한 슬라이싱
# [start,end-1]
# 2~3번째
s[1:3]

#인덱스 라벨(문자열)을 사용한 슬라이싱도 가능
# 부산, 인천, 대구 추출
# [start, end]
s['부산':'대구']

# 라벨 값이 영문인 문자열인 경우
# 속성인 것처럼 점(.)을 이용해서 접근이 가능
# s.a
s1 = pd.Series(range(3),index=['a','b','c'])
s1

# 인덱스 : a, b, c (영문 문자열)
# 속성인 것처럼 점(.)을 이용해서 접근
s1.a

시리즈의 데이터 갱신, 추가, 삭제
인덱싱을 이용하면 딕셔너리처럼 데이터를 찾아서 갱신(update)하고
추가, 삭제 가능

# '부산'의 데이터 변경
s['부산'] = 156789
s

# 데이터 삭제 : del 명령어 사용
del s['서울']
s

# 데이터 추가
s['광주'] = 234000
s

del s
s # s가 삭제되어 오류 발생

연습문제1
임의로 2개의 시리즈 객체 생성
모두 문자열 인덱스로 생성
두 시리즈에 다르게 라벨 설정 (마음대로 만들기)

In [24]:
s1 = pd.Series([12,14,16],index=['kor','math','eng'])
s1

kor     12
math    14
eng     16
dtype: int64

In [25]:
s2 = pd.Series([23,25,48],index=['lee','lim','kim'])
s2

lee    23
lim    25
kim    48
dtype: int64

데이터프레임
- 2차원 행렬 데이터에 인덱스를 붙인 것
- 행과 열로 만들어지는 2차원 배열 구조
- R의 데이터프레임에서 유래
- 데이터프레임의 각 열은 시리즈 객체로 이루어져 있음
- DataFrame() 함수를 사용해서 데이터프레임 생성
- 리스트로 데이터프레임 생성
- 딕셔너리로 데이터프레임 생성

In [26]:
# 리스트로 데이터 프레임 생성
df = pd.DataFrame([['a','b','c'],
                  ['a','a','g'],
                  ['a','i','j']])
df
# 열 이름과 인덱스 자동 생성
# 열이름 : 열방향 인덱스 (가로)
# 인덱스 : 행방향 인덱스 (세로)

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [27]:
# 열이름과 인덱스 지정하고 데이터프레임 생성
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
                    'B':['B0','B1','B2','B3'],
                    'C':['C0','C1','C2','C3']},
                   index=[0,1,2,3])
df1

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


-------5시 조퇴-------

데이터프레임 생성(2)
- 딕셔너리
- 리스트

In [28]:
# 딕셔너리로 데이터프레임 생성
# key : '2015','2010','2005','2000','지역','2020-2015 증가율'
# 데이터는 숫자 6자리, 증가율을 0.2345 소수점 이하 4자리
# index : 서울, 부산, 인천, 대구

In [29]:
data = {
    '2015':[456789,234567,123456,854755],
    '2010':[232323,454545,656565,787878],
    '2005':[121212,232323,454545,656565],
    '2000':[545454,565656,575757,585858],
    '지역':['수도권','경상권','수도권','경상권'],
    '2010-2015 증가율':[0.2222,0.1322,0.1244,0.0333]
}
# 열 방향 인덱스 (열이름)
# columns = [2015','2010','2005','2000','지역','2020-2015 증가율'] # 따로 지정해줄 필요 없음
# 행방향 인덱스
index = ['서울','부산','인천','대구']

#데이터프레임 생성
#DataFrame(데이터, index, columns)
df4 = pd.DataFrame(data,index=index)
df4

# 딕셔너리로 데이터프레임을 생성할 경우
# key 값이 열 이름이 되므로
# 별도의 columns 필요없음
# columns를 사용해서 새로 열 이름을 붙일 수는 있지만
# key에 해당되는 열이름이 아닌 경우 값이 NaN 출력(아래 예시)

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
서울,456789,232323,121212,545454,수도권,0.2222
부산,234567,454545,232323,565656,경상권,0.1322
인천,123456,656565,454545,575757,수도권,0.1244
대구,854755,787878,656565,585858,경상권,0.0333


In [30]:
# 위와 동일한 문제, NaN 출력되는 경우 보여줌
data = {
    '2015':[456789,234567,123456,854755],
    '2010':[232323,454545,656565,787878],
    '2005':[121212,232323,454545,656565],
    '2000':[545454,565656,575757,585858],
    '지역':['수도권','경상권','수도권','경상권'],
    '2010-2015 증가율':[0.2222,0.1322,0.1244,0.0333]
}
# 열 방향 인덱스 (열이름)
columns = ['2020','2010','2005','2000','지역','2020-2015 증가율']
# 행방향 인덱스
index = ['서울','부산','인천','대구']

#데이터프레임 생성
#DataFrame(데이터, index, columns)
df4 = pd.DataFrame(data,index=index, columns=columns)
df4

# 딕셔너리로 데이터프레임을 생성할 경우
# key 값이 열 이름이 되므로
# 별도의 columns 필요없음
# columns를 사용해서 새로 열 이름을 붙일 수는 있지만
# key에 해당되는 열이름이 아닌 경우 값이 NaN 출력

Unnamed: 0,2020,2010,2005,2000,지역,2020-2015 증가율
서울,,232323,121212,545454,수도권,
부산,,454545,232323,565656,경상권,
인천,,656565,454545,575757,수도권,
대구,,787878,656565,585858,경상권,


리스트로 데이터프레임 생성 -key값이 없으므로 columns를 붙여야 함.
열 이름 : 나이, 몸무게, 키, 성별, 주소
index = 홍길동,이몽룡,성춘향,변학도,박지성 변수에 값 저장하고 변수 사용

In [31]:
# 연습문제
# 리스트로 데이터프레임 생성

data = [
    [22, 60.1, 170.5,'남','서울'],
    [23, 88.3, 180.5, '남','대구'],
    [45, 51.3, 157.3, '여','부산'],
    [33, 87.1, 180.5, '남','제주'],
    [40, 87.1, 170.5, '남','강릉']
]

index = ['홍길동','이몽룡','이몽룡','변학도','박지성']
columns = ['나이','몸무게','키','성별','주소']

df5 = pd.DataFrame(data, index=index, columns=columns)
df5

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,23,88.3,180.5,남,대구
이몽룡,45,51.3,157.3,여,부산
변학도,33,87.1,180.5,남,제주
박지성,40,87.1,170.5,남,강릉


In [32]:
data = [
    [22, 60.1, 170.5,'남','서울'],
    [23, 88.3, 180.5, '남','대구'],
    [45, 51.3, 157.3, '여','부산'],
    [33, 87.1, 180.5, '남','제주'],
    [40, 87.1, 170.5, '남','강릉']
]

index = ['홍길동','이몽룡','이몽룡','변학도','박지성']
# columns = ['나이','몸무게','키','성별','주소']

df6 = pd.DataFrame(data, index=index)
df6

# 리스트로 데이터프레임 생성 시 열 이름을 지정하지 않으면
# 자동으로 숫자 인덱스 지정 (0부터)

Unnamed: 0,0,1,2,3,4
홍길동,22,60.1,170.5,남,서울
이몽룡,23,88.3,180.5,남,대구
이몽룡,45,51.3,157.3,여,부산
변학도,33,87.1,180.5,남,제주
박지성,40,87.1,170.5,남,강릉


In [33]:
# 연습문제
# 딕셔너리로 df5와 동일하게 데이터프레임 생성
data = {
    '나이':[22,45,23,33,40],
    '몸무게':[60.1,51.3,88.3,87.1,87.1],
    '키':[170.5,157.3,180.5,180.5,170.5],
    '성별':['남','여','남','남','남'],
    '주소':['서울','부산','대구','제주','강릉']
}

index = ['홍길동','성춘향','이몽룡','변학도','박지성']
df7 = pd.DataFrame(data, index=index)
df7

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,157.3,여,부산
이몽룡,23,88.3,180.5,남,대구
변학도,33,87.1,180.5,남,제주
박지성,40,87.1,170.5,남,강릉


In [34]:
# 데이터 프레임 생성
# 시리즈로 데이터 프레임 생성
# 시리즈를 리스트로 변환해서 사용
s1 = pd.Series([1,3,5])
s2 = pd.Series([2,4,6])

df = pd.DataFrame([list(s1),list(s2)], columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,1,3,5
1,2,4,6


In [35]:
type(s1)

pandas.core.series.Series

In [36]:
type(df)

pandas.core.frame.DataFrame

In [37]:
lst1 = [22, 60.1, 170.5,'남','서울']
lst2 = [45, 51.3, 157.3, '여','부산']
lst3 = [23, 88.3, 180.5, '남','대구']
lst4 = [33, 87.1, 180.5, '남','제주']
lst5 = [40, 87.1, 170.5, '남','강릉']

index = ['홍길동','성춘향','이몽룡','변학도','박지성']
columns = ['나이','몸무게','키','성별','주소']

df = pd.DataFrame([lst1,lst2,lst3,lst4,lst5],
                  index=index,
                  columns=columns)
df

Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
성춘향,45,51.3,157.3,여,부산
이몽룡,23,88.3,180.5,남,대구
변학도,33,87.1,180.5,남,제주
박지성,40,87.1,170.5,남,강릉


데이터 프레임에 데이터 추가
(1) 데이터 프레임에 열 추가
- 단일 값을 가지는 열 추가 : df[열] - 값
- 리스트로 열 추가 : df[열] - 리스트
- 시리즈로 열 추가 : df[열] - 시리즈

In [38]:
# 단일 값을 가지는 열 추가
df['국적'] = '대한민국'
df

Unnamed: 0,나이,몸무게,키,성별,주소,국적
홍길동,22,60.1,170.5,남,서울,대한민국
성춘향,45,51.3,157.3,여,부산,대한민국
이몽룡,23,88.3,180.5,남,대구,대한민국
변학도,33,87.1,180.5,남,제주,대한민국
박지성,40,87.1,170.5,남,강릉,대한민국


In [39]:
# 리스트로 열 추가
toeic = [450, 780, 600, 900, 780]
df['TOEIC'] = toeic
df

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC
홍길동,22,60.1,170.5,남,서울,대한민국,450
성춘향,45,51.3,157.3,여,부산,대한민국,780
이몽룡,23,88.3,180.5,남,대구,대한민국,600
변학도,33,87.1,180.5,남,제주,대한민국,900
박지성,40,87.1,170.5,남,강릉,대한민국,780


In [40]:
# 시리즈로 열 추가 : index를 지정해야 함 (일치않으면 NaN이 저장됨)
job = pd.Series(['학생','회사원','간호사','축구선수','공무원'],
               index = ['홍길동','성춘향','이몽룡','변학도','박지성'])
df['직업']=job
df

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생
성춘향,45,51.3,157.3,여,부산,대한민국,780,회사원
이몽룡,23,88.3,180.5,남,대구,대한민국,600,간호사
변학도,33,87.1,180.5,남,제주,대한민국,900,축구선수
박지성,40,87.1,170.5,남,강릉,대한민국,780,공무원


In [41]:
# 다른 열을 이용해서 새로운 열 추가
# bmi = 몸무게 / 키 제곱(미터)
# 소수점 둘째자리까지 나오게 round() 함수 적용
df['BMI']= round((df['몸무게'] / pow(df['키'],2) * 10000), 2)
df

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,780,회사원,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,600,간호사,27.1
변학도,33,87.1,180.5,남,제주,대한민국,900,축구선수,26.73
박지성,40,87.1,170.5,남,강릉,대한민국,780,공무원,29.96


In [42]:
# 행 추가
# - 추가할 데이터를 데이터프레임으로 생성한 후
# - append() 함수 사용해서 기존 데이터프레임에 새 데이터프레임 추가
new_row = [[25,50.5,159.4,'여','인천','대한민국',700,'학생',20.02]]
new_df = pd.DataFrame(new_row, columns=df.columns, index=['손연재'])
new_df

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
손연재,25,50.5,159.4,여,인천,대한민국,700,학생,20.02


In [43]:
df2 = df.append(new_df)
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,780,회사원,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,600,간호사,27.1
변학도,33,87.1,180.5,남,제주,대한민국,900,축구선수,26.73
박지성,40,87.1,170.5,남,강릉,대한민국,780,공무원,29.96
손연재,25,50.5,159.4,여,인천,대한민국,700,학생,20.02


In [44]:
# 또는 loc 인덱서 사용해서 데이터프레임 행 추가
# loc = 라벨값 기반의 인덱싱 : 뒤에서 상세히 다룰 것임
df2.loc['박병호']=[30,70.5,170.5,'남','부산','대한민국',800,'회사원',22.55]
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,780,회사원,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,600,간호사,27.1
변학도,33,87.1,180.5,남,제주,대한민국,900,축구선수,26.73
박지성,40,87.1,170.5,남,강릉,대한민국,780,공무원,29.96
손연재,25,50.5,159.4,여,인천,대한민국,700,학생,20.02
박병호,30,70.5,170.5,남,부산,대한민국,800,회사원,22.55


In [45]:
# 열의 값 수정
# 열 이름이 존재하지 않으면 새로운 열로 추가되고
# 열 이름이 존재하면 새로운 값으로 기존 값을 덮어 씀
df2['TOEIC'] = [470,900,800,520,700,800,450]
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,470,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,900,회사원,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,800,간호사,27.1
변학도,33,87.1,180.5,남,제주,대한민국,520,축구선수,26.73
박지성,40,87.1,170.5,남,강릉,대한민국,700,공무원,29.96
손연재,25,50.5,159.4,여,인천,대한민국,800,학생,20.02
박병호,30,70.5,170.5,남,부산,대한민국,450,회사원,22.55


In [46]:
# 행 삭제 : drop(행 인덱스 이름) 함수 사용
df2 = df2.drop('변학도') # 1개 행 삭제
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,470,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,900,회사원,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,800,간호사,27.1
박지성,40,87.1,170.5,남,강릉,대한민국,700,공무원,29.96
손연재,25,50.5,159.4,여,인천,대한민국,800,학생,20.02
박병호,30,70.5,170.5,남,부산,대한민국,450,회사원,22.55


In [47]:
# 여러 행 삭제 : drop([행 인덱스 여러 개])
df2 = df2.drop(['이몽룡','박지성'])
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,470,학생,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,900,회사원,20.73
손연재,25,50.5,159.4,여,인천,대한민국,800,학생,20.02
박병호,30,70.5,170.5,남,부산,대한민국,450,회사원,22.55


열 삭제
(1) del 사용
(2) drop() 사용

In [48]:
# (1) del 사용
# 1개 열 삭제
del df2['나이']
df2

Unnamed: 0,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,60.1,170.5,남,서울,대한민국,470,학생,20.67
성춘향,51.3,157.3,여,부산,대한민국,900,회사원,20.73
손연재,50.5,159.4,여,인천,대한민국,800,학생,20.02
박병호,70.5,170.5,남,부산,대한민국,450,회사원,22.55


In [49]:
# 여러 개의 열 삭제
# del df2[['성별','키']]    # 오류 발생

In [50]:
# 열삭제 : drop(열 이름, axis = 1)
# 1개 열 삭제
df2 = df.drop('직업', axis = 1)
df2

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,20.67
성춘향,45,51.3,157.3,여,부산,대한민국,780,20.73
이몽룡,23,88.3,180.5,남,대구,대한민국,600,27.1
변학도,33,87.1,180.5,남,제주,대한민국,900,26.73
박지성,40,87.1,170.5,남,강릉,대한민국,780,29.96


In [51]:
# 여러 개의 열 삭제 : drop([여러 개의 열], axis=1)
df2 = df2.drop(['키','몸무게'], axis=1)
df2

Unnamed: 0,나이,성별,주소,국적,TOEIC,BMI
홍길동,22,남,서울,대한민국,450,20.67
성춘향,45,여,부산,대한민국,780,20.73
이몽룡,23,남,대구,대한민국,600,27.1
변학도,33,남,제주,대한민국,900,26.73
박지성,40,남,강릉,대한민국,780,29.96


값, 행방향 인덱스, 열 이름(열 방향 인덱스 확인)
- df.values
- df.columns
- df.index

In [52]:
# 값 (values) 확인
df.values

array([[22, 60.1, 170.5, '남', '서울', '대한민국', 450, '학생', 20.67],
       [45, 51.3, 157.3, '여', '부산', '대한민국', 780, '회사원', 20.73],
       [23, 88.3, 180.5, '남', '대구', '대한민국', 600, '간호사', 27.1],
       [33, 87.1, 180.5, '남', '제주', '대한민국', 900, '축구선수', 26.73],
       [40, 87.1, 170.5, '남', '강릉', '대한민국', 780, '공무원', 29.96]],
      dtype=object)

In [53]:
# 열 이름(열 방향 인덱스 확인)
df.columns

Index(['나이', '몸무게', '키', '성별', '주소', '국적', 'TOEIC', '직업', 'BMI'], dtype='object')

In [54]:
# 행방향 인덱스
df.index

Index(['홍길동', '성춘향', '이몽룡', '변학도', '박지성'], dtype='object')

In [55]:
# DataFrame의 개요 출력 : info() 함수 사용
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 홍길동 to 박지성
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      5 non-null      int64  
 1   몸무게     5 non-null      float64
 2   키       5 non-null      float64
 3   성별      5 non-null      object 
 4   주소      5 non-null      object 
 5   국적      5 non-null      object 
 6   TOEIC   5 non-null      int64  
 7   직업      5 non-null      object 
 8   BMI     5 non-null      float64
dtypes: float64(3), int64(2), object(4)
memory usage: 400.0+ bytes


In [56]:
# DataFrame의 통계적 개요 출력 : describe() 함수
df.describe()

Unnamed: 0,나이,몸무게,키,TOEIC,BMI
count,5.0,5.0,5.0,5.0,5.0
mean,32.6,74.78,171.86,702.0,25.038
std,10.163661,17.700056,9.552382,176.974574,4.152682
min,22.0,51.3,157.3,450.0,20.67
25%,23.0,60.1,170.5,600.0,20.73
50%,33.0,87.1,170.5,780.0,26.73
75%,40.0,87.1,180.5,780.0,27.1
max,45.0,88.3,180.5,900.0,29.96


연습문제
- 데이터프레임 생성 및 데이터 추가 / 수정 / 삭제
(1) 다음과 같이 데이터프레임 생성
과목 : 국어, 영어, 수학, 음악, 체육
학생 : 손흥민, 김연아, 박지성, 손연재, 박병호
점수 : 각각 임의로 입력

(2) 영어 점수 변경 : 95 87 75 80 88
(3) 열 삭제 : 음악, 체육 삭제
(4) 열 추가 : 총점, 평균
(5) 행 삭제 : 박지성
(6) 행 추가 : 임의로 3개 행 추가


In [57]:
# (1) 데이터프레임 생성
data = {'국어':[50,60,70,80,90],
        '영어':[87,85,96,76,85],
        '수학':[55,70,90,54,99],
        '음악':[65,80,98,95,75],
        '체육':[75,80,55,60,75]
       }

index = ['손흥민', '김연아', '박지성', '손연재', '박병호']
df_ex = pd.DataFrame(data,index=index)
df_ex

Unnamed: 0,국어,영어,수학,음악,체육
손흥민,50,87,55,65,75
김연아,60,85,70,80,80
박지성,70,96,90,98,55
손연재,80,76,54,95,60
박병호,90,85,99,75,75


In [58]:
# (2) 영어 점수 변경 : 95 87 75 80 88
df_ex['영어']=[95, 87, 75, 80, 88]
df_ex

Unnamed: 0,국어,영어,수학,음악,체육
손흥민,50,95,55,65,75
김연아,60,87,70,80,80
박지성,70,75,90,98,55
손연재,80,80,54,95,60
박병호,90,88,99,75,75


In [59]:
# (3) 열 삭제 : 음악, 체육 삭제
df_ex = df_ex.drop(['음악','체육'],axis=1)
df_ex

Unnamed: 0,국어,영어,수학
손흥민,50,95,55
김연아,60,87,70
박지성,70,75,90
손연재,80,80,54
박병호,90,88,99


In [60]:
#(4) 열 추가 : 총점, 평균
df_ex['총점']=[215,270,220,243,218]
df_ex['평균']=round(df_ex['총점']/3, 2)
df_ex

Unnamed: 0,국어,영어,수학,총점,평균
손흥민,50,95,55,215,71.67
김연아,60,87,70,270,90.0
박지성,70,75,90,220,73.33
손연재,80,80,54,243,81.0
박병호,90,88,99,218,72.67


In [61]:
# (5) 행 삭제 : 박지성
df_ex = df_ex.drop('박지성')
df_ex

Unnamed: 0,국어,영어,수학,총점,평균
손흥민,50,95,55,215,71.67
김연아,60,87,70,270,90.0
손연재,80,80,54,243,81.0
박병호,90,88,99,218,72.67


In [62]:
# (6) 행 추가 : 임의로 3개 행 추가
df_ex.loc['홍길동']=[87, 75, 86, 248, 82.66]
df_ex.loc['이몽룡']=[90, 95, 100, 285, 95]
df_ex.loc['성춘향']=[100, 100, 100, 300, 100]
df_ex

Unnamed: 0,국어,영어,수학,총점,평균
손흥민,50.0,95.0,55.0,215.0,71.67
김연아,60.0,87.0,70.0,270.0,90.0
손연재,80.0,80.0,54.0,243.0,81.0
박병호,90.0,88.0,99.0,218.0,72.67
홍길동,87.0,75.0,86.0,248.0,82.66
이몽룡,90.0,95.0,100.0,285.0,95.0
성춘향,100.0,100.0,100.0,300.0,100.0
