 시리즈 / 데이터 프레임 생성 및 사용 방법
 Series: 1차원 배열
 DataFrame : 2차원 테이블 형태

Series
- 데이터가 순차적으로 나열된 1차원 배열 형태
- 인덱스(index)와 값(value)가 일대일 대응
- 딕셔너리와 비슷한 구조 : {key:value}

시리즈 만들기 _ 판다스의 내장함수인 Series() 사용
1. 리스트로 시리즈 만들기
2. 딕셔너리로 시리즈 만들기

In [2]:
# pandas 패키지 불러오기
import pandas as pd

In [3]:
# 시리즈 만들기 : Series() 함수 사용
# 리스스로 만들기
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [4]:
# 딕셔너리로 시리즈 만들기
scores = {'홍길동':95, "이몽룡":100, "성춘향":88}
s = pd.Series(scores)
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

데이터프레임
- 2차원 테이블 형태 인덱스를 붙인 것
- 행과 열로 만들어진 2차원 배열 구조
- R의 데이터프레임에서 유래
- DataFrame() 함수를 사용해서 데이터프레임 생성
- 리스트로 데이터프레임 생성
- 딕셔너리로 데이터프레임 생성

In [5]:
# 리스트로 데이터 프레임 생성

df = pd.DataFrame([['a', 'b', 'c'],
                   ['a', 'a', 'g'],
                   ['a', 'i', 'j']])
df

# 열이름과 인덱스 자동 생성
# 열이름 : 열방향 인덱스 (가로)
# 인덱스 : 행방향 인덱스 (세로)

Unnamed: 0,0,1,2
0,a,b,c
1,a,a,g
2,a,i,j


In [6]:
# 딕셔너리로 데이터프레임 생성
# key : '2015', '2010', '2005', '2000', '지역', '2010~2015 증가율'
# 데이터 : 숫자 6자리, 증가율은 소수점 이하 4자리
# index : 서울, 부산, 인천, 대구

In [7]:
# 딕셔너리 생성
# 딕셔너리의 key 값은 데이터프레임의 열방향 인덱스(열이름)으로 설정
data = {
    '2015':[23456, 456786, 333343, 235544],
    '2010':[34765, 456786, 333343, 235544],
    '2005':[23456, 876546, 333343, 235544],
    '2000':[23456, 456786, 333343, 235544],
    '지역':['수도권', '경상권', '수도권', '경상권'],
    '2010~2015 증가율':[0.3456, 0.2345, 0.5432, 0.3452]
}

# 행방향 인덱스 (index)
index = ['서울', '부산', '인천', '대구']

# 데이터프레임 생성 : DataFrame(데이터, index, columns)
# DataFrame(데이터, index)
df2 = pd.DataFrame(data, index=index)
df2

Unnamed: 0,2015,2010,2005,2000,지역,2010~2015 증가율
서울,23456,34765,23456,23456,수도권,0.3456
부산,456786,456786,876546,456786,경상권,0.2345
인천,333343,333343,333343,333343,수도권,0.5432
대구,235544,235544,235544,235544,경상권,0.3452


딕셔너리로 데이터프레임을 생성할 경우
- key 값이 열 이름이 되므로
- 별도의 columns  값이 필요 없음

In [8]:
# 리스트로 데이터프레임 생성
# 열이름 / 인덱스 설정
data = [
    [22, 60.1, 170.5, '남', '서울'],
    [45, 51.3, 170.5, '여', '부산'],
    [23, 88.1, 160.5, '남', '대구'],
    [33, 60.1, 180.5, '남', '제주'],
    [40, 60.1, 170.5, '남', '강릉']    
]

index = ['홍길동', '이몽룡', '성춘향', '변학도', '강길동']
columns = ['나이', '몸무게', '키', '성별', '주소']

df3 = pd.DataFrame(data, index=index, columns=columns)
df3


Unnamed: 0,나이,몸무게,키,성별,주소
홍길동,22,60.1,170.5,남,서울
이몽룡,45,51.3,170.5,여,부산
성춘향,23,88.1,160.5,남,대구
변학도,33,60.1,180.5,남,제주
강길동,40,60.1,170.5,남,강릉


In [9]:
# 단일 값을 열 추가
df3['국적'] = '대한민국'
df3

Unnamed: 0,나이,몸무게,키,성별,주소,국적
홍길동,22,60.1,170.5,남,서울,대한민국
이몽룡,45,51.3,170.5,여,부산,대한민국
성춘향,23,88.1,160.5,남,대구,대한민국
변학도,33,60.1,180.5,남,제주,대한민국
강길동,40,60.1,170.5,남,강릉,대한민국


In [10]:
# 리스트로 열 추가
toeic = [450, 780, 600, 900, 880]
df3['TOEIC'] = toeic
df3

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC
홍길동,22,60.1,170.5,남,서울,대한민국,450
이몽룡,45,51.3,170.5,여,부산,대한민국,780
성춘향,23,88.1,160.5,남,대구,대한민국,600
변학도,33,60.1,180.5,남,제주,대한민국,900
강길동,40,60.1,170.5,남,강릉,대한민국,880


In [11]:
type(df3)

pandas.core.frame.DataFrame

In [12]:
type(df3['주소'])

pandas.core.series.Series

In [13]:
type(df3['키'])

pandas.core.series.Series

In [14]:
# 시리즈로 열 추가 : index를 지정해야 함 
job = pd.Series(['학생', '회사원', '간호사', '축구선수', '공무원'],
               index=['홍길동', '이몽룡', '성춘향', '변학도', '강길동'])

df3['직업'] = job
df3

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생
이몽룡,45,51.3,170.5,여,부산,대한민국,780,회사원
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사
변학도,33,60.1,180.5,남,제주,대한민국,900,축구선수
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원


In [15]:
# 다른 열을 이용해서 새오룬 열을 추가
# bmi = 몸무게 / 키 제곱(미터)
df3['BMI'] = round(df3['몸무게'] / pow(df3['키'], 2) * 10000, 2)
df3

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
이몽룡,45,51.3,170.5,여,부산,대한민국,780,회사원,17.65
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사,34.2
변학도,33,60.1,180.5,남,제주,대한민국,900,축구선수,18.45
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원,20.67


In [16]:
df3['몸무게']

홍길동    60.1
이몽룡    51.3
성춘향    88.1
변학도    60.1
강길동    60.1
Name: 몸무게, dtype: float64

행 추가
(1) 추가할 데이터를 데이터프레임으로 생성한 후 
    append() 함수를 사용해서 기존 데이터프레임에 새 데이터프레임을 추가
(2) loc 인덱서를 사용해서 데이터프레임에 행 추가 

In [17]:
#(1) 추가할 데이터를 데이터프레임으로 생성한 후 
#    append() 함수를 사용해서 기존 데이터프레임에 새 데이터프레임을 추가
new_row = [[25, 50.5, 158.4, '여', '인천', '대한민국', 700, '학생', 20.02]]
new_df = pd.DataFrame(new_row, columns=df3.columns, index=['손연재'])
new_df

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
손연재,25,50.5,158.4,여,인천,대한민국,700,학생,20.02


In [18]:
df4 = df3.append(new_df)
df4

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
이몽룡,45,51.3,170.5,여,부산,대한민국,780,회사원,17.65
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사,34.2
변학도,33,60.1,180.5,남,제주,대한민국,900,축구선수,18.45
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원,20.67
손연재,25,50.5,158.4,여,인천,대한민국,700,학생,20.02


In [19]:
# (2) loc 인덱서를 사용해서 데이터프레임에 행 추가 
df4.loc['박길동'] = [30, 70.5, 170.4, '남', '부산', '대한민국', 800, '회사원', 22.55]
df4

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
이몽룡,45,51.3,170.5,여,부산,대한민국,780,회사원,17.65
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사,34.2
변학도,33,60.1,180.5,남,제주,대한민국,900,축구선수,18.45
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원,20.67
손연재,25,50.5,158.4,여,인천,대한민국,700,학생,20.02
박길동,30,70.5,170.4,남,부산,대한민국,800,회사원,22.55


In [20]:
# 행 삭제 : drop(행 인덱스 이름) 함수 사용
df5 = df4.drop('변학도')  # 1개의 행 삭제
df5

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
이몽룡,45,51.3,170.5,여,부산,대한민국,780,회사원,17.65
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사,34.2
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원,20.67
손연재,25,50.5,158.4,여,인천,대한민국,700,학생,20.02
박길동,30,70.5,170.4,남,부산,대한민국,800,회사원,22.55


In [21]:
# 여러 행 삭제 : drop([행 인덱스 여러 개])
df5 = df5.drop(['이몽룡', '박길동'])
df5

Unnamed: 0,나이,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,22,60.1,170.5,남,서울,대한민국,450,학생,20.67
성춘향,23,88.1,160.5,남,대구,대한민국,600,간호사,34.2
강길동,40,60.1,170.5,남,강릉,대한민국,880,공무원,20.67
손연재,25,50.5,158.4,여,인천,대한민국,700,학생,20.02


In [22]:
# 열 삭제 : del 사용
del df5['나이']
df5

Unnamed: 0,몸무게,키,성별,주소,국적,TOEIC,직업,BMI
홍길동,60.1,170.5,남,서울,대한민국,450,학생,20.67
성춘향,88.1,160.5,남,대구,대한민국,600,간호사,34.2
강길동,60.1,170.5,남,강릉,대한민국,880,공무원,20.67
손연재,50.5,158.4,여,인천,대한민국,700,학생,20.02


In [23]:
# 여러 개의 열 삭제
# del df5(['직업', 'BMI']) # 오류
# ---> drop(열이름, axis =1)

In [24]:
# drop() 함수 사용해서 1개 열 삭제
df5 = df5.drop('직업', axis=1)
df5

Unnamed: 0,몸무게,키,성별,주소,국적,TOEIC,BMI
홍길동,60.1,170.5,남,서울,대한민국,450,20.67
성춘향,88.1,160.5,남,대구,대한민국,600,34.2
강길동,60.1,170.5,남,강릉,대한민국,880,20.67
손연재,50.5,158.4,여,인천,대한민국,700,20.02


In [25]:
# drop() 함수 사용해서 여러 개 열 삭제
df5 = df5.drop(['키', '몸무게'], axis=1)
df5

Unnamed: 0,성별,주소,국적,TOEIC,BMI
홍길동,남,서울,대한민국,450,20.67
성춘향,남,대구,대한민국,600,34.2
강길동,남,강릉,대한민국,880,20.67
손연재,여,인천,대한민국,700,20.02


In [26]:
# 데이터프레임 정보 출력
# 값, 행방향 인덱스, 열방향 인덱스 속성 사용
# 데이터프레임 개요 출력 : info() 함수 사용
# 데이터프레임의 통계적 개요 출력 : describe() 함수 사용

In [27]:
# 데이터프레임의 값(values) 확인
df4.values

array([[22, 60.1, 170.5, '남', '서울', '대한민국', 450, '학생', 20.67],
       [45, 51.3, 170.5, '여', '부산', '대한민국', 780, '회사원', 17.65],
       [23, 88.1, 160.5, '남', '대구', '대한민국', 600, '간호사', 34.2],
       [33, 60.1, 180.5, '남', '제주', '대한민국', 900, '축구선수', 18.45],
       [40, 60.1, 170.5, '남', '강릉', '대한민국', 880, '공무원', 20.67],
       [25, 50.5, 158.4, '여', '인천', '대한민국', 700, '학생', 20.02],
       [30, 70.5, 170.4, '남', '부산', '대한민국', 800, '회사원', 22.55]],
      dtype=object)

In [28]:
# 데이터프레임의 열 이름 (열방향 인덱스) 확인
df4.columns

Index(['나이', '몸무게', '키', '성별', '주소', '국적', 'TOEIC', '직업', 'BMI'], dtype='object')

In [29]:
# 데이터프레임의 행 방향 인덱스 확인
df4.index

Index(['홍길동', '이몽룡', '성춘향', '변학도', '강길동', '손연재', '박길동'], dtype='object')

In [30]:
# 데이터프레임 개요 출력 : info() 함수 사용
df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 홍길동 to 박길동
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      7 non-null      int64  
 1   몸무게     7 non-null      float64
 2   키       7 non-null      float64
 3   성별      7 non-null      object 
 4   주소      7 non-null      object 
 5   국적      7 non-null      object 
 6   TOEIC   7 non-null      int64  
 7   직업      7 non-null      object 
 8   BMI     7 non-null      float64
dtypes: float64(3), int64(2), object(4)
memory usage: 880.0+ bytes


In [31]:
# 데이터프레임의 통계적 개요 출력 : describe() 함수 사용
df4.describe()

Unnamed: 0,나이,몸무게,키,TOEIC,BMI
count,7.0,7.0,7.0,7.0,7.0
mean,31.142857,62.957143,168.757143,730.0,22.03
std,8.783101,12.939714,7.36158,160.727513,5.599396
min,22.0,50.5,158.4,450.0,17.65
25%,24.0,55.7,165.45,650.0,19.235
50%,30.0,60.1,170.5,780.0,20.67
75%,36.5,65.3,170.5,840.0,21.61
max,45.0,88.1,180.5,900.0,34.2


(1) 다음과 같이 데이터프레임 생성 (수치는 임의로 입력)

        국어 영어 수학 음악 체육
홍길동
이몽룡
성춘향
변학도
강길동

In [32]:
# (1) 데이터프레임 생성
data ={
    '국어': [88, 90, 48, 70, 48],
    '영어': [78, 90, 48, 70, 48],
    '수학': [98, 90, 48, 70, 48],
    '음악': [68, 90, 48, 90, 58],
    '체육': [78, 90, 48, 70, 48]
}

index = ['홍길동', '이몽룡', '성춘향', '변학도', '강길동']

ex = pd.DataFrame(data, index=index)
ex

Unnamed: 0,국어,영어,수학,음악,체육
홍길동,88,78,98,68,78
이몽룡,90,90,90,90,90
성춘향,48,48,48,48,48
변학도,70,70,70,90,70
강길동,48,48,48,58,48


In [33]:
# (2) 영어 점수 변경 : 95 87 75 80 88
ex['영어'] = [95, 87, 75, 80, 88]
ex

Unnamed: 0,국어,영어,수학,음악,체육
홍길동,88,95,98,68,78
이몽룡,90,87,90,90,90
성춘향,48,75,48,48,48
변학도,70,80,70,90,70
강길동,48,88,48,58,48


In [34]:
ex

Unnamed: 0,국어,영어,수학,음악,체육
홍길동,88,95,98,68,78
이몽룡,90,87,90,90,90
성춘향,48,75,48,48,48
변학도,70,80,70,90,70
강길동,48,88,48,58,48


In [35]:
# (3) 열 삭제 : 음악 체육
ex = ex.drop(['음악', '체육'], axis=1)
ex

Unnamed: 0,국어,영어,수학
홍길동,88,95,98
이몽룡,90,87,90
성춘향,48,75,48
변학도,70,80,70
강길동,48,88,48


In [36]:
# (4) 열 추가 : 총점 평균 (계산해서 출력)
ex['총점'] = ex['국어'] + ex['영어'] + ex['수학']
ex

Unnamed: 0,국어,영어,수학,총점
홍길동,88,95,98,281
이몽룡,90,87,90,267
성춘향,48,75,48,171
변학도,70,80,70,220
강길동,48,88,48,184


In [37]:
ex['평균'] = round(ex['총점'] / 3, 2)
ex

Unnamed: 0,국어,영어,수학,총점,평균
홍길동,88,95,98,281,93.67
이몽룡,90,87,90,267,89.0
성춘향,48,75,48,171,57.0
변학도,70,80,70,220,73.33
강길동,48,88,48,184,61.33


In [38]:
# (5) 행 삭제 : 성춘향
ex = ex.drop('성춘향')
ex

Unnamed: 0,국어,영어,수학,총점,평균
홍길동,88,95,98,281,93.67
이몽룡,90,87,90,267,89.0
변학도,70,80,70,220,73.33
강길동,48,88,48,184,61.33


In [39]:
# (6) 행 추가 : 임으로 3개 행 추가
ex.loc['손홍민'] = [90, 90, 90, 270, 90]
ex.loc['박병호'] = [90, 90, 90, 270, 90]
ex.loc['이정후'] = [90, 90, 90, 270, 90]
ex

Unnamed: 0,국어,영어,수학,총점,평균
홍길동,88,95,98,281,93.67
이몽룡,90,87,90,267,89.0
변학도,70,80,70,220,73.33
강길동,48,88,48,184,61.33
손홍민,90,90,90,270,90.0
박병호,90,90,90,270,90.0
이정후,90,90,90,270,90.0


In [40]:
# 새로운 데이터프레임 만들어서 append()
news = [[80, 80, 80, 240, 80],
        [80, 80, 80, 240, 80],
        [80, 80, 80, 240, 80]]

new_ex = pd.DataFrame(news, 
                      columns=ex.columns, 
                      index=['박길동', '김길동', '최길동'])
new_ex

Unnamed: 0,국어,영어,수학,총점,평균
박길동,80,80,80,240,80
김길동,80,80,80,240,80
최길동,80,80,80,240,80


In [41]:
ex = ex.append(new_ex)
ex

Unnamed: 0,국어,영어,수학,총점,평균
홍길동,88,95,98,281,93.67
이몽룡,90,87,90,267,89.0
변학도,70,80,70,220,73.33
강길동,48,88,48,184,61.33
손홍민,90,90,90,270,90.0
박병호,90,90,90,270,90.0
이정후,90,90,90,270,90.0
박길동,80,80,80,240,80.0
김길동,80,80,80,240,80.0
최길동,80,80,80,240,80.0


In [43]:
data={'c0' : [1,2,3] , 'c1' : [4,5,6]}
df=pd.DataFrame(data)
df

Unnamed: 0,c0,c1
0,1,4
1,2,5
2,3,6
