### Series / DataFrame 생성 및 사용 방법

#### Series: 1차원 배열
#### DataFrame: 2차원 테이블 형태

### Series
- 데이터가 순차적으로 나열된 1차월 배열 형태
- 인덱스(index)와 값(value)가 일대일 대응
- 딕셔너리와 유사한 구조 - {key:value}

### Series 만들기 - Pandas의 내장함수인 Series() 사용
1. 리스트로 시리즈 만들기
2. 딕셔너리로 시리즈 만들기

In [4]:
# pandas 패키지 불러오기
import pandas as pd

In [3]:
# 시리즈 만들기: Series() 함수 사용
# 리스트로 만들기
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [4]:
# 딕셔너리로 시리즈 만들기 
scores = {'홍길동':95, "이몽룡":88, "성춘향":100}
s = pd.Series(scores)
s

홍길동     95
이몽룡     88
성춘향    100
dtype: int64

## DataFrame
- 2차원 테이블 형태 (인덱스를 붙인 것)
- 행과 열로 만들어진 2차원 배열 구조
- R의 dataframe 에서 유래
- DataFrame() 메소드를 사용해서 데이터 프레임 생성
- 리스트로 데이터 프레임 생성
- 딕셔너리로 데이터 프레임 생성

In [5]:
# 리스트로 데이터 프레임 생성
df = pd.DataFrame([['a', 'b', 'c'], 
                   ['d', 'e', 'f'], 
                   ['g', 'h', 'i']])
df

# 열이름과 인덱스 자동 생성
# 열이름: 열방향 인덱스 (가로)
# 인덱스: 행방향 인덱스 (세로)

Unnamed: 0,0,1,2
0,a,b,c
1,d,e,f
2,g,h,i


In [None]:
# 딕셔너리로 데이터 프레임 생성
# key: '2015', '2010', '2005', '2000', '지역', '2010-2015 증가율'
# 데이터: 숫자 6자리, 증가율은 소숫점 이하 4자리
# index: '서울', '부산', '인천', '대구'

In [5]:
# 딕셔너리 생성
# 딕셔너리의 key 값은 데이터프레임의 열방향 인덱스(열 이름)으로 설정
data = {
    '2015': [569382, 434134, 235641, 34515],
    '2010': [569382, 434134, 235641, 39610],
    '2005': [684958, 434134, 302502, 34515],
    '2000': [693018, 434134, 123849, 34515],
    '지역': ['수도권', '경상권', '수도권', '경상권'],
    '2010~2015 증가율': [0.2314, 0.6948, 0.2341, 0.4857]
}

# 행방향 인덱스(index)
index = ['서울', '부산', '인천', '대구']

# 데이터 프레임 생성
# DataFrame(list, index, columns)
# DataFrame(dictionary, index)
df2 = pd.DataFrame(data, index)
df2

Unnamed: 0,2015,2010,2005,2000,지역,2010~2015 증가율
서울,569382,569382,684958,693018,수도권,0.2314
부산,434134,434134,434134,434134,경상권,0.6948
인천,235641,235641,302502,123849,수도권,0.2341
대구,34515,39610,34515,34515,경상권,0.4857


### 딕셔너리로 데이터프레임을 생성할 경우
- key 값이 열 이름이 되므로
- 별도의 columns 파라미터 입력 불필요

In [33]:
# 리스트로 데이터 프레임 생성
# 데이터 생성
data = [
    [22, 175, 65, '남', '서울'],
    [65, 143, 37, '여', '울산'],
    [45, 167, 87, '남', '대전'],
    [30, 167, 53, '여', '경기'],
    [29, 171, 77, '남', '대구']
]

# 열이름 / 인덱스 설정
index = ['허경영', '박근혜', '전두환', '징징이', '뚱뚱이']
columns = ['나이', '키', '몸무게', '성별', '거주지']

df3 = pd.DataFrame(data, index, columns)
df3

Unnamed: 0,나이,키,몸무게,성별,거주지
허경영,22,175,65,남,서울
박근혜,65,143,37,여,울산
전두환,45,167,87,남,대전
징징이,30,167,53,여,경기
뚱뚱이,29,171,77,남,대구


In [34]:
# 단일 값 열 추가
df3['국적'] = '대한민국'
df3

Unnamed: 0,나이,키,몸무게,성별,거주지,국적
허경영,22,175,65,남,서울,대한민국
박근혜,65,143,37,여,울산,대한민국
전두환,45,167,87,남,대전,대한민국
징징이,30,167,53,여,경기,대한민국
뚱뚱이,29,171,77,남,대구,대한민국


In [35]:
# 리스트로 열 추가
toeic = [455, 670, 870, 990, 990]
df3['토익'] = toeic
df3

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익
허경영,22,175,65,남,서울,대한민국,455
박근혜,65,143,37,여,울산,대한민국,670
전두환,45,167,87,남,대전,대한민국,870
징징이,30,167,53,여,경기,대한민국,990
뚱뚱이,29,171,77,남,대구,대한민국,990


In [36]:
type(df3)  # => pandas.core.frame.DataFrame

pandas.core.frame.DataFrame

In [37]:
type(df3['국적'])  # => pandas.core.series.Series

pandas.core.series.Series

In [38]:
# 시리즈로 열 추가: index를 지정해야함
job = pd.Series(['기업가', '죄수', '사형수', '백수', '회사원'],
               index = ['허경영', '박근혜', '전두환', '징징이', '뚱뚱이'])
df3['직업'] = job
df3

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업
허경영,22,175,65,남,서울,대한민국,455,기업가
박근혜,65,143,37,여,울산,대한민국,670,죄수
전두환,45,167,87,남,대전,대한민국,870,사형수
징징이,30,167,53,여,경기,대한민국,990,백수
뚱뚱이,29,171,77,남,대구,대한민국,990,회사원


In [39]:
# 다른 열을 이용해서 새로운 열을 추가
# bmi = 몸무게 / 키 ^ 2 (미터)
df3['BMI'] = round(df3['몸무게'] / pow(df3['키'], 2) * 10000, 2)
df3

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,22,175,65,남,서울,대한민국,455,기업가,21.22
박근혜,65,143,37,여,울산,대한민국,670,죄수,18.09
전두환,45,167,87,남,대전,대한민국,870,사형수,31.2
징징이,30,167,53,여,경기,대한민국,990,백수,19.0
뚱뚱이,29,171,77,남,대구,대한민국,990,회사원,26.33


### 행 추가
1. 추가할 데이터를 데이터프레임으로 생성한 후 <br>
   append() 함수를 사용해서 기존 데이터프레임에 새 데이터프레임을 추가 
2. loc 인덱서를 사용해서 데이터프레임에 행 추가

In [49]:
newRow = [[25, 158.4, 50.5, '여', '인천', '대한민국', 700, '학생', 20.02]]
newDf = pd.DataFrame(newRow, columns=df3.columns, index=['손연재'])

In [50]:
# 데이터 프레임 합치기 mainDataFrame.append(subDataFrame)
df4 = df3.append(newDf)
df4

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,22,175.0,65.0,남,서울,대한민국,455,기업가,21.22
박근혜,65,143.0,37.0,여,울산,대한민국,670,죄수,18.09
전두환,45,167.0,87.0,남,대전,대한민국,870,사형수,31.2
징징이,30,167.0,53.0,여,경기,대한민국,990,백수,19.0
뚱뚱이,29,171.0,77.0,남,대구,대한민국,990,회사원,26.33
손연재,25,158.4,50.5,여,인천,대한민국,700,학생,20.02


In [51]:
# 2) loc 인덱서를 사용해서 데이터프레임에 행 추가
df4.loc['김연아'] = [30, 172.4, 54.5, '여', '서울', '대한민국', 930, '무직', 23.4]
df4

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,22,175.0,65.0,남,서울,대한민국,455,기업가,21.22
박근혜,65,143.0,37.0,여,울산,대한민국,670,죄수,18.09
전두환,45,167.0,87.0,남,대전,대한민국,870,사형수,31.2
징징이,30,167.0,53.0,여,경기,대한민국,990,백수,19.0
뚱뚱이,29,171.0,77.0,남,대구,대한민국,990,회사원,26.33
손연재,25,158.4,50.5,여,인천,대한민국,700,학생,20.02
김연아,30,172.4,54.5,여,서울,대한민국,930,무직,23.4


In [53]:
# 단수 행 삭제: drop(행 인덱스 이름) 함수 사용
df5 = df4.drop('전두환')  # 1 개의 행 삭제
df5

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,22,175.0,65.0,남,서울,대한민국,455,기업가,21.22
박근혜,65,143.0,37.0,여,울산,대한민국,670,죄수,18.09
징징이,30,167.0,53.0,여,경기,대한민국,990,백수,19.0
뚱뚱이,29,171.0,77.0,남,대구,대한민국,990,회사원,26.33
손연재,25,158.4,50.5,여,인천,대한민국,700,학생,20.02
김연아,30,172.4,54.5,여,서울,대한민국,930,무직,23.4


In [54]:
# 여러 개 행 삭제: drop([행 인덱스 여러 개])
df5 = df5.drop(['박근혜', '징징이'])
df5

Unnamed: 0,나이,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,22,175.0,65.0,남,서울,대한민국,455,기업가,21.22
뚱뚱이,29,171.0,77.0,남,대구,대한민국,990,회사원,26.33
손연재,25,158.4,50.5,여,인천,대한민국,700,학생,20.02
김연아,30,172.4,54.5,여,서울,대한민국,930,무직,23.4


In [55]:
# 열 삭제: del 사용
del df5['나이']
df5

Unnamed: 0,키,몸무게,성별,거주지,국적,토익,직업,BMI
허경영,175.0,65.0,남,서울,대한민국,455,기업가,21.22
뚱뚱이,171.0,77.0,남,대구,대한민국,990,회사원,26.33
손연재,158.4,50.5,여,인천,대한민국,700,학생,20.02
김연아,172.4,54.5,여,서울,대한민국,930,무직,23.4


In [57]:
# 여러 개의 열 삭제
# del df5(['직업', 'BMI'])  => 오류
# -> drop(열 이름, axis=1)

In [58]:
# drop() 함수 사용해서 1개 열 삭제
df5 = df5.drop('직업', axis=1)
df5

Unnamed: 0,키,몸무게,성별,거주지,국적,토익,BMI
허경영,175.0,65.0,남,서울,대한민국,455,21.22
뚱뚱이,171.0,77.0,남,대구,대한민국,990,26.33
손연재,158.4,50.5,여,인천,대한민국,700,20.02
김연아,172.4,54.5,여,서울,대한민국,930,23.4


In [59]:
# drop() 함수 사용해서 여러 개 열 삭제
df5 = df5.drop(['키', '몸무게'], axis=1)
df5

Unnamed: 0,성별,거주지,국적,토익,BMI
허경영,남,서울,대한민국,455,21.22
뚱뚱이,남,대구,대한민국,990,26.33
손연재,여,인천,대한민국,700,20.02
김연아,여,서울,대한민국,930,23.4


In [None]:
# 데이터프레임 정보 출력
# 값, 행방향 인덱스, 열방향 인덱스 속성 사용
# 데이터프레임 개요 출력: info() 데이터프레임 메소드 사용
# 데이터프레임의 통계적 개요 출력: describe() 데이터프레임 메소드 사용

In [60]:
# 데이터프레임의 값(values) 확인
df4.values  # => type: numpy.ndarray

array([[22, 175.0, 65.0, '남', '서울', '대한민국', 455, '기업가', 21.22],
       [65, 143.0, 37.0, '여', '울산', '대한민국', 670, '죄수', 18.09],
       [45, 167.0, 87.0, '남', '대전', '대한민국', 870, '사형수', 31.2],
       [30, 167.0, 53.0, '여', '경기', '대한민국', 990, '백수', 19.0],
       [29, 171.0, 77.0, '남', '대구', '대한민국', 990, '회사원', 26.33],
       [25, 158.4, 50.5, '여', '인천', '대한민국', 700, '학생', 20.02],
       [30, 172.4, 54.5, '여', '서울', '대한민국', 930, '무직', 23.4]],
      dtype=object)

In [61]:
# 데이터프레임의 열 이름 (열방향 인덱스) 확인
df4.columns

Index(['나이', '키', '몸무게', '성별', '거주지', '국적', '토익', '직업', 'BMI'], dtype='object')

In [63]:
# 데이터프레임의 행 방향 인덱스 확인
df4.index

Index(['허경영', '박근혜', '전두환', '징징이', '뚱뚱이', '손연재', '김연아'], dtype='object')

In [64]:
# 데이터프레임 개요 출력: info() 함수 사용
df4.info()  # 행 == entries

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, 허경영 to 김연아
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   나이      7 non-null      int64  
 1   키       7 non-null      float64
 2   몸무게     7 non-null      float64
 3   성별      7 non-null      object 
 4   거주지     7 non-null      object 
 5   국적      7 non-null      object 
 6   토익      7 non-null      int64  
 7   직업      7 non-null      object 
 8   BMI     7 non-null      float64
dtypes: float64(3), int64(2), object(4)
memory usage: 880.0+ bytes


In [65]:
# 데이터프레임의 통계적 개요 출력: describe() 함수 사용
df4.describe()

Unnamed: 0,나이,키,몸무게,토익,BMI
count,7.0,7.0,7.0,7.0,7.0
mean,35.142857,164.828571,60.571429,800.714286,22.751429
std,15.02696,11.000866,17.025541,199.967259,4.658564
min,22.0,143.0,37.0,455.0,18.09
25%,27.0,162.7,51.75,685.0,19.51
50%,30.0,167.0,54.5,870.0,21.22
75%,37.5,171.7,71.0,960.0,24.865
max,65.0,175.0,87.0,990.0,31.2


In [58]:
# Q. 연습문제
from random import randint
import pandas as pd
data = [
    [65, 46, 78, 59, 93], 
    [24, 45, 12, 43, 59], 
    [96, 54, 93, 48, 29],
    [34, 53, 95, 29, 100],
    [65, 78, 83, 91, 34]
]

In [59]:
# Q01.
index = ['홍길동', '이몽룡', '성춘향', '변학도', '강길동']
columns = ['국어', '영어', '수학', '음악' ,'체육']
df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,국어,영어,수학,음악,체육
홍길동,65,46,78,59,93
이몽룡,24,45,12,43,59
성춘향,96,54,93,48,29
변학도,34,53,95,29,100
강길동,65,78,83,91,34


In [60]:
# Q02.
df['영어'] = [95, 87, 75, 80, 88]
df

Unnamed: 0,국어,영어,수학,음악,체육
홍길동,65,95,78,59,93
이몽룡,24,87,12,43,59
성춘향,96,75,93,48,29
변학도,34,80,95,29,100
강길동,65,88,83,91,34


In [54]:
# Q03.
df.drop(['음악', '체육'], axis=1)

Unnamed: 0,국어,영어,수학,총점 평균,총점,평균
홍길동,65,95,78,78.0,390,78.0
이몽룡,24,87,12,45.0,225,45.0
성춘향,96,75,93,68.2,341,68.2
변학도,34,80,95,67.6,338,67.6
강길동,65,88,83,72.2,361,72.2


In [61]:
# Q04.
df['총점'] = (df['국어'] + df['영어'] + df['수학'] + df['음악'] + df['체육'])
df['평균'] = round(df['총점'] / 5, 2)
df

Unnamed: 0,국어,영어,수학,음악,체육,총점,평균
홍길동,65,95,78,59,93,390,78.0
이몽룡,24,87,12,43,59,225,45.0
성춘향,96,75,93,48,29,341,68.2
변학도,34,80,95,29,100,338,67.6
강길동,65,88,83,91,34,361,72.2


In [41]:
# Q05.
df.drop('성춘향')

Unnamed: 0,국어,영어,수학,음악,체육,총점 평균
홍길동,65,95,78,59,93,78.0
이몽룡,24,87,12,43,59,45.0
변학도,34,80,95,29,100,67.6
강길동,65,88,83,91,34,72.2


In [63]:
# Q06. 임의 3개 행 생성
name = ['고둘리', '고또치', '마이콜']
data = [
    [20, 30, 45, 31, 39, 485, 39.2],
    [23, 45, 63, 43, 12, 485, 34.3],
    [35, 34, 56, 78, 28, 485, 56.2]
]
newDf = pd.DataFrame(data, name, df.columns)
df.append(newDf)

Unnamed: 0,국어,영어,수학,음악,체육,총점,평균
홍길동,65,95,78,59,93,390,78.0
이몽룡,24,87,12,43,59,225,45.0
성춘향,96,75,93,48,29,341,68.2
변학도,34,80,95,29,100,338,67.6
강길동,65,88,83,91,34,361,72.2
고둘리,20,30,45,31,39,485,39.2
고또치,23,45,63,43,12,485,34.3
마이콜,35,34,56,78,28,485,56.2


In [64]:
# Q06_T's.
df.loc['손흥민'] = [98, 28, 58, 56, 77, 485, 39.2]
df.loc['이정후'] = [34, 28, 34, 48, 39, 485, 39.2]
df.loc['박지성'] = [89, 12, 32, 23, 42, 485, 39.2]
df

Unnamed: 0,국어,영어,수학,음악,체육,총점,평균
홍길동,65.0,95.0,78.0,59.0,93.0,390.0,78.0
이몽룡,24.0,87.0,12.0,43.0,59.0,225.0,45.0
성춘향,96.0,75.0,93.0,48.0,29.0,341.0,68.2
변학도,34.0,80.0,95.0,29.0,100.0,338.0,67.6
강길동,65.0,88.0,83.0,91.0,34.0,361.0,72.2
손흥민,98.0,28.0,58.0,56.0,77.0,485.0,39.2
이정후,34.0,28.0,34.0,48.0,39.0,485.0,39.2
박지성,89.0,12.0,32.0,23.0,42.0,485.0,39.2
