In [2]:
import pandas as pd

## 시리즈(Series) 클래스
시리즈 = 값 + 인덱스

In [6]:
s = pd.Series([1357,950,334,330], index = ['경기','서울','부산','경남'])
s

경기    1357
서울     950
부산     334
경남     330
dtype: int64

In [3]:
s = pd.Series([1357,950,334,330])
s

0    1357
1     950
2     334
3     330
dtype: int64

In [4]:
s.values

array([1357,  950,  334,  330])

In [7]:
s.index

Index(['경기', '서울', '부산', '경남'], dtype='object')

In [8]:
s.name = '22년 4월 인구'
s.index.name = '지역'
print(s)

지역
경기    1357
서울     950
부산     334
경남     330
Name: 22년 4월 인구, dtype: int64


In [9]:
print(s/100)

지역
경기    13.57
서울     9.50
부산     3.34
경남     3.30
Name: 22년 4월 인구, dtype: float64


## 시리즈 인덱싱

In [11]:
print(s[1])
print(s['경기'])

950
1357


In [14]:
print(s[s > 900])
print(s[(s > 1000) | (s < 400)])

지역
경기    1357
서울     950
Name: 22년 4월 인구, dtype: int64
지역
경기    1357
부산     334
경남     330
Name: 22년 4월 인구, dtype: int64


In [15]:
v = pd.Series([17,9,3], index = ['a','b','c'])
print(v.a)
print(v.c)

17
3


## 시리즈 슬라이싱

In [17]:
print(s[0:2])
print(s['경기':'부산'])

지역
경기    1357
서울     950
Name: 22년 4월 인구, dtype: int64
지역
경기    1357
서울     950
부산     334
Name: 22년 4월 인구, dtype: int64


## 시리즈와 딕셔너리

In [20]:
print('서울' in s)

True


In [22]:
s2 = pd.Series({'경기':1198, '서울':1024, '부산':354, '인천':281})
print(s2)

경기    1198
서울    1024
부산     354
인천     281
dtype: int64


In [24]:
delta = s - s2
print(delta)

경기    159.0
경남      NaN
부산    -20.0
서울    -74.0
인천      NaN
dtype: float64


In [25]:
print(s.values - s2.values)

[159 -74 -20  49]


In [29]:
print(delta.notnull())

경기     True
경남    False
부산     True
서울     True
인천    False
dtype: bool


In [30]:
print(delta[delta.notnull()])

경기    159.0
부산    -20.0
서울    -74.0
dtype: float64


## 데이터프레임(DataFrame) 클래스

In [5]:
data = {'2015': [990,344,289], '2010': [963,339,263], '2005': [976,351,251]}
columns = ['2015','2010','2005']
index = ['서울', '부산','인천']
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,2015,2010,2005
서울,990,963,976
부산,344,339,351
인천,289,263,251


In [6]:
df.values

array([[990, 963, 976],
       [344, 339, 351],
       [289, 263, 251]])

In [7]:
df.columns

Index(['2015', '2010', '2005'], dtype='object')

In [8]:
df.index

Index(['서울', '부산', '인천'], dtype='object')

#### 전치

In [9]:
df.T

Unnamed: 0,서울,부산,인천
2015,990,344,289
2010,963,339,263
2005,976,351,251


In [19]:
df['2005-2010'] = ((df['2010'] - df['2005']) / df['2005']).round(4)
df

Unnamed: 0,2015,2010,2005,2005-2010
서울,990,963,976,-0.0133
부산,344,339,351,-0.0342
인천,289,263,251,0.0478


In [18]:
del df['2005-2010']
df

Unnamed: 0,2015,2010,2005
서울,990,963,976
부산,344,339,351
인천,289,263,251


In [20]:
df['2005-2010'] = df['2005-2010'] * 100
df

Unnamed: 0,2015,2010,2005,2005-2010
서울,990,963,976,-1.33
부산,344,339,351,-3.42
인천,289,263,251,4.78


In [32]:
print(df['2010'])  # 시리즈로 반환
print(type(df['2010']))

서울    963
부산    339
인천    263
Name: 2010, dtype: int64
<class 'pandas.core.series.Series'>


In [35]:
df[['2010']]

Unnamed: 0,2010
서울,963
부산,339
인천,263


In [34]:
print(type(df[['2010']]))

<class 'pandas.core.frame.DataFrame'>


In [23]:
df[['2015','2010']]

Unnamed: 0,2015,2010
서울,990,963
부산,344,339
인천,289,263


In [36]:
df['서울':'부산']

Unnamed: 0,2015,2010,2005,2005-2010
서울,990,963,976,-1.33
부산,344,339,351,-3.42


In [37]:
df['2010']['서울'] # 열-행 순서

963

## Quiz

In [85]:
data = {"국어": [80,90,70,30], "영어": [90,70,60,40], "수학": [90,60,80,70]}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


### 1. 모든 학생의 수학 점수를 시리즈로 나타낸다.

In [70]:
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

### 2. 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.

In [71]:
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


### 3. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가한다.

In [86]:
df['평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(4)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.6667
몽룡,90,70,60,73.3333
향단,70,60,80,70.0
방자,30,40,70,46.6667


### 4. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산한다.

In [87]:
df.loc['방자','영어'] = 80
df['평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(4)
df

Unnamed: 0,국어,영어,수학,평균
춘향,80,90,90,86.6667
몽룡,90,70,60,73.3333
향단,70,60,80,70.0
방자,30,80,70,60.0


### 5. 춘향의 점수를 데이터프레임으로 나타낸다.

In [73]:
df[:1]

Unnamed: 0,국어,영어,수학
춘향,80,90,90


### 6. 향단의 점수를 시리즈로 나타낸다.

In [62]:
df2 = df.T
df2['향단']

국어    70
영어    60
수학    80
Name: 향단, dtype: int64