In [2]:
# Series 데이터 티입: 동일 자료형을 가지는 1차원 데이터
# Series 가 모여서 DateFrame 을 구성함

# 리스트 자료를 Series 클래스에 전달해서 생성한다
import pandas as pd
s = pd.Series(['홍길동', 35])
s
# 인덱스를 별도로 부여하지 않으면 0부터 자동으로 부여

0    홍길동
1     35
dtype: object

In [4]:
# 인덱스를 부여하고자 한다면 index 매개변수에 인덱스 목록을 제공
s = pd.Series(['홍길동', 28], index=['name', 'age'])
s

name    홍길동
age      28
dtype: object

In [6]:
# 시리즈에서 데이터를 추출할때, 인덱스 접근
s['name'], s['age']

('홍길동', 28)

In [7]:
s.index

Index(['name', 'age'], dtype='object')

In [13]:
# range 를 이용한 Series 생성
# 0`~ 100 까지의 짝수의 Series
s2= pd.Series(range(0, 101, 2))
s2

0       0
1       2
2       4
3       6
4       8
5      10
6      12
7      14
8      16
9      18
10     20
11     22
12     24
13     26
14     28
15     30
16     32
17     34
18     36
19     38
20     40
21     42
22     44
23     46
24     48
25     50
26     52
27     54
28     56
29     58
30     60
31     62
32     64
33     66
34     68
35     70
36     72
37     74
38     76
39     78
40     80
41     82
42     84
43     86
44     88
45     90
46     92
47     94
48     96
49     98
50    100
dtype: int64

In [12]:
# 숫자 데이터로 이루어진 Series 라면 기초 통계량을 얻을 수 있음
kor_s = pd.Series([80, 75, 90, 100, 65]) # 시리즈 생성
print(kor_s)
kor_s.describe() # 기초 통계량

0     80
1     75
2     90
3    100
4     65
dtype: int64


count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [15]:
# 통계량 함수
print(kor_s.min(), kor_s.max())# c최솟값, 최댓값
print(kor_s.mean(), kor_s.median()) # 산술 평균, 중앙값
print(kor_s.std()) # 표준편차

65 100
82.0 80.0
13.509256086106296


In [16]:
# isin: Series 에 값이 포함되어 있는지 여부를 판별
kor_s.isin([100])

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [19]:
# 시리즈의 연산
s2 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print(s2)

# 시리즈와 스칼라 데이터의 연산
print('s2 * 2:\n', s2 * 2)

0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
s2 * 2:
 0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64


In [21]:
# 시리즈와 시리즈의 연산
s3 = pd.Series([1, 2, 3, 4, 5, 6, 7])
print(s2 + s3)

0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64


In [24]:
# DateFrame
# 각 데이터가 Series로 구성된 2차원 테이블 데이터

# 데이터 프레임 생성
# 각 컬럼을 시리즈로 가지고 있는 딕셔너리를 부여하여 데이터 프레임 생성
scores_df = pd.DataFrame({
    'kor' : [80, 90, 75],
    'eng' : [45, 75, 60],
    'math' : [70, 90, 85]
}, index=['시온', '미코', '마린'])
scores_df

Unnamed: 0,kor,eng,math
시온,80,45,70
미코,90,75,90
마린,75,60,85


In [25]:
# 나중에 인덱스 부여하고자 할 때
scores_df.index

Index(['시온', '미코', '마린'], dtype='object')

In [26]:
# 파생 변수의 추가
scores_df['TOTAL'] = scores_df['kor'] + scores_df['eng'] + scores_df['math'] 
scores_df

Unnamed: 0,kor,eng,math,TOTAL
시온,80,45,70,195
미코,90,75,90,255
마린,75,60,85,220


In [27]:
scores_df['avg'] = scores_df['TOTAL'] / 3 # 시리즈와 스칼라의 연산 -> 브로드캐스팅
scores_df

Unnamed: 0,kor,eng,math,TOTAL,avg
시온,80,45,70,195,65.0
미코,90,75,90,255,85.0
마린,75,60,85,220,73.333333


In [29]:
# 불린 추출
scores_df['avg'] > 80

시온    False
미코     True
마린    False
Name: avg, dtype: bool

In [31]:
scores_df[[False, True, False]]

Unnamed: 0,kor,eng,math,TOTAL,avg
미코,90,75,90,255,85.0


In [30]:
# 불린 추축
# scores_df 에서 avg가 80점 초과 데이터만 추출
filtered_df = scores_df[scores_df['avg'] > 80]
filtered_df

Unnamed: 0,kor,eng,math,TOTAL,avg
미코,90,75,90,255,85.0
