In [1]:
# Series 데이터타입 : 동일 자료형을 가지는 1차원 데이터
# Series가 모여서 DataFrame을 구성

# 리스트 자료를 Series 클래스에 전달해서 생성
import pandas as pd
s = pd.Series(["홍길동", 28])
s
# 인덱스를 별도로 부여하지 않으면 0부터 자동으로 부여

0    홍길동
1     28
dtype: object

In [2]:

# 인덱스를 부여하고자 한다면 index 매개변수에 인덱스 목록을 제공
s = pd.Series(["홍길동", 28],
             index=["Name", "Age"])
s

Name    홍길동
Age      28
dtype: object

In [3]:
# 시리즈에서 데이터를 추출할 때, 인덱스 접근
s['Name'], s['Age']
-
# range를 이용한 Series 생성
# 0 ~ 100까지 짝수의 Series
s2 = pd.Series(range(0, 101, 2))
s2

SyntaxError: invalid syntax (159927060.py, line 3)

In [4]:
# 숫자 데이터로 이루어진 Series라면 기초 통계량을 얻을 수 있음
kor_s = pd.Series([80, 75, 90, 100, 65]) # 시리즈 생성
print(kor_s)
kor_s.describe() # 기초 통계량

0     80
1     75
2     90
3    100
4     65
dtype: int64


count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64

In [5]:
# 통계량 함수
print(kor_s.min(), kor_s.max()) # 최솟값, 최댓값
print(kor_s.mean(), kor_s.median()) # 산술평균, 중앙값
print(kor_s.std()) # 표준편차

65 100
82.0 80.0
13.509256086106296


In [6]:
# isin : 시리즈에 값이 표함되어있는지 여부를 판별
kor_s.isin([100]) # 시리즈에 포함된 값이 있는지

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [7]:
# 시리즈의 연산
s2 = pd.Series([1, 5, 8, 4, 6, 1, 10])
print(s2)

# 시리즈와 스칼라 데이터의 연산
print("se * 2:\n", s2 * 2)

0     1
1     5
2     8
3     4
4     6
5     1
6    10
dtype: int64
se * 2:
 0     2
1    10
2    16
3     8
4    12
5     2
6    20
dtype: int64


In [8]:
# 시리즈와 시리즈의 연산
s3 = pd.Series([1, 2, 3, 4, 5, 6, 7])
s2 + s3

0     2
1     7
2    11
3     8
4    11
5     7
6    17
dtype: int64

In [11]:
# DataFrame
# 각 컬럼 데이터가 Series로 구성된 2차원 테이블 데이터

# 데이터 프레임 생성
# 각 컬럼을 시리즈로 가지고 있는 딕셔너리를 부여하여 데이터프레임 생성
scores_df = pd.DataFrame({
    "KOR": [80, 90, 75],
    "ENG": [90, 80, 70],
    "MATH": [80, 90, 85]
}, index=["홍길동","김철수","이영희"])
scores_df

Unnamed: 0,KOR,ENG,MATH
홍길동,80,90,80
김철수,90,80,90
이영희,75,70,85


In [30]:
# 나중에 index를 부여하고자 할 때
scores_df.index=["또치","도라에몽","짱구"]
scores_df.index

Index(['또치', '도라에몽', '짱구'], dtype='object')

In [33]:
# 파생 변수의 추가
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH'] 
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL
또치,80,90,80,250
도라에몽,90,80,90,260
짱구,75,70,85,230


In [45]:
scores_df['AVERAGE'] = scores_df['TOTAL'] / 3  # len(scores_df.index) - 1
scores_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,EVERAGE,AVERAGE
또치,80,90,80,250,83.333333,83.333333
도라에몽,90,80,90,260,86.666667,86.666667
짱구,75,70,85,230,76.666667,76.666667


In [47]:
# 불린 추출
scores_df['AVERAGE'] > 80

또치       True
도라에몽     True
짱구      False
Name: AVERAGE, dtype: bool

In [49]:
scores_df[[True, True, False]]

Unnamed: 0,KOR,ENG,MATH,TOTAL,EVERAGE,AVERAGE
또치,80,90,80,250,83.333333,83.333333
도라에몽,90,80,90,260,86.666667,86.666667


In [51]:
# 불린 추출
# scores_df에서 AVERAGE가 80점 초과 데이터들만 추출 
filtered_df = scores_df[scores_df['AVERAGE'] > 80]
filtered_df

Unnamed: 0,KOR,ENG,MATH,TOTAL,EVERAGE,AVERAGE
또치,80,90,80,250,83.333333,83.333333
도라에몽,90,80,90,260,86.666667,86.666667
