In [1]:
import pandas as pd

students = ['강지원', '김성윤', '황혜선', '이욱']
id = [2101, 2102,2104,2103]

series=pd.Series(data=students, index=id)
series

2101    강지원
2102    김성윤
2104    황혜선
2103     이욱
dtype: object

In [2]:
type(series)

pandas.core.series.Series

## 시리즈 인덱싱

In [3]:
series.iloc[-1]

'이욱'

In [4]:
series.loc[2104]

'황혜선'

In [5]:
# 2100번째 행은 존재하지 않으므로...

series.iloc[2101]

IndexError: single positional indexer is out-of-bounds

In [6]:
series[2101]

'강지원'

In [7]:
students = ['강지원', '김성윤', '황혜선', '이욱']

series=pd.Series(data=students)
series

0    강지원
1    김성윤
2    황혜선
3     이욱
dtype: object

In [8]:
series.iloc[0]

'강지원'

In [9]:
# 두개 이상일 경우, []을 한번 더

series.iloc[[0,2]]

0    강지원
2    황혜선
dtype: object

## 시리즈 슬라이싱

In [10]:
#iloc과 loc 모두 슬라이싱을 지원한다. 그러나 주의할 점
#iloc으로 인덱싱은 끝 점을 포함하지 않는다
series.iloc[:2] 

0    강지원
1    김성윤
dtype: object

In [11]:
# iloc은 슬라이싱의 경우

series.iloc[:2]

0    강지원
1    김성윤
dtype: object

In [12]:
#loc으로 인덱싱은 끝점을 포함한다
series.loc[:3]

0    강지원
1    김성윤
2    황혜선
3     이욱
dtype: object

In [13]:
series[:2]

0    강지원
1    김성윤
dtype: object

In [14]:
#우리의 분석 대상의 파일을 가져와 보자

df = pd.read_csv('./seoul_2021.csv', encoding='utf-8')

#### 시리즈나 데이터프레임의 처음과 끝을 보는 방법
* 처음 : df.head()  ()안의 기본값은 5이다
* 끝 : df.tail()

In [15]:
df.head()

Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2021-01-01,-4.2,-9.8,511,1.6,1447,,,,...,1.4,2.9,6.8,9.7,15.9,17.5,1.1,1.6,,
1,108,2021-01-02,-5.0,-8.4,805,-1.4,1346,,,,...,1.2,2.6,6.6,9.6,15.8,17.5,1.4,2.0,,
2,108,2021-01-03,-5.6,-9.1,536,-2.0,1238,,,,...,1.0,2.5,6.5,9.5,15.7,17.4,1.0,1.5,,
3,108,2021-01-04,-3.5,-8.4,656,0.3,1535,2.33,,,...,0.8,2.3,6.3,9.4,15.6,17.4,0.9,1.3,0.0,
4,108,2021-01-05,-5.5,-9.9,2356,-2.1,1,5.42,,,...,0.8,2.2,6.2,9.3,15.5,17.3,1.2,1.7,,


In [16]:
# 이 중에서 '일시'의 항목만을 가져와 'date'라고 변수에 저장한다.

date = df['일시']
type(date)

pandas.core.series.Series

In [17]:
date

0      2021-01-01
1      2021-01-02
2      2021-01-03
3      2021-01-04
4      2021-01-05
          ...    
360    2021-12-27
361    2021-12-28
362    2021-12-29
363    2021-12-30
364    2021-12-31
Name: 일시, Length: 365, dtype: object

In [18]:
date.head()

0    2021-01-01
1    2021-01-02
2    2021-01-03
3    2021-01-04
4    2021-01-05
Name: 일시, dtype: object

In [19]:
date.tail()

360    2021-12-27
361    2021-12-28
362    2021-12-29
363    2021-12-30
364    2021-12-31
Name: 일시, dtype: object

In [20]:
#date의 길이는 윤달이 없는 이상 365일

len(date)

365

## 브로드캐스팅

In [21]:
#판다스 씨리즈와 데이터프레임은 '브로드캐스팅' 기능을 지원한다.

# 예를 들어 

a = [10,20,30,40,50] #라는 리스트가 있고, 여기 각각의 원소에 100을 곱해야 한다고 할 때, 원래는...

result = []
for i in a:
    result.append(i*100)
print(result)

[1000, 2000, 3000, 4000, 5000]


In [22]:
#그러나 판다스 씨리즈 구조에서는....

s = pd.Series(a)
s

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [23]:
# s라는 시리즈의 개별적인 요소에 연산이 작용해 다음과 같은 결과를 낳는다
s1 = s/10
s1

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [24]:
#그러면 개별 요소에서 500을 빼어 보도록 하자
s = s - 500
s

0   -490
1   -480
2   -470
3   -460
4   -450
dtype: int64

In [25]:
s =s/10
s

0   -49.0
1   -48.0
2   -47.0
3   -46.0
4   -45.0
dtype: float64

## 이미 만들어진 시리즈에 새로운 요소 추가

In [26]:
#원래는...
series

0    강지원
1    김성윤
2    황혜선
3     이욱
dtype: object

In [27]:
series[4]='도밍고'

In [28]:
series

0    강지원
1    김성윤
2    황혜선
3     이욱
4    도밍고
dtype: object

In [29]:
series[10] = '플라치도'

In [30]:
series

0      강지원
1      김성윤
2      황혜선
3       이욱
4      도밍고
10    플라치도
dtype: object

## 시리즈의 정렬 (index의 정렬, 값의 정렬)

In [31]:
# 인덱스의 정렬 

series.sort_index(ascending = False)

10    플라치도
4      도밍고
3       이욱
2      황혜선
1      김성윤
0      강지원
dtype: object

In [32]:
#그러나,변하지 않았다.

series

0      강지원
1      김성윤
2      황혜선
3       이욱
4      도밍고
10    플라치도
dtype: object

In [33]:
# 그 이유는 .sort_index()는 원본 자체를 변화시키는 것이 아니라, 
# 새로운 복사본을 하나 만들어 내는 함수일 뿐이므로...
# 따라서 바뀐 값을 쓰려면

new_series = series.sort_index()
new_series

0      강지원
1      김성윤
2      황혜선
3       이욱
4      도밍고
10    플라치도
dtype: object

In [34]:
# 또는 원본을 바꾸는 인자  inplace = True를 넣으면 된다

series.sort_index(inplace=True)
series

0      강지원
1      김성윤
2      황혜선
3       이욱
4      도밍고
10    플라치도
dtype: object

In [35]:
series

0      강지원
1      김성윤
2      황혜선
3       이욱
4      도밍고
10    플라치도
dtype: object

In [36]:
# 값도 순서대로 정렬이 가능하다.

series.sort_values()

0      강지원
1      김성윤
4      도밍고
3       이욱
10    플라치도
2      황혜선
dtype: object

In [37]:
# 기본은 오름차로 정렬되므로, 내림차(큰것부터 작은것으로)로 정렬하려면...

series.sort_values(ascending=False)

2      황혜선
10    플라치도
3       이욱
4      도밍고
1      김성윤
0      강지원
dtype: object