<a href="https://colab.research.google.com/github/kiuugi/pandas/blob/main/01_Series.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### [참고] <a href="https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf">Pandas Cheat Sheet</a>

## 데이터 타입

### 1.Series(https://pandas.pydata.org/docs/reference/api/pandas.Series.html)

<img src="https://bites-data.s3.us-east-2.amazonaws.com/series_spreadsheet.png" width="300" height="200">

In [1]:
import pandas as pd # 패키지 설치가 필요가 없다는 장점이 있다. 대신 살짝 느림
import numpy as np

### 생성
#### 1) 리스트

In [8]:
# 리스트에서 시리즈 생성

series = pd.Series([70,60,90], index=["국어", "영어", "수학"])

In [9]:
# index 를 지정하지 않는다면 자동으로 0 부터 시작

series

국어    70
영어    60
수학    90
dtype: int64

#### 2) 딕셔너리

In [5]:
series = pd.Series({"a":1, "b":2, "c":3})

In [6]:
# 딕셔너리의 경우에는 key값을 인덱스로 사용

series

a    1
b    2
c    3
dtype: int64

#### 3) ndarray

In [11]:
series = pd.Series(np.random.random(4), index=list("abcd"))
series

a    0.968071
b    0.538339
c    0.780839
d    0.900111
dtype: float64

#### 4) DataFrame 이용

In [12]:
df = pd.DataFrame({"a":[1,2,3,4], "b":[5,6,7,8]})

In [13]:
df

Unnamed: 0,a,b
0,1,5
1,2,6
2,3,7
3,4,8


In [14]:
series = pd.Series(df["a"])
series

0    1
1    2
2    3
3    4
Name: a, dtype: int64

### 조회

In [15]:
series = pd.Series([70,60,90], index=["국어", "영어", "수학"])

In [16]:
# index 조회
series.index

Index(['국어', '영어', '수학'], dtype='object')

In [17]:
# value 조회

series.values

array([70, 60, 90])

In [20]:
# name 조회

series.name

'점수'

In [19]:
# name 수정
series = series.rename("점수")

In [21]:
series

국어    70
영어    60
수학    90
Name: 점수, dtype: int64

- 인덱싱 가능 (인덱스 번호 혹은 라벨명)

In [22]:
series[0]

70

In [23]:
series["국어"]

70

In [27]:
# 0, 2 조회

# series[0:2] # 0 ~ 1번 조회 앞에 숫자부터 뒤에자리숫자앞까지

series[[0,2]] # 0번, 2번

국어    70
수학    90
Name: 점수, dtype: int64

- 전체 구조 파악

In [28]:
series.shape

(3,)

In [29]:
# head() : 앞 쪽에서 데이터 5개 가져오기
series.head()

국어    70
영어    60
수학    90
Name: 점수, dtype: int64

In [35]:
series.head(2)

국어    70
영어    60
Name: 점수, dtype: int64

In [34]:
# tail() : 마지막에서 5개 가져오기

series.tail(2)

영어    60
수학    90
Name: 점수, dtype: int64

### 수정
><b>index 수정</b>

In [38]:
series.index = ["미술", "음악", "체육"]
series

미술    70
음악    60
체육    90
Name: 점수, dtype: int64

><b>특정 값 수정</b>

In [39]:
series["미술"] = 75
series

미술    75
음악    60
체육    90
Name: 점수, dtype: int64

><b>데이터 타입 변경</b>

In [43]:
series1 = pd.Series([1, 1, 1])
series1

0    1
1    1
2    1
dtype: int64

In [44]:
# astype(변경타입)

series1.astype("float")

0    1.0
1    1.0
2    1.0
dtype: float64

In [47]:
# astype()은 원본을 바꾸지는 않음
# 원본의 변경을 원할 때는 다시 담아야함

series1 =  series1.astype("float")

0    1
1    1
2    1
dtype: int64

**astype 사용 시 주의점 : 변경할 수 없는 데이터가 들어있는 경우**

In [50]:
series1 = pd.Series(["test", "2.2", "3.3"]) # object
series1.astype("float")

ValueError: could not convert string to float: 'test'

### 삭제
><b>특정 행 삭제</b>

In [51]:
series

미술    75
음악    60
체육    90
Name: 점수, dtype: int64

In [52]:
del series["체육"]

In [53]:
series

미술    75
음악    60
Name: 점수, dtype: int64