# Pandas Series
- Pandas 소개
- Series 생성
- Series와 index
- 필터링 / 슬라이싱 / 정렬
- 데이터 변경 / 추가 / 삭제
- Series 객체간 연산
- 문자열 처리
- 통계함수 적용
- 병합

# Pandas


`Pandas`는 파이썬 프로그래밍 언어를 위한 `데이터 조작`과 `분석`을 위한 라이브러리로, 구조화된 데이터를 쉽게 조작하고 처리할 수 있도록 다양한 기능과 데이터 구조를 제공합니다.   
주로 `표 형태의 데이터`를 다루는데 특화되어 있으며, `데이터프레임(DataFrame)`이라는 자료형을 제공하여 이러한 표 형태의 데이터를 효과적으로 다룰 수 있습니다.  
`Pandas`는 `NumPy`를 기반으로 만들어져 있기 때문에 NumPy와 함께 사용하는 경우가 많습니다.

Pandas의 주요 특징과 기능은 다음과 같습니다:

- `DataFrame`: Pandas는 DataFrame이라는 자료형을 제공하여 `표 형태의 데이터`를 쉽게 다룰 수 있습니다. DataFrame은 `2차원 테이블` 형태로, `행`과 `열`로 구성되어 있으며, 각 `열은 서로 다른 데이터 타입`을 가질 수 있습니다.

- `데이터 조작`: Pandas는 데이터를 쉽게 `필터링`, `정렬`, `그룹화`, `합치기` 등 다양한 조작을 할 수 있는 기능을 제공합니다. 이를 통해 데이터를 효율적으로 처리하고 분석할 수 있습니다.

- `누락된 데이터 처리`: Pandas는 누락된 데이터(NaN)를 쉽게 처리할 수 있는 기능을 제공합니다. 누락된 데이터를 효율적으로 다룰 수 있어 `데이터의 빠른 전처리`가 가능합니다.

- `데이터 시각화`: Pandas는 데이터를 시각화하는 기능을 제공하며, `Matplotlib와 함께 사용`하여 다양한 차트와 플롯을 그릴 수 있습니다.

- `데이터 파일 입출력`: Pandas는 `CSV`, `Excel`, `SQL`, `JSON` 등 다양한 파일 형식으로 데이터를 읽고 쓸 수 있는 기능을 제공합니다.

Pandas는 데이터 과학 및 데이터 분석 분야에서 매우 인기 있는 라이브러리이며, 데이터 전처리, 데이터 분석, 데이터 시각화 등 다양한 작업에 활용됩니다. Pandas를 사용하면 복잡한 데이터를 쉽게 다룰 수 있고, 데이터 분석과 관련된 작업을 더욱 효율적으로 수행할 수 있습니다.

## pandas 설치

```bash
pip install pandas
```

# Series:

- `Series`는 `1차원 레이블된 배열`로, `NumPy의 1차원 배열과 유사`한 구조를 가지고 있습니다. 
- Series는 `인덱스(index)`와 `값(value)`으로 구성되어 있으며, 각 값은 해당하는 인덱스와 매핑됩니다. 
- Series는 일반적으로 `하나의 데이터 타입`으로 구성되어 있습니다.

## Series의 index

Series의 인덱스(Index)는 Pandas의 1차원 레이블된 배열로, 각 값에 대한 고유한 식별자(identifier)를 제공합니다. Series의 인덱스는 각 원소에 접근하고 식별하는 데 사용되며, 행의 레이블로 사용됩니다. 인덱스는 레이블, 숫자, 날짜, 문자열 등의 다양한 데이터 타입을 가질 수 있습니다.

## Series 생성

In [None]:
"""
리스트를 활용한 Series 생성:
"""
import pandas as pd

# 리스트를 사용하여 Series 생성
data = [10, 20, 30, 40, 50]
s = pd.Series(data)
print(s)

In [None]:
print(type(s.index), s.index, sep="\n")

In [None]:
print(type(s.values), s.values, sep="\n")

In [None]:
s.values.dtype

In [None]:
"""
딕셔너리를 활용한 Series 생성:
"""
import pandas as pd

# 딕셔너리를 사용하여 Series 생성
data = {'a': 10, 'b': 20, 'c': 30, 'd': 40}
s = pd.Series(data)
print(s)

In [None]:
print(type(s.index), s.index, sep="\n")

In [None]:
"""
NumPy 배열을 활용한 Series 생성:
"""
import pandas as pd
import numpy as np

# NumPy 배열을 사용하여 Series 생성
data = np.array([10, 20, 30, 40, 50])
s = pd.Series(data)
print(s)


In [None]:
data = np.array([10, 20, 30, 40, 50])
s = pd.Series(data, ['a', 'b', 'c', 'd', 'e'])
print(s)

In [None]:
data = np.array([10, 20, 30, 40, 50])
s = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
print(s)

In [None]:
"""
스칼라 값과 인덱스를 활용한 Series 생성:
"""
import pandas as pd

# 스칼라 값과 인덱스를 사용하여 Series 생성
s = pd.Series(5, index=['a', 'b', 'c', 'd', 'e'])
print(s)

## index를 활용하여 데이터 접근

In [None]:
"""
인덱스 레이블을 사용하여 접근:
"""
import pandas as pd

# Series 생성
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data, index=index)
s

우선 index와 value를 명시적으로 지정한 시리즈를 만들어 보겠습니다.

In [None]:
# 인덱스 레이블을 사용하여 값에 접근
print(s['B'])  # 레이블 'B'에 해당하는 값에 접근

In [None]:
s.loc['B']

In [None]:
s[1]

In [None]:
s.iloc[1]

## 필터링

In [None]:
import pandas as pd

# Series 생성
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data, index=index)
s

In [None]:
# 30 초과인 경우만 출력
s[s>30]

In [None]:
# 30초과 50미만
s[(s>30) & (s<50)]

In [None]:
# 20이거나 40이거나
s[(s==20) | (s==40)]

In [None]:
s[s.isin([20,40])]

In [None]:
# 20이 아닌 경우만
s[(s!=20)]

In [None]:
s[~(s==20)]

In [None]:
# 레이블이 "A","B","D" 인 경우만 필터링
s[["A","B","D"]]

In [None]:
# 0,1,4번째 데이터만 필터링
s[[0,1,4]]

## 슬라이싱

In [None]:
import pandas as pd

# Series 생성
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data, index=index)
s

In [None]:
s[1:3]

In [None]:
s.iloc[1:3]

In [None]:
s["B":"D"]

In [None]:
# "B":"D"까지
s.loc["B":"D"]

In [None]:
b = s.loc["B":"D"]
print(s,b,sep="\n")

In [None]:
s["B"] = -999
print(s,b,sep="\n")

## 조건식 기반 값 변경

In [None]:
"""
조건식을 활용한 값 변경 예제
"""
s = pd.Series(range(10,60,10))
print(s)
# 30이상인데이터에 5를 더한 값으로 수정하시요
s[s>=30] = s[s>=30]+100
print(s)

## 값 추가

In [None]:
"""
인덱스를 이용한 값추가
"""
import pandas as pd

# 시리즈 생성
data = [10, 20, 30, 40]
index = list("ABCD")
s = pd.Series(data, index=index)
print(s)

In [None]:
# loc[] 인덱서를 사용하여 값 추가
s.loc["Z"] = 50
print(s)

In [None]:
s

## 값 삭제

In [None]:
import pandas as pd

# Series의 값을 삭제
data = [10, 20, 30, 40]
index = list("abcd")
s = pd.Series(data, index=index)
a = s.drop('a')

print(a)
print(s)

In [None]:
import pandas as pd

# 시리즈 생성
data = [10, 20, 30, 40]
index = list("abcd")
s = pd.Series(data, index=index)

In [None]:
# 값 삭제시 inplace 파리미터 활용
a = s.drop('a', inplace=True)
s

In [None]:
print(a)

In [None]:
# 시리즈 생성
data = [10, 20, 30, 40]
index = list("abcd")
s = pd.Series(data, index=index)
print(s)
print(s.drop(["b", "c"]))

## 정렬 (sort_values, sort_index)

In [None]:
import pandas as pd
import numpy as np

# 시리즈 생성
s = pd.Series(
    data=np.random.randint(1,10,4), 
index=np.random.choice(list("abcd"), 4, replace=False)
)
print(s)

In [None]:
b = s.sort_values()
print(b)
print(s)

In [None]:
b = s.sort_values(inplace=True)
print(b)
print(s)

In [None]:
s.sort_values(ascending=False)

In [None]:
s.sort_index()

## Series 연산 (+,-,*,/,//,%,**)

Pandas Series간의 연산은 `인덱스를 기준`으로 자동으로 맞춰서 수행되기 때문에 `데이터의 크기가 다르더라도 연산이 가능`합니다. 또한 `브로드캐스팅` 기능을 지원하여 Series와 `스칼라(단일 값) 간의 연산도 가능`합니다. 

값이 없을 경우 NaN: (Not a Number)

In [None]:
"""
덧셈
"""
import pandas as pd

# Series 생성
s1 = pd.Series([10, 20, 30], index=['A', 'B', 'C'])
s2 = pd.Series([5, 15, 25], index=['B', 'C', 'D'])
print(s1)
print(s2)
print(s1+s2)

## 문자열 처리 (.str)

In [None]:
import pandas as pd
import numpy as np

s = pd.Series(["Python", "PyTorch", "NumPy", "Pandas", "SciPy"])

In [None]:
s.str[:3]

In [None]:
s.str.contains("Py")

In [None]:
s.str.replace("Py", "py")
s

In [None]:
s = pd.Series([1,2,3])
s.str.contains("T")

## 통계


In [None]:
import pandas as pd
import numpy as np
data = [10,-999,30,30,40,40,40,50,60,999,70]
s = pd.Series(data, index=list("abcdefghijk"),name='kor')

In [None]:
s

In [None]:
s.max()

In [None]:
s.idxmax()

In [None]:
s.argmax()

In [None]:
s.min()

In [None]:
s.idxmin()

In [None]:
s.argmin()

In [None]:
s.sum()

In [None]:
s.mean()

In [None]:
s.nlargest(2)

In [None]:
s.nsmallest(2)

In [None]:
s.rank(method="average")

In [None]:
s.rank(method="min")

In [None]:
s.mean()

In [None]:
s.mean().round(3)

In [None]:
s.quantile(.1)

In [None]:
s.quantile(.5)

In [None]:
s.median()

In [None]:
s.value_counts()

In [None]:
type(s.value_counts())

In [None]:
s.unique()

In [None]:
type(s.unique())

In [None]:
s.nunique()

In [None]:
s.size

In [None]:
len(s)

### 시각화를 위하여 matplotlib 설치

```bash
pip install matplotlib
```

In [None]:
s = pd.Series(np.random.randn(100))

In [None]:
s.plot()

In [None]:
s.hist(bins=10)

In [None]:
s.plot(kind="kde")

In [None]:
s.plot(kind="box")

## concat

In [None]:
"""
concat
"""
import pandas as pd

# Series 생성
s1 = pd.Series([10, 20, 30], index=['A', 'B', 'C'])
s2 = pd.Series([5, 15, 25], index=['B', 'C', 'D'])

s3 = pd.concat([s1, s2])
s3

## Series의 이름과 설정 변경

`Series` 의 이름은 `DataFrame`으로 생성시 `column 이름`으로 활용됨

In [None]:
"""
Series의 이름 설정 및 변경:
"""
import pandas as pd

# Series 생성
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data,  index=index, name = 'ExampleData')
print(s)

In [None]:
"""
Series의 이름 설정 및 변경:
"""
import pandas as pd

# Series 생성
data = [10, 20, 30, 40, 50]
index = ['A', 'B', 'C', 'D', 'E']
s = pd.Series(data,  index=index )

# Series 이름 설정
s.name = 'SampleData'
print(s)
