### <span style='background-color:rgba(200, 50, 0, 0.5);'>판다스 패키지</span>

데이터를 시계열이나 표로 표현하기 위한 패키지  
시계열을 표현하는 `Serise` 클래스와 표로 표현하는 `DataFrame` 클래스 존재함  

판다스 패키지를 사용하기 위해서는 패키지를 설치해야함
```bash
pip install pandas
```

패키지를 임포트 할 때는
```python
import pandas
import pandas as pd
```

pandas 3.0 이상 버전 부터는 Pyarrow 패키지가 필수 의존 패키지로 지정되어 만약, 존재하지 않으면  
```bash
pip install pyarrow
```  
로  Pyarrow 설치 권장 

In [3]:
import pandas as pd

### <span style='background-color:rgba(100, 50, 200, 0.5);'>시리즈 클래스</span>

1차원의 시계열 데이터를 표현하고자 할 때 사용하는 클래스로 인덱스와 값이 한 쌍으로 나열되어 있는 형태  
시리즈를 생성하는 방법 : pandas 패키지의 `Series` 클래스의 생성자로 값과 인덱스에 대한 배열 혹은 리스트를 전달하면 생성할 수 있음

In [7]:
scores = pd.Series([85,70,100,90,55], index=['홍길동','김철수','이영희','최민수','박지성'])
scores

홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
dtype: int64

In [6]:
scores = pd.Series([85,70,100,90,55])
scores
# index를 지정하지 않으면 0부터 시작하는 정수의 인덱스 값이 자동으로 생성됨

0     85
1     70
2    100
3     90
4     55
dtype: int64

In [12]:
# ?? 궁금증 : 동일한 값을 넣으면 ?  -> 가능하다..!
scores = pd.Series([85,70,100,90,55], index=['홍길동','김철수','이영희','최민수','홍길동'])
scores

# 인덱스의 배열의 요소는 중복 가능

홍길동     85
김철수     70
이영희    100
최민수     90
홍길동     55
dtype: int64

Series 객체의 index 와 values 들을 보고자 한다면 `index` 속성과 `values` 속성으로 확인할 수 있음

In [8]:
scores.index

Index(['홍길동', '김철수', '이영희', '최민수', '박지성'], dtype='object')

In [9]:
scores.values

array([ 85,  70, 100,  90,  55], dtype=int64)

`name` 속성으로 value에 대한 이름을 부여할 수 있음  
`index.name` 속성으로 index에 대한 이름을 부여할 수 있음


In [10]:
scores.name = '점수'
scores.index.name = '이름'
scores

이름
홍길동     85
김철수     70
이영희    100
최민수     90
박지성     55
Name: 점수, dtype: int64

#### <span style='background-color:rgba(50, 250, 50, 0.2);'>시리즈 연산</span>

시리즈도 numpy 배열과 같이 벡터화 연산이 가능  
단, 연산 작업은 값에만 적용됨

In [13]:
scores * 0.4

홍길동    34.0
김철수    28.0
이영희    40.0
최민수    36.0
홍길동    22.0
dtype: float64

In [14]:
scores >= 60  # 비교연산 가능!

홍길동     True
김철수     True
이영희     True
최민수     True
홍길동    False
dtype: bool

In [15]:
# ?? 궁금증 : 배열과 배열의 더하기도 가능한가? -> 가능하다..!
scores2 = pd.Series([60,100,90,70,95], index=['홍길동','김철수','이영희','최민수','박지성'])
scores2

홍길동     60
김철수    100
이영희     90
최민수     70
박지성     95
dtype: int64

In [16]:
scores + scores2
# 홍길동 하나의 값이 scores 에 2개 있는 값에 각각 더해졌다

김철수    170.0
박지성      NaN
이영희    190.0
최민수    160.0
홍길동    145.0
홍길동    115.0
dtype: float64

#### <span style='background-color:rgba(50, 250, 50, 0.2);'>시리즈 인덱싱</span>

시리즈도 리스트나 배열가 같이 인덱스 번호로 접근이 가능  
단, 시리즈는 index 값으로도 접근이 가능

배열 인덱싱이나 슬라이싱 모두 가능

In [17]:
scores[1],scores['김철수']
# 이름이 있는 것은 이름으로 접근하는 것을 추천한다는 메세지

  scores[1],scores['김철수']


(70, 70)

배열 인덱싱을 사용하여 자료의 순서를 바꾸거나 특정한 자료만 선택하여 시리즈 객체를 생성할 수 있음  

In [18]:
scores[[0,3,1]]

  scores[[0,3,1]]


홍길동    85
최민수    90
김철수    70
dtype: int64

In [19]:
scores[['홍길동','최민수','김철수']]

홍길동    85
홍길동    55
최민수    90
김철수    70
dtype: int64

In [24]:
scores[scores < 70]

홍길동    55
dtype: int64

시리즈 객체도 슬라이싱이 가능한데 인덱스의 이름(라벨)으로 슬라이싱할 때는  
인덱스 번호로 슬라이실할 때와 다르게   
마지막 인덱스 값도 포함해서 반환한다.

In [25]:
scores[1:3]

김철수     70
이영희    100
dtype: int64

In [26]:
scores['김철수':'최민수'] #최민수가 포함되어 나온다

김철수     70
이영희    100
최민수     90
dtype: int64

시리즈 객체의 라벨이 영문자로 이루어져 있다면 객체의 속성에 접근하는 것과 같은 방법으로 접근할 수 있음

In [27]:
s0 = pd.Series(range(3), index=['a','b','c'])
s0

a    0
b    1
c    2
dtype: int64

In [28]:
s0.a , s0.b

(0, 1)

#### <span style='background-color:rgba(50, 250, 50, 0.2);'>시리즈와 딕셔너리</span>

시리즈는 인덱스와 이름(라벨)과 값이 한쌍으로 이루어져 관리되어 지는데,  
이는 파이썬의 기본 자료구조인 키와 값을 한쌍으로 관리하는 딕셔너리와 비슷함

시리즈 객체도 딕셔너리에서 사용가능한 `in` 연산과 `items()` 메서드를 사용할 수 있음

In [29]:
'홍홍홍' in scores

False

In [30]:
'홍길동' in scores

True

In [34]:
for label, value in scores.items():
    print(f'{label}:{value}')

홍길동:85
김철수:70
이영희:100
최민수:90
홍길동:55


시리즈 객체는 딕셔너리 객체로 직접 생성할 수 있음  
단, 딕셔너리 객체는 순서가 보장되지 않기 때문에 순서를 결정하고 싶다면   
`index` 매개변수에 순서를 정한 인덱스 배열 또는 리스트를 전달해야함

In [37]:
scores2 = pd.Series({'홍길동':60, '김철수':90, '이재용':100, '권지용':75}, 
index=['권지용','김철수','이재용','홍길동'])  #순서 지정
scores2

권지용     75
김철수     90
이재용    100
홍길동     60
dtype: int64

#### <span style='background-color:rgba(50, 250, 50, 0.2);'>인덱스 기반 연산</span>

두 시리즈 객체간에 연산을 진행하면 인덱스가 같은 데이터에 대해서만 연산을 진행함  
시리즈 모두에 존재하지 않는 인덱스는 `NaN`으로 표시 됨

In [38]:
score_sum = scores + scores2
score_sum

권지용      NaN
김철수    160.0
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
홍길동    115.0
dtype: float64

값들 끼리의 연산에서는 동일하게 존재하는 인덱스의 값들에 대해서만 나타남  
(단, 길이가 다른 값들에 대해서는 연산 불가)

In [39]:
scores.values + scores2.values
# 인덱스의 길이가 달라 불가.

ValueError: operands could not be broadcast together with shapes (5,) (4,) 

시리즈 객체에서 값이 `NaN`인지 아닌지 구하려면 `not null()`메서드를 사용할 수 있음

In [41]:
score_sum.notnull() # NaN 이 아니면, True 출력

권지용    False
김철수     True
이영희    False
이재용    False
최민수    False
홍길동     True
홍길동     True
dtype: bool

In [42]:
score_sum[score_sum.notnull()] # NaN이 아닌 값들만 출력

김철수    160.0
홍길동    145.0
홍길동    115.0
dtype: float64

#### <span style='background-color:rgba(50, 250, 50, 0.2);'>데이터 갱신, 추가, 삭제</span>

딕셔너리와 같은 방법으로 데이터를 갱신, 추가, 삭제 할 수 있음

In [43]:
score_sum['김철수'] = 120 # 갱신 - 값 변경
score_sum

권지용      NaN
김철수    120.0
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
홍길동    115.0
dtype: float64

In [44]:
score_sum['남궁선'] = 100 # 추가
score_sum

권지용      NaN
김철수    120.0
이영희      NaN
이재용      NaN
최민수      NaN
홍길동    145.0
홍길동    115.0
남궁선    100.0
dtype: float64

In [45]:
del score_sum['이재용'] # del 제거
score_sum

권지용      NaN
김철수    120.0
이영희      NaN
최민수      NaN
홍길동    145.0
홍길동    115.0
남궁선    100.0
dtype: float64

In [46]:
score_sum.pop('최민수') # 제거??인가?
score_sum

권지용      NaN
김철수    120.0
이영희      NaN
홍길동    145.0
홍길동    115.0
남궁선    100.0
dtype: float64

In [47]:
score_sum.pop('홍길동') # pop 은 조회해서 제거하는 식

홍길동    145.0
홍길동    115.0
dtype: float64

In [48]:
score_sum

권지용      NaN
김철수    120.0
이영희      NaN
남궁선    100.0
dtype: float64

In [None]:
score_sum