### 파이썬의 주요 데이터 분석 라이브러리
- NumPy (넘파이) : 배열, 행렬 관련 편리한 기능 제공
- Pnadas (판다스) : Series, DataFrame 등의 자료구조를 활용한 
                    데이터 분석 기능 제공
- Matplotlib (맷플롯립) : 데이터 분석 결과를 시각화하는데 유용한 기능 제공

### 판다스 (pandas)
    - series, DataFrame등의 자료구조를 활용한 데이터 분석 기능을 제공해주는 라이브러리
    - pandas 라이브러리 구성
        - 여러종류의 클래스와 다양한 함수로 구성
        - 시리즈와 데이터 프레임의 데이터 구조 클래스 객체 포함
        - 시리즈(1차원 배열) 데이터프레임(2차원 테이블 형태)

#### 판다스의 목적
    - 서로 다른 여러 가지 유형의 데이터를 공통된 포맷으로 정리하는 것
    - 특히, 행과 열로 이루어진 2차원 구조의 데이터프레임 형식으로 사용
    - 데이터 분석 실무에서 사용됨

#### Series
  - pandas의 기본 객체 중 하나
  - 동일한 타입의 데이터가 순차적으로 나열된 1차원 배열 형태
  - 인덱스(index)와 데이터 값(value)이 일대일로 대응

### Series 학습 내용
- Series 생성 방법  
- 시리즈 데이터의 추가/삭제/갱신 
- 인덱싱        
- 슬라이싱     
- 시리즈 연산     
- 시리즈 속성 및 함수  
- 날짜 인덱스를 이용한 시리즈 생성

### 판다스/넘파이 모듈 import

- 데이터분석에서 기본 패키지 :  pandas와 numpy 패키지  
- 일반적으로 pandas 모듈은 pd 라는 별칭 사용  
- numpy는 np라는 별칭 사용

In [2]:
import pandas as pd
import numpy as np

#### Series 생성 방법 : pd.Series(집합적 자료형  
    (1) 리스트로 생성  
    (2) 튜플로 생성  
    (3) 딕셔너리로 생성 
    (4) range/np.arange 함수 사용해서 생성

### (1) 리스트로 생성  
 - index는 명시하지 않을 경우 기본적으로 0부터 자동 생성

In [15]:
# pd.Series(집합적 자료형)
# pd.Series(리스트)

s = pd.Series([1,2,3])
s # dtype: int64

0    1
1    2
2    3
dtype: int64

In [13]:
# 리스트 내에 서로 다른 타입의 데이터가 있으면 형변환이 발생
# 문자열이 포함된 경우 문자형으로 변환

s1 = pd.Series(['a',1,3.0])
s1 # dtype: object

0      a
1      1
2    3.0
dtype: object

In [4]:
# !pip install pandas # 주피터에서 설치할 때는 !pip를 씀.
!pip install numpy




[notice] A new release of pip available: 22.3.1 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
# 정수, 실수 섞여 있는 경우 실수로 변환
s = pd.Series([0, 1, 3.0])
s
# dtype: float64

In [20]:
# NAN 값이 있으면 실수로 인식한다
s = pd.Series([0,1,3.0,np.nan])
s # dtype: float64

0    0.0
1    1.0
2    3.0
3    NaN
dtype: float64

In [120]:
# index 명시 : 숫자 인덱스
s = pd.Series([1,2,3], index=[1,2,3])
s

1    1
2    2
3    3
dtype: int64

In [123]:
# index 명시 : 문자 인덱스
s = pd.Series([1,2,3], index = ['홍갈동', '이몽룡', '성춘향']) ; s

홍갈동    1
이몽룡    2
성춘향    3
dtype: int64

In [54]:
# 시리즈에 이름 붙이기
# 시리즈.name 속성 사용
s.name = '성적'
s

# index에 이름 붙이기
# 시리즈.index.name 속성 사용
s.index.name = '성명'
s

s.values  # array([1, 2, 3], dtype=int64) 즉, series는 1차원 배열(array)의 형태이다. 

성명
홍갈동    1
이몽룡    2
성춘향    3
Name: 성적, dtype: int64

성명
홍갈동    1
이몽룡    2
성춘향    3
Name: 성적, dtype: int64

array([1, 2, 3], dtype=int64)

#### (2) 튜플로 생성

In [55]:
#pd.serise(튜플)
s2 = pd.Series((1.0,2.0,3.0))
s2  # 위에서 작성한 것과 다르게 []를 쓰지 않음 = 리스트가 아님 = 튜플 형태로 생성
    # tuple: 변경불가능한(immutable) 순서가 있음

0    1.0
1    2.0
2    3.0
dtype: float64

#### (3) 딕셔너리로 생성 
- Series({key:value, key1:value1....})  
- key -> 인덱스
- value -> 값`

In [25]:
#변수 명이 두번 이상 출력되어도 모두 콘솔에서 보여줄 것

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [27]:
# 딕셔너리 시리즈 생성
city = {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s_city = pd.Series(city)  # city라는 dictionary를 series로 변환시키기.
                          # s_city = pd.Series(city, index=['부산','인천','서울','대전'])과 같은 코드임.
s_city
s_city.index

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

Index(['서울', '부산', '인천', '대전'], dtype='object')

In [31]:
# 시리즈의 특정 값 출력: 인덱스 사용
s_city['서울']
# 문자 인덱스인 경우 위치 인덱스 사용 가능. 인덱스를 숫자로 넣으면 위치 인덱스를 사용할 때와 코드가 같아지기 때문에 충돌.
s_city[2]

9631482

3393191

### (4) range()/np.arange() 함수 사용해서 생성

In [56]:
# range() 함수 사용해서 시리즈 생성
s = pd.Series(range(5))  # index, value 모두 0~4
s

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [57]:
s = pd.Series(range(11,16))
s

0    11
1    12
2    13
3    14
4    15
dtype: int64

In [124]:
# numpy의 arange() 사용
s = pd.Series(np.arange(8)) 
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
dtype: int32

NameError: name 'arange' is not defined

### 결측값을 포함해서 시리즈 만들기
    - 결측값 NaN - numpy의 nan 속성값으로 생성
    - np.nan

In [38]:
# NaN은 np.nan 속성값을 이용해서 생성
s=pd.Series([1,2,3,np.nan,5,6]) # Series에서 NaN으로 적으면 오류 (*name 'NaN' is not defined)
s

0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    6.0
dtype: float64

In [None]:
# 판다스에서는 None를 NaN으로 인식 
s = pd.Series([1,2,3,None,5,6]) 
s

### 시리즈에 데이터 추가/수정/삭제하기

In [67]:
s = pd.Series([95, 100, 88], 
             index = ["홍길동", "이몽룡", "성춘향"])
s

# 인덱스 : 변학도, value : 70 으로 추가
s['변학도'] = 70
s

# 시리즈 vlaue 변경
# 시리즈[index] = new value
s['홍길동'] = 90
s

del s['변학도']
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

홍길동     95
이몽룡    100
성춘향     88
변학도     70
dtype: int64

홍길동     90
이몽룡    100
성춘향     88
변학도     70
dtype: int64

홍길동     90
이몽룡    100
성춘향     88
dtype: int64

### 인덱싱  
    - 인덱스 종류    
        (1) 문자형 인덱스    
        (2) 정수형 인덱스   
            - index 명시하지 않으면 0부터 시작하는 정수형 인덱스 자동 지정됨
        (3) 위치 인덱스           
    - 원소 접근  
        (1) 정수형 인덱스 사용 : 시리즈[숫자 인덱스]  
        (2) 문자형 인덱스 사용 : 시리즈['문자 인덱스']   
        (3) 리스트 이용 인덱싱

In [68]:
s
s.index  # 시리즈 인덱스들의 이름을 확인
s['이몽룡']  # 확인한 인덱스의 값(value)을 확인
s[0]  # 위치 인덱스를 사용하여 해당 순서의 원소값을 출력

홍길동     90
이몽룡    100
성춘향     88
dtype: int64

Index(['홍길동', '이몽룡', '성춘향'], dtype='object')

100

90

In [69]:
# (2) 정수형 인덱스 
s2 = pd.Series([10,20,30], index=[1,2,3])
s2

# 정수형 인덱스 접근
s2[1] # 인덱스 1 = 첫번째 원소의 값

1    10
2    20
3    30
dtype: int64

10

In [71]:
# 두 개 이상의 인덱싱 코드를 나열하면 튜플 형태로 출력
s[0], s['이몽룡']

s.이몽룡  # [] 안에 넣는 대신, .을 써서 참조?처럼 가져오는 것도 가능! 

(90, 100)

100

### 슬라이싱  
    (1) 0-base 위치 인덱스를 이용한 슬라이싱  
        - 시리즈[start:end] : start ~ end-1까지 추출
    (2) 문자(라벨) 인덱스를 이용한 슬라이싱 
        - 시리즈['시작라벨':'끝라벨']
            - 시작에서 끝까지 양쪽 라벨 포함된 범위 추출  

In [76]:
city = {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s_city = pd.Series(city)
s_city

s_city[1:3]
s_city[3:4]
# 문자 인덱스(라벨) 사용
s_city[['부산', '인천']]

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

부산    3393191
인천    2632035
dtype: int64

대전    1490158
dtype: int64

부산    3393191
인천    2632035
dtype: int64

In [77]:
s = pd.Series([100,200,300,400], index=[1,2,3,4])
s
s[0:3] 

1    100
2    200
3    300
4    400
dtype: int64

1    100
2    200
3    300
dtype: int64

### 시리즈 연산  
    (1) 벡터화 연산  
    (2) Boolean selection  
    (3) 두 시리즈간의 연산

In [79]:
# 시리즈 각 원소에 대하여 +10한 연산 수행 
pd.Series([1,2,3]) + 10

0    11
1    12
2    13
dtype: int64

In [80]:
s_city
# s시리즈 값 중 2500000 보다 크고 5000000보다 작은 원소를 추출
s_city[(s_city>250e4) & (s_city<500e4)]

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

부산    3393191
인천    2632035
dtype: int64

#### (2) Boolean selection
  - boolean 연산 결과 True에 해당되는 값만 추출 
  - [연산식] : 연산식 결과가 True인 것만 추출
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [125]:
s3 = pd.Series(np.arange(10), index=np.arange(10)+1)  # arrange가 0부터 시작하니까 index를 만들 때 1을 더하기!
s3

s3 > 5  # 논리형으로 출력됨.

s3[s3 > 5]  # value가 5보다 큰 데이터만 추출

s3[s3 % 2 == 0]  # s3 원소 중에서 짝수 값만 추출

s3%2==0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

7     6
8     7
9     8
10    9
dtype: int32

1    0
3    2
5    4
7    6
9    8
dtype: int32

1      True
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9      True
10    False
dtype: bool

In [128]:
# 인덱스에도 관계연산 가능
s3.index > 5

s3[s3.index > 5] # index가 5보다 큰 데이터만 추출

s3[(s3 > 3) & (s3 < 7)]  # s3의 value가 3초과 7미만인 원소만 추출

(s3 >= 7).sum()  # True 개수 총 합 반환 

(s3[s3 >= 7]).sum() # 조건의 결과가 True 원소들의 합


array([False, False, False, False, False,  True,  True,  True,  True,
        True])

6     5
7     6
8     7
9     8
10    9
dtype: int32

5    4
6    5
7    6
dtype: int32

3

24

3

### 딕셔너리와 시리즈의 관계
- 시리즈 객체는 인덱스를 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 가능
    
    #### 메소드 : 객체를 통해서 사용 (객체.메소드())
    #### 클래스의 멤버
    #### 함수 : 함수명만 호출해서 사용 showNames() : 독립적인 코드
    #### 특정 기능을 수행하고 결과를 반환하는 코드 집합

In [87]:
# 문자 인덱스인 경우
num_s1=pd.Series([10,20,30,40],index=['a','b','c','d'])
num_s1

'a' in num_s1  # 인덱스 a가 시리즈에 포함되어 있는지 확인

0 in num_s1

num_s1[0]

a    10
b    20
c    30
d    40
dtype: int64

True

False

10

In [90]:
# 숫자 인덱스인 경우
num_s2=pd.Series([10,20,30,40],index=[1,2,3,4])
num_s2

1 in num_s2  # 인덱스가 1인 원소가 시리즈에 있는지 확인

1    10
2    20
3    30
4    40
dtype: int64

True

In [89]:
# s_city로 확인하기

'서울' in s_city
'대전' not in s_city


True

False

In [130]:
# 딕셔너리의 items() 함수를 시리즈에 사용 가능
list(s_city.items())

s_city.items()

[('서울', 9631482), ('부산', 3393191), ('인천', 2632035), ('대전', 1490158)]

<zip at 0x1e737b41d80>

In [96]:
# s_city 시리즈의 각 원소 출력 : for문 사용 key, value 따로 추출
# 출력 결과 - 키 : 값

for key, value in s_city.items():
    print(key,':',value)
    

서울 : 9631482
부산 : 3393191
인천 : 2632035
대전 : 1490158


In [131]:
# key만 추출
for key in s_city.keys():
    print(key)    

서울
부산
인천
대전


In [134]:
# value만 추출
for v in s_city.values:
    print(v)

9631482
3393191
2632035
1490158


### 시리즈 속성 및 함수      
     - size 속성 : 원소 개수 반환  
     - shape 속성 : 튜플형태로 shape반환  
     - len() : 길이 (원소 개수 반환)
     - unique() : 유일한 값만 ndarray로 반환  
     - count() : NaN을 제외한 개수를 반환  
     - mean(): NaN을 제외한 평균  
     - value_counts() : NaN을 제외하고 각 값들의 빈도를 반환

In [108]:
s3 = pd.Series([1, 1, 2, 1, 2, np.nan, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s3

# 원소 개수
len(s3)  # 얘는 int
s3.size  # 얘는 튜플 형태로 나옴

# 중복값 제거
s3.unique()

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     NaN
6     2.0
7     2.0
8     1.0
9     1.0
10    3.0
11    3.0
12    4.0
13    5.0
14    5.0
15    7.0
16    NaN
dtype: float64

17

17

array([ 1.,  2., nan,  3.,  4.,  5.,  7.])

In [112]:
# 결측값 제외하고 ----
# 원소 개수
s3.count()

s3.value_counts() # 원소마다 개수를 세서 출력

15

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
Name: count, dtype: int64

In [111]:
s4=pd.Series([2,2,2,2,np.NaN]) # NaN 포함된 시리즈인 경우
s4
s4.mean() # NaN 빼고 계산

0    2.0
1    2.0
2    2.0
3    2.0
4    NaN
dtype: float64

2.0

### 날짜 인덱스를 이용한 시리즈 생성  
    - 날짜 인덱스를 이용하여 시리즈 만들기  
    - 판다스 패키지의 date_range() 함수 사용하여 날짜 생성

In [114]:
index_date = ['2023-05-07','2023-05-08','2023-05-09','2023-05-10']
day = pd.Series([100,200,np.nan,300],index = index_date)
day

type(day)

2023-05-07    100.0
2023-05-08    200.0
2023-05-09      NaN
2023-05-10    300.0
dtype: float64

pandas.core.series.Series

### 판다스 패키지의 date_range() 함수 사용하여 날짜 생성
    - pd.date_range(start, end, periods, freq) 
    - 날짜 자동 생성  
    - 지정된 범위 내의 인덱스 생성  
    - start : (필수) 시작 날짜  
    - end : 종료 날짜  
    - periods : 기간 (end 또는 periods 둘 중의 하나 필수)  
    - freq : 간격 (D(Day)가 디폴트)

#### freq 인수
    s: 초  
    T: 분  
    H: 시간  
    D: 일(day)  
    B: 비즈니스 데이 (평일)  
    BH : 비즈니스 시간 (업무시간 기준 09:00:00 ... 16:00:00)
    W: 주(일요일)  
    W-MON: 주(월요일)  
    M: 월말 (월 마지막일)  
    MS: 월 시작일  
    BM: 평일 중에서 월말  
    BMS: 평일 중에서 월 시작일  
    Q : 분기별 마지막 날  
    BQS : 비즈니스 데이 분기 시작일   
    A : 연도 마지막 날  
    AS : 연도 시작일

In [116]:
# start ~ end까지 날짜 생성
pd.date_range(start='2023-05-01', end='2023-05-20', freq ='D')
pd.date_range(start='2023-05-01', end='2023-05-20', freq ='W')


DatetimeIndex(['2023-05-01', '2023-05-02', '2023-05-03', '2023-05-04',
               '2023-05-05', '2023-05-06', '2023-05-07', '2023-05-08',
               '2023-05-09', '2023-05-10', '2023-05-11', '2023-05-12',
               '2023-05-13', '2023-05-14', '2023-05-15', '2023-05-16',
               '2023-05-17', '2023-05-18', '2023-05-19', '2023-05-20'],
              dtype='datetime64[ns]', freq='D')

DatetimeIndex(['2023-05-07', '2023-05-14'], dtype='datetime64[ns]', freq='W-SUN')

In [117]:
# 2023-05-01 이후 일요일 날짜 4개 생성
pd.date_range(start='2023-05-01', periods=4, freq='w')

DatetimeIndex(['2023-05-07', '2023-05-14', '2023-05-21', '2023-05-28'], dtype='datetime64[ns]', freq='W-SUN')

In [118]:
pd.date_range(start='2023-05-01 00:00', periods=10, freq='H')

DatetimeIndex(['2023-05-01 00:00:00', '2023-05-01 01:00:00',
               '2023-05-01 02:00:00', '2023-05-01 03:00:00',
               '2023-05-01 04:00:00', '2023-05-01 05:00:00',
               '2023-05-01 06:00:00', '2023-05-01 07:00:00',
               '2023-05-01 08:00:00', '2023-05-01 09:00:00'],
              dtype='datetime64[ns]', freq='H')

In [119]:
pd.date_range(start='2023-05-01 00:00', periods=10, freq='BH')
# 업무시간 기준 9 to 5로 설정

DatetimeIndex(['2023-05-01 09:00:00', '2023-05-01 10:00:00',
               '2023-05-01 11:00:00', '2023-05-01 12:00:00',
               '2023-05-01 13:00:00', '2023-05-01 14:00:00',
               '2023-05-01 15:00:00', '2023-05-01 16:00:00',
               '2023-05-02 09:00:00', '2023-05-02 10:00:00'],
              dtype='datetime64[ns]', freq='BH')