판다스 설명(pandas)
- series, DataFrame등의 자료구조를 활용한 데이터분석 기능을 제공해주는 라이브러리
- 라이브러리 구성
    - 여러종류의 클래스와 다양한 함수로 구성
    - 시리즈와 데이터 프레임의 자료 구조 제공
    - 시리즈(1차원 배열) 데이터프레임(2차원 행열 구조)
판다스의 목적
- 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것
- 행과 열로 이루어진 2차원 데이터프레임을 처리 할 수 있는 함수제공 목적
- 실무 사용 형태 : 데이터 프레임

Series 
- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성, 지정할 경우 명시적으로 지정된 index를 사용

1. 자료구조 : 순차 1차원 배열, 인덱싱 : 데이터, dict형식의 키:벨류 -> 시리즈
2. 시리즈의 인덱싱 : 레이블추가, 데이터 관리 [리스트]
3. 시리즈 생성 : Series()를 통해서 데이터를 나열 지정 -> 리스트 -> 튜플 -> 딕셔너리 (xml, json)

In [3]:
import pandas as pd
import numpy as np

In [4]:
#1. Series 객체 생성 : [] 나열된 데이터 생성
s = pd.Series([1,2,3,4,5],index=['AA','BB','CC','DD','EE'],name='이름 테이블')
print(s, s.index,'\n',
      s.array,'\n',
      s.values,'\n',
      s.dtype,'\n',
      s.shape,'\n',
      s.ndim)
s.index.name='test'
print('\n')
print(s.name)

AA    1
BB    2
CC    3
DD    4
EE    5
Name: 이름 테이블, dtype: int64 Index(['AA', 'BB', 'CC', 'DD', 'EE'], dtype='object') 
 <PandasArray>
[1, 2, 3, 4, 5]
Length: 5, dtype: int64 
 [1 2 3 4 5] 
 int64 
 (5,) 
 1


이름 테이블


In [5]:
# 3과 5의 값을 3000과 5000으로 변경
s['CC']=3000
s['EE']=5000
s

test
AA       1
BB       2
CC    3000
DD       4
EE    5000
Name: 이름 테이블, dtype: int64

In [6]:
#2. Series 객체 생성 : [] 나열된 데이터 생성
#s = pd.Series([1,[2,3],4,5])
s = pd.Series([1,[2,3],4,5],index=['AA','BB','CC','DD'],name='이름 테이블')
print(s, s.index,'\n',
      s.array,'\n',
      s.values,'\n',
      s.dtype,'\n',
      s.shape,'\n',
      s.ndim)
s.index.name='test'

AA         1
BB    [2, 3]
CC         4
DD         5
Name: 이름 테이블, dtype: object Index(['AA', 'BB', 'CC', 'DD'], dtype='object') 
 <PandasArray>
[1, [2, 3], 4, 5]
Length: 4, dtype: object 
 [1 list([2, 3]) 4 5] 
 object 
 (4,) 
 1


In [7]:
#인덱스를 문자열로 지정하고 숫자로 추출할 수 있는지 확인
print(s['AA'],s[0])
s[0]=1000
print(s['AA'],s[0])

1 1
1000 1000


In [12]:
# 인덱스 , 로 나열해서 데이터를 추출. _슬라이싱으로 추출가능
print(s[[1,3]])
print('\n')
print(s[1:3])


KeyError: 'key of type tuple not found and not a MultiIndex'

In [56]:
# 문자 인덱싱으로 가져오기
print(s[['AA','CC']])
print('\n')
print(s['AA':'CC'])

test
AA    1000
CC       4
Name: 이름 테이블, dtype: object


test
AA      1000
BB    [2, 3]
CC         4
Name: 이름 테이블, dtype: object


In [59]:
# 객체.인덱스로 추출
s.BB=1557
s.BB, s.AA, s[0], s['AA']


(1557, 1000, 1000, 1000)

In [74]:
# exam 문자 인덱스의 시리즈이다 아래와 같은 결과를 출력할 수 있도록 작성

# 도시
# 서울 9904312
# 부산 3448737
# 인천 289045
# 대구 2466052
# Name : 인구 , dtype : int64

res = pd.Series ([9904312,3448737,289045,2466052], index=['서울','부산','인천','대구'],name='인구')
res.index.name = '도시'
res

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

In [63]:
# 벡터화 연산 _range로 데이터 지정
data = range(1,10,2)
pd.Series(data, index=range(1,len(data)+1))
# index도 range로 할 수 있다

1    1
2    3
3    5
4    7
5    9
dtype: int64

In [65]:
# 벡터화 연산
pd.Series([1,2,3])+4
r = pd.Series([1,2,3])
r+4, r-1, r/1000

(0    5
 1    6
 2    7
 dtype: int64,
 0    0
 1    1
 2    2
 dtype: int64,
 0    0.001
 1    0.002
 2    0.003
 dtype: float64)

In [75]:
# 인구지표를 축소
res/100000

도시
서울    99.04312
부산    34.48737
인천     2.89045
대구    24.66052
Name: 인구, dtype: float64

In [107]:
s1 = pd.Series(range(1,15))
s1[s1>10]

10    11
11    12
12    13
13    14
dtype: int64

In [79]:
# bool값으로 출력된다
s1>10

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
12     True
13     True
dtype: bool

In [90]:
s1[(s1 %2==0) & (s1%3 ==0)]
s1[(s1 %2==0) | (s1%3 ==0)]

1      2
2      3
3      4
5      6
7      8
8      9
9     10
11    12
13    14
dtype: int64

In [94]:
# 인덱스로 연산을 수행 15보다 큰 데이터
s1[s1.index >= 10]

10    11
11    12
12    13
13    14
dtype: int64

In [109]:
# Series.items() Lazily iterate over (index, value) tuples.

# DataFrame.items
#          Iterate over (column name, Series) pairs.

# s1.items()
# for index, value in s1.items():
#     print(f"Index : {index}, Value : {value}")


Index : 0, Value : 1
Index : 1, Value : 2
Index : 2, Value : 3
Index : 3, Value : 4
Index : 4, Value : 5
Index : 5, Value : 6
Index : 6, Value : 7
Index : 7, Value : 8
Index : 8, Value : 9
Index : 9, Value : 10
Index : 10, Value : 11
Index : 11, Value : 12
Index : 12, Value : 13
Index : 13, Value : 14


In [111]:
# Series.keys() Return alias for index.
s1.keys()

RangeIndex(start=0, stop=14, step=1)

In [118]:
# Series.item() Return the first element of the underlying data as a Python scalar.
# s1.item()

In [126]:
# 시리즈 간 연산 , index이름이 같아야 연산이 된다
a1 = pd.Series([1,2,3,4], index=['a','b','c','d'])
b1 = pd.Series([1,2,3,4], index=['aa','bb','c','d'])
c1 = pd.Series([1,2,3,4], index=['b','c','d','e'])
a1+b1,a1+c1
#a1*b1,a1/b1

(a     NaN
 aa    NaN
 b     NaN
 bb    NaN
 c     6.0
 d     8.0
 dtype: float64,
 a    NaN
 b    3.0
 c    5.0
 d    7.0
 e    NaN
 dtype: float64)

In [132]:
# 
d = {'a': 1, 'b': 2, 'c': 3}
#ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser = pd.Series(data=d)
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [156]:
#q1. res 소스코드로 확인 _dict 만들어보기
city ={'서울':9904312,'부산':3448737,'인천':289045,'대구':2466052}
print(city.keys())
r = pd.Series(data =city, index=city.keys())
r.서울 = r.서울-10
r

dict_keys(['서울', '부산', '인천', '대구'])


서울    9904302
부산    3448737
인천     289045
대구    2466052
dtype: int64

In [157]:
# q2. r의 요소 중 대전을 삭제해보자
del r['대구']

In [159]:
r

서울    9904302
부산    3448737
인천     289045
dtype: int64

Series size, shape, unique, count, value_counts 함수
- size : 개수 반환
- shape : 튜플형태로 shape반환
- unique: 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean: NaN을 제외한 평균
- value_counts: NaN을 제외하고 각 값들의 빈도를 반환

판다스 패키지의 date_range 함수 (날짜생성)
- pd.date_range(start=None, end=None, periods=None, freq='D')
- start : 시작날짜/ end= 끝날짜 / periods = 날짜 생성기간/ fref = 날짜 생성 주기
- start는 필수 옵션/end나 periods는 둘 중 하나가 있어야 함/ freq는 기본 Day로 설정
 ![date_attribute.PNG](date_attribute.PNG)


In [166]:
a = np.array([2,2,2,2,np.NaN]) 

print(a,a.mean())  # 넘파이의 array에 대해 mean(평균값) 을 적용하면 평균 계산에 NaN이 적용되어 nan이 반환

b = pd.Series(a) # 배열을 시리즈로 변경

print(b.mean())  # 판다스의 시리즈는 NaN값을 빼고 계산해준다.
# 각 원소들에 대해 동일 값의 원소끼리 그룹핑하여 개수를 세서 반환하는 함수
print(b.sum())
b

[ 2.  2.  2.  2. nan] nan
2.0
8.0


0    2.0
1    2.0
2    2.0
3    2.0
4    NaN
dtype: float64

In [167]:
# 각 원소들에 대해 동일 값의 원소끼리 그룹핑하여  개수를 세서 반환하는 함수
pd.Series([1,1,3,4,4,4,5,6,7,7,7,7]).value_counts()

7    4
4    3
1    2
3    1
5    1
6    1
dtype: int64

In [175]:
pd.date_range(start='2018-10-01',end='2018-10-20',freq='d')
# DatetimeIndex를 반환
# 인덱스니까 시리즈에 붙일 수 있음
# dtype='datetime64[ns]'

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-06', '2018-10-07', '2018-10-08',
               '2018-10-09', '2018-10-10', '2018-10-11', '2018-10-12',
               '2018-10-13', '2018-10-14', '2018-10-15', '2018-10-16',
               '2018-10-17', '2018-10-18', '2018-10-19', '2018-10-20'],
              dtype='datetime64[ns]', freq='D')

In [176]:
pd.date_range(start='2022-10-01',end='2022-12-02',freq='w')
pd.date_range(start='2018-10-01',end='2019-10-20',freq='m')
pd.date_range(start='1997-10-01',end='2022-10-20',freq='y')

DatetimeIndex(['2018-10-31', '2018-11-30', '2018-12-31', '2019-01-31',
               '2019-02-28', '2019-03-31', '2019-04-30', '2019-05-31',
               '2019-06-30', '2019-07-31', '2019-08-31', '2019-09-30'],
              dtype='datetime64[ns]', freq='M')

In [192]:
pd.date_range(start='2022-10-01',end='2022-12-02',freq='s')
pd.date_range(start='2022-10-01',periods=12,freq='2bm')
#2bm : 2개월 간격으로 periods 간격 12개 생성
pd.date_range(start='2022-10-01',periods=12,freq='2by')
#분기별 생성 : qs
pd.date_range(start='2022-01-01',periods=4,freq='qs')

DatetimeIndex(['2022-01-01', '2022-04-01', '2022-07-01', '2022-10-01'], dtype='datetime64[ns]', freq='QS-JAN')

In [210]:
#q3 넘파이 np.random.randint()이용해서 난수를 10개생성
#q4 넘파이 np.random.seed()를 찾아서 시간 지정
rand = np.random.randint(5) #size상관 없이 출력
rand = np.random.randint(5,size=10)
print(rand)

[1 4 0 1 3 4 1 0 1 2]


In [211]:
import time
print (time.time())
np.random.seed(int(time.time()))
np.random.randint(5,size=10)

1664352304.6831634


array([2, 1, 0, 2, 2, 4, 2, 3, 1, 1])