### 판다스의 목적
- 서로 다른 유형의 데이터를 공통된 포맷으로 정리
- 데이터 프레임 제공(실무 사용 목적)

### Series
- pandas 의 기본 객체
- numpy의 ndarray를 기반으로 **인덱싱 기능**을 추가하여 1차원 배열을 나타냄
    - 지정하지 않을 시, ndarray와 같이 0based 인덱스 생성
-같은 타입의 0개 이상의 데이터 가질 수 있음

    1)자료구조 : 시리즈
    - 데이터가 순차적으로 나열된 1차원 배열 형태
    - 딕셔너리와 비슷한 구조 : {key(index):value}
    2)Series() : 시리즈 생성하는 판다스 내장함수
    -리스트, 딕셔너리, 튜플로 시리즈 만들 수 있음 


In [None]:
import pandas as pd
import numpy as np

In [None]:
#### 시리즈 생성하기
####1.리스트
s=pd.Series([1,2,3])
s


In [None]:

s2 = pd.Series(['a','a','c']) 
s2

In [None]:
####2.튜플
s=pd.Series((1.0,2.0,3.0))
s
#pd.Series(1,2,3) #에러 발생,시리즈 생성시 반드시 집합적 자료형을 이용해야 함

In [None]:
#range() 도 사용 가능
#np.arange() : 배열함수(인덱스가 있는 시리즈)
s3=pd.Series(range(200))
s3
s3=pd.Series(np.arange(200)) #위와 결과는 같음
s3
np.arange(10)

In [None]:
#결측치 생성 - NaN: numpy라는 모듈에서 생성할 수 있음
s=pd.Series([1,2,3,np.nan,6,8])
s

###인덱스 명시해서 시리즈 만들기

In [None]:
s=pd.Series([10,20,30], index=[1,2,3])
s

####시리즈의 index에 이름 붙이기


In [None]:
#인덱스의 형태 = 리스트 object 형태
s= pd.Series([9904312,3448737,289045,2466052],
            index=["서울","부산","인천","대구"])
s.index  


In [None]:
s.index.name='도시'
s

In [None]:
#값의 형태는 array(numpy의 자료구조)
s.values

In [None]:
#시리즈에 이름 붙이기
s.name ='인구'
s

### 인덱싱

In [None]:
print(s.index)

In [None]:
s['인천']  #인덱싱으로 해당 인덱스에 들어있는 값 추출
s[2]

In [None]:
#정수형 인덱스라서 위치인덱스(숫자인덱스) 사용 못하는 경우
s03=pd.Series([1,2,3], index=[1,2,3])
s03[1]
# s03[0] #위치인덱스로 접근 불가

In [None]:
#여러 데이터 추출-값만 추출되는 시리즈
s[0],s[3],s[1]

In [None]:
#여러 데이터 추출-해당 인덱스의 아이템 추출 후 시리즈로 변환
s[[0,3,1]]

#### 시리즈 슬라이싱


In [None]:
#정수형 위치 인덱스 슬라이싱

In [None]:
s[[1,3]]

In [None]:
s[1:3]

In [None]:
#정수형 인덱스를 명시했을 경우
s_01 = pd.Series([100,200,300,400], index=[1,2,3,4])
s_01

In [None]:
s_01[[2,3,]]
s_01[2:4]  #출력값 같음

In [None]:
#문자(라벨) 인덱스 슬라이싱- 가급적이면 문자형을 사용하는게 좋다

In [None]:
s[['부산','인천']]

In [None]:
#인덱스를 통한 데이터 업데이트 및 수정
s['서울']=20000000
s

#### 인덱스 재사용 하기

In [None]:
print(s.index)

s1=pd.Series(np.arange(4),s.index)
s1

### 벡터화 연산 : 집합적 자료형의 원소를 독립적으로 계산(인덱스는 불가, 값만)


In [None]:
pd.Series([1,2,3]) + 4

In [None]:
s/100000

In [None]:
#시리즈[조건]
s[(s>250e4)&(s<500e4)]
#각 원소값 중 결과가 True 인 것 반환

#### Boolean selection[]
True 값에 해당하는 값만 새로 반환하여 series에 포함시킴(값, 인덱스 모두 가능)

In [None]:
s0 = pd.Series(np.arange(10), np.arange(10)+1)
#(값,인덱스)
s0

In [None]:
s0>5

In [None]:
s0[s0>5]

In [None]:
s0[s0%2 == 0]

In [None]:
#인덱스에 적용
s0.index>5

In [None]:
s0[s0.index>5]

In [None]:
s0[(s0>5) & (s0<8)]

In [None]:
#.sum() : True 의 개수를 세어 주는 함수
(s0>=7).sum()

In [None]:
#(a[a>b]).sum() : 조건의 결과가 true인 원소들의 합
(s0[s0>=7]).sum()

In [None]:
#### 두 시리즈간의 연산


In [None]:
#동일한 인덱스만 있을 때
num_s1=pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s2=pd.Series([5,6,7,8],index=['b','c','d','a'])
num_s1 + num_s2

In [None]:
#다른 인덱스가 있을 때
num_s3=pd.Series([5,6,7,8],index=['e','b','f','g'])
num_s4=pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s3 - num_s4

## 딕셔너리
### 딕셔너리와 시리즈의 관계
- 시리즈 객체는 라벨(문자)에 의해 인덱싱 가능한, 라벨을 key로 갖는 딕셔너리형
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능(in, for...)


In [None]:
print(s)
'서울' in s #True
'대구' not in s #False

##### items() 함수- 딕셔너리 함수이나 시리즈에 사용 가능
 

In [None]:
s.items() #zip

In [None]:
list(s.items())

In [None]:
#시리즈 각 원소 출력
for k,v in s.items() :
    print('%s은/는 %d' % (k,v))  #key, value 로  차례대로 반환

In [None]:
for i in s.items() :
    print(i)

In [None]:
for a,b in s.items() :
    print(a,b)

### 딕셔너리로 시리즈 만들기


In [None]:
scores = {'홍길동':96, "이몽룡":100, "성춘향": 88}
s=pd.Series(scores)
s

In [None]:
#위에서 사용했던 city value 사용하기
city = {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s=pd.Series(city, index=['부산','인천','서울','대전'])
s

In [None]:
#시리즈 갱신 및 삭제
s['부산']=1630000
del s['대전'] #한번 삭제하고 또 삭제하면 이미 지운것을 삭제하는거라 에러 남
s

In [None]:
#시리즈에 새로운 원소 추가
s['로마']=1870000
s

### Series 함수
size(속성) : 개수 반환
shape(속성) : 튜플형태로 shape반환
unique: 유일한 값만 ndarray로 반환
count : NaN을 제외한 개수를 반환
mean: NaN을 제외한 평균
value_counts: NaN을 제외하고 각 값들의 빈도를 반환

In [None]:
s1 = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
len(s1)

In [None]:
s1.size #len 과 같음, Nan 포함!

In [None]:
s1.unique() #nan도 하나의 값으로 보고 표현 되어 짐

In [None]:
s1.count() #nan을 제외한 원소의 개수
s1.mean()

In [None]:
s1.value_counts()

In [None]:
#numpy의 array 타입에 판다스 mean() 적용시 Nan이 나옴
a=np.array([2,2,2,2,np.NaN])
a.mean() #nan
#이를 방지하기 위해 다음과 같이 판다스 시리즈로 변환 후 사용

b=pd.Series(a)
print(b)
b.mean()


In [None]:
a=[2,2,2,2,np.NaN]
a.mean() #error, 그냥 리스트에는 파다스 함수인 mean 적용 불가!