# 필요한 패키지 임포트

In [31]:
import numpy as np
import pandas as pd

# Series

pd.Series

* 한가지 타입의 값 여러개를 저장할 수 있는 1차원 모양의 데이터 타입.
* 축(axis)레이블을 가지고 있는 1차원 배열(np.ndarray)
 * 정수 기반의 인덱스와 축 레이블을 함께 가짐.

In [32]:
s = pd.Series([1,3,-5,-7]) #pd.Series 생성자 호출 -> pd.Series 클래스의 인스턴스 생성

In [33]:
s

0    1
1    3
2   -5
3   -7
dtype: int64

In [34]:
type(s)

pandas.core.series.Series

In [35]:
s.index #pd.Series 객체의 index 속성 - > 축 레이블

RangeIndex(start=0, stop=4, step=1)

In [36]:
s.values #pd.Series 객체의 values 속성 -> 값들로만 이루어진 np.ndarray

array([ 1,  3, -5, -7])

In [37]:
print(s.values)

[ 1  3 -5 -7]


# indexing, slicing

In [38]:
s[0] #> indexing

1

In [39]:
# s[-1] #> numpy, list 둘다 가능했지만 판다스에서는 에러발생

In [40]:
s[0:1] #> slicing -->pd.Series (시리즈를 자르면 시리즈가 됨.)

0    1
dtype: int64

In [41]:
s[-2:] 

2   -5
3   -7
dtype: int64

## `iloc` vs `loc`

* `iloc`: 정수 인덱스 기반으로 원소를 참조.
* `loc` : 축 레이블 기반으로 원소를 참조. (포스트잇-음수사용가능)

In [42]:
#indexing - loc
s.loc[0]

1

In [43]:
s.loc[3]

-7

In [44]:
s.iloc[0]

1

In [45]:
print(s.iloc[3])
print(s.iloc[-1])  #> 정수 인덱스 기반의 indexing에서만 음수 인덱스를 사용할 수 있음.

-7
-7


In [46]:
#slicing - iloc
s.loc[0:1] #> 레이블 기반 slicing - 시작과 끝 레이블 모두 포함!

0    1
1    3
dtype: int64

In [47]:
s.iloc[0:1] #> 정수 인덱스 기반 slicing - 시작 인덱스 포함, 끝 인덱스는 미포함.

0    1
dtype: int64

In [48]:
s = pd.Series(data=[1, 3, -5, -7, 9],
              index=['a', 'b', 'x', 'y', 'z'])
s

a    1
b    3
x   -5
y   -7
z    9
dtype: int64

In [49]:
print(s.loc['a'])
print(s.loc['z'])
# print(s.loc[0])  # 0은 레이블에 포함되어 있지 않음!

1
9


In [50]:
s.index

Index(['a', 'b', 'x', 'y', 'z'], dtype='object')

In [51]:
print(s.loc['a':'b'])
print(s.loc['x':'z'])

a    1
b    3
dtype: int64
x   -5
y   -7
z    9
dtype: int64


In [52]:
print(s.iloc[0])
print(s.iloc[-1])
# print(s.iloc['a'])  # 정수가 아닌 키는 정수 인덱스(iloc)에서 사용 불가!

1
9


In [53]:
print(s.iloc[:2])
print(s.iloc[-3:])

a    1
b    3
dtype: int64
x   -5
y   -7
z    9
dtype: int64


## fancy indexing

In [54]:
numbers = [1, 2, 3, 4, 5, 6]  # list
print(numbers[0])  # indexing
print(numbers[2])  # indexing
print(numbers[0:2])  # slicing

1
3
[1, 2]


In [55]:
print(s)

a    1
b    3
x   -5
y   -7
z    9
dtype: int64


In [56]:
s.loc[['a', 'b', 'z']]

a    1
b    3
z    9
dtype: int64

In [57]:
s.iloc[[0, 1, 4]]

a    1
b    3
z    9
dtype: int64

## boolean indexing

In [58]:
s.loc[[True, True, False, False, True]]

a    1
b    3
z    9
dtype: int64

In [59]:
s.loc[[False, False, True, True, False]]

x   -5
y   -7
dtype: int64

In [60]:
s > 0

a     True
b     True
x    False
y    False
z     True
dtype: bool

In [61]:
s.loc[s > 0]  # s[s > 0]

a    1
b    3
z    9
dtype: int64

In [62]:
s.loc[s < 0]  # s[s < 0]

x   -5
y   -7
dtype: int64

# DataFrame

* 테이블 형식의 2차원 데이터 타입.
 * 행(row)과 열(column)을 가지고 있는 데이터 타입.

In [63]:
data = {
    'city' : ['서울'] * 3 + ['경기'] *3, # ['서울','서울','서울','경기','경기','경기']
    'year' : [2020,2021,2022] * 2 , # [2020,2021,2022,2020,2021,2022]
    'count' : [0.8,0.9,0.95,1.0,1.2,1.1] 
}

In [64]:
df = pd.DataFrame(data) # 생성자호출 -> pd.DataFrame 클래스의 인스턴스 생성

In [65]:
print(df)

  city  year  count
0   서울  2020   0.80
1   서울  2021   0.90
2   서울  2022   0.95
3   경기  2020   1.00
4   경기  2021   1.20
5   경기  2022   1.10


In [66]:
df

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95
3,경기,2020,1.0
4,경기,2021,1.2
5,경기,2022,1.1


In [67]:
#pd.DataFrame 객체의 속성들
print('shape:', df.shape) #(행의 개수,열의 개수)
print('index:', df.index) #행(row) 레이블
print('columns:', df.columns) # 열(columns) 레이블, 컬럼 이름

shape: (6, 3)
index: RangeIndex(start=0, stop=6, step=1)
columns: Index(['city', 'year', 'count'], dtype='object')


In [68]:
print(df.values) #list와 array의 차이점 = ,의 여부 (,가 있다 = list, 없다 = array)
#DataFrame에 저장된 값들로만 이루어진 2차원 np.ndarray

[['서울' 2020 0.8]
 ['서울' 2021 0.9]
 ['서울' 2022 0.95]
 ['경기' 2020 1.0]
 ['경기' 2021 1.2]
 ['경기' 2022 1.1]]


## DataFrame에서 column 선택

* `data_frame['column_name']`
* `data_frame.column_name`
 * 컬럼 이름이 변수 이름 규칙에 맞지 않는 경우에는 사용할 수 없음.
    * 변수 이름은 영문자, 숫자,underscore(_)만 사용할 수 있음.
    * 변수 이름은 숫자로 시작할 수 없음.
    * Python 키워드(def, class, if, for, ...)들은 변수 이름으로 사용할 수 없음.
 * 컬럼 이름이 DataFrame이 가지고 있는 속성(변수,메서드)이름들과 같은 경우에는 사용할 수 없음

In [69]:
df['city'] #df에서 'city' 컬럼 선택

0    서울
1    서울
2    서울
3    경기
4    경기
5    경기
Name: city, dtype: object

In [74]:
df.count #df에서 'count'컬럼 선택 -> DataFrame의 메서드 이름과 같음 -> 컬럼 선택이 되지 않음!

<bound method DataFrame.count of   city  year  count
0   서울  2020   0.80
1   서울  2021   0.90
2   서울  2022   0.95
3   경기  2020   1.00
4   경기  2021   1.20
5   경기  2022   1.10>

In [75]:
df.count() # pd.DataFrame.count() 메서드 : 각 컬럼에 NA가 아닌 원소들의 개수를 리턴.

city     6
year     6
count    6
dtype: int64

In [76]:
df[['year', 'count']] #2개 이상의 컬럼 선택

Unnamed: 0,year,count
0,2020,0.8
1,2021,0.9
2,2022,0.95
3,2020,1.0
4,2021,1.2
5,2022,1.1


In [77]:
df[['count']] # > 컬럼이 1개인 DataFrame.

Unnamed: 0,count
0,0.8
1,0.9
2,0.95
3,1.0
4,1.2
5,1.1


## DataFrame에서 row 선택

* `data_frame.loc[레이블]`
* `data_frame.iloc[정수기반의 인덱스]`


In [78]:
df.loc[0]

city       서울
year     2020
count     0.8
Name: 0, dtype: object

In [82]:
df.iloc[0]

city       서울
year     2020
count     0.8
Name: 0, dtype: object

In [84]:
df.loc[:2]

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95


In [85]:
df.iloc[:2]

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9


## Boolean indexing

조건을 만족하는 행(들)을 선택하는 방법

In [93]:
# df.loc[조건식]과 df[조건식]은 같은 결과.
df[df['city']== '서울']

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95


In [94]:
df.loc[df['city']=='서울']

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95


Sereis, DataFrame에서 boolean indexing을 사용할 때 주의할 점:
* `and,or,not` 조건 연산자들은 사용할 수 없음!
* 대신에 `&,|,~`연산자들을 사용함.
* 반드시 `()`를 사용해서 연산의 순서를 명시해야함.

In [99]:
# 서울의 2020년 레코드(row)를 출력

df[(df['city']== '서울') & (df['year']== 2020)]

Unnamed: 0,city,year,count
0,서울,2020,0.8


In [104]:
# city가 서울이거나 또는 count 값이 1.2이상인 레코드를 출력

df[(df['city']== '서울') | (df['count'] >= 1.2)]

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95
4,경기,2021,1.2


In [109]:
# 2021,2022 레코드 출력
df[(df['year'] == 2021) | (df['year'] == 2022)]

Unnamed: 0,city,year,count
1,서울,2021,0.9
2,서울,2022,0.95
4,경기,2021,1.2
5,경기,2022,1.1


In [110]:
df[df['year']!=2020]

Unnamed: 0,city,year,count
1,서울,2021,0.9
2,서울,2022,0.95
4,경기,2021,1.2
5,경기,2022,1.1


In [111]:
df[~(df['year']==2020)]

Unnamed: 0,city,year,count
1,서울,2021,0.9
2,서울,2022,0.95
4,경기,2021,1.2
5,경기,2022,1.1


## pd.DataFrame 클래스의 메서드

In [112]:
df

Unnamed: 0,city,year,count
0,서울,2020,0.8
1,서울,2021,0.9
2,서울,2022,0.95
3,경기,2020,1.0
4,경기,2021,1.2
5,경기,2022,1.1


In [113]:
df.describe() #숫자 타입 변수(컬럼)들의 기술 통계량 출력

Unnamed: 0,year,count
count,6.0,6.0
mean,2021.0,0.991667
std,0.894427,0.142887
min,2020.0,0.8
25%,2020.25,0.9125
50%,2021.0,0.975
75%,2021.75,1.075
max,2022.0,1.2


In [115]:
df['city'].value_counts() #카테고리 타입 변수(컬럼) 요약 -> 빈도수

서울    3
경기    3
Name: city, dtype: int64

In [116]:
df['count'].mean() # count 컬럼의 평균

0.9916666666666668

In [117]:
df['count'].std() #count 컬럼의 표준편차

0.14288690166235204

In [118]:
df['count'].max() #count 컬럼의 최댓값

1.2