In [6]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 패키지 설치 

In [7]:
!pip install mySUNI





In [8]:
import numpy as np
from mySUNI import cds
from IPython.display import Image

In [9]:
Image('https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1280px-Pandas_logo.svg.png', width=500)

URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)>

## Pandas

### 개요

**관계형** 또는 **레이블이 된** 데이터로 쉽고 직관적 으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 Python 패키지입니다.

또한, 어떤 언어로도 사용할 수 있는 가장 **강력하고 유연한 오픈 소스 데이터 분석 / 조직 도구**입니다.

Pandas는 다음의 종류의 데이터에 **적합한 분석 패키지**입니다.

- SQL 테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 테이블 형식 데이터
- 정렬되고 정렬되지 않은 시계열 데이터
- 다른 형태의 관찰 / 통계 데이터 세트

### Pandas 공식 문서

공식 문서는 다음 링크에서 확인할 수 있습니다.
- [공식 도큐먼트](https://pandas.pydata.org/docs/reference/index.html)

## alias(별칭)와 버전

In [10]:
import pandas

In [11]:
pandas.__version__

'1.4.1'

pandas는 `pd`의 alias를 사용합니다.

In [12]:
import pandas as pd

In [13]:
pd

<module 'pandas' from '/Library/Frameworks/Python.framework/Versions/3.10/lib/python3.10/site-packages/pandas/__init__.py'>

In [14]:
pd.__version__

'1.4.1'

## Series

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html?highlight=series#pandas.Series)

Pandas의 Series는 1차원 배열로서 다음의 특징을 가집니다.

- 데이터를 담는 **1차원 배열 구조**를 가집니다.
- **인덱스(index)를 사용 가능**합니다.
- **데이터 타입**을 가집니다. (dtype)

### Series의 생성

#### **numpy array**로 생성한 경우

In [15]:
arr = np.arange(100, 105)
arr

array([100, 101, 102, 103, 104])

In [16]:
s = pd.Series(arr) #시리즈는 열을 우선한다. 
s

0    100
1    101
2    102
3    103
4    104
dtype: int64

#### dtype을 지정한 경우

In [17]:
s = pd.Series(arr, dtype='int32') #32비트로 바꿔서 데이터 스퀴즈를 한다. 데이더를 작게 만든다.
s

0    100
1    101
2    102
3    103
4    104
dtype: int32

#### **list**로 생성한 경우

In [18]:
s = pd.Series(['A', 'B', 'C', 'D', 'E'])
s

0    A
1    B
2    C
3    D
4    E
dtype: object

#### 다양한 타입(type)의 데이터를 섞은 경우

Series에 다양한 데이터 타입의 데이터로 생성시, **object** 타입으로 생성됩니다.

In [19]:
s = pd.Series([91, 2.5, '스포츠', 4, 5.16]) #문자와 숫자가 섞이면 오브젝트로 진행됨
s

0      91
1     2.5
2     스포츠
3       4
4    5.16
dtype: object

In [20]:
type(s[1])

float

### index

In [73]:
s = pd.Series(['부장', '차장', '대리', '사원', '인턴'])
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

기본 `index`는 0부터 숫자형 index가 부여됩니다.

In [74]:
s

0    부장
1    차장
2    대리
3    사원
4    인턴
dtype: object

기본 부여된 `index`로 값을 조회할 수 있습니다. 

(indexing / slicing 은 이후에 좀 더 자세히 다룹니다.)

In [76]:
# s    # 전체 조회
s[0] # 데이터 선택 -> 단일 
# s[-1] # 오류 발생 -> RangeIndex 

'부장'

`.index`를 출력하면 **RangeIndex**로 표기됨을 확인할 수 있는데, 기본 부여된 **index는 0~ 순차적으로 부여**되기 때문입니다.

In [77]:
# Series.index : 인덱스를 조회 or 변경

s.index # 조회

s.index = ['a', 'b', 'c', 'd', 'e'] # 대입 -> 수정 -> 데이터 개수가 일치 (값의 개수 == 행의 수, 순서대로 부여)
s

a    부장
b    차장
c    대리
d    사원
e    인턴
dtype: object

내가 원하는 `index`를 **지정**할 수 있습니다.

In [25]:
s = pd.Series(['마케팅', '경영', '개발', '기획', '인사'], index=['a', 'b', 'c', 'd', 'e'])
s

a    마케팅
b     경영
c     개발
d     기획
e     인사
dtype: object

새롭게 부여된 index로 **접근 가능**합니다.

In [26]:
s['c']

'개발'

하지만, 기본 부여된 **숫자형 index로도 접근 가능**합니다.

In [27]:
s[2]

'개발'

In [28]:
s[-1] # RangeIndex가 아니기 때문에 사용 가능

'인사'

Series.`index`로도 index를 지정할 수 있습니다. 단, 지정하는 `index`의 갯수가 데이터의 갯수와 맞아야 합니다.

In [29]:
s.index = list('abcde')

In [30]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

### values

`values`는 Series 데이터 값(value)만 **numpy array** 형식으로 가져 옵니다.

In [31]:
s.values

array(['마케팅', '경영', '개발', '기획', '인사'], dtype=object)

### ndim - 차원 

Series는 1차원 자료구조이기 때문에 ndim 출력시 **1**이 출력됩니다.

In [32]:
s.ndim

1

### shape

shape은 데이터의 모양(shape)을 알아보기 위하여 사용하는데, Series의 shape은 **데이터의 갯수**를 나타냅니다.

**튜플(tuple)** 형식으로 출력됩니다.

In [33]:
s.shape

(5,)

### NaN (Not a Number)

Pandas에서 **NaN 값**은 비어있는 **결측치 데이터**를 의미합니다.

임의로 비어있는 값을 대입하고자 할 때는 **numpy의 nan (np.nan)**을 입력합니다.

In [34]:
s = pd.Series(['선화', '강호', np.nan, '소정', '우영'])
s

0     선화
1     강호
2    NaN
3     소정
4     우영
dtype: object

### 연습문제

다음과 같은 Series를 생성해 주세요

- s1 변수에 Series를 생성합니다.
- dtype은 'float32'가 출력 되도록 합니다.

In [35]:
# 코드를 입력해 주세요
s1 = pd.Series([50.0, 51.0, 52.0, 53.0, 54.0], dtype='float32')
s1

s1 = pd.Series(range(50, 55), dtype='float32')
s1

0    50.0
1    51.0
2    52.0
3    53.0
4    54.0
dtype: float32

다음과 같은 Series를 생성해 주세요

- s2 변수에 Series를 생성합니다.

In [36]:
# 코드를 입력해 주세요
s2 = pd.Series(['apple', np.nan, 'banana', 'kiwi', 'gubong'], index=['가','나','다','라','마'])
s2

가     apple
나       NaN
다    banana
라      kiwi
마    gubong
dtype: object

### indexing

In [37]:
s = pd.Series(['손흥민', '김연아', '박세리', '박찬호', '김연경'], index=['a', 'b', 'c', 'd', 'e'])
s

a    손흥민
b    김연아
c    박세리
d    박찬호
e    김연경
dtype: object

index는 기본 부여된 **숫자형 index**와 내가 **새롭게 지정한 index** **둘 다 조회 가능**합니다.

In [38]:
# Series가 전부 문자 인덱스로 지정된 경우 (RangeIndex가 아닌 경우) 위치 인덱스를 같이 사용 가능
s[1] # 위치 인덱스

'김연아'

In [39]:
s['b'] # 문자 인덱스

'김연아'

### fancy indexing

**fancy indexing**은 index를 선택하여 list로 정의하고, 선택한 index list로 indexing 하는 방법입니다.

In [40]:
s[['a','c']]

a    손흥민
c    박세리
dtype: object

In [41]:
i = ['a', 'c']
s[i]

a    손흥민
c    박세리
dtype: object

### boolean indexing

**boolean index**은 index list 에서 **True인 index 만 선택**합니다.

주의해야할 점은 반드시 boolean index list의 갯수와 Series의 갯수가 맞아야 합니다.

In [42]:
s[[True, True, False, False, True]]

a    손흥민
b    김연아
e    김연경
dtype: object

In [43]:
i = [True, True, False, False, True]
s[i]

a    손흥민
b    김연아
e    김연경
dtype: object

조건을 걸어서 **boolean index list를 먼저 만들어 준 뒤 대입**할 수 있습니다.

In [44]:
s = pd.Series([29, 99, np.nan, 11, 56], index=['a', 'b', 'c', 'd', 'e'])
s

a    29.0
b    99.0
c     NaN
d    11.0
e    56.0
dtype: float64

In [45]:
s > 50 # Series도 Numpp Array와 동일하게 Broadcast 연산을 지원

a    False
b     True
c    False
d    False
e     True
dtype: bool

In [46]:
s[s > 50]

b    99.0
e    56.0
dtype: float64

### 결측치 (NaN) 값 처리

`isnull()`과 `isna()`은 **NaN** 값을 찾는 함수 입니다.

`isnull()`과 `isna()`는 결과가 동일합니다.

In [47]:
s.isnull()

a    False
b    False
c     True
d    False
e    False
dtype: bool

In [48]:
s.isna()

a    False
b    False
c     True
d    False
e    False
dtype: bool

이를 boolean indexing에 적용해볼 수 있습니다.

In [49]:
s[s.isnull()]

c   NaN
dtype: float64

In [50]:
s[s.isna()]

c   NaN
dtype: float64

`notnull()`은 NaN값이 아닌, 즉 비어있지 않은 데이터를 찾는 함수 입니다.

In [51]:
s.notnull()

a     True
b     True
c    False
d     True
e     True
dtype: bool

In [52]:
s[s.notnull()]

a    29.0
b    99.0
d    11.0
e    56.0
dtype: float64

In [53]:
series = pd.Series([1,2,3,4,5], index=['가','나','다','라','마'])
series

가    1
나    2
다    3
라    4
마    5
dtype: int64

In [54]:
# Boolean Index -> Boolean List, Array  -> True값의 위치를 선택
#               -> Boolean Series       -> True값의 인덱스를 선택
series[[True, False, True, False, True]] # Boolean List -> True 값의 위치를 선택
series[pd.Series([True, False, True, False, True], index=['나','가','다','마','라'])]  # Boolean Series -> True값의 인덱스를 선택

나    2
다    3
라    4
dtype: int64

### slicing

**(주의)** 숫자형 index로 접근할 때는 뒷 index가 포함되지 않습니다.

In [55]:
s[1:3]

b    99.0
c     NaN
dtype: float64

새롭게 지정한 인덱스는 시작 index와 끝 index **모두 포함**합니다.

In [56]:
s['b':'c']

b    99.0
c     NaN
dtype: float64

## DataFrame

[도큐먼트](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

`pd.DataFrame`

- 2차원 데이터 구조 (Excel 데이터 시트를 생각하시면 됩니다)
- 행(row), 열(column)으로 구성되어 있습니다.
- 각 열(column)은 각각의 데이터 타입 (dtype)을 가집니다.

### 생성

**list 를 통한 생성**할 수 있습니다. DataFrame을 만들 때는 **2차원 list를 대입**합니다.

In [57]:
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]])

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


아래 예제와 같이 **columns를 지정**하면, DataFrame의 각 열에 대한 컬럼명이 붙습니다.

In [58]:
pd.DataFrame([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9]], columns=['가', '나', '다'])

Unnamed: 0,가,나,다
0,1,2,3
1,4,5,6
2,7,8,9


**dictionary를 통한 생성**도 가능합니다.

편리한 점은 dictionary의 **key 값이 자동으로 column 명으로 지정**됩니다.

In [59]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}
pd.DataFrame(data, columns=['name']) # data가 dict인 경우 columns는 해당 키를 선택한다는 의미를 가짐 -> 이름 부여 X

Unnamed: 0,name
0,Kim
1,Lee
2,Park


In [60]:
pd.DataFrame(data, columns=['name']) # data가 dict인 경우 columns는 해당 키를 선택한다는 의미를 가짐 -> 이름 부여 X

Unnamed: 0,name
0,Kim
1,Lee
2,Park


### 속성

DataFrame은 다음의 **속성**을 가집니다.

- **index**: index (기본 값으로 RangeIndex)
- **columns**: column 명
- **values**: numpy array형식의 데이터 값
- **dtypes**: column 별 데이터 타입
- **T**: DataFrame을 전치(Transpose)

In [61]:
data = {
    'name': ['Kim', 'Lee', 'Park'], 
    'age': [24, 27, 34], 
    'children': [2, 1, 3]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [62]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [63]:
df.columns

Index(['name', 'age', 'children'], dtype='object')

In [64]:
df.values

array([['Kim', 24, 2],
       ['Lee', 27, 1],
       ['Park', 34, 3]], dtype=object)

In [65]:
df.dtypes # 각 컬럼(열, series)별 dtype을 반환
# object -> 문자열

name        object
age          int64
children     int64
dtype: object

In [66]:
df.T

Unnamed: 0,0,1,2
name,Kim,Lee,Park
age,24,27,34
children,2,1,3


### index 지정

In [67]:
df

Unnamed: 0,name,age,children
0,Kim,24,2
1,Lee,27,1
2,Park,34,3


In [68]:
df.index = list('abc')
df

Unnamed: 0,name,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


(참고) DataFrame의 indexing / slicing은 나중에 세부적으로 다루도록 하겠습니다.

### column 다루기

DataFrame에 key 값으로 column의 이름을 지정하여 column을 선택할 수 있습니다.

1개의 column을 가져올 수 있으며, **1개의 column 선택시 Series**가 됩니다.

In [86]:
df['name']

a     Kim
b     Lee
c    Park
Name: name, dtype: object

In [87]:
type(df['name'])

pandas.core.series.Series

2개 이상의 column 선택은 **fancy indexing으로 가능**합니다.

In [67]:
df[['name', 'children']]

Unnamed: 0,name,children
a,Kim,2
b,Lee,1
c,Park,3


(참고) column에 대한 slicing도 가능 하지만 이 부분도 나중에 다루도록 하겠습니다.

**rename**으로 column명 변경 가능합니다.

DataFrame.rename(columns={'바꾸고자 하는 컬럼명': '바꿀 컬럼명'})

In [96]:
df.rename(columns={'name': '이름'})

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


In [97]:
df.rename({'name': '이름'}, axis=1)

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


`inplace=True` 옵션으로 변경사항을 바로 적용할 수 있습니다.

In [70]:
df.rename(columns={'name': '이름'}, inplace=True)
df

Unnamed: 0,이름,age,children
a,Kim,24,2
b,Lee,27,1
c,Park,34,3


### 연습문제

다음의 DataFrame을 생성하세요

- 생성된 DataFrame은 df 변수에 할당합니다.

In [99]:
# 코드를 입력해 주세요


Unnamed: 0,food,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2


food 컬럼과 rating 컬럼만 선택하여 출력하세요

In [100]:
# 코드를 입력해 주세요


Unnamed: 0,food,rating
0,KFC,4.5
1,McDonald,3.9
2,SchoolFood,4.2


food 컬럼명을 place로 컬럼명을 변경해 주세요

In [101]:
# 코드를 입력해 주세요


Unnamed: 0,place,price,rating
0,KFC,1000,4.5
1,McDonald,2000,3.9
2,SchoolFood,2500,4.2
