# Pandas
-----
## 02. 판다스의 데이터 구조
### 시리즈
- 시리즈란
    - 1차원: 
        - 1차원 데이터를 저장하는 자료 구조
    - 레이블링: 
        - 각 데이터 요소에 인덱스(레이블)를 부여하여 접근
    - 데이터 유형: 
        - 다양한 데이터 유형을 지원
        - 숫자, 문자열, 불리언, 날짜 등 다양한 데이터를 포함
    - 크기 불변성: 
        - 크기를 변경할 수 없음
        - 크기를 변경해야 한다면 새로운 Series 객체를 생성해야 합니다.
    - 벡터화 연산: 
        - 벡터화 연산을 지원, 데이터 처리 속도를 향상
    - 누락 데이터 처리: 
        - 누락된 데이터를 쉽게 처리

#### 시리즈 만들기

In [10]:
import pandas as pd
from IPython.display import display

s = pd.Series(['홍길동', 28, '남', '서울'])
print(s)

# 인덱스 확인하기
print(s.index)

# 인덱스를 이용한 값에 접근
print(s[0], s[1], s[2], s[3])

# 인덱스의 변경
s.index = ['이름', '나이', '성별', '주소']

# 변경된 인덱스로 값에 접근할 수 있음
print(s['이름'], s['나이'], s['성별'], s['주소'])
print(s[0], s[1], s[2], s[3])   # 숫자 인덱스는 그대로 사용할 수 있다

# 시리즈 생성시 인덱스를 동시 부여
s2 = pd.Series(['홍길동', 28, '남', '서울'], index=['이름', '나이', '성별', '주소'])
print(s2)

0    횽길동
1     28
2      남
3     서울
dtype: object
RangeIndex(start=0, stop=4, step=1)
횽길동 28 남 서울
횽길동 28 남 서울
횽길동 28 남 서울
이름    횽길동
나이     28
성별      남
주소     서울
dtype: object


#### 기초 통계 메서드
- 시리즈를 구성하고 있는 데이터가 수치형이라면 다양한 기초 통계 메서드를 이용할 수 있음
    - describe() : 각 컬럼에 대한 요약 통계
    - min(), max() : 최소값, 최대값
    - mean(), median() : 평균값, 중앙값
    - isin() : 특정 값이 있는지 여부를 불리언 값으로 리턴
    - count() : NaN을 제외한 갯수를 리턴
    - drop_duplicates() : 중복된 값을 제외한 시리즈를 리턴

In [16]:
import pandas as pd

kor = [80, 75, 90, 100, 65] # 데이터 리스트 생성
kor_s = pd.Series(kor) # 시리즈 생성

# 통계 요약 출력
print(kor_s.describe())
# 최소값, 최대값
print("min, max: ", kor_s.min(), kor_s.max())
print("mean, median: ", kor_s.mean(), kor_s.median())
print("count: ", kor_s.count())
print("isin: \n", kor_s.isin([100, 90]))

count      5.000000
mean      82.000000
std       13.509256
min       65.000000
25%       75.000000
50%       80.000000
75%       90.000000
max      100.000000
dtype: float64
min, max:  65 100
mean, median:  82.0 80.0
count:  5
isin: 
 0    False
1    False
2     True
3     True
4    False
dtype: bool


In [28]:
import pandas as pd
from numpy import nan   # 결측치

kor_s = pd.Series([80, 75, 90, nan, 100, 65])
print(kor_s)

# 시리즈는 numpy 배열 기반으로 만들어져서 대부분 통계 메서드를 사용할 수 있음
# 단, 통계 관련 메서드는 NaN을 제외하고 연산을 수행
print(kor_s.sum())
print(kor_s.sum() / len(kor_s), kor_s.mean())

# 결측치가 있는지 여부를 불리언 값으로 리턴
print(kor_s.isna())

0     80.0
1     75.0
2     90.0
3      NaN
4    100.0
5     65.0
dtype: float64
410.0
68.33333333333333 82.0
0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool


### 데이터프레임
- 데이터프레임이란
    - 2차원 테이블: 
        - 행과 열로 이루어진 2차원 테이블로 구성
        - 데이터를 표 형태로 쉽게 이해하고 조작할 수 있음
    - 레이블링: 
        - 각 행과 열에 레이블(인덱스와 컬럼 이름)을 지정하여 데이터에 접근하고 조작
    - 다양한 데이터 유형: 
        - 하나의 데이터프레임 안에 여러 가지 데이터 유형(정수, 실수, 문자열, 날짜 등)을 동시에 저장 가능
    - 크기 가변성: 
        - 행과 열의 크기를 변경 가능 
        - 새로운 데이터를 추가하거나 삭제하여 데이터프레임을 업데이트할 수 있음
    - 데이터 조작: 
        - 데이터를 필터링, 정렬, 그룹화, 합치기 등 다양한 방법으로 조작할 수 있음

#### 데이터프레임 만들기

In [1]:
import pandas as pd

# 데이터 프레임 클래스에 딕셔너리를 전달
scores_df = pd.DataFrame({
    'KOR': [85, 90, 75, 100, 65],
    'ENG': [90, 85, 70, 90, 80],
    'MATH': [100, 95, 90, 90, 70]
}, index=["홍길동", "김철수", "이영희", "장길산", "전우치"])
# print(scores_df)    # 시리즈와 마찬가지로 인덱스를 부여하지 않으면 0부터 자동으로 부여
display(scores_df)    # display() 함수를 이용하면 좀 더 보기 좋게 출력
print(scores_df.index)  # index 속성에 접근하여 인덱스를 변경할 수 있음

Unnamed: 0,KOR,ENG,MATH
홍길동,85,90,100
김철수,90,85,95
이영희,75,70,90
장길산,100,90,90
전우치,65,80,70


Index(['홍길동', '김철수', '이영희', '장길산', '전우치'], dtype='object')


#### 데이터프레임의 열(Column)과 행(Row)
- 열(Column)
    - 데이터프레임의 열은 시리즈로 구성
    - 통계 용어로 변수라고 부름
    - 열은 딕셔너리의 키처럼 브래킷([]), 점(.)을 이용하여 접근

In [44]:
kor = scores_df['KOR']  # 브래킷([])을 이용하여 접근
eng = scores_df.ENG     # 객체 속성처럼 접근

print(kor, type(kor))   # 데이터프레임의 컬럼은 Series로 구성되어 있음
print(eng)

홍길동     85
김철수     90
이영희     75
장길산    100
전우치     65
Name: KOR, dtype: int64 <class 'pandas.core.series.Series'>
홍길동    90
김철수    85
이영희    70
장길산    90
전우치    80
Name: ENG, dtype: int64


- 변수의 파생
    - 데이터프레임에 새로운 열을 추가하거나 기존 열을 조합하여 새로운 열을 만들 수 있음

In [45]:
# KOR, ENG, MATH 열의 값을 합산하여 TOTAL 열을 추가
scores_df['TOTAL'] = scores_df['KOR'] + scores_df['ENG'] + scores_df['MATH']
# TOTAL 열의 값을 3으로 나누어 AVG 열을 추가
scores_df['AVERAGE'] = scores_df['TOTAL'] / 3
print(scores_df)

     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
김철수   90   85    95    270  90.000000
이영희   75   70    90    235  78.333333
장길산  100   90    90    280  93.333333
전우치   65   80    70    215  71.666667


- 행(Row)
    - 관측치, 레코드 등으로 불림
    1. 인덱스를 이용한 접근 방법
        - loc: 인덱스를 이용하여 행에 접근
    2. 위치를 이용한 방법
        - iloc: 위치를 이용하여 행에 접근

In [56]:
print(scores_df)

print(scores_df.loc['홍길동'], type(scores_df.loc['홍길동'])) # 인덱스를 이용한 접근
print(scores_df.iloc[0])    # 위치를 이용한 접근

print(scores_df.loc[['홍길동', '장길산', '전우치']]) # 여러 개의 행에 접근
print(scores_df.iloc[[0, 3, 4]])

print(scores_df.iloc[1:4]) # 1~3번째 행에 접근
print(scores_df.loc['김철수':'장길산', ['TOTAL', 'AVERAGE']])
print(scores_df.loc['김철수':'장길산', 'KOR':'MATH'])

     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
김철수   90   85    95    270  90.000000
이영희   75   70    90    235  78.333333
장길산  100   90    90    280  93.333333
전우치   65   80    70    215  71.666667
KOR         85.000000
ENG         90.000000
MATH       100.000000
TOTAL      275.000000
AVERAGE     91.666667
Name: 홍길동, dtype: float64 <class 'pandas.core.series.Series'>
KOR         85.000000
ENG         90.000000
MATH       100.000000
TOTAL      275.000000
AVERAGE     91.666667
Name: 홍길동, dtype: float64
     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
장길산  100   90    90    280  93.333333
전우치   65   80    70    215  71.666667
     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
장길산  100   90    90    280  93.333333
전우치   65   80    70    215  71.666667
     KOR  ENG  MATH  TOTAL    AVERAGE
김철수   90   85    95    270  90.000000
이영희   75   70    90    235  78.333333
장길산  100   90    90    280  93.333333
     TOT

#### 불린 인덱싱
- 원하는 레코드를 추출할 때, 보통은 추출할 레코드의 인덱스(혹은 위치)를 정확히 모르는 경우가 많음
- 인덱스에 불린값을 부여하여 True인 레코드만 추출이 가능하다

In [50]:
print(scores_df)
print(scores_df.iloc[[True, False, True, False, True]]) # 불린 인덱싱

# 불린 인덱싱을 이용하여 특정 조건을 만족하는 레코드만 추출
print("AVERAGE >= 90 ? ", scores_df.AVERAGE >= 90)

filtered_df = scores_df[scores_df['AVERAGE'] >= 90]
print(filtered_df)

     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
김철수   90   85    95    270  90.000000
이영희   75   70    90    235  78.333333
장길산  100   90    90    280  93.333333
전우치   65   80    70    215  71.666667
     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
이영희   75   70    90    235  78.333333
전우치   65   80    70    215  71.666667
AVERAGE >= 90 ?  홍길동     True
김철수     True
이영희    False
장길산     True
전우치    False
Name: AVERAGE, dtype: bool
     KOR  ENG  MATH  TOTAL    AVERAGE
홍길동   85   90   100    275  91.666667
김철수   90   85    95    270  90.000000
장길산  100   90    90    280  93.333333
