# 판다스 자료구조

- https://pandas.pydata.org/docs/reference/index.html#api 궁금한게 생기면 여기서 찾아보기...
- 분석을 위해 수집하는 데이터는 형태나 속성이 매우 다양함
    - 서로 다른 형식을 갖는 여러 종류의 데이터를 컴퓨터가 이해할 수 있도록 동일한 형식을 갖는 구조로 통합할 필요가 있음
    
- 판다스 데이터의 형식
    - 시리즈(Series)
        - 1차원 배열
    
    - 데이터 프레임 (DataFrame)
        - 2차원 배열

## 시리즈

<img src = "./image/series.jpg">

- 데이터가 순차적으로 나열된 1차원 배열
- 각 인덱스(index)는 값(value)와 1:1 대응이 됨
    - 이런 관점에서 키와 값이 짝을 이루는 딕셔너리와 비슷한 구조라고도 볼 수 있음
    - 시리즈에서 인덱스는 데이터 값의 위치를 나타내는 이름표 역할을 수행
    
- series 생성
    - pandas.Series()
    - S 대문자 필수

### 시리즈 생성

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

In [2]:
# 딕셔너리 생성
dict_data = {"a" : 1, "b" : 2, "c" : 3}

In [4]:
# 딕셔너리를 판다스 시리즈로 변환
sr = pd.Series(dict_data)

In [5]:
print(type(sr))
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [6]:
# 시리즈를 구성하는 데이터 값의 자료형 확인
sr.dtypes

dtype('int64')

In [7]:
# 시리즈의 인덱스 배열
sr.index

Index(['a', 'b', 'c'], dtype='object')

In [8]:
# 시리즈의 값 배열
sr.values

array([1, 2, 3], dtype=int64)

- 리스트를 시리즈로 변환하면 인덱스로 변환될 값이 없음
    - 인덱스가 별도로 정의되지 않으면 정수형 위치 인덱스(0, 1, 2, ......)가 자동으로 지정

In [9]:
# 리스트를 시리즈로 변환
list_data = ["2024-02-21", 3.14, "ABC", 100, True]

In [10]:
sr = pd.Series(list_data)

In [11]:
print(sr)

0    2024-02-21
1          3.14
2           ABC
3           100
4          True
dtype: object


In [12]:
sr.index

RangeIndex(start=0, stop=5, step=1)

In [13]:
sr.values

array(['2024-02-21', 3.14, 'ABC', 100, True], dtype=object)

In [14]:
# 튜플을 시리즈로 변환
tup_data = ("영인", "2010-05-10", "여", True)

In [15]:
# 인덱스를 지정하여 시리즈 변환
sr = pd.Series(tup_data, index = ["이름", "생년월일", "성별", "학생여부"])

In [16]:
sr

이름              영인
생년월일    2010-05-10
성별               여
학생여부          True
dtype: object

### 원소 선텍

- 인덱스를 이용하여 원소를 선택할 수 있음
    - 하나의 원소를 선택
    - 여러 원소를 한거번에 선택
    - 인덱스의 범위를 지정하여 원소를 선택 
        - 슬라이싱과 유사

- 정수형 위치 인덱스는 대괄호 안에 위치를 나타내는 숫자를 입력
- 인덱스 이름은 따옴표와 함게 입력    

In [19]:
# 원소를 1개 선택
print(sr[0])
print(sr["이름"])

영인
영인


In [30]:
# 여러 원소 선택(인덱스 리스트 활용)
print(sr[[1,2]])
print("")
print(sr[["생년월일", "성별"]])

생년월일    2010-05-10
성별               여
dtype: object

생년월일    2010-05-10
성별               여
dtype: object


In [32]:
# 여러 원소 선택(인덱스 범위 지정)
print(sr[1:3])
print("")
print(sr["생년월일":"성별"])
# 정수형 위치 인덱스는 범위의 끝이 불포함
# 인덱스 이름을 사용하면 범위의 끝이 포함

생년월일    2010-05-10
성별               여
dtype: object

생년월일    2010-05-10
성별               여
dtype: object


## 데이터프레임

<img src = "./image/dataframe.jpg">

index m 은 오타로 추정됨 index n이어야 함

- 행과 열로 이루어진 2차원 배열
- 여러 개의 시리즈들이 모여서 데이터프레임을 구성
    - 데이터프레임의 열은 각각 시리즈 객체
    - 여러 개의 시리즈들이 같은 행 인덱스를 기준으로 결합된 2차원 행렬
    
- 행과 열을 나타내기 우해 두 가지 종류의 주소를 사용
    - 행 인덱스
        - 개별 관측 대상에 대한 다양한 속성 데이터들의 모음
            - 레코드(record)
            
    - 열 이름
        - 공통의 속성을 갖는 일련의 데이터
        
    - 예시) 주식 종목 데이터
        - 행 : 각 주식 종목에 대한 관측 값
        - 열 : 회사이름, 총 주식수, 액면가 등

### 데이터프레임 생성

- 동일한 길이의 1차원 배열 여러 개가 필요
    - pandas.DataFrame(2차원배열)

In [38]:
dict_data = {"c0" : [1, 2, 3], 
             "c1" : [4, 5, 6], 
             "c2" : [7, 8, 9],
             "c3" : [10, 11, 12],
             "c4" : [13, 14, 15]}

In [39]:
# 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(dict_data)

In [40]:
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,c0,c1,c2,c3,c4
0,1,4,7,10,13
1,2,5,8,11,14
2,3,6,9,12,15


### 행 인덱스 / 열 이름 설정

- pandas.DataFrame(2차원 배열, index = 행 인덱스 배열, columns = 열 이름 배열)

In [42]:
df = pd.DataFrame([[15, "남", "덕영중"], [17, "여", "수리중"]],
                 index = ["준서", "예은"],
                 columns = ["나이", "성별", "학교"])

In [43]:
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [44]:
# 행 인덱스
df.index

Index(['준서', '예은'], dtype='object')

In [45]:
# 열 이름
df.columns

Index(['나이', '성별', '학교'], dtype='object')

### 행 인덱스 / 열 이름 변경

- df.index = 새 행 인덱스 배열
- df.columns = 새 열 이름 배열

In [46]:
# 행 인덱스 변경
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [48]:
df.index = ["학생1", "학생2"]

In [49]:
df

Unnamed: 0,나이,성별,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [50]:
# 열 이름 변경
df.columns = ["연령", "남녀", "소속"]

In [51]:
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


#### 행 인덱스 / 열 이름 변경 (rename 메소드 활용)

- df.rename(index = {기존 인덱스 : 새 인덱스, ...})
- df.rename(columns = {기존 이름 : 새 이름, ...})

In [52]:
df.rename(columns = {"연령" : "나이", "남녀" : "성별"})

Unnamed: 0,나이,성별,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [54]:
# rename은 비파괴적 메소드
df

Unnamed: 0,연령,남녀,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [55]:
# 원본 객체를 수정하려면 inplace = True 옵션을 사용
df.rename(columns = {"연령" : "나이", "남녀" : "성별"},
         inplace = True)

In [56]:
df

Unnamed: 0,나이,성별,소속
학생1,15,남,덕영중
학생2,17,여,수리중


In [57]:
df.rename(index = {"학생1" : "준서", "학생2" : "예은"}, inplace = True)

In [58]:
df

Unnamed: 0,나이,성별,소속
준서,15,남,덕영중
예은,17,여,수리중


### 행 / 열 삭제

- drop() 메소드
    - axis = 0
        - 행 삭제
        
    - axis = 1
        - 열 삭제
        
    - 동시에 여러 행 또는 열 삭제
        - 리스트 형태로 입력
        
    - 기존 객체를 변경하지 않고 새로운 객체를 반환 (비파괴적)
        - 원본 객체를 직접 변경하기 위해서는 inplace = True 옵션 사용
        
- df.drop(행 인덱스 또는 배열, axis = 0)
- df.drop(열 이름 또는 배열, axis = 1)

In [60]:
exam_data = {"수학" : [90, 80, 70], "영어" : [95, 85, 75], "음악" : [100, 80, 40], "체육" : [90, 95, 90]}

df = pd.DataFrame(exam_data, index = ["서준", "우현", "인아"])

In [61]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [64]:
df2 = df.copy()

In [65]:
id(df2), id(df)

(2339444284112, 2339445683472)

#### 행 삭제

In [68]:
df2.drop("우현", inplace = True) # axis = 0 이 초기값

In [69]:
df2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
인아,70,75,40,90


In [70]:
df3 = df[:]

In [71]:
id(df3), id(df)

(2339364345296, 2339445683472)

In [72]:
df3.drop(["우현", "인아"], axis = 0, inplace = True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df3.drop(["우현", "인아"], axis = 0, inplace = True)


In [73]:
df3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90


#### 열 삭제

In [75]:
df4 = df.copy()
df4

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


In [76]:
df4 = df4.drop("수학", axis = 1)
df4

Unnamed: 0,영어,음악,체육
서준,95,100,90
우현,85,80,95
인아,75,40,90


In [80]:
df5 = df.copy()

In [81]:
df5 = df5.drop(["영어", "음악"], axis = 1)
df5

Unnamed: 0,수학,체육
서준,90,90
우현,80,95
인아,70,90


### 행 선택

- loc
    - 인덱스 이름을 사용하여 행 선택
    
- iloc
    - 정수형 위치 인덱스를 사용하여 행 선택
    
| 구분 | loc | iloc |
| :--: | :--: | :--: |
| 탐색 대상 | 인덱스 이름 | 정수형 위치 인덱스 |
| 범위 지정 | 가능(범위의 끝 포함) | 가능(범위의 끝 제외) |

In [82]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95
인아,70,75,40,90


#### 하나의 행 선택

In [84]:
label1 = df.loc["서준"]
print(label1)

수학     90
영어     95
음악    100
체육     90
Name: 서준, dtype: int64


In [85]:
position1 = df.iloc[0]
print(position1)

수학     90
영어     95
음악    100
체육     90
Name: 서준, dtype: int64


#### 2개 이상의 행 선택

In [90]:
label2 = df.loc[["서준", "우현"]]
label2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


In [91]:
position2 = df.iloc[[0, 1]]
position2

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


#### 행 인덱스의 범위를 지정하여 행 선택

In [93]:
label3 = df.loc["서준":"우현"]
label3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90
우현,80,85,80,95


In [95]:
position3 = df.iloc[0:1]
position3

Unnamed: 0,수학,영어,음악,체육
서준,90,95,100,90


### 열 선택

- 열 데이터를 1개만 선택하는 경우
    - 대괄호 안에 열 이름을 따옴표와 함께 입력
        - df["열이름"]
    - 도트(.) 다음에 열 입력을 입력
        - 열 이름이 문자열일 경우에만 가능
        - df.열이름

- 여러 열을 선택하는 경우
    - 대괄호 안에 열 이름 리스트 입력
    - 리스트의 원소로 열 이름이 하나만 있는 경우에는 시리즈가 아니라 데이터 프레임이 됨
        - df[[열1, 열2, 열3, ......]]

In [96]:
exam_data = {"이름" : ["서준", "우현", "인아"],
             "수학" : [90, 80, 70], 
             "영어" : [95, 85, 75], 
             "음악" : [100, 80, 40], 
             "체육" : [90, 95, 90]}

df = pd.DataFrame(exam_data)

In [97]:
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
1,우현,80,85,80,95
2,인아,70,75,40,90


In [98]:
# 수학 점수 데이터만 선택
math1 = df["수학"]

In [99]:
math1

0    90
1    80
2    70
Name: 수학, dtype: int64

In [101]:
type(math1)

pandas.core.series.Series

In [104]:
eng1 = df.영어

In [105]:
eng1

0    95
1    85
2    75
Name: 영어, dtype: int64

In [106]:
type(eng1)

pandas.core.series.Series

In [107]:
# 2개 이상의 열 추출
music_gym = df[["음악", "체육"]]
music_gym

Unnamed: 0,음악,체육
0,100,90
1,80,95
2,40,90


In [109]:
type(music_gym)

pandas.core.frame.DataFrame

In [111]:
# 수학 점수 데이터만 데이터 프레임으로 추출
math2 = df[["수학"]]
print(type(math2))
math2

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,수학
0,90
1,80
2,70


#### 범위 슬라이싱

- df.iloc[시작 인덱스 : 종료 인덱스 : 증감값(default = 1)]

In [112]:
df.iloc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [113]:
# 되기는 하는데 어감이 이상하다...
df.loc[::2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [114]:
df.iloc[0:3:2]

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,95,100,90
2,인아,70,75,40,90


In [115]:
df.iloc[::-1]

Unnamed: 0,이름,수학,영어,음악,체육
2,인아,70,75,40,90
1,우현,80,85,80,95
0,서준,90,95,100,90


### 원소 선택

- 데이터프레임의 행 인덱스와 열 이름을 [행, 열] 형식의 2차원 좌표로 입력하여 원소를 지정

In [116]:
df.iloc[::-1 , 2]

2    75
1    85
0    95
Name: 영어, dtype: int64