# 판다스 자료구조

In [1]:
import pandas as pd
import seaborn as sns

## 1-1. 시리즈

- 시리즈는 데이터가 순차적으로 나열된 1차원 배열의 형태를 갖는다.
- 인덱스(index)는 데이터 값(value)와 일대일 대응이 된다.
- 이런 관점에서 키와 값이 짝을 이루는 파이썬 딕셔너리와 비슷한 구조를 갖는다고 볼 수 있다.

In [2]:
lst = ['2021', '2022', '2023']

In [3]:
sr = pd.Series(lst)

In [4]:
print(sr)

0    2021
1    2022
2    2023
dtype: object


In [5]:
print(sr.index)
print(sr.values)

RangeIndex(start=0, stop=3, step=1)
['2021' '2022' '2023']


### 인덱스 구조

- 리스트 또는 투플을 시리즈로 만들 때 정수형 위치 인덱스 대신 인덱스 이름을 따로 지정할 수 있다.

In [6]:
tup = ('2023-06-24', '빅데이터분석기사실기', True)
sr = pd.Series(tup, index=['시험일자', '시험명', '합격여부'])
print(sr)

시험일자    2023-06-24
시험명     빅데이터분석기사실기
합격여부          True
dtype: object


- 정수형 인덱스를 사용할 때는 범위의 끝이 포함되지 않으나, 인덱스 이름을 사용하면 범위의 끝이 포함된다.

In [7]:
print(sr[1:2])
print('\n')
print(sr['시험일자':'합격여부'])

시험명    빅데이터분석기사실기
dtype: object


시험일자    2023-06-24
시험명     빅데이터분석기사실기
합격여부          True
dtype: object


## 1-2. 데이터프레임

- 데이터프레임은 2차원 배열이다.
- 시리즈를 열벡터라고 하면, 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를 기준으로 줄지어 결합된 2차원 벡터 또는 행렬이다.
- 행 인덱스/열 이름 설정:
`
pandas.DataFrame(2차원 배열, index=행 인덱스 배열, columns=열 이름 배열)
`

In [8]:
df = pd.DataFrame([[27, '여', '한국대학교'], [25, '남', '한국대학교']], index=['민희', '준서'], columns=['나이', '성별', '학교'])

In [9]:
df

Unnamed: 0,나이,성별,학교
민희,27,여,한국대학교
준서,25,남,한국대학교


In [10]:
print(df.index)
print('\n')
print(df.values)

Index(['민희', '준서'], dtype='object')


[[27 '여' '한국대학교']
 [25 '남' '한국대학교']]


### 행 인덱스/열 이름 설정

- 행 인덱스 변경: `DataFrame객체.index = 새로운 행 인덱스 배열`
- 열 이름 변경: `DataFrame객체.columns = 새로운 열 이름 배열`

In [11]:
df.index=['학생1', '학생2']
df.columns=['연령', '남녀', '소속']

In [12]:
df

Unnamed: 0,연령,남녀,소속
학생1,27,여,한국대학교
학생2,25,남,한국대학교


- 데이터프레임에 rename() 메소드를 적용하면 행 인덱스 또는 열 이름의 일부를 선택하여 변경할 수 있다.
- 원본 객체를 변경하려면 `inplace=True` 옵션을 사용한다.
- 행 인덱스 변경: `DataFrame객체.rename(index={기존인덱스: 새인덱스, ...})`
- 열 인덱스 변경: `DataFrame객체.rename(columns={기존이름: 새이름, ...})`

In [13]:
print('변경 전\n', df)
print('\n')

df.rename(columns={'연령': '나이', '남녀': '성별', '소속': '학교'}, inplace=True)
df.rename(index={'학생1': '민희', '학생2': '준서'}, inplace=True)

print('변경 후\n', df)

변경 전
      연령 남녀     소속
학생1  27  여  한국대학교
학생2  25  남  한국대학교


변경 후
     나이 성별     학교
민희  27  여  한국대학교
준서  25  남  한국대학교


### 행/열 삭제

- drop() 메소드는 기존 객체를 변경하지 않고 새로운 객체를 반환하는 점에 유의한다.
- 행 삭제: `DataFrame객체.drop(행 인덱스 또는 배열, axis=0)`
- 열 삭제: `DataFrame객체.drop(열 이름 또는 배열, axis=1)`

In [14]:
# 행을 삭제할 때는 축 옵션을 입력하지 않아도 됨
temp = {'java': ['A+', 'A'], 'c++': ['A+', 'B+']}
df = pd.DataFrame(temp, index=['학생1', '학생2'])

In [15]:
print('변경 전\n', df)
print('\n')

df.drop(['c++'], axis=1, inplace=True)

print('변경 후\n', df)

변경 전
     java c++
학생1   A+  A+
학생2    A  B+


변경 후
     java
학생1   A+
학생2    A


### 행 선택

|구분|탐색 대상|범위 지정|
|---|---|---|
|loc|인덱스 이름|가능(범위의 끝 포함)|
|iloc|정수형 위치 인덱스|가능(범위의 끝 제외)|

- 2개 이상의 행 인덱스를 리스트 형태로 입력하면 매칭되는 모든 행 데이터를 동시에 추출한다.

In [16]:
temp = {'java': ['A+', 'A'], 'c++': ['A+', 'B+']}
df = pd.DataFrame(temp, index=['학생1', '학생2'])

In [17]:
print(df.loc[['학생1', '학생2']])
print('\n')
print(df.iloc[[0, 1]])

    java c++
학생1   A+  A+
학생2    A  B+


    java c++
학생1   A+  A+
학생2    A  B+


### 열 선택

- 열 1개 선택(시리즈 생성): `DataFrame 객체['열 이름']` 또는 `DataFrame 객체.열 이름`
- 후자의 방법은 반드시 열 이름이 문자열일 경우에만 사용 가능하다.
- 열 n개 선택(데이터프레임 생성): `DataFrame 객체 [[열1, 열2, ..., 열3]]`
- 2중 대괄호를 사용하면 열 이름 1개를 원소로 갖는 리스트를 사용하는 경우에도 시리즈가 아닌 데이터프레임을 반환한다.

In [18]:
print(df['java'], type(df['java']))

학생1    A+
학생2     A
Name: java, dtype: object <class 'pandas.core.series.Series'>


In [19]:
print(df[['java']], type(df[['java']]), sep='\n')

    java
학생1   A+
학생2    A
<class 'pandas.core.frame.DataFrame'>


### 원소 선택

- 인덱스 이름: `DataFrame객체.loc[행 인덱스, 열 이름]`
- 정수 위치 인덱스: `DataFrame객체.iloc[행 번호, 열 번호]`

In [20]:
temp = {'이름': ['서준', '우현', '인아'],
        'java': ['B+', 'A+', 'A'],
        'c++':  ['A', 'B+', 'A'],
        'sql':  ['A+', 'A', 'B']}
df = pd.DataFrame(temp)

In [21]:
df.set_index(['이름'], inplace=True)
df

Unnamed: 0_level_0,java,c++,sql
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서준,B+,A,A+
우현,A+,B+,A
인아,A,A,B


In [22]:
print(df.loc['서준', 'sql'])
print(df.iloc[0, 2])

A+
A+


### 행/열 추가

- 열 추가: `DataFrame객체['추가하려는 열 이름'] = 데이터 값`
- 행 추가: `DataFrmae객체.loc['새로운 행 이름'] = 데이터 값 (또는 배열)`

In [23]:
# 열 추가
df['R'] = 'B+'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,A+,B+
우현,A+,B+,A,B+
인아,A,A,B,B+


In [24]:
df.reset_index(inplace=True)
df

Unnamed: 0,이름,java,c++,sql,R
0,서준,B+,A,A+,B+
1,우현,A+,B+,A,B+
2,인아,A,A,B,B+


In [25]:
# 행 추가
df.loc[3] = ['수지', 'A+', 'A', 'B+', 'A+']
df

Unnamed: 0,이름,java,c++,sql,R
0,서준,B+,A,A+,B+
1,우현,A+,B+,A,B+
2,인아,A,A,B,B+
3,수지,A+,A,B+,A+


### 원소 값 변경

- `DataFrame 객체의 일부분 또는 원소를 선택 = 새로운 값`

In [26]:
df.set_index('이름', inplace=True)

In [27]:
df.loc['서준']['sql'] = 'A0'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,A0,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


In [28]:
df.loc['서준', 'sql'] = 'A-'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,A-,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


In [29]:
df.iloc[0, 2] = 'A+'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,A+,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


In [30]:
df.loc['서준', ['java', 'sql']] = 'A'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,A,A,A,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


In [31]:
df.loc['서준', ['java', 'sql']] = 'B+', 'B'
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,B,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


### 행/열 위치 바꾸기

- `DataFrame객체.transpose()` 또는 `DataFrame객체.T`

In [32]:
df

Unnamed: 0_level_0,java,c++,sql,R
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,B+,A,B,B+
우현,A+,B+,A,B+
인아,A,A,B,B+
수지,A+,A,B+,A+


In [33]:
df.T

이름,서준,우현,인아,수지
java,B+,A+,A,A+
c++,A,B+,A,A
sql,B,A,B,B+
R,B+,B+,B+,A+


In [34]:
df.transpose()

이름,서준,우현,인아,수지
java,B+,A+,A,A+
c++,A,B+,A,A
sql,B,A,B,B+
R,B+,B+,B+,A+


## 3. 인덱스 활용

- 특정 열을 행 인덱스로 설정: `DataFrame객체.set_index(['열 이름'])`
- 행 인덱스 재배열: `DataFrame객체.reindex(새로운 인덱스 배열)`
- 행 인덱스 초기화: `DataFrame객체.reset_index()`
- 행 인덱스를 기준으로 데이터프레임 정렬: `DataFrame객체.sort_values()`
- 열 기준 정렬: `DataFrame객체.sort_values()`

In [35]:
titanic = sns.load_dataset('titanic')
df = titanic

In [36]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [37]:
df.set_index(['embark_town'], inplace=True)
df.head()

Unnamed: 0_level_0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,alive,alone
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Southampton,0,3,male,22.0,1,0,7.25,S,Third,man,True,,no,False
Cherbourg,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,yes,False
Southampton,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,yes,True
Southampton,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,yes,False
Southampton,0,3,male,35.0,0,0,8.05,S,Third,man,True,,no,True


In [38]:
df.reset_index(inplace=True)
df.head()

Unnamed: 0,embark_town,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,alive,alone
0,Southampton,0,3,male,22.0,1,0,7.25,S,Third,man,True,,no,False
1,Cherbourg,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,yes,False
2,Southampton,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,yes,True
3,Southampton,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,yes,False
4,Southampton,0,3,male,35.0,0,0,8.05,S,Third,man,True,,no,True


In [39]:
df.sort_index()

Unnamed: 0,embark_town,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,alive,alone
0,Southampton,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,no,False
1,Cherbourg,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,yes,False
2,Southampton,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,yes,True
3,Southampton,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,yes,False
4,Southampton,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,Southampton,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,no,True
887,Southampton,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,yes,True
888,Southampton,0,3,female,,1,2,23.4500,S,Third,woman,False,,no,False
889,Cherbourg,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,yes,True


In [40]:
df.sort_values(by='pclass', ascending=False)

Unnamed: 0,embark_town,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,alive,alone
0,Southampton,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,no,False
511,Southampton,0,3,male,,0,0,8.0500,S,Third,man,True,,no,True
500,Southampton,0,3,male,17.0,0,0,8.6625,S,Third,man,True,,no,True
501,Queenstown,0,3,female,21.0,0,0,7.7500,Q,Third,woman,False,,no,True
502,Queenstown,0,3,female,,0,0,7.6292,Q,Third,woman,False,,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
102,Southampton,0,1,male,21.0,0,1,77.2875,S,First,man,True,D,no,False
710,Cherbourg,1,1,female,24.0,0,0,49.5042,C,First,woman,False,C,yes,True
711,Southampton,0,1,male,,0,0,26.5500,S,First,man,True,C,no,True
712,Southampton,1,1,male,48.0,1,0,52.0000,S,First,man,True,C,yes,False


## 4. 산술 연산

- 시리즈와 숫자 연산: `Series객체 + 연산자 + 숫자`
- 시리즈와 시리즈 연산: `Series1 + 연산자 + Series2`
- 연산 메소드 사용(시리즈와 시리즈): `add, sub, mul, div`
  -  객체 사이에 공통 인덱스가 없거나 NaN이 포함된 경우 연산 결과는 NaN으로 반환된다. 이런 상황을 피하려면 연산 메소드에 `fill_value` 옵션을 설정하여 적용한다.
- 데이터프레임 숫자 연산: `DataFrame객체 + 연산자 + 숫자`
- 데이터프레임과 데이터프레임 연산: `DataFrame1 + 연산자 + DataFrame2`
  - 각 데이터프레임의 같은 행, 같은 열 위치에 있는 원소끼리 계산한다.
  - 데이터프레임 중에서 어느 한쪽에 원소가 존재하지 않거나 NaN이면 연산 결과는 NaN으로 처리된다.

In [41]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]

In [42]:
print(df)
print('\n')
      
add = df + 10
      
print(add)
print('\n')

sub = add - df

print(sub)

      age     fare
0    22.0   7.2500
1    38.0  71.2833
2    26.0   7.9250
3    35.0  53.1000
4    35.0   8.0500
..    ...      ...
886  27.0  13.0000
887  19.0  30.0000
888   NaN  23.4500
889  26.0  30.0000
890  32.0   7.7500

[891 rows x 2 columns]


      age     fare
0    32.0  17.2500
1    48.0  81.2833
2    36.0  17.9250
3    45.0  63.1000
4    45.0  18.0500
..    ...      ...
886  37.0  23.0000
887  29.0  40.0000
888   NaN  33.4500
889  36.0  40.0000
890  42.0  17.7500

[891 rows x 2 columns]


      age  fare
0    10.0  10.0
1    10.0  10.0
2    10.0  10.0
3    10.0  10.0
4    10.0  10.0
..    ...   ...
886  10.0  10.0
887  10.0  10.0
888   NaN  10.0
889  10.0  10.0
890  10.0  10.0

[891 rows x 2 columns]
