# Series 
 - Series는 데이터가 순차적으로 나열된 1차원 배열의 형태를 의미 

In [1]:
import pandas as pd 

## Dictionary를 Series로 변환 

In [2]:
dict_data = {'a' : 1, 'b' : 2, 'c' : 3}

In [3]:
sr = pd.Series(dict_data)
sr

a    1
b    2
c    3
dtype: int64

# List를 Series로 변환 

In [4]:
list_data = ['2021-01-02', 3.14,'abc',100,True]
sr = pd.Series(list_data)
sr

0    2021-01-02
1          3.14
2           abc
3           100
4          True
dtype: object

In [5]:
# 인덱스 배열은 변수 idx, 데이터 값 배열은 변수 val
idx = sr.index
val = sr.values
print(idx)
print(val)

RangeIndex(start=0, stop=5, step=1)
['2021-01-02' 3.14 'abc' 100 True]


# Tuple을 Series로 변환 

In [6]:
tup_data = ('영인','2021-01-01','여', True)

In [8]:
sr = pd.Series(tup_data, index=['이름', '생년월일','성별','학생여부'])
sr

이름              영인
생년월일    2021-01-01
성별               여
학생여부          True
dtype: object

In [12]:
# 여러개 선택 
print(sr[[1,2]])
print(sr['생년월일':'성별'])

생년월일    2021-01-01
성별               여
dtype: object
생년월일    2021-01-01
성별               여
dtype: object


# DataFrame 
 - 2차원 배열 
 - 행과 열로 구성 

In [15]:
###Dictionary를 이용한 DataFrame 생성 
dict_data = {'c0':[1,2,3],
             'c1':[4,5,6],
             'c2':[7,8,9],
             'c3':[11,12,13],
            }
dict_data

{'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [11, 12, 13]}

In [16]:
df = pd.DataFrame(dict_data)
df

Unnamed: 0,c0,c1,c2,c3
0,1,4,7,11
1,2,5,8,12
2,3,6,9,13


In [17]:
# 자료형 확인 
type(df)

pandas.core.frame.DataFrame

In [18]:
stu_data = {'나이':[15,17],
            '성별': ['남','여'],
            '학교': ['덕영중','수리중']
           }
stu_data


{'나이': [15, 17], '성별': ['남', '여'], '학교': ['덕영중', '수리중']}

In [22]:
# 컬럼이름은 columns
df = pd.DataFrame(stu_data, index=['준서', '예은'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


#행과 열 이름 변경하기 

In [24]:
# 행과 열 이름 확인 
print(df)
print(df.index)
print(df.columns)

    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중
Index(['준서', '예은'], dtype='object')
Index(['나이', '성별', '학교'], dtype='object')


In [25]:
# 행과 열 이름 변경 
df.index = ['학생1','학생2']
df.columns = ['연령', '남녀','학교']
df

Unnamed: 0,연령,남녀,학교
학생1,15,남,덕영중
학생2,17,여,수리중


In [26]:
stu_data = {'나이':[15,17],
            '성별': ['남','여'],
            '학교': ['덕영중','수리중']
           }
stu_data
df = pd.DataFrame(stu_data, index=['준서', '예은'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [27]:
# 열 이름 중 나이를 연령으로 학교를 소속 변경 
# 변경 후, inplace로 저장 해야된다.
df.rename(columns={'나이':'연령', '학교':'소속'}, inplace=True)
df

Unnamed: 0,연령,성별,소속
준서,15,남,덕영중
예은,17,여,수리중


In [28]:
# 행 이름 변경: 준서 -> 학생1
df.rename(index={'준서' : '학생1'}, inplace = True)
df

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
예은,17,여,수리중


In [29]:
# copy 복제, drop 다중 삭제 시, axis = 0 default 값 

In [30]:
# 열 삭제 
df4 = df.copy()
df4

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
예은,17,여,수리중


In [31]:
# axis 열 번호 
df4.drop('연령', axis=1, inplace=True)
df4

Unnamed: 0,성별,소속
학생1,남,덕영중
예은,여,수리중


In [32]:
# 열 삭제
df5 = df.copy()
df5

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
예은,17,여,수리중


In [34]:
df5.drop(['연령','성별'], axis = 1, inplace =True)
df5

Unnamed: 0,소속
학생1,덕영중
예은,수리중


### 행 선택
 - index 이름을 기준으로 행을 선택할 경우 loc 
 - 정수형 위치 index를 사용할 경우 iloc 

In [37]:
# index가 서준 인 행을 선택 
print(df.loc['예은'])
print(df.iloc[0])

연령     17
성별      여
소속    수리중
Name: 예은, dtype: object
연령     15
성별      남
소속    덕영중
Name: 학생1, dtype: object


In [40]:
print(df.iloc[[0,1]])

     연령 성별   소속
학생1  15  남  덕영중
예은   17  여  수리중


In [41]:
# 행 인덱스의 범위를 지정하여 행 선택 
print(df.iloc[0:2])

     연령 성별   소속
학생1  15  남  덕영중
예은   17  여  수리중


## 열 선택 

In [43]:
# 수학 점수 데이터만 선택하기 
df['연령']

학생1    15
예은     17
Name: 연령, dtype: int64

In [44]:
df.연령

학생1    15
예은     17
Name: 연령, dtype: int64

In [45]:
df[['연령','성별']]

Unnamed: 0,연령,성별
학생1,15,남
예은,17,여


### 범위 Slicing 활용 
dataFrame.iloc[시작index:끝index:증가치]

In [52]:
df.iloc[:2]

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
예은,17,여,수리중


In [53]:
df.iloc[::-1]

Unnamed: 0,연령,성별,소속
예은,17,여,수리중
학생1,15,남,덕영중


### 행과 열을 이용한 데이터 선택

In [55]:
df

Unnamed: 0,연령,성별,소속
학생1,15,남,덕영중
예은,17,여,수리중


In [60]:
# index명을 이름이라고 지정 
df.set_index('연령', inplace=True)

KeyError: "None of ['연령'] are in the columns"

In [64]:
stu_data = {
            '이름':['준서','예은'],
            '나이':[15,17],
            '성별': ['남','여'],
            '학교': ['덕영중','수리중']
           }
stu_data
df = pd.DataFrame(stu_data)
df

Unnamed: 0,이름,나이,성별,학교
0,준서,15,남,덕영중
1,예은,17,여,수리중


In [65]:
# index명을 이름이라고 지정 
df.set_index('이름', inplace=True)

In [66]:
df

Unnamed: 0_level_0,나이,성별,학교
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
준서,15,남,덕영중
예은,17,여,수리중


In [67]:
#준서의 학교
print(df.loc['준서','학교'])

덕영중


In [68]:
print(df.iloc[0,2])

덕영중


In [73]:
# 준서의 성별과 학교
print(df.iloc[0,[1,2]])
print(df.loc['준서',['성별','학교']])

성별      남
학교    덕영중
Name: 준서, dtype: object
성별      남
학교    덕영중
Name: 준서, dtype: object


# 열 추가 

In [74]:
stu_data = {'나이':[15,17],
            '성별': ['남','여'],
            '학교': ['덕영중','수리중']
           }
stu_data
df = pd.DataFrame(stu_data, index=['준서', '예은'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [78]:
df['지역'] = '서울'
df['성적'] = [75,80]
df

Unnamed: 0,나이,성별,학교,지역,성적
준서,15,남,덕영중,서울,75
예은,17,여,수리중,서울,80


#행 추가

In [79]:
stu_data = {'나이':[15,17],
            '성별': ['남','여'],
            '학교': ['덕영중','수리중']
           }
stu_data
df = pd.DataFrame(stu_data, index=['준서', '예은'])
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중


In [83]:
df.loc[3] = 0
df


Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중
3,0,0,0


In [84]:
# 기존 행을 복사 -> 새로운 행추가 
df.loc[4] = df.loc[3]
df

Unnamed: 0,나이,성별,학교
준서,15,남,덕영중
예은,17,여,수리중
3,0,0,0
4,0,0,0


# 데이터 값 변경 

In [85]:
# 준서의 나이를 변경 (18)
df.loc['준서','나이'] = 18
df


Unnamed: 0,나이,성별,학교
준서,18,남,덕영중
예은,17,여,수리중
3,0,0,0
4,0,0,0


In [86]:
df.loc['준서',['나이','학교']] = [15,'기안중']
df

Unnamed: 0,나이,성별,학교
준서,15,남,기안중
예은,17,여,수리중
3,0,0,0
4,0,0,0


In [91]:
### 행과 열의 위치를 바꾸기 
df.transpose()

Unnamed: 0,준서,예은,3,4
나이,15,17,0,0
성별,남,여,0,0
학교,기안중,수리중,0,0


In [90]:
df.T

Unnamed: 0,준서,예은,3,4
나이,15,17,0,0
성별,남,여,0,0
학교,기안중,수리중,0,0


In [93]:
ndf = {'c0':[1,2,3],
             'c1':[4,5,6],
             'c2':[7,8,9],
             'c3':[11,12,13],
            }
ndf

{'c0': [1, 2, 3], 'c1': [4, 5, 6], 'c2': [7, 8, 9], 'c3': [11, 12, 13]}

In [95]:
# reindex로 발생한 NaN을 0으로 바꾸기 
new_index =['r0','r1','r2','r3']
ndf = df.reindex(new_index, fill_value=0)
ndf

Unnamed: 0,나이,성별,학교
r0,0,0,0
r1,0,0,0
r2,0,0,0
r3,0,0,0


In [96]:
# 행 Index초기화 
ndf = ndf.reset_index()
ndf

Unnamed: 0,index,나이,성별,학교
0,r0,0,0,0
1,r1,0,0,0
2,r2,0,0,0
3,r3,0,0,0


# 행 인덱스 기준으로 데이터 프레임 정렬 

In [98]:
ndf

Unnamed: 0,index,나이,성별,학교
0,r0,0,0,0
1,r1,0,0,0
2,r2,0,0,0
3,r3,0,0,0


In [100]:
# 내림차순으로 행 인덱스 정렬 
ndf.sort_index(ascending=False)

Unnamed: 0,index,나이,성별,학교
3,r3,0,0,0
2,r2,0,0,0
1,r1,0,0,0
0,r0,0,0,0


In [103]:
# 특정 값 기준으로 정렬 
ndf.sort_values(by='index', ascending=False)

Unnamed: 0,index,나이,성별,학교
3,r3,0,0,0
2,r2,0,0,0
1,r1,0,0,0
0,r0,0,0,0


# 산술연산 

## Series의 연산

In [104]:
student = pd.Series({'국어':100, '영어':80, '수학':90})
student

국어    100
영어     80
수학     90
dtype: int64

In [105]:
# 학생의 과목별 점수를 200으로 나누기 
percentage = student / 100
percentage

국어    1.0
영어    0.8
수학    0.9
dtype: float64

In [106]:
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'국어':80, '영어':30, '수학':40})
student1 + student2

국어    180
영어    110
수학    130
dtype: int64

index를 확인하여 동일한 index면 사용가능 

In [107]:
# 두 학생의 과목별 점수로 사칙연산 수행 
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2


In [108]:
result = pd.DataFrame([addition,subtraction,multiplication,division],
                     index = ['덧셈','뺄셈','곱셈','나눗셈'])
result

Unnamed: 0,국어,영어,수학
덧셈,180.0,110.0,130.0
뺄셈,20.0,50.0,50.0
곱셈,8000.0,2400.0,3600.0
나눗셈,1.25,2.666667,2.25


### NaN값이 있는 Series 연산 

In [110]:
import numpy as np

In [112]:
student1 = pd.Series({'국어':np.nan, '영어':80, '수학':100})
student2 = pd.Series({'영어':80, '수학':30})
print(student1)
print(student2)

국어      NaN
영어     80.0
수학    100.0
dtype: float64
영어    80
수학    30
dtype: int64


In [113]:
addition = student1 + student2
subtraction = student1 - student2
multiplication = student1 * student2
division = student1 / student2
print(addition)
print(subtraction)
print(multiplication)
print(division)

국어      NaN
수학    130.0
영어    160.0
dtype: float64
국어     NaN
수학    70.0
영어     0.0
dtype: float64
국어       NaN
수학    3000.0
영어    6400.0
dtype: float64
국어         NaN
수학    3.333333
영어    1.000000
dtype: float64


In [114]:
result = pd.DataFrame([addition,subtraction,multiplication,division],
                     index = ['덧셈','뺄셈','곱셈','나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,,130.0,160.0
뺄셈,,70.0,0.0
곱셈,,3000.0,6400.0
나눗셈,,3.333333,1.0


> NaN을 포함한 연산결과는 NaN으로 처리, 대응하는 열이 없는 연산도 NaN으로 처리 

In [118]:
### NaN 값을 0으로 대체 
sr_add = student2.add(student1, fill_value = 0)
sr_add

국어      NaN
수학    130.0
영어    160.0
dtype: float64

# DataFrame 연산 

In [119]:
# seaborn package에 있는 titanic data 불러오기 
import seaborn as sns

In [120]:
titanic = sns.load_dataset('titanic')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [129]:
df=titanic[['age','fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [137]:
# 데이터 프레임에 숫자 10 더하기 
addition = df.loc[:]
addition.loc[:] = 10
addition

Unnamed: 0,age,fare
0,10.0,10.0
1,10.0,10.0
2,10.0,10.0
3,10.0,10.0
4,10.0,10.0
...,...,...
886,10.0,10.0
887,10.0,10.0
888,10.0,10.0
889,10.0,10.0


In [None]:
subtraction 