In [94]:
# 판다스의 자료구조 : 시리즈, 데이터프레임
import pandas as pd

In [95]:
# 시리즈 생성
sr = pd.Series({'a':1, 'b':2, 'c':3})
print(sr)

print(type(sr))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


In [96]:
# 시리즈의 인덱스, 값
print(sr.index)
print(sr.values)

Index(['a', 'b', 'c'], dtype='object')
[1 2 3]


In [97]:
# 시리즈를 접근하는 방법 : sr[index], sr[숫자인덱스]
print(sr['a'], sr[0])
print()
print(sr['a':'c'])
print()
print(sr[0:2])

1 1

a    1
b    2
c    3
dtype: int64

a    1
b    2
dtype: int64


In [98]:
# 리스트 또는 튜플을 시리즈로 만들면서 인덱스명 부여
list_data = ['영인', '2000-06-30', '남',True]
sr1 = pd.Series(list_data, index = ['이름','생년월일','성별', '학생여부'])
sr1

이름              영인
생년월일    2000-06-30
성별               남
학생여부          True
dtype: object

In [99]:
sr1[['이름', '생년월일']]

이름              영인
생년월일    2000-06-30
dtype: object

In [100]:
print(sr.dtype)
print(sr1.dtype)
print(type(sr['a']))
print(type(sr1['이름']))

int64
object
<class 'numpy.int64'>
<class 'str'>


In [101]:
# 데이터 프레임 : 시리즈가 여러개 묶여서 됨
# 딕셔너리로 데이터 프레임 생성 -> 키가 컬럼으로 됨
dict_data = {'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]}
df = pd.DataFrame(dict_data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [102]:
print(df.dtypes) # 각 칼럼의 데이터 타입
print(df.index)  # 데이터 프레임의 인덱스 출력
print(df.values) # 각 인덱스의 값 : 2차원 리스트로 출력

a    int64
b    int64
c    int64
dtype: object
RangeIndex(start=0, stop=3, step=1)
[[1 4 7]
 [2 5 8]
 [3 6 9]]


In [103]:
# 2차원 리스트로 인덱스명과 칼럼명을 부여하면서 데이터 프레임 생성

data = [[15,'남','덕명중'],[17,'여','수리중']]
df = pd.DataFrame(data, index = ['준서', '예은'],
                 columns=['나이','성별','학교'])

df

Unnamed: 0,나이,성별,학교
준서,15,남,덕명중
예은,17,여,수리중


In [104]:
print(df.dtypes) # 각 칼럼의 데이터 타입
print()
print(df.index)  # 데이터 프레임의 인덱스 출력
print()
print(df.columns)
print()
print(df.values) # 각 인덱스의 값 : 2차원 리스트로 출력



나이     int64
성별    object
학교    object
dtype: object

Index(['준서', '예은'], dtype='object')

Index(['나이', '성별', '학교'], dtype='object')

[[15 '남' '덕명중']
 [17 '여' '수리중']]


In [105]:
# 인덱스명을 변경 : 객체.index = [인덱스명.....]       -> 기존 정보수정
# 칼럼명을 변경 : 객체.columns = [칼럼명.....]
# 준서, 예은 -> 학생1,학생2
df.index = ['학생1','학생2']
print(df)
print()
df.columns = ['연령','남녀','소속']
print(df)
print()

     나이 성별   학교
학생1  15  남  덕명중
학생2  17  여  수리중

     연령 남녀   소속
학생1  15  남  덕명중
학생2  17  여  수리중



In [106]:
# 인덱스명과 칼럼명을 일부만 수정하고자 할 경우  -> 기존 정보 수정하고싶으면
# object.rename(index={old:new, .....})               맨뒤에 ,inplace = True
# object.rename(columns={old:new, .....})
# 남녀를 성별로, 학생1을 준서로 수정
df.rename(index = {'학생1,':' 준서'}, columns = {'남녀':'성별'})

Unnamed: 0,연령,성별,소속
학생1,15,남,덕명중
학생2,17,여,수리중


In [107]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

In [108]:
# 서준, 우현, 인아로 인덱스 설정하면서 exam_data를 이용하여 df 생성
df1 = pd.DataFrame(exam_data)
print(df1)
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

   수학  영어   음악   체육
0  90  98   85  100
1  80  89   95   90
2  70  95  100   90


Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [109]:
# 행의 자료를 삭제 : 객체.drop(행인덱스 또는 배열, axis = 0)
# 열(칼럼)의 자료를 삭제 : 객체.drop(열인덱스 또는 배열, axis = 1)
# 서준과 우현의 자료를 삭제
print(df.drop(['서준', '우현'], axis = 0))
print()
print(df.drop('수학', axis = 1))

    수학  영어   음악  체육
인아  70  95  100  90

    영어   음악   체육
서준  98   85  100
우현  89   95   90
인아  95  100   90


In [110]:
exam_data = [[ 90, 80, 70], [ 98, 89, 95],
             [ 85, 95, 100], [ 100, 90, 90]]
# exam_data를 데이터 프레임으로 생성
# 인덱스명 추가 서준 준서 인아
# 칼럼명 추가 : 국어 영어 수학 음악
# 수학 칼럼명을 체육으로 수정해서 기존 자료에 반영
# 영어 칼럼자료 삭제 ,기존 자료에 반영하지않음
# 서준 자료 삭제 , 기존 자료에 반영하지않음
df = pd.DataFrame(exam_data, index=['서준', '준서', '인아', '연아'], 
                   columns=['국어', '영어', '수학'])

df.rename(columns={'수학':'체육'}, inplace=True)
print(df)
print()
print(df.drop(['영어'], axis = 1))
print()
print(df.drop(['서준'], axis = 0))
print()
print(df)



     국어  영어   체육
서준   90  80   70
준서   98  89   95
인아   85  95  100
연아  100  90   90

     국어   체육
서준   90   70
준서   98   95
인아   85  100
연아  100   90

     국어  영어   체육
준서   98  89   95
인아   85  95  100
연아  100  90   90

     국어  영어   체육
서준   90  80   70
준서   98  89   95
인아   85  95  100
연아  100  90   90


In [111]:
df_copy = df
df_copy.drop('연아', axis = 0, inplace=True)
print(df_copy)
print()
print(df)

    국어  영어   체육
서준  90  80   70
준서  98  89   95
인아  85  95  100

    국어  영어   체육
서준  90  80   70
준서  98  89   95
인아  85  95  100


In [112]:
df = pd.DataFrame(exam_data, index=['서준', '준서', '인아', '연아'], 
                   columns=['국어', '영어', '수학'])



In [113]:
df_copy = df.copy()
print(df_copy)
df_copy.drop('연아', axis = 0, inplace = True)
print()
print(df_copy)
print()
print(df)

     국어  영어   수학
서준   90  80   70
준서   98  89   95
인아   85  95  100
연아  100  90   90

    국어  영어   수학
서준  90  80   70
준서  98  89   95
인아  85  95  100

     국어  영어   수학
서준   90  80   70
준서   98  89   95
인아   85  95  100
연아  100  90   90


In [114]:
exam_data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}
df = pd.DataFrame(exam_data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [115]:
# 행을 선택 : object.loc[인덱스명]        인덱스명으로 선택,
#             object.iloc[정수형 인덱스]  정수형 인덱스로로 선택
print(df.loc['서준'])
print()
print(df.iloc[0])
print()

# 범위로 선택 : 서준부터 우현의 모든 자료 검색
# object.loc[start:end]        인덱스명으로 선택,             end 포함
# object.iloc[start:end]             정수형 인덱스로로 선택   end 미포함

print(df.loc['서준':'우현'])
print()
print(df.iloc[0:2])
print()

# 서준과 인아의 정보 출력
print(df.loc[['서준','우현']])
print()
print(df.iloc[[0,2]])

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

수학     90
영어     98
음악     85
체육    100
Name: 서준, dtype: int64

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90

    수학  영어  음악   체육
서준  90  98  85  100
우현  80  89  95   90

    수학  영어   음악   체육
서준  90  98   85  100
인아  70  95  100   90


In [116]:
# 열을 선택 : object[칼럼명] 또는 object.칼럼명
print(df.수학)
print()

print(df[['수학', '체육']])

서준    90
우현    80
인아    70
Name: 수학, dtype: int64

    수학   체육
서준  90  100
우현  80   90
인아  70   90


In [117]:
# 원소 선택 : object.loc[행인덱스명,칼럼 인덱스명]
#             object.lioc[행의 정수 인덱스, 칼럼 정수 인덱스]
# 행을슬라이싱 : object.iloc[시작인덱스 : 끝, 인덱스:간격]
# 인아의 수학과 체육점수를 출력
df.loc =['인아, ["수학", 체육]']
df lioc[-1[0,-1]]

SyntaxError: invalid syntax (77074642.py, line 6)

In [118]:
# 새로운 열 추가 : object['새로운 칼럼명'] = 값

df['국어'] = 100

# 행 추가 : object .bject['새로운 칼럼명'] = 값 또는 배경
df.loc['철수'] = [90, 80, 90, 100, 80]

df

Unnamed: 0,수학,영어,음악,체육,국어
서준,90,98,85,100,100
우현,80,89,95,90,100
인아,70,95,100,90,100
철수,90,80,90,100,80


In [123]:
# 서준의 영어 점수를 100으로 수정
df.loc['서준','영어'] = 100
df.iloc[0,1] =100
df
# 서준의 수학 점수와 국어 점수를 77fh tnwjd
df.loc ['우현', ['수학', '국어']] = 77, 88
df

Unnamed: 0,수학,영어,음악,체육,국어
서준,90,100,85,100,100
우현,77,89,95,90,88
인아,70,95,100,90,100
철수,90,80,90,100,80


In [182]:
# 행과 열의 위치 변경 : object.transpose()
df_t = df.T
df_t.transpose()

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,100,100,90
우현,80,80,90,60
인아,70,90,100,70


In [183]:
# 시리즈를 생성 : pandas.series(딕셔너리 또는 리스트)
# 데이터 프레임 : pandas.DataFrame(데이터)
# 데이터 프레임의 인덱스 변경 : object.index = [인덱스명,...]
# 데이터 프레임의 칼럼명 변경 : object.columns = [칼럼명,...]
# 인데스명과 칼럼명을 일부 변경 : object.rename(index = {old:new})
# 인덱스와 칼럼 삭제 : object.drop(인덱스명, axis=0)
#                      object.drop(칼럼명, axis=1)
# 원소 수정 : object.loc[인덱스명, 칼럼명] = 값
# 행추가 : object.loc[새로운 인덱스명] = 값 또는 배열
# 열추가 : object[새로운 열 명] = 값
# 행의 자료 검색 : object.log[행명], loc [start:end, 칼럼의 start:end]
# 열의 자료 검색 : object[열명]
# 인덱스와 칼럼의 위치 변경 : object.transpose(), object.T

In [206]:
exam_data = {'이름':['서준','우현','인아'],
            '수학':[90,80,70],
            '영어':[100,80,90],
            '음악':[100,90,100],
            '체육':[90,60,70]}
df = pd.DataFrame(exam_data)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,100,100,90
1,우현,80,80,90,60
2,인아,70,90,100,70


In [207]:
# 특정 칼럼을 인덱스로 설정: object.set_index(칼럼명)
# 이름 칼럼을 인덱스로 설정
df.set_index('이름', inplace = True)
df

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,100,100,90
우현,80,80,90,60
인아,70,90,100,70


In [197]:
# 인덱스 초기화: object.reset_index()
df.reset_index(inplace=True)
df

Unnamed: 0,이름,수학,영어,음악,체육
0,서준,90,100,100,90
1,우현,80,80,90,60
2,인아,70,90,100,70


In [208]:
# 인덱스를 재배열 : object.reindex(인덱스 리스트)
ndf = df
idx_list = ['서준','철수','우현','인아','나래']
ndf_1 = ndf.reindex(idx_list)
ndf_1

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90.0,100.0,100.0,90.0
철수,,,,
우현,80.0,80.0,90.0,60.0
인아,70.0,90.0,100.0,70.0
나래,,,,


In [209]:
# 인덱스 기준으로 정렬 : object.sort_index()
ndf_1.sort_index()
ndf_1

Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90.0,100.0,100.0,90.0
철수,,,,
우현,80.0,80.0,90.0,60.0
인아,70.0,90.0,100.0,70.0
나래,,,,


In [212]:
# 칼럼 값을 기준으로 정렬 : object.sort_values(by = 칼럼,ascending=False)
print(ndf.sort_values(by='수학'))
ndf.sort_values(by=['음악','수학'], ascending = False)

    수학   영어   음악  체육
이름                  
인아  70   90  100  70
우현  80   80   90  60
서준  90  100  100  90


Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
서준,90,100,100,90
인아,70,90,100,70
우현,80,80,90,60


In [214]:
# df.set_index(), df.reset_index(), df.reindex(인덱스 리스트)
# df.sort_index(), df.sort_values(by=[칼럼,,,],ascending = False)

## part1 4.산술연산

In [220]:
# 시리즈 연산
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
print(student1)

# 각 점수를 100으로 나눈 값을 출력
print(student1/100)

국어    100
영어     80
수학     90
dtype: int64
국어    1.0
영어    0.8
수학    0.9
dtype: float64


In [229]:
# 시리즈 vs 시리즈 연산 : 시리즈 연산자(+ - * /) 시리즈
student1 = pd.Series({'국어':100, '영어':80, '수학':90})
student2 = pd.Series({'국어':90, '영어':80, '수학':100})

print(student1+student2)

국어    190
영어    160
수학    190
dtype: int64


In [235]:
add = student1+student2
sub = student1-student2
mul = student1*student2
div = student1/student2

df = pd.DataFrame([add, sub, mul, div], index=['+','-','*','/'])
df

Unnamed: 0,국어,영어,수학
+,190.0,160.0,190.0
-,10.0,0.0,-10.0
*,9000.0,6400.0,9000.0
/,1.111111,1.0,0.9


In [239]:
# 연산식에 Nan이 존재하면 연산의 결과는 Nan
import numpy as np

st1 = pd.Series({'국어':np.nan, '영어':80, '수학':100})
st2 = pd.Series({'국어':100, '수학':100})

In [241]:
add = st1+st2
sub = st1-st2
mul = st1*st2
div = st1/st2

df = pd.DataFrame([add, sub, mul, div], index=['+','-','*','/'])
df

Unnamed: 0,국어,수학,영어
+,,200.0,
-,,0.0,
*,,10000.0,
/,,1.0,


In [259]:
# 데이터 프레임 연산
# 데이터프레임 연산자(+ - * /) 숫자
# seaborn에서 제공하는 데이터셋을 로드
import seaborn as sns
# 데이터셋 목록 불러오기
# sns.get_dataset_names()
# titanic 데이터 셋을 불러움 : sns.load_dataset('titanic')
titanic = sns.load_dataset('titanic')
titanic

# titanic에서 age와 fare 칼럼의 정보만 가져와서 df에 저장
# df = titanic[['age','fare']] # 칼럼의 정보 추출
df = titanic.loc[: ,['age','fare']]
# df = titanic.loc[100:200,['age','fare']]

# df.head() : 처음부터 5개만 -> df.head(5)
df.head(5)
# df.tail()     # 뒤에서부터

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [262]:
add_df = df + 10
add_df

Unnamed: 0,age,fare
0,32.0,17.2500
1,48.0,81.2833
2,36.0,17.9250
3,45.0,63.1000
4,45.0,18.0500
...,...,...
886,37.0,23.0000
887,29.0,40.0000
888,,33.4500
889,36.0,40.0000


In [268]:
sr_age = titanic.loc[ : ,'age']
type(sr_age)   # 시리즈
(sr_age + 100).head()

0    122.0
1    138.0
2    126.0
3    135.0
4    135.0
Name: age, dtype: float64

In [271]:
df_mpg = sns.load_dataset('mpg')
df_mpg.info()
# mpg 데이터셋을 로드해서
# 1. mpg, weight 칼럼을 추출해서 데이터 프레임으로 생성 한 후
# 2. 각 원소에 100을 더한 값을 출력
# 3. 데이터 프레임을 처음 10개의 정보만 출력
# 4. 처음부터 100개의 행만 추출하여 mpg_sample 데이터 프레임 생성

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 398 entries, 0 to 397
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   mpg           398 non-null    float64
 1   cylinders     398 non-null    int64  
 2   displacement  398 non-null    float64
 3   horsepower    392 non-null    float64
 4   weight        398 non-null    int64  
 5   acceleration  398 non-null    float64
 6   model_year    398 non-null    int64  
 7   origin        398 non-null    object 
 8   name          398 non-null    object 
dtypes: float64(4), int64(3), object(2)
memory usage: 28.1+ KB


In [282]:
df_mpg = df_mpg['mpg', 'weight']
# df_mpg_100 = df_mpg.loc[ :100, ['mpg', 'weight']]
# # 2. 각 원소에 100을 더한 값을 출력
# add_df_mpg = df_mpg + 100
# add_df_mpg
# # 3. 데이터 프레임을 처음 10개의 정보만 출력

KeyError: ('mpg', 'weight')