In [1]:
# 이론 
# pandas는 데이터 자료구조에 시리즈와 데이터 프레임을 사용
# 시리즈(series) : 1차원
# 데이터 프레임(Dataframe): 2차원

### 시리즈(Series)

In [2]:
# python dictionary와 대응하는 방법

import pandas as pd

a_series = pd.Series({'a':10, 'b':10, 'c':30, 'd':40})
print(a_series)
print(type(a_series))

a    10
b    10
c    30
d    40
dtype: int64
<class 'pandas.core.series.Series'>


In [3]:
# 시리즈의 데이터 선택 : 시리즈명[] -> 인덱스명 또는 인덱스 첨자
print(a_series.index, a_series.values)
print(a_series.value_counts()) # 값들의 count를 통계
print(a_series['a'], a_series[0]) # 키나 인덱스
print(a_series[[0,1]]) # 10 20 여러개의 값을 검색 -> 리스트에 값을 나열
print(a_series[0:3]) # index 값의 범위로 value를 확인
print(a_series['a':'c']) # key 범위도 가능

Index(['a', 'b', 'c', 'd'], dtype='object') [10 10 30 40]
10    2
30    1
40    1
dtype: int64
10 10
a    10
b    10
dtype: int64
a    10
b    10
c    30
dtype: int64
a    10
b    10
c    30
dtype: int64


In [4]:
# index 파라미터를 주지 않으면 0, 1, 2 숫자로 index가 자동 부여된다.
b_series = pd.Series([10, 'test', True, 'data'])
print(b_series)

# index를 수동으로 줄 수 있다.
b_series = pd.Series([10, 'test', True, 'data'], index=['a', 'b', 'c', 'd'])
print(b_series)

# index를 도중에 변경 또는 추가 할 수 있다.
b_series = pd.Series([10, 'test', True, 'data'])
b_series.index = ['aa', 'bb', 'cc', 'dd']
print(b_series)

0      10
1    test
2    True
3    data
dtype: object
a      10
b    test
c    True
d    data
dtype: object
aa      10
bb    test
cc    True
dd    data
dtype: object


### 데이터 프레임
#### 2차원 배열, 2차원 벡터, R의 데이터 프레임에서 유래
#### row, col 형식으로 존재

In [5]:
# 데이터 프레임: 여러 개의 시리즈가 모여서 만들어짐
# 딕셔너리의 키는 컬럼명(시리즈 이름)이 됨
# pandas.DataFrame(딕셔너리, [index = 행이름], [columns = 열이름])
dict_data = {'c0':[1,2,3], 'c1':[4,5,6], 'c2':[7,8,9], 'c3':[10, 11,12]}
df = pd.DataFrame(dict_data) # 데이터 프레임 생성
print(df)
print(df.columns, df.index)   # 컬럼명, 인덱스명 출력
df.index = ['a', 'b', 'c'] # 새로운 인덱스명 부여
print(df.columns, df.index)
print(df)
df.columns = ['a1', 'a2', 'a3', 'a4'] # 새로운 컬럼명 부여
print(df.columns, df.index)
df

   c0  c1  c2  c3
0   1   4   7  10
1   2   5   8  11
2   3   6   9  12
Index(['c0', 'c1', 'c2', 'c3'], dtype='object') RangeIndex(start=0, stop=3, step=1)
Index(['c0', 'c1', 'c2', 'c3'], dtype='object') Index(['a', 'b', 'c'], dtype='object')
   c0  c1  c2  c3
a   1   4   7  10
b   2   5   8  11
c   3   6   9  12
Index(['a1', 'a2', 'a3', 'a4'], dtype='object') Index(['a', 'b', 'c'], dtype='object')


Unnamed: 0,a1,a2,a3,a4
a,1,4,7,10
b,2,5,8,11
c,3,6,9,12


In [6]:
# row(index) 기준으로 값 넣기
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], 
                  index=['a', 'b', 'c'], 
                  columns=['c1', 'c2', 'c3'])
df
                                                                            

Unnamed: 0,c1,c2,c3
a,1,2,3
b,4,5,6
c,7,8,9


In [7]:
# 행 인덱스 / 열 이름 지정
df = pd.DataFrame([[15, '남', '덕영중'], [17, '여', '수리중']],
                   index=['준서', '예은'], columns=['나이', '성별', '학교'])
print(df.index, df.columns)

Index(['준서', '예은'], dtype='object') Index(['나이', '성별', '학교'], dtype='object')


In [8]:
# 행 이름 변경 : df.index = [인덱스명, ...]
# 컬럼명 변경 : df.columns = [컬럼명, ..]
# 행 인덱스의 일부 변경 df.rename(index = {기존인덱스명:새로운인덱스명, ..})
# 컬럼 인덱스의 일부 변경 df.rename(columns = {기존컬럼명:새로운인덱스명, ..})
# 준서의 이름을 학생1로 변경

df_fix = df.rename(index={'준서':'학생1'}) # default는 df의 데이터가 변경되지 않음 inplace=false 로 설정
print(df_fix)
print(df)

print()

df_fix = df.rename(index={'준서':'학생1'}, inplace=False) #inplace=false df  데이터 변경하지 않음
print(df_fix)
print(df)

print()

df_fix = df.rename(index={'준서':'학생1'}, inplace=True) #inplace=True 기존의  데이터 변경
print('df_fix: ', df_fix)
print(df)




     나이 성별   학교
학생1  15  남  덕영중
예은   17  여  수리중
    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

     나이 성별   학교
학생1  15  남  덕영중
예은   17  여  수리중
    나이 성별   학교
준서  15  남  덕영중
예은  17  여  수리중

df_fix:  None
     나이 성별   학교
학생1  15  남  덕영중
예은   17  여  수리중


In [9]:
import pandas as pd
# 데이터 프레임 삭제
exam_data = {'수학':[90, 80, 70], '영어':[90, 80, 70],
            '음악':[90, 80, 70], '체육':[90, 80, 70]}
df = pd.DataFrame(exam_data)
print(df)
print()

# 데이터 프레임 인덱스 명 추가
df.index = ['서준', '우현', '인아']
print(df)

print()

df2 = df.copy()  # df 2 = df -> 주소만 복사되어 기존 데이터를 공유


# '우현' 자료를 삭제하지 못함(axis=0 행인덱스를 삭제)
df2.drop('우현', axis=0)
print(df2)

print()
df2.drop('수학', axis=1)
print(df2)

print()

# '우현' 자료를 삭제(axis=0 행인덱스를 삭제)
df2.drop('우현', axis=0, inplace=True)
print(df2)

print()
df2.drop('수학', axis=1, inplace=True)
print(df2)


   수학  영어  음악  체육
0  90  90  90  90
1  80  80  80  80
2  70  70  70  70

    수학  영어  음악  체육
서준  90  90  90  90
우현  80  80  80  80
인아  70  70  70  70

    수학  영어  음악  체육
서준  90  90  90  90
우현  80  80  80  80
인아  70  70  70  70

    수학  영어  음악  체육
서준  90  90  90  90
우현  80  80  80  80
인아  70  70  70  70

    수학  영어  음악  체육
서준  90  90  90  90
인아  70  70  70  70

    영어  음악  체육
서준  90  90  90
인아  70  70  70


In [10]:
exam_data = {'수학':[90, 80, 70], '영어':[98, 89, 100],
            '음악':[86, 97, 99], '체육':[100, 90, 90]}
df = pd.DataFrame(exam_data)
df2 = df.copy()

# df2의 인덱스는 '서준', '우현', '민아'
df2.index = ['서준', '우현', '민아']
print(df2)

    수학   영어  음악   체육
서준  90   98  86  100
우현  80   89  97   90
민아  70  100  99   90


In [11]:
# 행 선택 -> df.loc[인덱스명], dfiloc[인덱스첨자]
print(df2.loc['서준'])
print()
print(df2.iloc[0])
print()
print(df2.loc[['서준', '우현']])
print()
print(df2.loc['서준':'우현']) # 우현 포함
print()
print(df2.iloc[[0,1]])
print()
print(df2.iloc[0:1])  # 1은 포함되지 않음
print()
# 컬럼명 추가
print(df['수학'])
print()

# 국어 점수를 100, 80, 90을 df2에 추가
df2['국어'] =[100, 80, 90]
print(df2)

수학     90
영어     98
음악     86
체육    100
Name: 서준, dtype: int64

수학     90
영어     98
음악     86
체육    100
Name: 서준, dtype: int64

    수학  영어  음악   체육
서준  90  98  86  100
우현  80  89  97   90

    수학  영어  음악   체육
서준  90  98  86  100
우현  80  89  97   90

    수학  영어  음악   체육
서준  90  98  86  100
우현  80  89  97   90

    수학  영어  음악   체육
서준  90  98  86  100

0    90
1    80
2    70
Name: 수학, dtype: int64

    수학   영어  음악   체육   국어
서준  90   98  86  100  100
우현  80   89  97   90   80
민아  70  100  99   90   90


In [12]:
df2
# 음악과 국어 점수 출력
# 서준과 우현의 점수 출력
# 수학, 영어, 음악 점수 출력
print(df2[['음악', '국어']])
print()
print(df2.loc[['서준', '우현']])
print()
print(df2[['수학', '영어', '음악']]) # 새로운 버전에서는 [['수학'':음악']] 컬럼 범위가 사라짐

    음악   국어
서준  86  100
우현  97   80
민아  99   90

    수학  영어  음악   체육   국어
서준  90  98  86  100  100
우현  80  89  97   90   80

    수학   영어  음악
서준  90   98  86
우현  80   89  97
민아  70  100  99


In [13]:
print(df2)
# 새로운 행 추가: df.loc[인덱스명] = [값, ...] 철수 -> 100, 80, 98, 77, 90
df2.loc['철수'] = [100, 80, 98, 77, 90]
# 각 원소 접근 df.loc[인덱스명, 컬럼명], df.loc[인덱스명][컬럼명]
# df.iloc[인덱스첨자, 컬럼위치 인덱스], df.iloc[인덱스첨자, 컬럼위치]
# 서준의 영어 점수 검색
print()
print(df2.loc['서준', '영어'])
print()
print(df2.iloc[0,1], df2.iloc[0][1])
print()
# 서준의 영어 점수를 100dmfh tnwjd
df2.loc['서준', '영어'] = 100
print(df2)
print()

# 서준의 영어 점수 검색
print(df2.loc[['서준','우현'], '영어'])
print()

df2.loc['서준':'민아', ['수학', '영어']]


    수학   영어  음악   체육   국어
서준  90   98  86  100  100
우현  80   89  97   90   80
민아  70  100  99   90   90

98

98 98

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
우현   80   89  97   90   80
민아   70  100  99   90   90
철수  100   80  98   77   90

서준    100
우현     89
Name: 영어, dtype: int64



Unnamed: 0,수학,영어
서준,90,100
우현,80,89
민아,70,100


In [26]:
df3 = df.copy()
# 이름을 추가 컬럼명 이름 : '우현', '서준', '민아'

df3['이름'] = ['우현', '서준', '민아']
print(df3); print()

# 특정 컬럼을 인덱스로 설정
# df.set_index(컬럼명, inplace=True)
df3.set_index('이름', inplace=True)
print(df3); print()

# 인덱스 초기화
df3.reset_index(inplace=True)
print(df3); print()

# 행 인덱스 재배열
df3.set_index('이름', inplace=True)
df3.index

df4 = df3.reindex(['철수','우현', '서준', '민아'])
df4

   수학   영어  음악   체육  이름
0  90   98  86  100  우현
1  80   89  97   90  서준
2  70  100  99   90  민아

    수학   영어  음악   체육
이름                  
우현  90   98  86  100
서준  80   89  97   90
민아  70  100  99   90

   이름  수학   영어  음악   체육
0  우현  90   98  86  100
1  서준  80   89  97   90
2  민아  70  100  99   90



Unnamed: 0_level_0,수학,영어,음악,체육
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
철수,,,,
우현,90.0,98.0,86.0,100.0
서준,80.0,89.0,97.0,90.0
민아,70.0,100.0,99.0,90.0


In [52]:
# 데이터 프레임 : 2차원 배열 (시리즈가 열로 묶인 배열)
# index 접근 방법 : df.loc[인덱스명], 값이 여러개[, ..]
# 컬럼 접근 방법 : df[컬럼명]
# 원소 접근 방법 : df.loc[인덱스명, 컬럼명], 
#                  df.iloc[인덱스첨자, 컬럼 첨자]
# 인덱스 생성 : df.index = [인덱스명, ...]
# 특정 컬럼을 인덱스로 : df.set_index(컬럼명, inplace=True)
# 인덱스 초기화 : df.reset_index(inplace=True)
# 인덱스 재배열 : df.reindex([인덱스명, ...])
# 인덱스 삭제 : df.drop(index=[인덱스명])
# 컬럼 삭제 : df.drop(icolumns=[인덱스명], axis=1)
print(df2)
df2.iloc[0:2, 1:3] # rows 0, 1 : columns 1, 2 범위를 선택
print()
print(df2.iloc[:2, :]); print()
print(df2.iloc[:, :]); print()

# index를 기준으로 정렬 : df.sort_index()
df2.sort_index(); 
print(df2); print()

# Value를 기준으로 정렬 df2.sort_value(by=컬럼명, ascending=False)
df3 = df2.sort_values(by=['체육', '국어'], ascending=False)
print(df3); print()

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
우현   80   89  97   90   80
민아   70  100  99   90   90
철수  100   80  98   77   90

    수학   영어  음악   체육   국어
서준  90  100  86  100  100
우현  80   89  97   90   80

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
우현   80   89  97   90   80
민아   70  100  99   90   90
철수  100   80  98   77   90

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
우현   80   89  97   90   80
민아   70  100  99   90   90
철수  100   80  98   77   90

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
민아   70  100  99   90   90
우현   80   89  97   90   80
철수  100   80  98   77   90



In [60]:
# 인덱스를 lambda로 사용
df = pd.DataFrame({"a": [1,2,3,4]}, index=['C', 'A', 'b', 'd'])
df.sort_index(key=lambda x: x.str.lower(), inplace=True)
print(type(df))
print(type(df.a))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


In [63]:
# 데이터 피봇
df_t = df2.transpose()
print(df_t); print()
print(df2)

     서준  우현   민아   철수
수학   90  80   70  100
영어  100  89  100   80
음악   86  97   99   98
체육  100  90   90   77
국어  100  80   90   90

     수학   영어  음악   체육   국어
서준   90  100  86  100  100
우현   80   89  97   90   80
민아   70  100  99   90   90
철수  100   80  98   77   90


In [66]:
# 새로운 rows 추가하고, NaN 값으로 추가하기
df2.reindex(['서준', '우현', '민아', '철수', 'a'])

Unnamed: 0,수학,영어,음악,체육,국어
서준,90.0,100.0,86.0,100.0,100.0
우현,80.0,89.0,97.0,90.0,80.0
민아,70.0,100.0,99.0,90.0,90.0
철수,100.0,80.0,98.0,77.0,90.0
a,,,,,


In [71]:
# 새로운 rows 추가하고, NaN 값으로 추가하기
df2.reindex(['서준', '우현', '민아', '철수', 'a'], fill_value=0)

Unnamed: 0,수학,영어,음악,체육,국어
서준,90,100,86,100,100
우현,80,89,97,90,80
민아,70,100,99,90,90
철수,100,80,98,77,90
a,0,0,0,0,0


In [77]:
import numpy as np
np.nan + 0 # 계산식에 nan이 있으면 결과는 nan

nan

In [86]:
# 시리즈 연산 : 시리즈 + 사칙연산 + 숫자

sr = pd.Series({'국어':100, '수학':90, '영어':90})
print(sr); print()

# 각 점수에 100을 더한 값을 출력
print(sr+100); print()

# series를 datafram에 추가
df = pd.DataFrame([sr, sr+100])
print(df); print()


# 정렬이 달라도, 없는 column이 있어도 매칭되는 column끼리 계산은 된다.
sr1 = pd.Series({'국어':100, '수학':90, '영어':90, '체육': 90})
sr2 = pd.Series({'영어':100, '국어':90, '수학':90, '과학':100})
print(sr1+sr2); print()
print(sr1.add(sr2, fill_value=0)); print() # fill_value에 값을 넣어 NaN 해결

국어    100
수학     90
영어     90
dtype: int64

국어    200
수학    190
영어    190
dtype: int64

    국어   수학   영어
0  100   90   90
1  200  190  190

과학      NaN
국어    190.0
수학    180.0
영어    190.0
체육      NaN
dtype: float64

과학    100.0
국어    190.0
수학    180.0
영어    190.0
체육     90.0
dtype: float64



In [88]:
# 데이터프레임 연산
import seaborn as sns

df = sns.load_dataset('titanic')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [91]:
df = df.loc[:, ['age', 'fare']]
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [108]:
df1 = df.head()
df2 = df.tail()
print(df1);print()
print(df2)

df1.reset_index(inplace=True)
df2.reset_index(inplace=True)
print(df1), print()
print(df2)

df1_a = df1.drop(columns='index', axis=1)
print(df1_a)
df2_a = df2.drop(columns='index', axis=2)
print(df2_a)

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500

      age   fare
886  27.0  13.00
887  19.0  30.00
888   NaN  23.45
889  26.0  30.00
890  32.0   7.75
   index   age     fare
0      0  22.0   7.2500
1      1  38.0  71.2833
2      2  26.0   7.9250
3      3  35.0  53.1000
4      4  35.0   8.0500

   index   age   fare
0    886  27.0  13.00
1    887  19.0  30.00
2    888   NaN  23.45
3    889  26.0  30.00
4    890  32.0   7.75
    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
    age   fare
0  27.0  13.00
1  19.0  30.00
2   NaN  23.45
3  26.0  30.00
4  32.0   7.75


In [109]:
#seaborn 에서 제공하는 데이터셋 확인 (내장된 샘플 데이터)
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'exercise',
 'flights',
 'fmri',
 'gammas',
 'geyser',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'taxis',
 'tips',
 'titanic']

In [111]:
# seaborn에서 제공하는 데이터 셋을 불러와서 작업
# sns.load_dataset(데이터셋명)
df = sns.load_dataset('iris')
df.head()
df.info() # 데이터 프레임의 구조 확인, 각 컬럼의 자료 타입, 데이터의 총 갯수

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [114]:
df.tail()
print(df.describe()) # 데이터 프레임에 관한 간단한 통계 정보

       sepal_length  sepal_width  petal_length  petal_width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000


In [131]:
# mpg 데이터 셋을 불러와서 처음 5개의 데이터를 확인
# mpg의 컬럼명 확인
# mpg에서 숫자인 컬럼만 10번째 부터 100번째 가지의 자료만 추출

df = sns.load_dataset('mpg')
print(df.head)
print(df.columns)
print(df.info())
print(df.describe())
print(df.head())

# 방법 1
#df = df.loc[:, ['cylinders', 'weight', 'model_year']]
# df.iloc[10:101]

# 방법 2
df = df.loc[10:101, ['cylinders', 'weight', 'model_year']]
print(df)

<bound method NDFrame.head of       mpg  cylinders  displacement  horsepower  weight  acceleration  \
0    18.0          8         307.0       130.0    3504          12.0   
1    15.0          8         350.0       165.0    3693          11.5   
2    18.0          8         318.0       150.0    3436          11.0   
3    16.0          8         304.0       150.0    3433          12.0   
4    17.0          8         302.0       140.0    3449          10.5   
..    ...        ...           ...         ...     ...           ...   
393  27.0          4         140.0        86.0    2790          15.6   
394  44.0          4          97.0        52.0    2130          24.6   
395  32.0          4         135.0        84.0    2295          11.6   
396  28.0          4         120.0        79.0    2625          18.6   
397  31.0          4         119.0        82.0    2720          19.4   

     model_year  origin                       name  
0            70     usa  chevrolet chevelle malibu  

In [140]:
# df에서 데이터 타입이 int64인 컬럼명을 검색
df = sns.load_dataset('mpg')
column = list(df.columns)
print(column)
print(df['mpg'].dtype)
int_column = [ col for col in df.columns if df[col].dtype == 'int64']
print(int_column)

df.loc[10:100, int_column] # 원하는 인덱스와 컬럼만 검색

['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model_year', 'origin', 'name']
float64
['cylinders', 'weight', 'model_year']


Unnamed: 0,cylinders,weight,model_year
10,8,3563,70
11,8,3609,70
12,8,3761,70
13,8,3086,70
14,4,2372,70
...,...,...,...
96,8,3821,73
97,6,3121,73
98,6,3278,73
99,6,2945,73
