# Pandas

앞으로 가장 많이 사용하게 될 파이썬 라이브러리 중 하나

2010년에 오픈소스로 공개

Pandas : 고수준의 자료구조 및 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석도구가 포함

Pandas랑 함께 사용하는 라이브러리...
- 산술 계산 도구 : Numpy, Scipy
- 분석 라이브러리 : Scikit-learn
- 시각화 도구 : matplotlib, seaborn

# Pandas vs Numpy

Numpy : 단일 산술 배열 데이터에 특화

Pandas : 표 형식의 데이터 or 다양한 형태의 데이터를 다루는데 특화


# Pandas는 R을 모티브로해서 만든 Python Library

데이터분석을 위해 수집, 전처리 등의 과정은 대부분 데이터프레임의 형태로 존재

데이터프레임은 행, 열로 이루어진 표를 의미

시리즈 (Series)는 데이터 프레임의 하위 자료형으로,

1개의 열이 시리즈이고, 이 시리즈들이 여러개 모여서 데이터프레임을 형성한다

In [1]:
import pandas as pd
from pandas import Series

# 1. 시리즈 (Series)

Series : 객체를 담을 수 있는 1차원 배열스러운 자료구조

In [2]:
# 1-1. 딕셔너리로 만들기 (dict)
# 시리즈는 딕셔너리 구조와 비슷함
dic = {'a' : 1, 'b' : 2, 'c' : 3, 'd' : 4}
series_dic = pd.Series(dic)

print(type(series_dic))
series_dic
# 딕셔너리의 key가 인덱스(index)로, value가 값으로

<class 'pandas.core.series.Series'>


Unnamed: 0,0
a,1
b,2
c,3
d,4


In [3]:
# 인덱스와 값은 아래처럼 확인
print(series_dic.index)
print(series_dic.values)

Index(['a', 'b', 'c', 'd'], dtype='object')
[1 2 3 4]


In [5]:
# 직접 만들기도 O
# 1-2. 리스트로 만들기

obj = pd.Series([4, 5, -4, -5])
obj

print(obj.index)
print(obj.values)

# RangeIndex(start=0, stop=4, step=1)
# 시리즈를 만들 때, 따로 인덱스를 입력하지 않았기 때문에
#   0부터 시작하는 인덱스가 부여(start = 0)
#   4개의 인덱스 (stop = 4) / 1씩 건너서 (step = 1)

RangeIndex(start=0, stop=4, step=1)
[ 4  5 -4 -5]


In [6]:
obj2 = pd.Series([4, 5, -4, -5], index=['a', 'b', 'c', 'd'])  # 인덱스 값을 정해주는 과정
obj2

Unnamed: 0,0
a,4
b,5
c,-4
d,-5


In [7]:
# 1-3. 튜플로 만들기
tup_data = ('Belloy', '2024-08-01', '남', True)
series_data = pd.Series(tup_data, index = ['name', 'birthday', 'gender', 'cute'])
series_data

Unnamed: 0,0
name,Belloy
birthday,2024-08-01
gender,남
cute,True


In [8]:
# 1-4. 요소 선택 / 인덱싱
print(series_data[0])
print(series_data['name'])

Belloy
Belloy


  print(series_data[0])


In [10]:
# 여러 값을 인덱싱할 때에는 값만 반환하지 않고,
# 짝을 이루는 인덱스와 값을 모두 반환

# ***************** 주의할 점
# 각각의 위치 or 이름으로 인덱싱할때는 대괄호를 2개 씌워줘야 함... [[ ]]
print(series_data[[1, 2]])
print()
print(series_data[['birthday', 'gender']])

birthday    2024-08-01
gender               남
dtype: object

birthday    2024-08-01
gender               남
dtype: object


  print(series_data[[1, 2]])


In [11]:
# : 로 인덱싱 할 때는 대괄호 하나만 필요
print(series_data[1:3])
print()
print(series_data['birthday' : 'gender'])
# 인덱스의 이름으로 사용하면 범위 끝('gender')이 포함됨

birthday    2024-08-01
gender               남
dtype: object

birthday    2024-08-01
gender               남
dtype: object


In [15]:
# Boolean배열을 사용해서 값 걸러내기 or 산술 연산 or 수학 함수 적용 O
obj2 = pd.Series([4, 5, -4, -5], index=['a', 'b', 'c', 'd'])
print(obj2[obj2 > 0])
print()
print(obj2 * 2)
print()
print('b' in obj2)
print()
print('e' in obj2)

a    4
b    5
dtype: int64

a     8
b    10
c    -8
d   -10
dtype: int64

True

False


In [16]:
ticket = {'busan' : 30000, 'jeju' : 50000, 'jeonju' : 40000, 'daejeon' : 55000}
ticketS = pd.Series(ticket)
ticketS

Unnamed: 0,0
busan,30000
jeju,50000
jeonju,40000
daejeon,55000


In [17]:
city = ['seoul', 'busan', 'jeju', 'jeonju']
a = pd.Series(ticket, index = city)
a # seoul의 데이터에서는 NaN이 발생!

Unnamed: 0,0
seoul,
busan,30000.0
jeju,50000.0
jeonju,40000.0


In [18]:
# 누락된 것 찾을 때 / 누락 O = True, 누락 X = False
pd.isnull(a)

Unnamed: 0,0
seoul,True
busan,False
jeju,False
jeonju,False


In [20]:
a.isnull()

Unnamed: 0,0
seoul,True
busan,False
jeju,False
jeonju,False


In [21]:
# 누락되지 않은 것 찾을 때 / 누락 X = True, 누락 O = False
pd.notnull(a)

Unnamed: 0,0
seoul,False
busan,True
jeju,True
jeonju,True


In [22]:
a.notnull()

Unnamed: 0,0
seoul,False
busan,True
jeju,True
jeonju,True


# 2. 데이터프레임 (DataFrame)

데이터프레임은 시리즈가 여러개 합쳐진 자료형

표, 엑셀과 같은 스프레드시트 형식의 자료구조

다양한 컬럼이 있고, 각각의 컬럼 안에는 서로 다른 종류의 자료형(숫자, 문자열, 논리, ...)이 담김

DataFrame : row(행), column(열)에 대한 index를 가지고 있음

In [24]:
# 2-1. 딕셔너리로 만들기
dict_data = {'c0' : [1, 2, 3], 'c1' : [4, 5, 6], 'c2' : [7, 8, 9], 'c3' : [10, 11 ,12]}
df = pd.DataFrame(dict_data)

print(type(df))
df
# 1개의 열들이 1개의 시리즈, key값이 열 이름

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,c0,c1,c2,c3
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [26]:
# 2-2. 리스트로 만들기 1
#   같은 길이의 리스트에 담긴 dict or numpy를 이용

data = {'time' : ['morning', 'afternoon', 'night'],
        'startHour' : [6, 12, 18],
        'behavior' : ['getup', 'lunch', 'gohome']
        }
data1 = pd.DataFrame(data)
data1


Unnamed: 0,time,startHour,behavior
0,morning,6,getup
1,afternoon,12,lunch
2,night,18,gohome


In [27]:
# 원하는 순서대로 columns을 지정하면, 그 순서대로 df 객체가 생성
pd.DataFrame(data, columns = ['time', 'behavior', 'startHour'])

Unnamed: 0,time,behavior,startHour
0,morning,getup,6
1,afternoon,lunch,12
2,night,gohome,18


In [28]:
# 2-2. 리스트로 만들기 2
df = pd.DataFrame([[21, '남', '00대'], [22, '여', 'ㅁㅁ대']],
                  index = ['김벨로이', '박벨로이'],
                  columns = ['age', 'gender', 'school'])
print(df)
print(df.index)
print(df.columns)

      age gender school
김벨로이   21      남    00대
박벨로이   22      여    ㅁㅁ대
Index(['김벨로이', '박벨로이'], dtype='object')
Index(['age', 'gender', 'school'], dtype='object')


In [29]:
# 2-3. 행, 열의 이름 변경 : 기본적인 방식
df.index = ['student1', 'student2']
df.columns = ['나이', '성별', '학교']
df

# 인덱스(index)와 열(column) 이름의 수에 맞게 지정해주기 !!!

Unnamed: 0,나이,성별,학교
student1,21,남,00대
student2,22,여,ㅁㅁ대


In [30]:
# 2-4. 행, 열 이름 변경 : rename()함수
# df.rename(column / index = {변경 전 이름 : 변경 후 이름, ...}, inplace = True) / 열이면 column! 행이면 index!
#   로 사용할 수 있고,
# inplace = True 옵션을 지정해주면 df에 바로 적용 됨

df = pd.DataFrame([[21, '남', '00대'], [22, '여', 'ㅁㅁ대']],
                  index = ['김벨로이', '박벨로이'],
                  columns = ['age', 'gender', 'school'])

df

Unnamed: 0,age,gender,school
김벨로이,21,남,00대
박벨로이,22,여,ㅁㅁ대


In [31]:
# 열 이름 변경
df.rename(columns = {'age' : '연령', 'gender' : '성별', 'school' : '소속'}, inplace = True)
df

Unnamed: 0,연령,성별,소속
김벨로이,21,남,00대
박벨로이,22,여,ㅁㅁ대


In [32]:
# 행 이름 변경
df.rename(index = {'김벨로이' : '김씨', '박벨로이' : '박씨'}, inplace = True)
df

Unnamed: 0,연령,성별,소속
김씨,21,남,00대
박씨,22,여,ㅁㅁ대


# 행 삭제 : drop() 함수

In [34]:
exam_data = {'math' : [90, 80, 70], 'korean' : [98, 89, 95],
             'english' : [85, 95, 100], 'history' : [100, 90, 90]
             }
df = pd.DataFrame(exam_data, index = ['student1', 'student2', 'student3'])
df

Unnamed: 0,math,korean,english,history
student1,90,98,85,100
student2,80,89,95,90
student3,70,95,100,90


In [35]:
# drop('행 or 열 이름', axis = 0 or 1, inplace = True)

# Numpy :
#     axis = 0 : 열 / axis = 1 : 행
# Pandas :
#     axis = 0 : 행 / axis = 1 : 열

# 행을 삭제하려면 axis = 0 (기본값)
# 열을 삭제하려면 axis = 1 << 꼭!!! 지정!!

df2 = df.copy()

df2.drop('student2', inplace = True)
df2

Unnamed: 0,math,korean,english,history
student1,90,98,85,100
student3,70,95,100,90


In [37]:
# 열 삭제
# 2개 이상의 열을 drop하고 싶으면 대괄호[] 안에 명시
df3 = df.copy()

df3.drop(['math', 'history'], axis = 1, inplace = True)
df3

Unnamed: 0,korean,english
student1,98,85
student2,89,95
student3,95,100


# 데이터프레임 인덱싱 : loc / iloc 함수

loc와 iloc는 가장 많이 사용되는 함수

데이터 전처리할 때 인덱싱이 가장 많이 사용되기 때문!

loc는 이름으로, iloc는 숫자로 인덱싱

In [39]:
city = pd.DataFrame({'Korea' : ['Seoul', 'Jeju', 'Bucheon'],
                     'US' : ['LA', 'California', 'Boston'],
                     'UK' : ['London', 'LiverPool', 'Cambridge'],
                     'China' : ['Shanghai', 'Beijing', 'Chingtao']},
                    index = ['A', 'B', 'C'])
city

Unnamed: 0,Korea,US,UK,China
A,Seoul,LA,London,Shanghai
B,Jeju,California,LiverPool,Beijing
C,Bucheon,Boston,Cambridge,Chingtao


In [41]:
first = city.loc['A']
print(first)
print()
second = city.iloc[1]
print(second)

Korea       Seoul
US             LA
UK         London
China    Shanghai
Name: A, dtype: object

Korea          Jeju
US       California
UK        LiverPool
China       Beijing
Name: B, dtype: object


In [42]:
city.ndim # 차원(랭크)

2

In [43]:
city.shape # (행, 열)

(3, 4)

In [44]:
len(city) # 행의 갯수

3

In [45]:
city.size # data의 갯수

12

In [46]:
city.info() # 요약 정보

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, A to C
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Korea   3 non-null      object
 1   US      3 non-null      object
 2   UK      3 non-null      object
 3   China   3 non-null      object
dtypes: object(4)
memory usage: 228.0+ bytes


In [47]:
exam_data = {'math' : [90, 80, 70], 'korean' : [98, 89, 95],
             'english' : [85, 95, 100], 'history' : [100, 90, 90]
             }

df = pd.DataFrame(exam_data, index = ['kim', 'lee', 'park'])
df

Unnamed: 0,math,korean,english,history
kim,90,98,85,100
lee,80,89,95,90
park,70,95,100,90


In [55]:
# kim과 lee의 점수 출력

# 두 개 이상의 행을 선택할 때는 대괄호를 신경써야...!!
# 각각 선택은 두개 [[]] / 범위( : ) 로 선택은 한개 [] / loc와 iloc를 사용!
kll = df.loc[['kim', 'lee']]
kli = df.iloc[0:2]
print(kll)
print()
print(kli)

     math  korean  english  history
kim    90      98       85      100
lee    80      89       95       90

     math  korean  english  history
kim    90      98       85      100
lee    80      89       95       90


In [56]:
# 강사님 답안
l2 = df.loc['kim':'lee']
p2 = df.iloc[0:2]
print(l2)
print()
print(p2)

     math  korean  english  history
kim    90      98       85      100
lee    80      89       95       90

     math  korean  english  history
kim    90      98       85      100
lee    80      89       95       90


In [None]:
# 열 선택
#   열 선택은 따로 함수가 필요 X
# df.열이름 or df['열이름'] 으로 선택이 가능

In [59]:
# 수학 열만 선택
a = df['math']
print(a)
print()
b = df.math
print(b)

kim     90
lee     80
park    70
Name: math, dtype: int64

kim     90
lee     80
park    70
Name: math, dtype: int64


In [60]:
# 범위 슬라이싱
exam_data = {'name' : ['Oh', 'Woo', 'Ah', 'Ha', 'Kim', 'Lee', 'Park'],
             'math' : [90, 80, 70, 60, 50, 40, 30],
             'eng' : [98, 89, 95, 85, 45, 76, 77],
             'kor' : [85, 95, 100, 56, 25, 77, 98],
             'pt' : [100, 90, 90, 80, 80, 70, 70]
             }
df = pd.DataFrame(exam_data)
df

Unnamed: 0,name,math,eng,kor,pt
0,Oh,90,98,85,100
1,Woo,80,89,95,90
2,Ah,70,95,100,90
3,Ha,60,85,56,80
4,Kim,50,45,25,80
5,Lee,40,76,77,70
6,Park,30,77,98,70


In [86]:
# 모든 행을 2행 간격으로 출력
a = df.iloc[: : 2]
print(a)

   name  math  eng  kor   pt
0    Oh    90   98   85  100
2    Ah    70   95  100   90
4   Kim    50   45   25   80
6  Park    30   77   98   70


In [70]:
# 0행부터 5행까지 2행 간격으로 출력
b = df.iloc[0 : 6 : 2]
print(b)

   name  math  eng  kor   pt
0    Oh    90   98   85  100
2    Ah    70   95  100   90
4   Kim    50   45   25   80
6  Park    30   77   98   70


In [85]:
# 전체 데이터 역순 정렬 > 모든 행을 -1행 간격
c = df.iloc[: : -1]
print(c)

   name  math  eng  kor   pt
6  Park    30   77   98   70
5   Lee    40   76   77   70
4   Kim    50   45   25   80
3    Ha    60   85   56   80
2    Ah    70   95  100   90
1   Woo    80   89   95   90
0    Oh    90   98   85  100


In [88]:
# 요소 선택
# set_index() 함수 : 특정한 열을 인덱스로 부여해주는 함수

exam_data = {'name' : ['Oh', 'Woo', 'Ah', 'Ha', 'Kim', 'Lee', 'Park'],
             'math' : [90, 80, 70, 60, 50, 40, 30],
             'eng' : [98, 89, 95, 85, 45, 76, 77],
             'kor' : [85, 95, 100, 56, 25, 77, 98],
             'pt' : [100, 90, 90, 80, 80, 70, 70]
             }
df = pd.DataFrame(exam_data)
df.set_index('name', inplace=True)
df


Unnamed: 0_level_0,math,eng,kor,pt
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Oh,90,98,85,100
Woo,80,89,95,90
Ah,70,95,100,90
Ha,60,85,56,80
Kim,50,45,25,80
Lee,40,76,77,70
Park,30,77,98,70


In [90]:
# loc, iloc 행/열 선택과정에서
# 두 개 이상의 행이나 두 개 이상의 열을 선택하려면 [[]]을 이용
# ... 하나의 대괄호만 [] 쓴다면...?
df.loc['Ha', 'kor'] # Ha씨의 kor점수를(해당하는 요소 하나를) 가져오라는 의미

56

In [92]:
# 해당하는 요소 하나를 가져오라는 의미 !!
df.iloc[3, 2]

56

In [122]:
# Ah의 eng, kor 점수를 위에서 한 4가지 방법을 이용해서 출력
df.loc['Ah', ['eng', 'kor']]
df.loc['Ah', 'eng' : 'kor']

df.iloc[2, [1, 2]]
df.iloc[2, 1:3]

Unnamed: 0,Ah
eng,95
kor,100


In [123]:
# Oh, Woo의 kor, pt 점수를 4가지 방법으로 출력
df.loc[['Oh', 'Woo'], ['kor', 'pt']]
df.loc['Oh' : 'Woo', 'kor' : 'pt']

df.iloc[[0, 1], [2, 3]]
df.iloc[0 : 2, 2 : 4]

Unnamed: 0_level_0,kor,pt
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Oh,85,100
Woo,95,90


In [124]:
# 행, 열 추가
# 열 추가는 df['새로운 열 이름'] = 값 의 형태로 추가
# 새로운 열 이름이 아니라 기존 열 이름이라면... => 그대로 덮어씌워지기 때문에 주의!

exam_data = {'name' : ['Oh', 'Woo', 'Ah', 'Ha', 'Kim', 'Lee', 'Park'],
             'math' : [90, 80, 70, 60, 50, 40, 30],
             'eng' : [98, 89, 95, 85, 45, 76, 77],
             'kor' : [85, 95, 100, 56, 25, 77, 98],
             'pt' : [100, 90, 90, 80, 80, 70, 70]
             }
df = pd.DataFrame(exam_data)
df['music'] = 80  # 특정한 곳에 넣고 싶으면 list 처리를 하면 됨!

Unnamed: 0,name,math,eng,kor,pt,music
0,Oh,90,98,85,100,80
1,Woo,80,89,95,90,80
2,Ah,70,95,100,90,80
3,Ha,60,85,56,80,80
4,Kim,50,45,25,80,80
5,Lee,40,76,77,70,80
6,Park,30,77,98,70,80


In [127]:
exam_data = {'name' : ['Oh', 'Woo', 'Ah', 'Ha', 'Kim', 'Lee', 'Park'],
             'math' : [90, 80, 70, 60, 50, 40, 30],
             'eng' : [98, 89, 95, 85, 45, 76, 77],
             'kor' : [85, 95, 100, 56, 25, 77, 98],
             'pt' : [100, 90, 90, 80, 80, 70, 70]
             }
df = pd.DataFrame(exam_data)

# 요소 값 변경하기
df.loc[3] = 10 # 단일 값을 넣었다면 => 행 전체에는 모두 다 그 값으로 채워짐
df.loc[4] = ['Wa', 100, 100, 100, 100] # 행 또는 열의 수에 맞게 요소를 변경 / 추가
df.loc[7] = ['asdf', 50, 50, 50, 50] # 새로운 행 추가
df

Unnamed: 0,name,math,eng,kor,pt
0,Oh,90,98,85,100
1,Woo,80,89,95,90
2,Ah,70,95,100,90
3,10,10,10,10,10
4,Wa,100,100,100,100
5,Lee,40,76,77,70
6,Park,30,77,98,70
7,asdf,50,50,50,50


In [130]:
# 행과 열 바꾸기 : 전치행렬 transpose() 함수 or .T
exam_data = {'name' : ['Oh', 'Woo', 'Ah', 'Ha', 'Kim', 'Lee', 'Park'],
             'math' : [90, 80, 70, 60, 50, 40, 30],
             'eng' : [98, 89, 95, 85, 45, 76, 77],
             'kor' : [85, 95, 100, 56, 25, 77, 98],
             'pt' : [100, 90, 90, 80, 80, 70, 70]
             }
df = pd.DataFrame(exam_data)
print(df)
print()

df = df.transpose()
print(df)
print()

df = df.T
print(df)
# 전치를 두 번하면 원상태로 돌아옴!

   name  math  eng  kor   pt
0    Oh    90   98   85  100
1   Woo    80   89   95   90
2    Ah    70   95  100   90
3    Ha    60   85   56   80
4   Kim    50   45   25   80
5   Lee    40   76   77   70
6  Park    30   77   98   70

        0    1    2   3    4    5     6
name   Oh  Woo   Ah  Ha  Kim  Lee  Park
math   90   80   70  60   50   40    30
eng    98   89   95  85   45   76    77
kor    85   95  100  56   25   77    98
pt    100   90   90  80   80   70    70

   name math eng  kor   pt
0    Oh   90  98   85  100
1   Woo   80  89   95   90
2    Ah   70  95  100   90
3    Ha   60  85   56   80
4   Kim   50  45   25   80
5   Lee   40  76   77   70
6  Park   30  77   98   70
