### Pandas 사용하기

In [1]:
import pandas as pd

### Pandas 객체 종류
- 1차원 Series  : index + value
- 2차원 DataFrame : 표와 같은 형태
- table 형식의 정형 데이터를 정리하고 저장하는 자료구조를 지원

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### Pandas 객체 다루기

#### 1차원 시리즈 생성

In [2]:
num_series = pd.Series([3,4,5])
num_series
# 시리즈는 여러 값을 나열한 자료구조
# 시리즈는 index와 value로 구성됨
# 데이터 프레임을 구성하는 하위요소 ==> 시리즈가 여러개 모이면 데이터 프레임을 만듦

0    3
1    4
2    5
dtype: int64

In [3]:
# 인덱스와 값을 가진 시리즈 생성 - 1 
num_series2 = pd.Series([3,4,5],index=['lee', 'kim','jang'])
num_series2

lee     3
kim     4
jang    5
dtype: int64

In [4]:
# 인덱스와 값을 가진 시리즈 생성 - 2
num_series3 = pd.Series({'lee' : 3, 'kim' : 4, 'jang' : 5})
num_series3

lee     3
kim     4
jang    5
dtype: int64

#### 시리즈 속성 확인

In [5]:
# 값 확인
num_series3.values

array([3, 4, 5], dtype=int64)

In [6]:
# 인덱스 확인
num_series3.index

Index(['lee', 'kim', 'jang'], dtype='object')

In [7]:
# 데이터 타입 확인
num_series3.dtype

dtype('int64')

#### 시리즈와 인덱스에 이름 지정

In [8]:
# 이름 지정하기
num_series3.name = 'name_cnt'
num_series3.index.name = 'name'

print(num_series3.name)
print(num_series3.index.name)

name_cnt
name


#### 리스트를 이용하여 시리즈 생성하기 - 2020 인구수

In [9]:
population = pd.Series([9602000, 3344000, 1488000, 2419000], index=['서울', '부산', '광주', '대구'])
population

서울    9602000
부산    3344000
광주    1488000
대구    2419000
dtype: int64

In [10]:
population.index.name ='도시'
population.name = '2020 인구수'

In [11]:
population

도시
서울    9602000
부산    3344000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

#### 시리즈 데이터의 갱신, 추가, 삭제

In [12]:
# 갱신 : 부산 데이터 --> 3500000
population['부산'] = 3500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
Name: 2020 인구수, dtype: int64

In [13]:
# 추가 : 대전 - 1500000
population['대전'] = 1500000
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [14]:
# 삭제 : del 키워드, drop()
population.drop('서울') # inplace = True로 지정해줘야 삭제된 값이 변수에 반영

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [15]:
population

도시
서울    9602000
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

In [16]:
del population['서울'] # 셀이 실행됨과 동시에 변수에 반영

In [19]:
population

도시
부산    3500000
광주    1488000
대구    2419000
대전    1500000
Name: 2020 인구수, dtype: int64

#### 2차원 데이터프레임 생성

In [20]:
# 단일 리스트로 데이터프레임 생성
num = [1, 1, 3]
num_df = pd.DataFrame(num)
num_df

Unnamed: 0,0
0,1
1,1
2,3


In [21]:
# 이중리스트로 데이터프레임 생성
num2 = [['big', 1], ['ai', 1], ['iot', 3]]
num2_df = pd.DataFrame(num2)
num2_df

Unnamed: 0,0,1
0,big,1
1,ai,1
2,iot,3


In [22]:
# 컬럼 값을 추가 1) - 데이터 프레임을 생성할 때 같이
# 인덱스 값도 추가하고 싶다면
num2_df = pd.DataFrame(num2, columns=['Class', 'Join'])
num2_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [24]:
# 딕셔너리 자료를 이용하여 데이터프레임 생성
num3_df = pd.DataFrame({'Class' : ['big', 'ai', 'iot'], 'Join' : [1,1,3]})
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터프레임 속성 확인

In [25]:
# 값 확인
num3_df.values

array([['big', 1],
       ['ai', 1],
       ['iot', 3]], dtype=object)

In [26]:
# 인덱스 확인
num3_df.index

RangeIndex(start=0, stop=3, step=1)

In [28]:
# 컬럼명 확인
num3_df.columns

Index(['Class', 'Join'], dtype='object')

In [30]:
# 데이터 타입 확인
num3_df.dtypes

Class    object
Join      int64
dtype: object

In [35]:
info = [[175.3, 66.2,27.0], [180.2, 78.9, 49.0], [178.6, 55.1, 35.0]]
person_info = pd.DataFrame(info, columns=['키', '몸무게', '나이'])
person_info.index = ['son', 'kim', 'park']
person_info

Unnamed: 0,키,몸무게,나이
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [36]:
person_info.T

Unnamed: 0,son,kim,park
키,175.3,180.2,178.6
몸무게,66.2,78.9,55.1
나이,27.0,49.0,35.0


In [42]:
print('밸류 : ', person_info.values)
print()
print('데이터 타입 : ', person_info.dtypes)
print()
print('인덱스 값 : ', person_info.index)
print()
print('컬럼 : ', person_info.columns)

밸류 :  [[175.3  66.2  27. ]
 [180.2  78.9  49. ]
 [178.6  55.1  35. ]]

데이터 타입 :  키      float64
몸무게    float64
나이     float64
dtype: object

인덱스 값 :  Index(['son', 'kim', 'park'], dtype='object')

컬럼 :  Index(['키', '몸무게', '나이'], dtype='object')


### Pandas 데이터 접근

#### 시리즈 데이터 접근

In [43]:
num_series3

name
lee     3
kim     4
jang    5
Name: name_cnt, dtype: int64

In [44]:
# 인덱스 번호로 접근
print(num_series3[0])
print(num_series3[1])
print(num_series3[2])

3
4
5


In [45]:
# 인덱스 라벨로 접근
print(num_series3['lee'])
print(num_series3['kim'])
print(num_series3[])

3
4
5


In [None]:
# 여러개 접근
display(num_series3[['lee','kim']])
display(num_series3[[0,1]])
# 슬라이싱
display(num_series3[:2])
display(num_series3[:'jang']) # 문자열로 접근할 때 끝값이 포함됨

#### 데이터 프레임 열 데이터 접근

In [54]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [55]:
num3_df['Class']

0    big
1     ai
2    iot
Name: Class, dtype: object

In [56]:
num3_df[['Class']]

Unnamed: 0,Class
0,big
1,ai
2,iot


In [57]:
# 여러 컬럼을 한꺼번에 접근(추출)하기
num3_df[['Class', 'Join']]

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


#### 데이터 프레임 행 데이터 접근

In [60]:
num4_df = num3_df.set_index('Class')
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [61]:
# 슬라이싱으로 행에 접근
num4_df[1:]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
ai,1
iot,3


In [64]:
num4_df[:1]

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1


In [65]:
num4_df[:'ai']

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


#### 데이터 프레임 행,열 데이터에 더 편리하게 접근하기
- loc, iloc 인덱서
- loc : 실제로 보이는 라벨명을 통해 데이터에 접근하는 방법
- iloc : 넘파이 배열인덱스값을 통해 데이터에 접근하는 방법
         i : interger이 index 번호값의 loc(위치)에 접근함.
- 데이터.인덱서[행,열]
    - 콤마(,)앞은 행 뒤는 열의 값을 입력
    - 행, 열 자리 모두 여러개에 접근할 경우 [요소1, 요소2, ....]
    - 슬라이싱[:]을 통해서 접근

In [66]:
num4_df

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1
iot,3


In [71]:
# iot 행 데이터 접근하기
# 인덱스 번호
display(num4_df.iloc[[2]])
# 인덱스 라벨
display(num4_df.loc[['iot']])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
iot,3


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
iot,3


In [75]:
# big, ai 데이터 행 접근
# 인덱스 번호
display(num4_df.iloc[:2])
# 인덱스 라벨
display(num4_df.loc['big':'ai'])

Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


Unnamed: 0_level_0,Join
Class,Unnamed: 1_level_1
big,1
ai,1


In [82]:
# Join 열에 접근하기
# 인덱스 번호
display(num4_df.iloc[:,0])

# 인덱스 라벨
display(num4_df.loc['big','Join'])

Class
big    1
ai     1
iot    3
Name: Join, dtype: int64

1

In [87]:
display(person_info.loc['son','나이'])
display(person_info.loc['son',['키','나이']])
display(person_info.loc["kim":"park",["몸무게", "키"]])

27.0

키     175.3
나이     27.0
Name: son, dtype: float64

Unnamed: 0,몸무게,키
kim,78.9,180.2
park,55.1,178.6


#### 조건에 맞는 데이터 접근하기 : 불리언 인덱싱

In [88]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [90]:
# Join 값이 2 이상인 데이터 접근하기
num3_df[num3_df['Join'] >= 2]

Unnamed: 0,Class,Join
2,iot,3


In [93]:
# 문자값으로 조건 : class가 big이거나 ai인 데이터 추출하기
num3_df[(num3_df['Class'] == 'big') | (num3_df['Class'] == 'ai')]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [111]:
# Join값이 2이하인 Class 이름을 리스트나 배열로 출력하기

display(num3_df[num3_df['Join']<=2].loc[:,'Class'].values)


array(['big', 'ai'], dtype=object)

#### query() 함수를 통한 행 접근 
- 판다스의 query()함수는 SQL의 where 함수의 역할
- query함수의 장점
    - 분석 코드가 간결
    - 읽기도 더 쉬움
    - 조건 결합을 사용하는 경우 더욱 강력해짐

In [113]:
num3_df.query('Join <=2') # num3_df[num3_df['Join']<=2]

Unnamed: 0,Class,Join
0,big,1
1,ai,1


In [115]:
# 문자값: Class가 ai이거나 iot인 데이터 추출
# 전체 조건과 추출할 문자의 따옴표 구별하기 ==> 중요
num3_df.query('Class == "ai" or Class == "iot" ')

Unnamed: 0,Class,Join
1,ai,1
2,iot,3


In [116]:
num3_df

Unnamed: 0,Class,Join
0,big,1
1,ai,1
2,iot,3


In [129]:
num3_df.query('Join <= 2')['Class'].size

2

### 판다스 연산 및 유용한 함수

#### 파일 불러오기 및 저장

In [130]:
exam = pd.read_csv('./data/exam.csv')
exam

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 데이터 파악하기
- head() : 앞에서 5개 행 출력
- tail() : 뒤에서 5개 행 출력
- shape : 행, 열  개수 출력
- info : 변수 속성 출력
- describe : 요약 통계량 출력

In [145]:
display(exam.head(3)) # 기본값 = 5



Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [146]:
display(exam.tail(3)) # 기본값 = 5


Unnamed: 0,id,nclass,math,english,science
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [148]:
display(exam.shape)


(20, 5)

In [149]:
display(exam.info())
# 컬럼드의 속성을 보여주는 함수
# 모든 컬럼들의 속성을 한 눈에 파악할 수 있음
# 1. <class 'pandas.core.frame.DataFrame'> ==> 판다스의 데이터 프레임 객체
# 2. RangeIndex: 20 entries, 0 to 19 ==> 0 ~ 19번 인덱스로 총 20개의 행 구성
# 3. Data columns (total 5 columns) ==> 컬럼(변수)개수 총 5개 구성
# 4. # ==> 변수 순서(인덱스 개념)
# 5. Column ==> 컬럼명
# 6. Non-Null Count ==> 컬럼(변수)에 들어있는 값의 개수
#                       결측치를 제외하고 구한 값의 개수를 나타냄
# 7. Dtype ==> 데이터 타입
#    int64 ==> 변수가 64비트로 되어있다는 의미
#    1비트로 두개의 값을 표현할 수 있으므로 int64는 2^64개의 정수를 표현할 수 있다는 의미


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


None

In [152]:
display(exam.describe())
# 모든 변수의 요약 통계량 ==> 기본적으로 숫자값들에 대한 통계정보 표시
#                             문자로 된 변수의 요약 통계량을 함께 툴력하려면?
#                             describe(include='all')로 설정

# 1. count ==> 빈도(frequency), 값의 개수
# 2. mean ==> 평균, 모든 값을 더해 값의 개수로 나눈 값
# 3. std ==> 변수 값들이 평균에서 떨어진 정도를 나타내는 값
# 4. min ==> 최솟값, 가장 작은 값
# 5. 25% ==> 1사분위수
# 6. 50% ==> 중위수(중앙값)
# 7. 75% ==> 3사분위수
# 8. max ==> 최댓값, 가장 큰 값

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


#### 데이터 정렬
- sort_values()

In [156]:
# 1차원 데이터의 정렬
exam['math'].sort_values() # 기본값 : ascending = True 오름차순

8     20
4     25
3     30
2     45
11    45
12    46
13    48
0     50
9     50
5     50
15    58
1     60
10    65
16    65
14    75
19    78
6     80
17    80
18    89
7     90
Name: math, dtype: int64

In [157]:
# 내림차순
exam['math'].sort_values(ascending=False)

7     90
18    89
17    80
6     80
19    78
14    75
16    65
10    65
1     60
15    58
9     50
5     50
0     50
13    48
12    46
11    45
2     45
3     30
4     25
8     20
Name: math, dtype: int64

In [166]:
# 2차원 데이터의 정렬
# 1. 수학컬럼을 정렬하여 top 5학생 확인
exam[['id','math']].sort_values(by='math', ascending=False).head()
# 2. 학생id를 기준으로 출력

Unnamed: 0,id,math
7,8,90
18,19,89
17,18,80
6,7,80
19,20,78


In [167]:
exam[['id','math']].sort_values(by='math').head(3)

Unnamed: 0,id,math
8,9,20
4,5,25
3,4,30


![image.png](attachment:image.png)

In [168]:
# 1. mpg = 
mpg = pd.read_csv('./data/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


In [170]:
# 2. 앞, 뒤 3개씩 출력하기
display(mpg.head(3))
display(mpg.tail(3))

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


In [172]:
# 3. 데이터 크기(행, 열) 확인
mpg.shape

(234, 11)

In [173]:
# 4. 데이터 속성 확인
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [174]:
# 5. 요약 통계량 확인
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


In [189]:
# 6.'audi' 제뭄 중 고속도로 연비 탑5 출력
mpg[mpg['manufacturer']=='audi'].sort_values(by='hwy', ascending=False).head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact
