# Pandas

In [1]:
!pip install pandas



In [2]:
import pandas as pd

### 시리즈
- 복수의 행(row)으로 이루어진 하나의 열(column)구조

In [6]:
# 대소문자 구분한다

pd.Series([5, 6, 7, 9, 10])

0     5
1     6
2     7
3     9
4    10
dtype: int64

In [15]:
# 색인(index)을 가지고 원하는 데이터에 접근할 수 있음

x = pd.Series([5, 6, 7, 9], index=['서울', '대구', '부산', '광주'])
print(x)

서울    5
대구    6
부산    7
광주    9
dtype: int64


In [18]:
# 자동으로 색인을 만들지 않고 index키워드를 사용해 원하는 색인의 이름을 입력

x = pd.Series([7, 3, 5, 8], index=['서울', '대구', '부산', '광주'])
print(x)
x['서울']

서울    7
대구    3
부산    5
광주    8
dtype: int64


7

In [19]:
# 색인을 나열하여 원하는 값들을 출력

x[['서울', '대구']]

서울    7
대구    3
dtype: int64

In [20]:
# index / 만들어진 시리즈에서 인덱그만을 출력

x.index

Index(['서울', '대구', '부산', '광주'], dtype='object')

In [21]:
# values / 만들어진 시리즈 데이터에서 값들만을 출력

x.values

array([7, 3, 5, 8], dtype=int64)

In [22]:
# sorted() 함수 : 인덱스나 값들로 정렬 (작은쪽에서 큰쪽으로)

print(sorted(x.index))
print(sorted(x.values))

['광주', '대구', '부산', '서울']
[3, 5, 7, 8]


In [23]:
sorted(x.values)

[3, 5, 7, 8]

In [24]:
# 다시 인덱스를 설정

x.reindex(sorted(x.index))  

광주    8
대구    3
부산    5
서울    7
dtype: int64

- 시리즈의 합

In [25]:
# 인덱스별로 저장된 값들의 합을 구함
# x와 y에 공통된 인덱스가 존재해야 더할 수 있으므로 광주와 대전은 NaN으로 표시

x = pd.Series([3, 8, 5, 9], index=['서울', '대구', '부산', '광주'])
y = pd.Series([2, 4, 5, 1], index=['대구', '부산', '서울', '대전'])
x+y

광주     NaN
대구    10.0
대전     NaN
부산     9.0
서울     8.0
dtype: float64

In [29]:
x = pd.Series([3, 8, 5, 9, 7, 6], index=['A', 'B', 'G', 'F', 'L', 'M'])
y = pd.Series([2, 4, 5, 1, 3, 2], index=['B', 'C', 'G', 'F', 'M', 'Q'])
x+y

A     NaN
B    10.0
C     NaN
F    10.0
G    10.0
L     NaN
M     9.0
Q     NaN
dtype: float64

In [26]:
# unique() / 시리즈로부터 유일한 값들만을 반환

medal = [1, 3, 2, 4, 2, 3]
x = pd.Series(medal)
print(pd.unique(x))

[1 3 2 4]


In [28]:
medal = ['민준', '현우', '서연', '동현', '서연', '현우']
x = pd.Series(medal)
print(pd.unique(x))

['민준' '현우' '서연' '동현']


In [43]:
# 사전 형식의 데이터를 Series로 변환

age = { '민준':23, '현우':43, '서연':12, '동현':45 }
x = pd.Series(age)
x

민준    23
현우    43
서연    12
동현    45
dtype: int64

In [48]:
names = ['민준', '서연', '현우', '민서', '동현', '수빈']
pdata = pd.Series(names)
print(pdata)

0    민준
1    서연
2    현우
3    민서
4    동현
5    수빈
dtype: object


In [49]:
a = pdata[3:6]
print(a.values)

['민서' '동현' '수빈']


In [55]:
print(a)

3    민서
4    동현
5    수빈
dtype: object


In [64]:
x.iloc[1]

name         현우
age          43
height    180.3
Name: 1, dtype: object

In [67]:
x.iloc[:, -1]

0    175.3
1    180.3
2    165.8
3    172.7
Name: height, dtype: float64

## 데이터 프레임(DataFrame)

In [57]:
data = {'age' : [23, 43, 12, 45],                             # 2차원 배열
        'name' : ['민준', '현우', '서연','동현'],              # 행과 열로 구성
        'height' : [175.3, 180.3, 165.8, 172.7]}           

x = pd.DataFrame(data, columns = ['name', 'age', 'height'])  # 열(Column)에 대한 각각의 이름을 부여
x

Unnamed: 0,name,age,height
0,민준,23,175.3
1,현우,43,180.3
2,서연,12,165.8
3,동현,45,172.7


In [58]:
x.name

0    민준
1    현우
2    서연
3    동현
Name: name, dtype: object

In [59]:
x.age

0    23
1    43
2    12
3    45
Name: age, dtype: int64

In [60]:
x.height

0    175.3
1    180.3
2    165.8
3    172.7
Name: height, dtype: float64

In [61]:
# iLoc() 메소드를 사용하여 특정한 행이나 위치의 내용들을 지정하여 출력

ary = [[1, 2], [3, 4], [5, 6]]
data = pd.DataFrame(ary, columns = ['First', 'Second'])
data

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [62]:
# 1번 행의 값들을 출력

data.iloc[1]

First     3
Second    4
Name: 1, dtype: int64

In [63]:
# 모든 행의 마지막 데이터만을 출력

data.iloc[:, -1]

0    2
1    4
2    6
Name: Second, dtype: int64

In [65]:
# head()
# 첫 행부터 입력한 수만큼의 행이 출력됨, 입력하지 않으면 첫 5줄의 행을 출력

ary = [[1,2], [3,4], [5,6], [7,8], [9,10]]
data = pd.DataFrame(ary, columns = ['First', 'Second'])
data.head(3)

Unnamed: 0,First,Second
0,1,2
1,3,4
2,5,6


In [74]:
# tail() : 데이터 마지막 부분만 확인해보기

data.tail(3)

Unnamed: 0,First,Second
2,5,6
3,7,8
4,9,10


In [85]:
# 특정 항목만 선택하여 저장하거나 출력
# Boolean 값을 이용하여 값을 이용하여 True인 것은 선택하고 False인 것은 선택하지 않도록 설정

ary = [[1,2], [3,4], [5,6], [7,8], [9,10]]
data = pd.DataFrame(ary, columns = ['First', 'Second'])
bools = [False, True, True, False, True]
data.Second[bools]

1     4
2     6
4    10
Name: Second, dtype: int64

In [86]:
# 수학적인 메소드를 이용하여 계산

print(x.mean(axis=1))

0     99.15
1    111.65
2     88.90
3    108.85
dtype: float64


## Pandas의 데이터형

In [77]:
# objects : 문자 또는 문자열형 / int64 : 정수형 / Float64 : 실수형

ary = [[1,2], [3,4], [5,6], [7,8], [9,10]]
data = pd.DataFrame(ary, columns = ['수온', '상온'])
data

Unnamed: 0,수온,상온
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


In [82]:
# Pandas 데이터의 형변환 : astype()메소드 사용

data['수온'] = data['수온'].astype('float')
data

Unnamed: 0,수온,상온
0,1.0,2
1,3.0,4
2,5.0,6
3,7.0,8
4,9.0,10


## Pandas에 파일 가져오기

In [89]:
# csv 또는 txt 파일을 가져와서 pansa 형식으로 저장

food = pd.read_csv('food.csv')
food.head()

Unnamed: 0,Series_reference,Period,Data_value,STATUS,UNITS,Subject,Group,Series_title_1
0,CPIM.SE9S01,1999.06,645,REVISED,Index,Consumers Price Index - CPI,"Food Price Index for New Zealand, Seasonally a...",Seasonally adjusted
1,CPIM.SE9S01,1999.07,647,REVISED,Index,Consumers Price Index - CPI,"Food Price Index for New Zealand, Seasonally a...",Seasonally adjusted
2,CPIM.SE9S01,1999.08,645,REVISED,Index,Consumers Price Index - CPI,"Food Price Index for New Zealand, Seasonally a...",Seasonally adjusted
3,CPIM.SE9S01,1999.09,644,REVISED,Index,Consumers Price Index - CPI,"Food Price Index for New Zealand, Seasonally a...",Seasonally adjusted
4,CPIM.SE9S01,1999.1,641,REVISED,Index,Consumers Price Index - CPI,"Food Price Index for New Zealand, Seasonally a...",Seasonally adjusted


In [None]:
# 한글 인코딩 옵션 = utf-8, cp949, euc-kr

In [92]:
accident = pd.read_csv('acci.csv', encoding = 'euc-kr')
accident

Unnamed: 0,법규위반,주야,발생건수,사망자수,부상자수,중상,경상,부상신고
0,과속,주,159,34,334,140,178,16
1,과속,야,218,73,348,200,139,9
2,교차로 통행방법 위반,주,8817,82,14031,3915,9530,586
3,교차로 통행방법 위반,야,5904,29,9728,2401,6884,443
4,기타,주,9388,141,14070,4271,9217,582
5,기타,야,6073,56,9218,2348,6457,413
6,보행자 보호의무 위반,주,3772,80,3914,2063,1729,122
7,보행자 보호의무 위반,야,3334,94,3535,1802,1626,107
8,신호위반,주,12552,210,20396,6816,12765,815
9,신호위반,야,12755,179,21724,7177,13749,798
