# Pandas - DataFrame

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns

### 1. 생성

#### 1) 방법 1
- 2차원 데이터 + 행 인덱스 + 열 인덱스

In [2]:
np.random.seed(2021)
data = np.random.randint(40, 100, 12).reshape(3,4)
data

array([[92, 61, 97, 40],
       [85, 70, 62, 84],
       [67, 69, 61, 69]])

In [3]:
df = pd.DataFrame(data=data, index=['i1','i2','i3'],
                  columns=['c1','c2','c3','c4'])
df

Unnamed: 0,c1,c2,c3,c4
i1,92,61,97,40
i2,85,70,62,84
i3,67,69,61,69


#### 2) 방법 2
- 리스트로 딕셔너리를 만듦
- 딕셔너리의 키가 열 인덱스가 됨

In [4]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70]
}
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


#### 3) 방법 3
- 딕셔너리의 리스트를 만듦
- 딕셔너리의 키가 열 인덱스가 됨

In [5]:
data = [
    {'국어':80, '영어':90, '수학':90},
    {'국어':90, '영어':70, '수학':60},
    {'국어':70, '영어':60, '수학':80},
    {'국어':30, '영어':40, '수학':70}
]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [6]:
data_list = []
for i in range(4):
    ran = np.random.randint(40,100,3)
    d = {}
    d['국어'] = ran[0]
    d['영어'] = ran[1]
    d['수학'] = ran[2]
    data_list.append(d)
data_list

[{'국어': 64, '수학': 94, '영어': 52},
 {'국어': 46, '수학': 46, '영어': 78},
 {'국어': 73, '수학': 47, '영어': 77},
 {'국어': 41, '수학': 73, '영어': 86}]

In [7]:
df = pd.DataFrame(data_list)
df

Unnamed: 0,국어,영어,수학
0,64,52,94
1,46,78,46
2,73,77,47
3,41,86,73


### 2. 파일 입출력

In [8]:
%%writefile sample1.csv
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three

Writing sample1.csv


In [9]:
df = pd.read_csv('sample1.csv')
df

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [10]:
df.to_csv('sample2.csv')

In [11]:
pd.read_csv('sample2.csv')

Unnamed: 0.1,Unnamed: 0,c1,c2,c3
0,0,1,1.11,one
1,1,2,2.22,two
2,2,3,3.33,three


In [12]:
# 저장할 때는 인덱스가 저장되지 않도록 주의할 것
df.to_csv('sample3.csv', index=False)
pd.read_csv('sample3.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [13]:
# csv(comma separated values) --> tsv(tab separated values)
df.to_csv('sample4.tsv', index=False, sep='\t')

In [14]:
!cat sample4.tsv

c1	c2	c3
1	1.11	one
2	2.22	two
3	3.33	three


In [15]:
pd.read_csv('sample4.tsv', sep='\t')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [16]:
from google.colab import files
uploaded = files.upload()

Saving 서울시CCTV설치운영현황(자치구)_년도별_210731기준.csv to 서울시CCTV설치운영현황(자치구)_년도별_210731기준.csv


In [17]:
uploaded.keys()

dict_keys(['서울시CCTV설치운영현황(자치구)_년도별_210731기준.csv'])

In [20]:
filename = list(uploaded.keys())[0]
filename

'서울시CCTV설치운영현황(자치구)_년도별_210731기준.csv'

In [24]:
# encoding과 파일 앞부분의 주석에 유의하여 읽어야 함
df = pd.read_csv(filename, encoding='euc-kr', skiprows=1)
df.head()

Unnamed: 0,구분,총계,2012년 이전,2012년,2013년,2014년,2015년,2016년,2017년,2018년,2019년,2020년,2021년
0,계,77032,7667,2200,3491,4439,6582,8129,9947,9876,11961,11132,1608
1,종로구,1772,813,0,0,210,150,1,261,85,9,200,43
2,중 구,2333,16,114,87,77,236,240,372,386,155,361,289
3,용산구,2383,34,71,234,125,221,298,351,125,307,617,0
4,성동구,3602,448,125,212,105,339,310,874,390,262,461,76


### 3. 인덱싱

In [25]:
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70]
}
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [29]:
df['수학']['방자'], df['수학'][3], df['수학'][-1]

(70, 70, 70)

In [31]:
df.수학['방자'], df.수학[3], df.수학[-1]

(70, 70, 70)

In [34]:
df.수학.방자

70

In [35]:
df['국어']          # 결과가 시리즈

춘향    80
몽룡    90
향단    70
방자    30
Name: 국어, dtype: int64

In [36]:
df[['국어','영어']]     # 결과가 데이터프레임

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [37]:
df[['국어']]        # 결과가 데이터프레임

Unnamed: 0,국어
춘향,80
몽룡,90
향단,70
방자,30


In [38]:
df['국어'][1:3]

몽룡    90
향단    70
Name: 국어, dtype: int64

In [39]:
df['국어']['몽룡':'향단']       # 인덱스 이름으로 슬라이싱 할 경우에는 마지막값 포함

몽룡    90
향단    70
Name: 국어, dtype: int64

- loc 인덱서

In [40]:
df.loc['방자','수학']           # .loc[행 인덱스, 열 인덱스]

70

In [42]:
df.loc['방자'][2], df.loc['방자']['수학'] 

(70, 70)

- iloc 인덱서 - Numpy style

In [45]:
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [46]:
df.iloc[0]

국어    80
영어    90
수학    90
Name: 춘향, dtype: int64

In [47]:
df.iloc[0,1:]

영어    90
수학    90
Name: 춘향, dtype: int64