## 📍 저장

### ✅ DataFrame 객체 생성
: ```pd.DataFrame({data, index=[index_list]})```

In [1]:
import pandas as pd

data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
df = pd.DataFrame(data, index=['1번', '2번', '3번', '4번', '5번', '6번', '7번', '8번']) # index 설정
df.index.name='지원번호' # index_name 설정
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### ✅ csv로 저장
: ```df.to_csv('파일명.csv', encoding='utf8', index=True/False)```\
  index=True(defalut값)일 경우 index가 별도의 칼럼으로 저장(가급적 index=False로 지정)

In [2]:
df.to_csv('score.csv') # txt로 잘보이지만 excel로는 한글 깨져보임

In [3]:
df.to_csv('score.csv', encoding='utf8') # excel도 깨지지 않게 됨

In [4]:
df.to_csv('score.csv', encoding='utf8', index=False) # index 제외하고 저장

### ✅ 텍스트(.txt)로 저장
: ```df.to_csv('파일명.txt', sep='\t')```

In [5]:
df.to_csv('score.txt', sep='\t') # tap으로 구분된 txt파일로 저장

### ✅ 엑셀로 저장
: ```df.to_excel('파일명.xlsx', index=True/False, sheet_name='sheet_name')```\
  sheet_name을 지정하여 저장할 시트의 이름 변경 가능

In [6]:
df.to_excel('score.xlsx')

In [7]:
df.to_excel('score.xlsx', index=False)

In [8]:
df.to_excel('score.xlsx', index=True, sheet_name='샘플')

### ✅ 엑셀로 저장(여러개의 시트)
: ```writer=pd.ExcelWriter('파일명.xlsx')```\
```df.to_excel(writer, index=True/False, sheet_name='sheet_name')```\
```writer.close()```

In [9]:
writer = pd.ExcelWriter('score_mult.xlsx')
df.to_excel(writer, index=False, sheet_name='샘플1')
df.to_excel(writer, index=False, sheet_name='샘플2')
df.to_excel(writer, index=False, sheet_name='샘플3')
writer.close()

# 📍 열기
### ✅ csv로 열기
: ```pd.read_csv('파일명.csv', skiprows=삭제할row갯수 / [row_list], nrows=불러올row갯수)```

In [10]:
df = pd.read_csv('score.csv')
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,
4,강백호,북산고,188,15,20,10,35,10,
5,변덕규,능남고,202,80,100,95,85,80,C
6,황태산,능남고,188,55,65,45,40,35,PYTHON
7,윤대협,능남고,190,100,85,90,95,95,C#


In [11]:
df = pd.read_csv('score.csv', skiprows=1) # 1개 row를 스킵
df

Unnamed: 0,채치수,북산고,197,90,85,100,95,85.1,Python
0,정대만,북산고,184,40,35,50,55,25,Java
1,송태섭,북산고,168,80,75,70,80,75,Javascript
2,서태웅,북산고,187,40,60,70,75,80,
3,강백호,북산고,188,15,20,10,35,10,
4,변덕규,능남고,202,80,100,95,85,80,C
5,황태산,능남고,188,55,65,45,40,35,PYTHON
6,윤대협,능남고,190,100,85,90,95,95,C#


In [12]:
df = pd.read_csv('score.csv', skiprows=[1, 3, 5]) # 1, 3, 5 row 제외
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,정대만,북산고,184,40,35,50,55,25,Java
1,서태웅,북산고,187,40,60,70,75,80,
2,변덕규,능남고,202,80,100,95,85,80,C
3,황태산,능남고,188,55,65,45,40,35,PYTHON
4,윤대협,능남고,190,100,85,90,95,95,C#


In [13]:
df = pd.read_csv('score.csv', nrows=4) # 지정된 갯수만큼의 row만 가져옴
df

Unnamed: 0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,채치수,북산고,197,90,85,100,95,85,Python
1,정대만,북산고,184,40,35,50,55,25,Java
2,송태섭,북산고,168,80,75,70,80,75,Javascript
3,서태웅,북산고,187,40,60,70,75,80,


In [14]:
df = pd.read_csv('score.csv', skiprows=2, nrows=4) # 처음 2 row 무시, 4 row만 들고옴
df

Unnamed: 0,정대만,북산고,184,40,35,50,55,25,Java
0,송태섭,북산고,168,80,75,70,80,75,Javascript
1,서태웅,북산고,187,40,60,70,75,80,
2,강백호,북산고,188,15,20,10,35,10,
3,변덕규,능남고,202,80,100,95,85,80,C


### ✅ csv로 열기(큰 데이터의 파일)
: ```pd.read_csv('파일명.csv', chunksize=int)```\
  데이터의 크기가 매우 큰 경우 memory에 한번에 로드할 수 없음\
  chunksize를 지정하고 chunksize만큼 끊어 불러와서 처리

In [15]:
df = pd.read_csv('seoul_population.csv', nrows=10, chunksize=5)
for d in df:
    display(d)

Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
0,2020,합계,4417954,9911088,4816522,5094566,9668465,4701723,4966742,242623,114799,127824,2.19,1568331
1,2020,종로구,75003,158996,76876,82120,149384,72635,76749,9612,4241,5371,1.99,28507
2,2020,중구,63686,134635,65776,68859,125240,61222,64018,9395,4554,4841,1.97,24495
3,2020,용산구,113093,244645,118835,125810,230040,110722,119318,14605,8113,6492,2.03,40247
4,2020,성동구,135870,300505,146424,154081,293556,143387,150169,6949,3037,3912,2.16,45603


Unnamed: 0,연도,자치구,세대수,인구 합계,남자 인구 합계,여자 인구 합계,한국인 인구 합계,한국인 남자 인구수,한국인 여자 인구수,등록 외국인 인구 합계,등록 외국인 인구 남자수,등록 외국인 인구 여자수,세대당 인구,65세 이상 고령자 수
5,2020,광진구,167427,360109,173000,187109,346682,167310,179372,13427,5690,7737,2.07,50560
6,2020,동대문구,167598,357014,175322,181692,342837,169769,173068,14177,5553,8624,2.05,61796
7,2020,중랑구,185920,399562,197118,202444,394702,195165,199537,4860,1953,2907,2.12,69447
8,2020,성북구,195396,447056,214658,232398,437153,210810,226343,9903,3848,6055,2.24,73770
9,2020,강북구,145896,311569,151466,160103,308055,150143,157912,3514,1323,2191,2.11,63422


### ✅ 텍스트(.txt)로 열기
: ```pd.read_csv('파일명.txt', sep='\t', index_col='column')```

In [16]:
df = pd.read_csv('score.txt', sep='\t') # tap을 기준으로 열기
df

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [17]:
df = pd.read_csv('score.txt', sep='\t', index_col='지원번호') # index 설정
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### ✅ 엑셀로 열기
: ```pd.read_excel('파일명.xlsx', index_col='column')```

In [18]:
df = pd.read_excel('score.xlsx')
df

Unnamed: 0,지원번호,이름,학교,키,국어,영어,수학,과학,사회,SW특기
0,1번,채치수,북산고,197,90,85,100,95,85,Python
1,2번,정대만,북산고,184,40,35,50,55,25,Java
2,3번,송태섭,북산고,168,80,75,70,80,75,Javascript
3,4번,서태웅,북산고,187,40,60,70,75,80,
4,5번,강백호,북산고,188,15,20,10,35,10,
5,6번,변덕규,능남고,202,80,100,95,85,80,C
6,7번,황태산,능남고,188,55,65,45,40,35,PYTHON
7,8번,윤대협,능남고,190,100,85,90,95,95,C#


In [19]:
df = pd.read_excel('score.xlsx', index_col='지원번호') # index 설정
df

Unnamed: 0_level_0,이름,학교,키,국어,영어,수학,과학,사회,SW특기
지원번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1번,채치수,북산고,197,90,85,100,95,85,Python
2번,정대만,북산고,184,40,35,50,55,25,Java
3번,송태섭,북산고,168,80,75,70,80,75,Javascript
4번,서태웅,북산고,187,40,60,70,75,80,
5번,강백호,북산고,188,15,20,10,35,10,
6번,변덕규,능남고,202,80,100,95,85,80,C
7번,황태산,능남고,188,55,65,45,40,35,PYTHON
8번,윤대협,능남고,190,100,85,90,95,95,C#


### ✅ 엑셀로 열기(여러개의 시트)
: ```pd.read_excel('파일명.xlsx', index_col='column', sheet_name='sheet_name'/None)```\
```sheet_name=None```으로 지정하여 모든 sheet 불러오기 가능(OrderDict로 불러옴)

In [20]:
excel = pd.read_excel('seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl')
excel

Unnamed: 0,대중교통구분,노선명,년월,승차총승객수
0,지하철,1호선,201711,8633618
1,지하철,1호선,201712,8737235
2,지하철,1호선,201801,8145989
3,지하철,1호선,201802,7273309
4,지하철,1호선,201803,8692551
...,...,...,...,...
596,지하철,우이신설선,201901,1263643
597,지하철,우이신설선,201902,1102109
598,지하철,우이신설선,201903,1402393
599,지하철,우이신설선,201904,1403115


In [21]:
excel = pd.read_excel('seoul_transportation.xlsx', sheet_name=None, engine='openpyxl')
excel

{'철도':     대중교통구분    노선명      년월   승차총승객수
 0      지하철    1호선  201711  8633618
 1      지하철    1호선  201712  8737235
 2      지하철    1호선  201801  8145989
 3      지하철    1호선  201802  7273309
 4      지하철    1호선  201803  8692551
 ..     ...    ...     ...      ...
 596    지하철  우이신설선  201901  1263643
 597    지하철  우이신설선  201902  1102109
 598    지하철  우이신설선  201903  1402393
 599    지하철  우이신설선  201904  1403115
 600    지하철  우이신설선  201905  1469681
 
 [601 rows x 4 columns],
 '버스':    대중교통구분      년월     승차총승객수
 0      버스  201711  163443126
 1      버스  201712  162521011
 2      버스  201801  153335185
 3      버스  201802  134768582
 4      버스  201803  166177855
 5      버스  201804  160452595
 6      버스  201805  164390595
 7      버스  201806  156999747
 8      버스  201807  163736112
 9      버스  201808  160240197
 10     버스  201809  151311657
 11     버스  201810  165820934
 12     버스  201811  163017758
 13     버스  201812  158049446
 14     버스  201901  153037549
 15     버스  201902  131621925
 16     버스  201903 

: ```df.keys()```\
  시트명 조회

In [22]:
excel.keys()

dict_keys(['철도', '버스'])

In [23]:
excel['버스'].head()

Unnamed: 0,대중교통구분,년월,승차총승객수
0,버스,201711,163443126
1,버스,201712,162521011
2,버스,201801,153335185
3,버스,201802,134768582
4,버스,201803,166177855
