<a href="https://colab.research.google.com/github/AlcoholWolf/py-play/blob/main/06_Pandas_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%BD%EA%B3%A0%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ch06. Pandas - 데이터읽고 저장하기
---
* 날짜:
* 이름:


## 개념정리
---

```
import pandas as pd
```

In [None]:
import pandas as pd

---
### **(1) 데이터 불러오기**
---


`read_csv` 함수는 테이블 형태의 데이터를 불러오는데 효과적으로 사용됩니다. 

* `pd.read_csv(filepath, sep, header, index_col, usecols, parse_dates, nrows)`
  * `filepath`: 파일 경로 및 이름
  * `sep`: 구분자 (디폴트 ',')
  * `header`: 헤더의 위치, None일 경우 0, 1, 2, .. 자동 부여
  * `index_col` : 인덱스의 위치 (디폴트 None)
  * `usecols`: 사용할 컬럼 및 위치 목록
  * `nrows`: 불러올 행의 개수

#### **| 텍스트 파일 불러오기**

우선 텍스트 파일을 하나 생성하겠습니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} , {i+1} , {i+2}\n')
```

In [None]:
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} , {i+1} , {i+2}\n')

생성한 텍스트 파일을 `read_csv`를 이용해 불러옵니다.

```
df_test = pd.read_csv('test.txt')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt')
df_test

이번엔 텍스트 파일의 구분을 탭(`\t`)이용해 작성합니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')
```

In [None]:
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')

똑같이 텍스트 파일을 불러옵니다. 

```
df_test = pd.read_csv('test.txt')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt')
df_test

`read_csv`는 데이터를 불러올 때 구분자 디폴트가 콤마(,) 입니다. 

따라서 탭을 이용한 경우는 옵션을 설정해 줍니다.

```
df_test = pd.read_csv('test.txt', sep='\t')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt', sep='\t')
df_test

이 때 각 열의 이름이 첫번 째 줄로 자동 저장 됩니다. 이를 방지하려면 `header`를 `None`으로 설정해야 합니다. 

```
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test
```

In [None]:
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test

#### **| CSV 파일 불러오기**

이번에는 `csv`파일을 불러옵니다.

```
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df
```

In [None]:
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df.head()

#### **| 제한적으로 불러오기**

```
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], 특정 열 만 가져오기
                 nrows = 1000)        n개의 행 만 가져오기

df_short
```

In [None]:
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], 
                 nrows = 1000)

df_short

---
### **(2) 데이터 출력**
---

option을 이용해서 최대 행의 개수와 최소 열의 개수를 조정할 수 있습니다. 

```
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
```

In [None]:
pd.set_option('display.max_rows', None)    #  최대 행 의 갯수
pd.set_option('display.max_columns', None) #  최대 열 의 갯수

In [None]:
pd.set_option('display.max_rows', None) 

In [None]:
df_short

In [None]:
#   출력도 저장값에 포함되므로 출력이 길다면 직접 엑셀 열어보기

#### **| 출력 함수**

* `.head(n)` 가장 처음 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5) 

In [None]:
df_test.head(1)

* `.tail(n)` 가장 마지막 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5)

In [None]:
df_test.tail(1)

* `.columns` : 열의 인덱스를 반환합니다.

In [None]:
df_test.columns

#### **| 기본 정보**

* `.shape` : 데이터의 shape 를 출력합니다.
* `.dtypes` : 데이터의 타입을 확인합니다.
* `.info()` : 데이터에 대한 개략적인 정보를 표시합니다.
* `.describe()` : 각 column 들의 기술 통계량을 출력합니다.
  * `count`: 해당 column에서 비어 있지 않은 값의 개수
  * `mean`: 평균
  * `std`: 표준편차
  * `min`: 최솟값 (이상치 포함)
  * `25%` (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
  * `50%` (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
  * `75%` (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
  * `max`: 최댓값 (이상치 포함)

* `.corr()`: 변수들 간 상관관계를 출력합니다.
* `.isnull()` : 결측치가 있는지를 출력합니다.


In [None]:
df.shape # 3000개의 행, 9개의 열

In [None]:
df.dtypes #잘 안씀 info 쓰는거 추천 

In [None]:
df.info()

In [None]:
df.describe() # 통계 기본 정보

In [None]:
df.corr()

#### **|  값 카운팅**

데이터의 카운팅은 보통 연속형 자료가 아닌 범주형 자료에 사용됨을 참고하세요. 

데이터 전체에 대해 카운팅을 할 수 있지만 보통 범주형 자료형에 대해서만 카운팅을 하기 때문에 특정 열에만 접근 할 필요가 있습니다.

특정 열에 접근하는 방법은 몇가지가 있지만 이번시간에는 간단히 `df.열이름`을 이용해 보겠습니다.

```
df.total_bedrooms
```

In [None]:
df.total_bedrooms

0        661.0
1        310.0
2        507.0
3         15.0
4        244.0
5        213.0
6        225.0
7        471.0
8        617.0
9        632.0
10       249.0
11       166.0
12       182.0
13       694.0
14       325.0
15        40.0
16       123.0
17       607.0
18       196.0
19      1307.0
20       256.0
21       296.0
22       543.0
23       528.0
24      1040.0
25       218.0
26      1030.0
27       418.0
28      1609.0
29       954.0
30       220.0
31       493.0
32       705.0
33      2971.0
34       170.0
35       726.0
36       451.0
37       251.0
38       203.0
39      1035.0
40       275.0
41       406.0
42       226.0
43       186.0
44       286.0
45      1874.0
46       251.0
47       338.0
48       369.0
49      1698.0
50      1887.0
51       121.0
52       500.0
53       380.0
54       333.0
55       233.0
56       528.0
57       468.0
58       291.0
59       600.0
60       140.0
61       317.0
62       305.0
63       299.0
64       399.0
65       768.0
66      12

* `.value_counts()` : 데이터의 개수를 카운트 합니다.

```
df.total_bedrooms.value_counts()
```

In [None]:
df.total_bedrooms.value_counts()

314.0     15
270.0     12
299.0     11
292.0     10
301.0     10
459.0     10
348.0     10
493.0     10
528.0     10
458.0     10
298.0     10
274.0     10
216.0      9
460.0      9
328.0      9
519.0      9
510.0      9
287.0      9
393.0      9
312.0      9
374.0      9
331.0      9
256.0      9
347.0      9
316.0      9
545.0      9
320.0      8
300.0      8
562.0      8
378.0      8
269.0      8
428.0      8
420.0      8
283.0      8
422.0      8
439.0      8
284.0      8
200.0      8
297.0      8
533.0      8
388.0      8
621.0      8
327.0      8
559.0      8
489.0      7
365.0      7
224.0      7
480.0      7
242.0      7
413.0      7
341.0      7
232.0      7
185.0      7
416.0      7
435.0      7
423.0      7
390.0      7
261.0      7
623.0      7
373.0      7
364.0      7
579.0      7
443.0      7
552.0      7
330.0      7
276.0      7
317.0      7
434.0      7
403.0      7
343.0      7
597.0      7
375.0      7
203.0      7
233.0      7
251.0      7
502.0      7
213.0      7

* `.unique()` : 데이터의 모든 값을 (중복제거하여) 출력합니다.

```
df.total_bedrooms.unique()
```

In [None]:
df.total_bedrooms.unique()

array([ 661.,  310.,  507., ...,  779., 1037.,  743.])

#### **| 집계함수**


|함수 | 내용|
|--|--|
|sum | 합계|
|mean|평균|
|std|표준편차|
|var|분산|
|quantile|백분위수|
|min|최소값|
|max|최대값|


* `quantile(n)`: 상위 `n`프로의 값을 얻습니다

```
print(df.total_rooms.quantile(0.1)) # 상위 10%
print(df.total_rooms.quantile(0.5)) # 중앙값
print(df.total_rooms.median()) # 중앙값
```

In [None]:
print(df.total_rooms.quantile(0.1)) # 상위 10%
print(df.total_rooms.quantile(0.5)) # 중앙값
print(df.total_rooms.median()) # 중앙값

907.9000000000001
2106.0
2106.0


---
### **(3) 데이터 통합**
---



#### **| `concat` 이용하기**

* `pandas.concat([])`
  * 둘 이상의 데이터 프레임을 이어 붙이는데 사용
  * 주요입력
    * `objs`: DataFrame을 요소로 하는 리스트로 입력 순서대로 병합됨.
    * `ignore_index`: `True`면 기존 인덱스 무시하고 새로운 인덱스 부여, `False`면 기존 인덱스를 사용
    * 보통 행단위는 `ignore_index`를 `True`, 열단위는 `False`
    * `axis` : 0이면 행 단위로 병합 수행, 1이면 열단위로 병합 수행

전체 데이터에서 `longitude`, `latitude`열만 불러옵니다.

```
df1 = pd.read_csv(f_path,
                 usecols = [0, 1], 
                 nrows = 5)

df1
```

In [None]:
df1 = pd.read_csv(f_path,
                 usecols = [0, 1], 
                 nrows = 5)

df1

전체 데이터에서 `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df2 = pd.read_csv(f_path,
                 usecols = [3, 4], 
                 nrows = 5)

df2
```

In [None]:
df2 = pd.read_csv(f_path,
                 usecols = [3, 4], 
                 nrows = 5)

df2

`.concat` 을 이용해 상하(axis=0)로 결합합니다.

```
df_concat = pd.concat([df1, df1], axis=0, ignore_index=True)
df_concat
```

In [None]:
df_concat = pd.concat([df1, df1], axis=0, ignore_index=True)
df_concat

`.concat` 을 이용해 좌우(axis=1)로 결합합니다.

```
df_concat = pd.concat([df1, df2], axis=1)
df_concat
```

In [None]:
df_concat = pd.concat([df1, df2], axis=1)
df_concat

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.05,37.37,3885.0,661.0
1,-118.3,34.26,1510.0,310.0
2,-117.81,33.78,3589.0,507.0
3,-118.36,33.82,67.0,15.0
4,-119.67,36.33,1241.0,244.0


#### **| `merge` 이용하기**


* `pandas.merge`
  * key 변수를 기준으로 두개의 데이터 프레임을 병합(join)하는 함수.
  * 주요 입력
    * `left`: 통합 대상 데이터 프레임1
    * `right`: 통합
    * `on` : 통합기준 key 변수 및 변수 리스트 (입력을 하지 않으면 이름이 같은 변수를 key로 식별)
    * `left_on` : 데이터프레임1의 key 변수 및 변수 리스트
    * `right_on`: 데이터프레임2의 key 변수 및 변수 리스트
    * `left_index`: 데이터프레임1의 인덱스를 key 변수로 사용할 것인지 여부
    * `left_index`: 데이터프레임1의 인덱스를 key 변수로 사용할 것인지 여부


전체 데이터에서 `longitude`, `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df3 = pd.read_csv(f_path,
                 usecols = [0, 3, 4], 
                 nrows = 5)

df3
```

In [None]:
df3 = pd.read_csv(f_path,
                 usecols = [0, 3, 4], 
                 nrows = 5)

df3

Unnamed: 0,longitude,total_rooms,total_bedrooms
0,-122.05,3885.0,661.0
1,-118.3,1510.0,310.0
2,-117.81,3589.0,507.0
3,-118.36,67.0,15.0
4,-119.67,1241.0,244.0


두 데이터를 `merge` 합니다.
```
df_merge = pd.merge(df1, df3)
df_merge
```

In [None]:
df_merge = pd.merge(df1, df3)
df_merge

---
### **(4) 데이터 저장하기**
---


* `.to_csv(savepath, index)`
  * `filepath` : 파일 경로 및 이름
  * `index` : 인덱스 저장여부 (bool)


```
df_merge.to_csv("ch06_merged.csv", index = True)
```

In [None]:
df_merge.to_csv("ch06_merged.csv", index = True)

## 문제풀이
---

**예제 01**

`sample_data/california_housing_test.csv` 에서 열 `population`   `households`    `median_income` 만 위에서 500줄 불러오고 `df01`로 바인딩 하세요.

In [None]:
df_file = 'sample_data/california_housing_test.csv'
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


In [None]:
df_file = 'sample_data/california_housing_test.csv'
df01 = pd.read_csv(df_file,
                 usecols = [5, 6, 7], 
                 nrows = 501)

**예제 02**

`sample_data/california_housing_test.csv` 에서 열 `median_incom`   `median_house_value` 만 위에서 500줄 불러오고 `df02`로 바인딩 하세요.

In [None]:
df_file = 'sample_data/california_housing_test.csv'
df02 = pd.read_csv(df_file,
                 usecols = [7, 8], 
                 nrows = 501)

**예제 03**

`df02`의 `.describe`를 실행하고 이를 통해 알 수 있는 정보를 정리하세요.

In [None]:
df02.describe

**예제 04**

`df01`과 `df02`를 `concat`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [None]:
df_concat = pd.concat([df01, df02], axis=1) #     df01[0] df01[1] df01[2] df02[0] df02[1]
                                            #  1
                                            #  2
                                            #  3
                                            #  4
                                            #  5
                                            #  6
                                            #  7                                        

**예제 05**

`df01`과 `df02`를 `merge`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [None]:
df_merge = pd.merge(df01, df02)             #     df01[0] df01[1] df01[2] df02[0] df02[1] (만약 같은 값이 있다면 자동으로 지우고 출력)
                                            #  1
                                            #  2
                                            #  3
                                            #  4
                                            #  5
                                            #  6
                                            #  7