<a href="https://colab.research.google.com/github/Mifekmk/SkillTreePython-DataAnalysis/blob/main/06_Pandas_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%BD%EA%B3%A0%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ch06. Pandas - 데이터읽고 저장하기
---
* 날짜: 2022-04-13
* 이름: 김민규


## 개념정리
---

```
import pandas as pd
```

In [None]:
import pandas as pd

---
### **(1) 데이터 불러오기**
---


`read_csv` 함수는 테이블 형태의 데이터를 불러오는데 효과적으로 사용됩니다. 

* `pd.read_csv(filepath, sep, header, index_col, usecols, parse_dates, nrows)`
  * `filepath`: 파일 경로 및 이름
  * `sep`: 구분자 (디폴트 ',')
  * `header`: 헤더의 위치, None일 경우 0, 1, 2, .. 자동 부여
  * `index_col` : 인덱스의 위치 (디폴트 None)
  * `usecols`: 사용할 컬럼 및 위치 목록
  * `nrows`: 불러올 행의 개수

#### **| 텍스트 파일 불러오기**

우선 텍스트 파일을 하나 생성하겠습니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} , {i+1} , {i+2}\n')
```

In [None]:
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} , {i+1} ,  {i+2}\n')

생성한 텍스트 파일을 `read_csv`를 이용해 불러옵니다.

```
df_test = pd.read_csv('test.txt')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt')
df_test


Unnamed: 0,0,1,2
0,1,2,3
1,2,3,4
2,3,4,5
3,4,5,6


이번엔 텍스트 파일의 구분을 탭(`\t`)이용해 작성합니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')
```

In [None]:
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')

똑같이 텍스트 파일을 불러옵니다. 

```
df_test = pd.read_csv('test.txt')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt')
df_test

Unnamed: 0,0 \t 1 \t 2
0,1 \t 2 \t 3
1,2 \t 3 \t 4
2,3 \t 4 \t 5
3,4 \t 5 \t 6


`read_csv`는 데이터를 불러올 때 구분자 디폴트가 콤마(,) 입니다. 

따라서 탭을 이용한 경우는 옵션을 설정해 줍니다.

```
df_test = pd.read_csv('test.txt', sep='\t')
df_test
```

In [None]:
df_test = pd.read_csv('test.txt', sep='\t')
df_test

Unnamed: 0,0,1,2
0,1,2,3
1,2,3,4
2,3,4,5
3,4,5,6


이 때 각 열의 이름이 첫번 째 줄로 자동 저장 됩니다. 이를 방지하려면 `header`를 `None`으로 설정해야 합니다. 

```
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test
```

In [None]:
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5
4,4,5,6


#### **| CSV 파일 불러오기**

이번에는 `csv`파일을 불러옵니다.

```
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df
```

In [None]:
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


#### **| 제한적으로 불러오기**

```
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], 
                 nrows = 1000)

df_short
```

In [None]:
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], # 특정 열만 가지고 오기
                 nrows = 1000)        # 몇 개의 행만 가지고 오기

df_short

Unnamed: 0,housing_median_age,total_rooms,population
0,27.0,3885.0,1537.0
1,43.0,1510.0,809.0
2,27.0,3589.0,1484.0
3,28.0,67.0,49.0
4,19.0,1241.0,850.0
...,...,...,...
995,15.0,1472.0,892.0
996,35.0,1789.0,897.0
997,39.0,308.0,59.0
998,48.0,1601.0,784.0


---
### **(2) 데이터 출력**
---

option을 이용해서 최대 행의 개수와 최소 열의 개수를 조정할 수 있습니다. 

```
pd.set_option('display.max_rows', None) # 최대 행의 개수 조정
pd.set_option('display.max_columns', None) # 최대 열의 개수 조정
```

In [None]:
pd.set_option('display.max_rows', None)

In [None]:
df_short

In [None]:
pd.set_option('display.max_columns', None)

#### **| 출력 함수**

* `.head(n)` 가장 처음 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5) 

In [None]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


* `.tail(n)` 가장 마지막 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5)

In [None]:
df.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.179,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.7,36.3,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.1,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0
2999,-119.63,34.42,42.0,1765.0,263.0,753.0,260.0,8.5608,500001.0


* `.columns` : 열의 인덱스를 반환합니다.

In [None]:
df.columns  # 변수들을 볼 수가 있습니다.

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')

In [None]:
for x in df.columns:
    print(x)

longitude
latitude
housing_median_age
total_rooms
total_bedrooms
population
households
median_income
median_house_value


#### **| 기본 정보**

* `.shape` : 데이터의 shape 를 출력합니다.
* `.dtypes` : 데이터의 타입을 확인합니다.
* `.info()` : 데이터에 대한 개략적인 정보를 표시합니다.
* `.describe()` : 각 column 들의 기술 통계량을 출력합니다.
  * `count`: 해당 column에서 비어 있지 않은 값의 개수
  * `mean`: 평균
  * `std`: 표준편차
  * `min`: 최솟값 (이상치 포함)
  * `25%` (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
  * `50%` (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
  * `75%` (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
  * `max`: 최댓값 (이상치 포함)

* `.corr()`: 변수들 간 상관관계를 출력합니다.
* `.isnull()` : 결측치가 있는지를 출력합니다.


In [None]:
#df.shape
df.dtypes # 데이터 타입을 변수 별로 어떤 데이터로 이루어져 있는지 확인 하는 것.

longitude             float64
latitude              float64
housing_median_age    float64
total_rooms           float64
total_bedrooms        float64
population            float64
households            float64
median_income         float64
median_house_value    float64
dtype: object

In [None]:
#df.info()
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0,3000.0
mean,-119.5892,35.63539,28.845333,2599.578667,529.950667,1402.798667,489.912,3.807272,205846.275
std,1.994936,2.12967,12.555396,2155.593332,415.654368,1030.543012,365.42271,1.854512,113119.68747
min,-124.18,32.56,1.0,6.0,2.0,5.0,2.0,0.4999,22500.0
25%,-121.81,33.93,18.0,1401.0,291.0,780.0,273.0,2.544,121200.0
50%,-118.485,34.27,29.0,2106.0,437.0,1155.0,409.5,3.48715,177650.0
75%,-118.02,37.69,37.0,3129.0,636.0,1742.75,597.25,4.656475,263975.0
max,-114.49,41.92,52.0,30450.0,5419.0,11935.0,4930.0,15.0001,500001.0


In [None]:
df.corr()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,1.0,-0.925017,-0.064203,0.049865,0.070869,0.111572,0.051062,-0.018701,-0.050662
latitude,-0.925017,1.0,-0.025143,-0.039632,-0.068245,-0.117318,-0.068296,-0.072363,-0.138428
housing_median_age,-0.064203,-0.025143,1.0,-0.36785,-0.323154,-0.299888,-0.305171,-0.144315,0.091409
total_rooms,0.049865,-0.039632,-0.36785,1.0,0.937749,0.838867,0.914116,0.221249,0.160427
total_bedrooms,0.070869,-0.068245,-0.323154,0.937749,1.0,0.856387,0.970758,0.024025,0.082279
population,0.111572,-0.117318,-0.299888,0.838867,0.856387,1.0,0.89553,0.032361,-0.001192
households,0.051062,-0.068296,-0.305171,0.914116,0.970758,0.89553,1.0,0.048625,0.100176
median_income,-0.018701,-0.072363,-0.144315,0.221249,0.024025,0.032361,0.048625,1.0,0.672695
median_house_value,-0.050662,-0.138428,0.091409,0.160427,0.082279,-0.001192,0.100176,0.672695,1.0


In [None]:
df.isnull()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False
7,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False,False,False


#### **|  값 카운팅**

데이터의 카운팅은 보통 연속형 자료가 아닌 범주형 자료에 사용됨을 참고하세요. 

데이터 전체에 대해 카운팅을 할 수 있지만 보통 범주형 자료형에 대해서만 카운팅을 하기 때문에 특정 열에만 접근 할 필요가 있습니다.

특정 열에 접근하는 방법은 몇가지가 있지만 이번시간에는 간단히 `df.열이름`을 이용해 보겠습니다.

```
df.total_bedrooms
```

In [None]:
df.total_bedrooms

0        661.0
1        310.0
2        507.0
3         15.0
4        244.0
5        213.0
6        225.0
7        471.0
8        617.0
9        632.0
10       249.0
11       166.0
12       182.0
13       694.0
14       325.0
15        40.0
16       123.0
17       607.0
18       196.0
19      1307.0
20       256.0
21       296.0
22       543.0
23       528.0
24      1040.0
25       218.0
26      1030.0
27       418.0
28      1609.0
29       954.0
30       220.0
31       493.0
32       705.0
33      2971.0
34       170.0
35       726.0
36       451.0
37       251.0
38       203.0
39      1035.0
40       275.0
41       406.0
42       226.0
43       186.0
44       286.0
45      1874.0
46       251.0
47       338.0
48       369.0
49      1698.0
50      1887.0
51       121.0
52       500.0
53       380.0
54       333.0
55       233.0
56       528.0
57       468.0
58       291.0
59       600.0
60       140.0
61       317.0
62       305.0
63       299.0
64       399.0
65       768.0
66      12

* `.value_counts()` : 데이터의 개수를 카운트 합니다.

```
df.total_bedrooms.value_counts()
```

In [None]:
df.total_bedrooms.value_counts()

314.0     15
270.0     12
299.0     11
292.0     10
301.0     10
459.0     10
348.0     10
493.0     10
528.0     10
458.0     10
298.0     10
274.0     10
216.0      9
460.0      9
328.0      9
519.0      9
510.0      9
287.0      9
393.0      9
312.0      9
374.0      9
331.0      9
256.0      9
347.0      9
316.0      9
545.0      9
320.0      8
300.0      8
562.0      8
378.0      8
269.0      8
428.0      8
420.0      8
283.0      8
422.0      8
439.0      8
284.0      8
200.0      8
297.0      8
533.0      8
388.0      8
621.0      8
327.0      8
559.0      8
489.0      7
365.0      7
224.0      7
480.0      7
242.0      7
413.0      7
341.0      7
232.0      7
185.0      7
416.0      7
435.0      7
423.0      7
390.0      7
261.0      7
623.0      7
373.0      7
364.0      7
579.0      7
443.0      7
552.0      7
330.0      7
276.0      7
317.0      7
434.0      7
403.0      7
343.0      7
597.0      7
375.0      7
203.0      7
233.0      7
251.0      7
502.0      7
213.0      7

* `.unique()` : 데이터의 모든 값을 (중복제거하여) 출력합니다.

```
df.total_bedrooms.unique()
```

In [None]:
df.total_bedrooms.unique()

array([ 661.,  310.,  507., ...,  779., 1037.,  743.])

#### **| 집계함수**


|함수 | 내용|
|--|--|
|sum | 합계|
|mean|평균|
|std|표준편차|
|var|분산|
|quantile|백분위수|
|min|최소값|
|max|최대값|


In [None]:
df.total_rooms.median()

2106.0

* `quantile(n)`: 상위 `n`프로의 값을 얻습니다

```
print(df.total_rooms.quantile(0.1)) # 상위 10%
print(df.total_rooms.quantile(0.5)) # 중앙값
print(df.total_rooms.median()) # 중앙값
```

In [None]:
print(df.total_rooms.quantile(0.1)) # 상위 10%에 있는 집들의 개수
print(df.total_rooms.median())

907.9000000000001
2106.0


---
### **(3) 데이터 통합**
---



#### **| `concat` 이용하기**

* `pandas.concat([])`
  * 둘 이상의 데이터 프레임을 이어 붙이는데 사용
  * 주요입력
    * `objs`: DataFrame을 요소로 하는 리스트로 입력 순서대로 병합됨. 
    -> ex) orange, apple 같은 범주형 자료들을 다룰 때 사용합니다.
    * `ignore_index`: `True`면 기존 인덱스 무시하고 새로운 인덱스 부여, `False`면 기존 인덱스를 사용
    * 보통 행단위는 `ignore_index`를 `True`, 열단위는 `False`
    * `axis` : 0이면 행 단위로 병합 수행, 1이면 열단위로 병합 수행

전체 데이터에서 `longitude`, `latitude`열만 불러옵니다.

```
df1 = pd.read_csv(f_path,
                 usecols = [0, 1], 
                 nrows = 5)

df1
```

In [None]:
df1 = pd.read_csv(f_path,
                  usecols = [0,1],  # 열
                  nrows = 5)        # 행
df1

Unnamed: 0,longitude,latitude
0,-122.05,37.37
1,-118.3,34.26
2,-117.81,33.78
3,-118.36,33.82
4,-119.67,36.33


전체 데이터에서 `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df2 = pd.read_csv(f_path,
                 usecols = [3, 4], 
                 nrows = 5)

df2
```

In [None]:
df2 = pd.read_csv(f_path,
                  usecols = [3,4],  # 열
                  nrows = 5)        # 행
df2

Unnamed: 0,total_rooms,total_bedrooms
0,3885.0,661.0
1,1510.0,310.0
2,3589.0,507.0
3,67.0,15.0
4,1241.0,244.0


`.concat` 을 이용해 상하(axis=0)로 결합합니다.

```
df_concat = pd.concat([df1, df1], axis=0, ignore_index=True)
df_concat
```

In [None]:
df_concat = pd.concat([df1, df2], axis=0, ignore_index=True) # False라고 라면 (10,2)가 나오게 됩니다.
df_concat   #(5,2)+(5,2) -> (10,4)

# df_concat = pd.concat([df1, df1], axis=0, ignore_index=False) # False라고 라면 행이 0~4,0~4로 나오게 됩니다.
# df_concat   #(5,2)+(5,2) -> (10,4)

# df_concat = pd.concat([df1, df1], axis=0, ignore_index=False) # True라고 하면 행이 0~9로 나옵니다.
# df_concat   #(5,2)+(5,2) -> (10,4)

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.05,37.37,,
1,-118.3,34.26,,
2,-117.81,33.78,,
3,-118.36,33.82,,
4,-119.67,36.33,,
5,,,3885.0,661.0
6,,,1510.0,310.0
7,,,3589.0,507.0
8,,,67.0,15.0
9,,,1241.0,244.0


`.concat` 을 이용해 좌우(axis=1)로 결합합니다.

```
df_concat = pd.concat([df1, df2], axis=1)
df_concat
```

In [None]:
df_concat = pd.concat([df1, df2], axis=1)
df_concat

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.05,37.37,3885.0,661.0
1,-118.3,34.26,1510.0,310.0
2,-117.81,33.78,3589.0,507.0
3,-118.36,33.82,67.0,15.0
4,-119.67,36.33,1241.0,244.0


#### **| `merge` 이용하기**


* `pandas.merge`
  * key 변수를 기준으로 두개의 데이터 프레임을 병합(join)하는 함수.
  * 주요 입력
    * `left`: 통합 대상 데이터 프레임1
    * `right`: 통합
    * `on` : 통합기준 key 변수 및 변수 리스트 (입력을 하지 않으면 이름이 같은 변수를 key로 식별)
    * `left_on` : 데이터프레임1의 key 변수 및 변수 리스트
    * `right_on`: 데이터프레임2의 key 변수 및 변수 리스트
    * `left_index`: 데이터프레임1의 인덱스를 key 변수로 사용할 것인지 여부
    * `left_index`: 데이터프레임1의 인덱스를 key 변수로 사용할 것인지 여부


전체 데이터에서 `longitude`, `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df3 = pd.read_csv(f_path,
                 usecols = [0, 3, 4], 
                 nrows = 5)

df3
```

In [None]:
df3 = pd.read_csv(f_path,
                  usecols = [0,3,4],
                  nrows = 5)
df3

Unnamed: 0,longitude,total_rooms,total_bedrooms
0,-122.05,3885.0,661.0
1,-118.3,1510.0,310.0
2,-117.81,3589.0,507.0
3,-118.36,67.0,15.0
4,-119.67,1241.0,244.0


두 데이터를 `merge` 합니다.
```
df_merge = pd.merge(df1, df3)
df_merge
```

In [None]:
pd.merge(df1,df3)

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.05,37.37,3885.0,661.0
1,-118.3,34.26,1510.0,310.0
2,-117.81,33.78,3589.0,507.0
3,-118.36,33.82,67.0,15.0
4,-119.67,36.33,1241.0,244.0


In [None]:
df_merge = pd.merge(df1, df3)
df_merge

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.05,37.37,3885.0,661.0
1,-118.3,34.26,1510.0,310.0
2,-117.81,33.78,3589.0,507.0
3,-118.36,33.82,67.0,15.0
4,-119.67,36.33,1241.0,244.0


---
### **(4) 데이터 저장하기**
---


* `.to_csv(savepath, index)`
  * `filepath` : 파일 경로 및 이름
  * `index` : 인덱스 저장여부 (bool)


```
df_merge.to_csv("ch06_merged.csv", index = True)
```

In [None]:
df_merge.to_csv("ch06_merged.csv", index=True)  # index를 저장 할 건지

## 문제풀이
---

**예제 01**

`sample_data/california_housing_test.csv` 에서 열 `population`   `households`    `median_income` 만 위에서 500줄 불러오고 `df01`로 바인딩 하세요.

In [None]:
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df_short01 = pd.read_csv(f_path,
                       usecols = [5,6,7],
                       nrows = 500)
df01 = df_short01

**예제 02**

`sample_data/california_housing_test.csv` 에서 열 `median_incom`   `median_house_value` 만 위에서 500줄 불러오고 `df02`로 바인딩 하세요.

In [None]:
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df_short02 = pd.read_csv(f_path,
                       usecols = [7,8],
                       nrows=500)
df02 = df_short02
df02

**예제 03**

`df02`의 `.describe`를 실행하고 이를 통해 알 수 있는 정보를 정리하세요.

In [None]:
df02.describe()

Unnamed: 0,median_income,median_house_value
count,500.0,500.0
mean,3.790603,201901.242
std,1.884643,109422.391852
min,0.4999,44400.0
25%,2.56915,121450.0
50%,3.40835,175050.0
75%,4.5625,258575.0
max,15.0001,500001.0


**예제 04**

`df01`과 `df02`를 `concat`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [None]:
df_concat = pd.concat([df01, df02],axis=1, ignore_index=False)
df_concat.shape
df_concat.head()

Unnamed: 0,population,households,median_income,median_income.1,median_house_value
0,1537.0,606.0,6.6085,6.6085,344700.0
1,809.0,277.0,3.599,3.599,176500.0
2,1484.0,495.0,5.7934,5.7934,270500.0
3,49.0,11.0,6.1359,6.1359,330000.0
4,850.0,237.0,2.9375,2.9375,81700.0


**예제 05**

`df01`과 `df02`를 `merge`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [None]:
df_merge = pd.merge(df01,df02)
df_merge.head(5)

Unnamed: 0,population,households,median_income,median_house_value
0,1537.0,606.0,6.6085,344700.0
1,809.0,277.0,3.599,176500.0
2,1484.0,495.0,5.7934,270500.0
3,49.0,11.0,6.1359,330000.0
4,850.0,237.0,2.9375,81700.0
