<a href="https://colab.research.google.com/github/yebiny/SkillTreePython-DataAnalysis/blob/main/01.%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%B4%88/06_Pandas_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%9D%BD%EA%B3%A0%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ch06. Pandas - 데이터읽고 저장하기
---
* 날짜: 2022-04-13
* 이름: 고민수


## 개념정리
---

```
import pandas as pd
```

In [1]:
import pandas as pd

---
### **(1) 데이터 불러오기**
---


`read_csv` 함수는 테이블 형태의 데이터를 불러오는데 효과적으로 사용됩니다. 

* `pd.read_csv(filepath, sep, header, index_col, usecols, parse_dates, nrows)`
  * `filepath`: 파일 경로 및 이름
  * `sep`: 구분자 (디폴트 ',')
  * `header`: 헤더의 위치, None일 경우 0, 1, 2, .. 자동 부여
  * `index_col` : 인덱스의 위치 (디폴트 None)
  * `usecols`: 사용할 컬럼 및 위치 목록
  * `nrows`: 불러올 행의 개수

#### **| 텍스트 파일 불러오기**

우선 텍스트 파일을 하나 생성하겠습니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} , {i+1} , {i+2}\n')
```

In [2]:
with open('test.txt', 'w') as f:
    for i in range(5):
        f.write(f'{i} , {i+1} , {i+2}\n')

생성한 텍스트 파일을 `read_csv`를 이용해 불러옵니다.

```
df_test = pd.read_csv('test.txt')
df_test
```

In [3]:
df_test = pd.read_csv('test.txt')
df_test

Unnamed: 0,0,1,2
0,1,2,3
1,2,3,4
2,3,4,5
3,4,5,6


이번엔 텍스트 파일의 구분을 탭(`\t`)이용해 작성합니다.


```
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')
```

In [4]:
with open('test.txt', 'w') as f:
  for i in range(5):
    f.write(f'{i} \t {i+1} \t {i+2}\n')

똑같이 텍스트 파일을 불러옵니다. 

```
df_test = pd.read_csv('test.txt')
df_test
```

In [5]:
df_test = pd.read_csv('test.txt')
df_test

Unnamed: 0,0 \t 1 \t 2
0,1 \t 2 \t 3
1,2 \t 3 \t 4
2,3 \t 4 \t 5
3,4 \t 5 \t 6


`read_csv`는 데이터를 불러올 때 구분자 디폴트가 콤마(,) 입니다. 

따라서 탭을 이용한 경우는 옵션을 설정해 줍니다.

```
df_test = pd.read_csv('test.txt', sep='\t')
df_test
```

In [6]:
df_test = pd.read_csv('test.txt', sep='\t')
df_test

Unnamed: 0,0,1,2
0,1,2,3
1,2,3,4
2,3,4,5
3,4,5,6


이 때 각 열의 이름이 첫번 째 줄로 자동 저장 됩니다. 이를 방지하려면 `header`를 `None`으로 설정해야 합니다. 

```
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test
```

In [7]:
df_test = pd.read_csv('test.txt', sep='\t', header=None)
df_test

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5
4,4,5,6


#### **| CSV 파일 불러오기**

이번에는 `csv`파일을 불러옵니다.

```
f_path = '/content/sample_data/california_housing_test.csv'
df = pd.read_csv(f_path)
df
```

In [9]:
f_path = '../datasets/housing/housing.csv'
df = pd.read_csv(f_path)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


#### **| 제한적으로 불러오기**

```
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], 
                 nrows = 1000)

df_short
```

In [10]:
df_short = pd.read_csv(f_path,
                 usecols = [2, 3, 5], 
                 nrows = 1000)

df_short

Unnamed: 0,housing_median_age,total_rooms,population
0,41.0,880.0,322.0
1,21.0,7099.0,2401.0
2,52.0,1467.0,496.0
3,52.0,1274.0,558.0
4,52.0,1627.0,565.0
...,...,...,...
995,11.0,12070.0,5826.0
996,25.0,494.0,254.0
997,22.0,5533.0,2474.0
998,17.0,3956.0,2222.0


---
### **(2) 데이터 출력**
---

option을 이용해서 최대 행의 개수와 최소 열의 개수를 조정할 수 있습니다. 

```
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
```

In [13]:
pd.set_option('display.max_rows', 10)

In [14]:
df_short

Unnamed: 0,housing_median_age,total_rooms,population
0,41.0,880.0,322.0
1,21.0,7099.0,2401.0
2,52.0,1467.0,496.0
3,52.0,1274.0,558.0
4,52.0,1627.0,565.0
...,...,...,...
995,11.0,12070.0,5826.0
996,25.0,494.0,254.0
997,22.0,5533.0,2474.0
998,17.0,3956.0,2222.0


#### **| 출력 함수**

* `.head(n)` 가장 처음 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5) 

In [15]:
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


* `.tail(n)` 가장 마지막 데이터 n줄만 보여줍니다. (n을 정의하지 않으면 n=5)

In [17]:
df.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND


* `.columns` : 열의 인덱스를 반환합니다.

In [18]:
df.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value', 'ocean_proximity'],
      dtype='object')

#### **| 기본 정보**

* `.shape` : 데이터의 shape 를 출력합니다.
* `.dtypes` : 데이터의 타입을 확인합니다.
* `.info()` : 데이터에 대한 개략적인 정보를 표시합니다.
* `.describe()` : 각 column 들의 기술 통계량을 출력합니다.
  * `count`: 해당 column에서 비어 있지 않은 값의 개수
  * `mean`: 평균
  * `std`: 표준편차
  * `min`: 최솟값 (이상치 포함)
  * `25%` (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
  * `50%` (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
  * `75%` (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
  * `max`: 최댓값 (이상치 포함)

* `.corr()`: 변수들 간 상관관계를 출력합니다.
* `.isnull()` : 결측치가 있는지를 출력합니다.


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [20]:
df.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


#### **|  값 카운팅**

데이터의 카운팅은 보통 연속형 자료가 아닌 범주형 자료에 사용됨을 참고하세요. 

데이터 전체에 대해 카운팅을 할 수 있지만 보통 범주형 자료형에 대해서만 카운팅을 하기 때문에 특정 열에만 접근 할 필요가 있습니다.

특정 열에 접근하는 방법은 몇가지가 있지만 이번시간에는 간단히 `df.열이름`을 이용해 보겠습니다.

```
df.total_bedrooms
```

In [21]:
df.total_bedrooms

0         129.0
1        1106.0
2         190.0
3         235.0
4         280.0
          ...  
20635     374.0
20636     150.0
20637     485.0
20638     409.0
20639     616.0
Name: total_bedrooms, Length: 20640, dtype: float64

* `.value_counts()` : 데이터의 개수를 카운트 합니다.

```
df.total_bedrooms.value_counts()
```

In [22]:
df.total_bedrooms.value_counts()

280.0     55
331.0     51
345.0     50
343.0     49
393.0     49
          ..
2961.0     1
1915.0     1
1215.0     1
3298.0     1
1052.0     1
Name: total_bedrooms, Length: 1923, dtype: int64

* `.unique()` : 데이터의 모든 값을 (중복제거하여) 출력합니다.

```
df.total_bedrooms.unique()
```

In [23]:
df.total_bedrooms.unique()

array([ 129., 1106.,  190., ..., 3008., 1857., 1052.])

#### **| 집계함수**


|함수 | 내용|
|--|--|
|sum | 합계|
|mean|평균|
|std|표준편차|
|var|분산|
|quantile|백분위수|
|min|최소값|
|max|최대값|


* `quantile(n)`: 상위 `n`프로의 값을 얻습니다

```
print(df.total_rooms.quantile(0.1)) # 상위 10%
print(df.total_rooms.quantile(0.5)) # 중앙값
print(df.total_rooms.median()) # 중앙값
```

In [24]:
print(df.total_rooms.quantile(0.1)) # 상위 10%
print(df.total_rooms.quantile(0.5)) # 중앙값
print(df.total_rooms.median()) # 중앙값

941.0
2127.0
2127.0


---
### **(3) 데이터 통합**
---



#### **| `concat` 이용하기**

* `pandas.concat([])`
  * 둘 이상의 데이터 프레임을 이어 붙이는데 사용
  * 주요입력
    * `objs`: DataFrame을 요소로 하는 리스트로 입력 순서대로 병합됨.
    * `ignore_index`: `True`면 기존 인덱스 무시하고 새로운 인덱스 부여, `False`면 기존 인덱스를 사용
    * 보통 행단위는 `ignore_index`를 `True`, 열단위는 `False`
    * `axis` : 0이면 행 단위로 병합 수행, 1이면 열단위로 병합 수행

전체 데이터에서 `longitude`, `latitude`열만 불러옵니다.

```
df1 = pd.read_csv(f_path,
                 usecols = [0, 1], 
                 nrows = 5)

df1
```

In [25]:
df1 = pd.read_csv(f_path,
                 usecols = [0, 1], 
                 nrows = 5)

df1

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85


전체 데이터에서 `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df2 = pd.read_csv(f_path,
                 usecols = [3, 4], 
                 nrows = 5)

df2
```

In [26]:
df2 = pd.read_csv(f_path,
                 usecols = [3, 4], 
                 nrows = 5)

df2

Unnamed: 0,total_rooms,total_bedrooms
0,880.0,129.0
1,7099.0,1106.0
2,1467.0,190.0
3,1274.0,235.0
4,1627.0,280.0


`.concat` 을 이용해 상하(axis=0)로 결합합니다.

```
df_concat = pd.concat([df1, df1], axis=0, ignore_index=True)
df_concat
```

In [30]:
df_concat = pd.concat([df1, df1], axis=0, ignore_index=True)
df_concat

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85
5,-122.23,37.88
6,-122.22,37.86
7,-122.24,37.85
8,-122.25,37.85
9,-122.25,37.85


`.concat` 을 이용해 좌우(axis=1)로 결합합니다.

```
df_concat = pd.concat([df1, df2], axis=1)
df_concat
```

In [31]:
df_concat = pd.concat([df1, df2], axis=1)
df_concat

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.23,37.88,880.0,129.0
1,-122.22,37.86,7099.0,1106.0
2,-122.24,37.85,1467.0,190.0
3,-122.25,37.85,1274.0,235.0
4,-122.25,37.85,1627.0,280.0


#### **| `merge` 이용하기**


* `pandas.merge`
  * key 변수를 기준으로 두개의 데이터 프레임을 병합(join)하는 함수.
  * 주요 입력
    * `left`: 통합 대상 데이터 프레임1
    * `right`: 통합
    * `on` : 통합기준 key 변수 및 변수 리스트 (입력을 하지 않으면 이름이 같은 변수를 key로 식별)
    * `left_on` : 데이터프레임1의 key 변수 및 변수 리스트
    * `right_on`: 데이터프레임2의 key 변수 및 변수 리스트
    * `left_index`: 데이터프레임1의 인덱스를 key 변수로 사용할 것인지 여부


전체 데이터에서 `longitude`, `total_rooms`, `total_bedrooms`열만 불러옵니다.

```
df3 = pd.read_csv(f_path,
                 usecols = [0, 3, 4], 
                 nrows = 5)

df3
```

In [34]:
df1

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85


In [32]:
df3 = pd.read_csv(f_path,
                 usecols = [0, 3, 4], 
                 nrows = 5)

df3

Unnamed: 0,longitude,total_rooms,total_bedrooms
0,-122.23,880.0,129.0
1,-122.22,7099.0,1106.0
2,-122.24,1467.0,190.0
3,-122.25,1274.0,235.0
4,-122.25,1627.0,280.0


두 데이터를 `merge` 합니다.
```
df_merge = pd.merge(df1, df3)
df_merge
```

In [33]:
df_merge = pd.merge(df1, df3)
df_merge

Unnamed: 0,longitude,latitude,total_rooms,total_bedrooms
0,-122.23,37.88,880.0,129.0
1,-122.22,37.86,7099.0,1106.0
2,-122.24,37.85,1467.0,190.0
3,-122.25,37.85,1274.0,235.0
4,-122.25,37.85,1627.0,280.0
5,-122.25,37.85,1274.0,235.0
6,-122.25,37.85,1627.0,280.0


---
### **(4) 데이터 저장하기**
---


* `.to_csv(savepath, index)`
  * `filepath` : 파일 경로 및 이름
  * `index` : 인덱스 저장여부 (bool)


```
df_merge.to_csv("ch06_merged.csv", index = True)
```

## 문제풀이
---

**예제 01**

`sample_data/california_housing_test.csv` 에서 열 `population`   `households`    `median_income` 만 위에서 500줄 불러오고 `df01`로 바인딩 하세요.

In [36]:
df_path = "sample_data/california_housing_test.csv"
df = pd.read_csv(df_path)
df

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.30,34.26,43.0,1510.0,310.0,809.0,277.0,3.5990,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0
...,...,...,...,...,...,...,...,...,...
2995,-119.86,34.42,23.0,1450.0,642.0,1258.0,607.0,1.1790,225000.0
2996,-118.14,34.06,27.0,5257.0,1082.0,3496.0,1036.0,3.3906,237200.0
2997,-119.70,36.30,10.0,956.0,201.0,693.0,220.0,2.2895,62000.0
2998,-117.12,34.10,40.0,96.0,14.0,46.0,14.0,3.2708,162500.0


In [37]:
df_path = "sample_data/california_housing_test.csv"
df01 = pd.read_csv(df_path,
                  usecols=[5,6,7],
                  nrows=500)
df01

Unnamed: 0,population,households,median_income
0,1537.0,606.0,6.6085
1,809.0,277.0,3.5990
2,1484.0,495.0,5.7934
3,49.0,11.0,6.1359
4,850.0,237.0,2.9375
...,...,...,...
495,94.0,57.0,2.5625
496,1572.0,474.0,4.5938
497,1745.0,372.0,2.0817
498,784.0,430.0,3.3702


**예제 02**

`sample_data/california_housing_test.csv` 에서 열 `median_incom`   `median_house_value` 만 위에서 500줄 불러오고 `df02`로 바인딩 하세요.

In [39]:
df_path = "sample_data/california_housing_test.csv"
df02 = pd.read_csv(df_path,
                  usecols=[7,8],
                  nrows=500)
df02

Unnamed: 0,median_income,median_house_value
0,6.6085,344700.0
1,3.5990,176500.0
2,5.7934,270500.0
3,6.1359,330000.0
4,2.9375,81700.0
...,...,...
495,2.5625,60000.0
496,4.5938,102600.0
497,2.0817,113300.0
498,3.3702,370000.0


**예제 03**

`df02`의 `.describe`를 실행하고 이를 통해 알 수 있는 정보를 정리하세요.

In [40]:
df02.describe()

Unnamed: 0,median_income,median_house_value
count,500.0,500.0
mean,3.790603,201901.242
std,1.884643,109422.391852
min,0.4999,44400.0
25%,2.56915,121450.0
50%,3.40835,175050.0
75%,4.5625,258575.0
max,15.0001,500001.0


**예제 04**

`df01`과 `df02`를 `concat`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [46]:
pd.concat([df01,df02], axis=1)
# 같은 header 가 2개씩 생김

Unnamed: 0,median_income,median_house_value,median_income.1,median_house_value.1
0,6.6085,344700.0,6.6085,344700.0
1,3.5990,176500.0,3.5990,176500.0
2,5.7934,270500.0,5.7934,270500.0
3,6.1359,330000.0,6.1359,330000.0
4,2.9375,81700.0,2.9375,81700.0
...,...,...,...,...
495,2.5625,60000.0,2.5625,60000.0
496,4.5938,102600.0,4.5938,102600.0
497,2.0817,113300.0,2.0817,113300.0
498,3.3702,370000.0,3.3702,370000.0


**예제 05**

`df01`과 `df02`를 `merge`을 이용해 좌우로 연결하세요. 데이터가 어떻게 합쳐지는지 간단히 설명하세요.

In [49]:
pd.merge(df01,df02)

Unnamed: 0,median_income,median_house_value
0,6.6085,344700.0
1,3.5990,176500.0
2,5.7934,270500.0
3,6.1359,330000.0
4,2.9375,81700.0
...,...,...
497,2.5625,60000.0
498,4.5938,102600.0
499,2.0817,113300.0
500,3.3702,370000.0
