# 1. 판다스 기초

## 1. 판다스(Pandas)

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/500px-Pandas_logo.svg.png' width="400" height ="170" /><br>

▶ 공식문서: https://pandas.pydata.org/docs/index.html

- 파이썬의 대표적인 데이터 분석 도구

- 엑셀과 같이 **행(row)**과 **열(columns)**로 된 데이터 구조를 다룸

- 라이브러리 로드: `import pandas as pd`

- **판다스의 데이터 타입**

    > **Series (시리즈)**<br>
    > 수학적으로 **벡터**의 형태를 가짐 (1차원) <br>
    > 각 요소에 인덱스를 사용할 수 있다 <br>
    > 예시: [1,2,3]

    > **DataFrame (데이터 프레임)** <br>
    > 수학적으로 **행렬**의 형태를 가짐 (2차원) <br>
    > **열(Column)**과 **행(row)**으로 구성 <br>
    > 예시: [ [1,2,3], [4,5,6] ]

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg' width="700" height ="400" /><br>

In [None]:
# 판다스 불러오기
import pandas as pd
# 넘파이 불러오기
import numpy as np

▶ 시리즈 만들기 `pd.Series(데이터배열)`

- 1차원 데이터구조의 배열, 다양한 데이터 타입 사용 가능

- 데이터를 다루는 기본 단위

- 인덱스를 사용할 수 있음

    > 인덱스(index)와 값(value)로 이루어짐

- 데이터프레임에서 한 열을 나타내는 자료구조

In [None]:
# 시리즈 만들기1
data = [1,2,3,4,5]
pd.Series(data)

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
# 시리즈 만들기2 - 인덱스 지정
pd.Series(data, index=['a','b','c','d','e'])

a    1
b    2
c    3
d    4
e    5
dtype: int64

**🧑‍🏫잠깐만**

**딕셔너리**
* 파이썬 자료구조 중 하나

<img src='https://wikidocs.net/images/page/16/02_5_baseball.png' width="200" height ="100" /><br>

> 형태: {'key1':value1, 'key2':value2, 'key3':value3}

In [None]:
# 시리즈 만들기3 - 딕셔너리로 시리즈 만들기/이름 부여하기
fruit = {'a':'사과','b':'포도','c':'오렌지'}

# name - 시리즈에 이름을 부여해 줌
fruit_series = pd.Series(fruit, name='fruit')
fruit_series

a     사과
b     포도
c    오렌지
Name: fruit, dtype: object

**numpy**

- 배열을 다룰 수 있는 파이썬 라이브러리. 수치 계산에 특화됨

- 배열의 종류

    <img src='https://velog.velcdn.com/images/jhdai_ly/post/b5e3759c-8ae2-45e7-a89a-e177b70e9fdc/image.png' width="600" height ="300" />

    > 1차원 배열: 벡터, 배열 a 안에 리스트 [1,2,3]이 들어있는 모양
    >
    > 2차원 배열: 행렬, 배열 a 안에 [[1,2,3],[4,5,6]] 두 개의 리스트가 들어가 있는 모양
    >
    > 3차원 배열: 텐서, 배열 a 안에 3개의 리스트가 들어감 [[[]]]

- 넘파이 배열 만들기: `np.array(시퀀스자료형)`

In [None]:
# 시리즈 만들기5 - 넘파이 배열
data = np.array([1,2,3])
pd.Series(data)

0    1
1    2
2    3
dtype: int64

* index와 values를 사용하여 인덱스와 값들에 접근할 수 있다.

In [None]:
# 인덱스 알아보기
fruit_series.index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
# 값 알아보기
fruit_series.values

array(['사과', '포도', '오렌지'], dtype=object)

▶ 데이터프레임 만들기

- 2차원 데이터 구조의 배열, 행과 열이 있는 테이블 데이터 구조

- 시리즈가 모여 데이터프레임이 됨

- 각 열은 각각의 데이터 타입을 가짐

In [None]:
# 데이터프레임 만들기1 - 2차원 배열로 만들기
data = [[1,2,3],
        [4,5,6],
        [7,8,9]]
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 데이터프레임 만들기2 - 컬럼 지정하기
data = [[1,2,3],
        [4,5,6],
        [7,8,9]]
pd.DataFrame(data, columns=['a','b','c'])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 데이터프레임 만들기3 - 딕셔너리로 생성
cafe = {
        "Name" : ["아이스아메리카노", "카페라떼", "로얄밀크티","자몽 스파클링"],
        "Price": [2600, 2800, 4500, 3800],
        "Sales": [200,100,50,35]
    }
cafe_df = pd.DataFrame(cafe)
cafe_df

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600,200
1,카페라떼,2800,100
2,로얄밀크티,4500,50
3,자몽 스파클링,3800,35


➡️ 딕셔너리의 key값이 column의 이름으로 지정됨

* columns와 values를 사용하여 컬럼과 값들에 접근할 수 있다.

In [None]:
# 데이터프레임의 열 알아보기
cafe_df.columns

Index(['Name', 'Price', 'Sales'], dtype='object')

In [None]:
# 데이터프레임의 값 알아보기
cafe_df.values

array([['아이스아메리카노', 2600, 200],
       ['카페라떼', 2800, 100],
       ['로얄밀크티', 4500, 50],
       ['자몽 스파클링', 3800, 35]], dtype=object)

## 2. 데이터 불러오기

▶ CSV파일 데이터 불러오기
> **pd.read_csv (파일경로), pd.read_excel (파일경로)** <br>
> 이때 파일경로는 문자열 형태로 입력
>
> 예) pd.read_csv("/content/sample_data/sample.csv") <br>

In [None]:
# 데이터 불러오기
# 파일 경로 = "https://raw.githubusercontent.com/agtechresearch/LectureAlgorithm/main/csv/housing.csv"
cali_house = pd.read_csv("https://raw.githubusercontent.com/agtechresearch/LectureAlgorithm/main/csv/housing.csv")
cali_house

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


▶ 🏘️ 캘리포니아 집값 데이터셋

- **longitude**: 위도

- **latitude**: 경도

- **housing_median_age**: 건축물 중위연령

- **total_rooms**: 방의 총 개수

- **total_bedrooms**: 침실 총 개수

- **population**: 인구

- **households**: 가구수

- **median_income**: 중위소득

- **median_house_value**: 주택 중위가격

- **ocean_proximity**: 해안 근접도

## 3. 데이터셋 확인
▶ 전반적인 데이터셋 정보 확인 (**.info()**) <br>
> 데이터셋의 **컬럼정보와 값의 수, 각 컬럼별 데이터타입, 행의 갯수 등**의 정보 <br>

In [None]:
# 데이터셋 정보 확인
cali_house.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


▶ 앞부분 (**.head()**), 마지막부분 (**.tail()**)
> 괄호안에 숫자를 넣어 **앞에서 n개 행(row), 혹은 끝에서 n개 행**을 가져오기

In [None]:
# 데이터 앞 부분 확인하기
cali_house.head(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY


In [None]:
# 데이터 뒷 부분 확인하기
cali_house.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND


▶ 데이터셋 기술통계량 확인
> **.describe()** <br>
> 데이터프레임 내부 각 컬럼에 대한 **count, mean, min, max, 사분위값, std 등의 항목을 자동으로 계산** <br>
> .describe() 외 **.min(), .max(), .mean()** 등으로 특정 항목만 구할수도 있음
>

In [None]:
# 데이터의 통계량 확인하기
cali_house.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


▶ 데이터셋 정렬하기

> **sort_index()** <br>
>
>  index 기준으로 정렬
>
>  default는 오름차순이며 ascending의 설정으로 조정가능
>>
>> ascending=False (내림차순으로 정렬)
>

> **sort_values(by =기준컬럼)** <br>
>
>  **값**을 기준으로 행을 정렬
>
>  두개 이상의 컬럼을 지정하여 정렬할 수 있음
>
>  ascending=True (오름차순)이 기본
>
>  컬럼별로 오름차순/내림차순 설정 가능
>

➕ 원본에도 똑같이 적용하고 싶을 경우 **inplace = True**

In [None]:
# 인덱스 기준으로 정렬하기
cali_house.sort_index(ascending=False).head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND


In [None]:
cali_house = cali_house.sort_index(ascending=False)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


In [None]:
# 값을 기준으로 정렬하기(원하는 값 기준으로 정렬해보세요)
cali_house.sort_values(by="population").head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
5342,-118.44,34.04,16.0,18.0,6.0,3.0,4.0,0.536,350000.0,<1H OCEAN
12458,-114.62,33.62,26.0,18.0,3.0,5.0,3.0,0.536,275000.0,INLAND
3126,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.375,137500.0,INLAND
12286,-116.95,33.86,1.0,6.0,2.0,8.0,2.0,1.625,55000.0,INLAND
18210,-122.06,37.39,26.0,18.0,4.0,8.0,4.0,3.75,375000.0,NEAR BAY


In [None]:
# 두 개 이상의 컬럼을 기준으로 정렬하기
cali_house.sort_values(by=['population', 'households'], ascending=[True, False]).head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
5342,-118.44,34.04,16.0,18.0,6.0,3.0,4.0,0.536,350000.0,<1H OCEAN
12458,-114.62,33.62,26.0,18.0,3.0,5.0,3.0,0.536,275000.0,INLAND
3126,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.375,137500.0,INLAND
3125,-117.76,35.22,4.0,18.0,3.0,8.0,6.0,1.625,275000.0,INLAND
18210,-122.06,37.39,26.0,18.0,4.0,8.0,4.0,3.75,375000.0,NEAR BAY


▶ 데이터 내 고유값 찾기

`unique()`

* 데이터에 고유값들이 어떤 종류가 있는지 알고 싶을 때 사용

* 시리즈, 즉 1개의 컬럼에만 적용 가능(전체 데이터프레임에 적용하면 에러 뜸)

`nunique()`

* 데이터의 고윳값들의 수 출력

`value_counts()`

* 값 별로 데이터 수 출력

* 기본적으로 내림차순으로 정렬 (ascending 옵션으로 지정)

In [None]:
# ocean_proximity(해안근접도)에 어떤 값들이 있는지 알아보기
cali_house['ocean_proximity'].unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

In [None]:
# ocean_proximity(해안근접도) 고유값이 몇 개가 있는지 알아보기
cali_house['ocean_proximity'].nunique() # 5개

5

In [None]:
# ocean_proximity(해안근접도)의 값 별로 데이터의 수가 몇 개가 있는지 알아보기
cali_house['ocean_proximity'].value_counts()

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

## 4. 데이터셋 가공
▶ 데이터를 통해 의미있는 결과를 얻기 위해 원본 데이터에서 가공하거나 원하는 데이터를 선택할 수 있음<br>



### (1) 데이터프레임에서 원하는 특정 행 또는 열 가져오기

**1. 열 인덱싱**
> `df['column']`: 데이터프레임에서 열 하나 가져오기
>
> `df[['column']]`: 열 하나 가져오기, 데이터프레임 형태로 출력
>
> `df[['column1','column2']]`: 여러개의 열을 부를 때는 리스트로

In [None]:
# 데이터프레임에서 열 하나 가져오기
cali_house['population']

0         322.0
1        2401.0
2         496.0
3         558.0
4         565.0
          ...  
20635     845.0
20636     356.0
20637    1007.0
20638     741.0
20639    1387.0
Name: population, Length: 20640, dtype: float64

In [None]:
# 데이터프레임에서 열 가져오는데 데이터프레임 형태로 보기
cali_house[['population']]

Unnamed: 0,population
0,322.0
1,2401.0
2,496.0
3,558.0
4,565.0
...,...
20635,845.0
20636,356.0
20637,1007.0
20638,741.0


In [None]:
# 여러개의 열 가져오기
cali_house[['longitude','latitude']]

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85
...,...,...
20635,-121.09,39.48
20636,-121.21,39.49
20637,-121.22,39.43
20638,-121.32,39.43


**2. 행 인덱싱**

> 슬라이싱 형식으로 가져옴


In [None]:
# 데이터프레임에서 3번행부터 8번행까지 가져오기
cali_house[3:9]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY


**3. .loc, .iloc 사용하기**

**(1) iloc**

> 정수번호로 인덱싱, 슬라이싱의 경우 **끝번호 포함 안됨**
>
> `df.iloc[행,열]`

**행** : 인덱스번호 1개 , [ 인덱스 여러개 ] , [ 인덱스번호 슬라이싱]

**열** : 칼럼번호 1개 , [ 칼럼번호 여러개 ] , [ 칼럼번호 슬라이싱 ]

In [None]:
# 여러개의 행 가져오기(3번행부터 8번행까지) - iloc도 가능
cali_house.iloc[3:9]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY


In [None]:
# 원하는 행과 열 지정하여 가져오기1
# 행 - 0부터 5번째 행
# 열 - 0부터 1번째 열
cali_house.iloc[:6,:2]

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85
5,-122.25,37.85


In [None]:
# 원하는 행과 열 지정하여 가져오기2
# 행 - 1,3,5 번째 행
# 열 - 0부터 1번째 열
cali_house.iloc[[1,3,5],:2]

Unnamed: 0,longitude,latitude
1,-122.22,37.86
3,-122.25,37.85
5,-122.25,37.85


**(2) loc**
> 라벨값으로 인덱싱(값/boolean index), 슬라이싱의 경우 **끝번호 포함됨**
>
> `df.loc[행,열]`

**행** : 인덱스번호 1개 , [ 인덱스 여러개 ] , [ 인덱스번호 슬라이싱]

**열** : 칼럼 1개 , [ 칼럼 여러개 ] , [ 칼럼이름 슬라이싱 ]

In [None]:
# 'total_rooms'와 'total_bedrooms'열의 행 6번째까지 가져오기
cali_house.loc[:6,['total_rooms','total_bedrooms']]

Unnamed: 0,total_rooms,total_bedrooms
0,880.0,129.0
1,7099.0,1106.0
2,1467.0,190.0
3,1274.0,235.0
4,1627.0,280.0
5,919.0,213.0
6,2535.0,489.0


In [None]:
# 'longitude'부터 'median_house_value'까지, 행은 1~5번째까지 가져오기
cali_house.loc[1:5,'longitude':'median_house_value']

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0


* loc는 boolean으로 특정 값을 가져올 수 있다 (조건)

> 관계연산자 및 논리연산자 사용 가능
>
> 행의 조건을 가지고 원하는 열을 골라서 추출할 수 있다

In [None]:
# 특정 조건에 맞는 행 가져오기
# 총 가구수가 4000이 넘고 중위소득이 5만달러가 넘는 지역의 위치 알아보기

cali_house.loc[(cali_house['households']>4000) & (cali_house['median_income']>5),'longitude':'latitude']

Unnamed: 0,longitude,latitude
6057,-117.78,34.03
6066,-117.87,34.04
8985,-118.44,33.98
9018,-118.72,34.14
10309,-117.74,33.89


### (2) 데이터셋 결측치 확인
>  실제 데이터셋 에서는 **측정되지 않았거나, 누락 등 알수없는 이유**로 데이터프레임 상에서 **NaN(Not a Number)값**인 데이터가 있음 <br>
>
> 특히 NaN값은 제거하거나 다른 적절한 값으로 채우지 않을 경우, **연산시 오류**를 일으키므로 데이터셋 가공 전 **꼭 확인** 필요
>
> * 결측값 확인 <br>
>  **isnull(), isnull().sum()**
>
> * 결측값 채우기 <br>
>  **fillna(특정값)**

In [None]:
# 결측값이 각 컬럼에 총 몇 개 있는지 알아보자
cali_house.isnull().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64

In [None]:
cali_house.fillna(0)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


In [None]:
# 결측치 채우기
cali_house_1 = cali_house.fillna(0) # 다른 변수에 따로 지정

In [None]:
cali_house_1.isnull().sum()

longitude             0
latitude              0
housing_median_age    0
total_rooms           0
total_bedrooms        0
population            0
households            0
median_income         0
median_house_value    0
ocean_proximity       0
dtype: int64

In [None]:
# 결측치가 포함된 행이 어디에 있는지 알아보기
cali_house[cali_house.isnull().any(axis=1)] # 값이 참인 경우가 하나라도 존재하면 True 반환, axis는 1이면 행에 대한 결과 반환

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
290,-122.16,37.77,47.0,1256.0,,570.0,218.0,4.3750,161900.0,NEAR BAY
341,-122.17,37.75,38.0,992.0,,732.0,259.0,1.6196,85100.0,NEAR BAY
538,-122.28,37.78,29.0,5154.0,,3741.0,1273.0,2.5762,173400.0,NEAR BAY
563,-122.24,37.75,45.0,891.0,,384.0,146.0,4.9489,247100.0,NEAR BAY
696,-122.10,37.69,41.0,746.0,,387.0,161.0,3.9063,178400.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20267,-119.19,34.20,18.0,3620.0,,3171.0,779.0,3.3409,220500.0,NEAR OCEAN
20268,-119.18,34.19,19.0,2393.0,,1938.0,762.0,1.6953,167400.0,NEAR OCEAN
20372,-118.88,34.17,15.0,4260.0,,1701.0,669.0,5.1033,410700.0,<1H OCEAN
20460,-118.75,34.29,17.0,5512.0,,2734.0,814.0,6.6073,258100.0,<1H OCEAN


▶ 데이터 삭제하기

* 결측값이 있는 행, 열 제거 **dropna()**
>
> `dropna()`: 어떤 행이든 하나 이상의 결측치가 있으면 해당 행 제거
>
>  `dropna(axis=1)`: 어떤 열이든 하나 이상의 결측치가 있으면 해당 열 제거
>
> `dropna(subset=['컬럼'])`: 특정 열에 결측치가 있는 행만 제거

> axis=0 : 행방향(결측치가 있는 행 제거) <br> axis=1 : 열방향(결측치가 있는 열 제거)

In [None]:
cafe1 = {
        "Name" : ["아이스아메리카노", "카페라떼", "로얄밀크티","자몽 스파클링"],
        "Price": [2600, 2800, np.NaN, 3800],
        "Sales": [200,np.NaN,50,35]
    }
cafe_df1 = pd.DataFrame(cafe1)
cafe_df1

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600.0,200.0
1,카페라떼,2800.0,
2,로얄밀크티,,50.0
3,자몽 스파클링,3800.0,35.0


In [None]:
# 결측치가 있는 행 제거(cafe_df1)
cafe_df1.dropna()

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600.0,200.0
3,자몽 스파클링,3800.0,35.0


In [None]:
# 결측치가 있는 열 제거(cafe_df1)
cafe_df1.dropna(axis=1)

Unnamed: 0,Name
0,아이스아메리카노
1,카페라떼
2,로얄밀크티
3,자몽 스파클링


In [None]:
# 특정 열에 결측치가 있는 행만 제거
cafe_df1.dropna(subset=['Price'])

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600.0,200.0
1,카페라떼,2800.0,
3,자몽 스파클링,3800.0,35.0


▶ 데이터 삭제하기

* 원하는 행, 열 제거 **drop()**
>
> 행(하나): 데이터프레임**.drop(인덱스,axis=0)**
>
> 행(여러개): 데이터프레임**.drop(index=삭제할 인덱스 리스트)**
>
> 열(하나): 데이터프레임**.drop('컬럼명', axis=1)**
>
> 열(여러개): 데이터프레임**.drop(['컬럼1','컬럼2'], axis=1)**

In [None]:
# 행 하나 삭제
cali_house.drop(2).head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY


In [None]:
# 여러개의 행 삭제
cali_house.drop(index=[4,6,9]).head(8)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
10,-122.26,37.85,52.0,2202.0,434.0,910.0,402.0,3.2031,281500.0,NEAR BAY


In [None]:
# 하나의 열 삭제
cali_house.drop('total_bedrooms', axis=1, inplace=True)
cali_house

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,741.0,349.0,1.8672,84700.0,INLAND


In [None]:
# 여러개의 열 삭제
cali_house.drop(['longitude','latitude'], axis=1, inplace=True)
cali_house

Unnamed: 0,housing_median_age,total_rooms,population,households,median_income,median_house_value,ocean_proximity
0,41.0,880.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,21.0,7099.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,52.0,1467.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,52.0,1274.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,52.0,1627.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...
20635,25.0,1665.0,845.0,330.0,1.5603,78100.0,INLAND
20636,18.0,697.0,356.0,114.0,2.5568,77100.0,INLAND
20637,17.0,2254.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,18.0,1860.0,741.0,349.0,1.8672,84700.0,INLAND


### (3) 그룹 연산을 통해 특정 조건에 따라 그룹 나누기
> **groupby('컬럼')** <br>
> 주로 그룹연산과 함께 mean(), size(), sum()등을 사용 <br>
> + 컬럼값에 [ ]를 이용하여 [컬럼1, 컬럼2] 형식으로 입력할 경우, 컬럼1의 값들 안에서 컬럼2의 값으로 분리된다.
>

In [None]:
# 해안근접도(5개의 범주)에 따른 각 컬럼의 평균 알아보기
cali_house.groupby('ocean_proximity').sum().head()

Unnamed: 0_level_0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
ocean_proximity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
<1H OCEAN,-1085793.19,315745.43,267495.0,24012547.0,4937435.0,13889374.0,4730118.0,38651.51,2193410000.0
INLAND,-784370.82,240630.21,159005.0,17803933.0,3468095.0,9112744.0,3127759.0,21022.1353,817600100.0
ISLAND,-591.77,166.79,212.0,7873.0,2102.0,3340.0,1383.0,13.7221,1902200.0
NEAR BAY,-279976.99,86564.42,86402.0,5710320.0,1167195.0,2817427.0,1118931.0,9555.9061,593596200.0
NEAR OCEAN,-317185.93,92334.77,78005.0,6867477.0,1415482.0,3598955.0,1332308.0,10647.376,662995500.0


In [None]:
# 해안근접도와 인구수에 따른 각 컬럼의 최소값 알아보기
cali_house.groupby(['ocean_proximity','total_rooms']).min()

Unnamed: 0_level_0,Unnamed: 1_level_0,housing_median_age,population,households,median_income,median_house_value
ocean_proximity,total_rooms,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
<1H OCEAN,11.0,46.0,24.0,13.0,2.8750,162500.0
<1H OCEAN,15.0,36.0,15.0,6.0,0.4999,162500.0
<1H OCEAN,18.0,16.0,3.0,4.0,0.5360,350000.0
<1H OCEAN,20.0,16.0,15.0,5.0,3.8750,450000.0
<1H OCEAN,21.0,36.0,21.0,9.0,2.3750,175000.0
...,...,...,...,...,...,...
NEAR OCEAN,18123.0,4.0,7301.0,2964.0,6.3570,322500.0
NEAR OCEAN,20944.0,11.0,8738.0,3441.0,4.3762,215500.0
NEAR OCEAN,23866.0,7.0,9873.0,4012.0,5.4032,318500.0
NEAR OCEAN,23915.0,4.0,10877.0,3958.0,4.6357,244900.0


In [None]:
# 두 개 이상의 연산 사용하기
cali_house.groupby(['ocean_proximity']).agg(['mean','sum'])[['population']].head()

Unnamed: 0_level_0,population,population
Unnamed: 0_level_1,mean,sum
ocean_proximity,Unnamed: 1_level_2,Unnamed: 2_level_2
<1H OCEAN,1520.290499,13889374.0
INLAND,1391.046252,9112744.0
ISLAND,668.0,3340.0
NEAR BAY,1230.317467,2817427.0
NEAR OCEAN,1354.008653,3598955.0


### (4) 데이터셋 합치기
> * **.concat( [ 합칠 데이터프레임 나열 ] )** <br>
>  두 데이터프레임을 **단순하게 합칠 때** 사용 <br>
> 행 또는 열 방향으로 연결 <br>
> 기본값: `axis=0` (행 방향, 위/아래 방향으로 연결) <br>
> `axis=1` (열 방향, 좌/우 방향으로 연결)
>
> * **.merge( 데이터프레임1, 데이터프레임2, on=공통컬럼명 )** <br>
>  두 데이터프레임을 **공통된 항목(key값,컬럼)을 기준으로 합칠 때** 사용(병합)
>

In [None]:
# 데이터 생성
# 데이터 1
cafe = {
        "Name" : ["아이스아메리카노", "카페라떼", "로얄밀크티","자몽 스파클링"],
        "Price": [2600, 2800, 4500, 3800],
    }
df1 = pd.DataFrame(cafe)
df1

Unnamed: 0,Name,Price
0,아이스아메리카노,2600
1,카페라떼,2800
2,로얄밀크티,4500
3,자몽 스파클링,3800


In [None]:
# 데이터 2
sales = {"Sales": [200,100,50,35]}
df2 = pd.DataFrame(sales)
df2

Unnamed: 0,Sales
0,200
1,100
2,50
3,35


In [None]:
# 두 데이터 합치기 - 행과 행
pd.concat([df1,df2], axis=0)

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600.0,
1,카페라떼,2800.0,
2,로얄밀크티,4500.0,
3,자몽 스파클링,3800.0,
0,,,200.0
1,,,100.0
2,,,50.0
3,,,35.0


In [None]:
# 두 데이터 합치기 - 열과 열
pd.concat([df1,df2], axis=1)

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600,200
1,카페라떼,2800,100
2,로얄밀크티,4500,50
3,자몽 스파클링,3800,35


In [None]:
# 데이터 만들기
df1 = pd.DataFrame({
    '책이름': ['모순', '모래알만 한 진실이라도', '사피엔스', '돈의 심리학', '원씽'],
    '출판일': ['2013-04-01', '2022-06-30', '2023-04-01', '2023-11-06', '2013-08-30'],
    '분류': ['소설', '에세이', '인문', '경제', '자기계발']})
df1

Unnamed: 0,책이름,출판일,분류
0,모순,2013-04-01,소설
1,모래알만 한 진실이라도,2022-06-30,에세이
2,사피엔스,2023-04-01,인문
3,돈의 심리학,2023-11-06,경제
4,원씽,2013-08-30,자기계발


In [None]:
df2 = pd.DataFrame({
    '책이름': ['코스모스', '모래알만 한 진실이라도', '모순', '공정하다는 착각', '사피엔스'],
    '가격': ['19,900원', '17,000원', '13,000원', '18,000원', '26,800원']})
df2

Unnamed: 0,책이름,가격
0,코스모스,"19,900원"
1,모래알만 한 진실이라도,"17,000원"
2,모순,"13,000원"
3,공정하다는 착각,"18,000원"
4,사피엔스,"26,800원"


* on = '기준열'

> 공통이 되는 기준 열이 여러개일 때
>
> `pd.merge(df1, df2, on=['열1','열2']`
>
> 두 데이터프레임의 기준이 되는 열 이름이 다를 때
>
> `pd.merge(df1, df2, left_on='왼쪽 열', right_on='오른쪽 열')`

In [None]:
# 두 데이터프레임 합치기 - 책이름을 기준으로
pd.merge(df1,df2, on='책이름')

Unnamed: 0,책이름,출판일,분류,가격
0,모순,2013-04-01,소설,"13,000원"
1,모래알만 한 진실이라도,2022-06-30,에세이,"17,000원"
2,사피엔스,2023-04-01,인문,"26,800원"


In [None]:
# 새 데이터 생성
df2_1 = df2.rename(columns={'책이름':'book name'})
df2_1

Unnamed: 0,book name,가격
0,코스모스,"19,900원"
1,모래알만 한 진실이라도,"17,000원"
2,모순,"13,000원"
3,공정하다는 착각,"18,000원"
4,사피엔스,"26,800원"


In [None]:
# 병합하려는 기준 열이 각각 이름이 다를 때 지정하기
pd.merge(df1, df2_1, left_on='책이름', right_on='book name')

Unnamed: 0,책이름,출판일,분류,book name,가격
0,모순,2013-04-01,소설,모순,"13,000원"
1,모래알만 한 진실이라도,2022-06-30,에세이,모래알만 한 진실이라도,"17,000원"
2,사피엔스,2023-04-01,인문,사피엔스,"26,800원"


* how = join 방식

<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FmUaDA%2FbtqKSfLmuhO%2FK3cMP0Znh9NtUoRTODNbZK%2Fimg.png' width="850" height ="200" />

In [None]:
# 두 데이터프레임 병합 - how 사용(디폴트 inner)
pd.merge(df1, df2)

Unnamed: 0,책이름,출판일,분류,가격
0,모순,2013-04-01,소설,"13,000원"
1,모래알만 한 진실이라도,2022-06-30,에세이,"17,000원"
2,사피엔스,2023-04-01,인문,"26,800원"


In [None]:
# 두 데이터프레임 병합 - how 사용, 왼쪽 데이터 기준으로 병합
pd.merge(df1, df2, how='left')

Unnamed: 0,책이름,출판일,분류,가격
0,모순,2013-04-01,소설,"13,000원"
1,모래알만 한 진실이라도,2022-06-30,에세이,"17,000원"
2,사피엔스,2023-04-01,인문,"26,800원"
3,돈의 심리학,2023-11-06,경제,
4,원씽,2013-08-30,자기계발,
