# 1. 판다스 기초

## 1. 판다스(Pandas)

<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/500px-Pandas_logo.svg.png' width="400" height ="170" /><br>

▶ 공식문서: https://pandas.pydata.org/docs/index.html

- 파이썬의 대표적인 데이터 분석 도구

- 엑셀과 같이 **행(row)**과 **열(columns)**로 된 데이터 구조를 다룸

- 라이브러리 로드: `import pandas as pd`

- **판다스의 데이터 타입**

    > **Series (시리즈)**<br>
    > 수학적으로 **벡터**의 형태를 가짐 (1차원) <br>
    > 각 요소에 인덱스를 사용할 수 있다 <br>
    > 예시: [1,2,3]

    > **DataFrame (데이터 프레임)** <br>
    > 수학적으로 **행렬**의 형태를 가짐 (2차원) <br>
    > **열(Column)**과 **행(row)**으로 구성 <br>
    > 예시: [ [1,2,3], [4,5,6] ]

<img src='https://pandas.pydata.org/docs/_images/01_table_dataframe.svg' width="700" height ="400" /><br>

In [None]:
# 판다스 불러오기
import pandas as pd
# 넘파이 불러오기
import numpy as np

▶ 시리즈 만들기 `pd.Series(데이터배열)`

- 1차원 데이터구조의 배열, 다양한 데이터 타입 사용 가능

- 데이터를 다루는 기본 단위

- 인덱스를 사용할 수 있음

    > 인덱스(index)와 값(value)로 이루어짐

- 데이터프레임에서 한 열을 나타내는 자료구조

In [None]:
# 시리즈 만들기1
data = [1,2,3,4,5]
pd.Series(data)

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
# 시리즈 만들기2 - 인덱스 지정
pd.Series(data, index=['a','b','c','d','e'])

a    1
b    2
c    3
d    4
e    5
dtype: int64

**🧑‍🏫잠깐만**

**딕셔너리**
* 파이썬 자료구조 중 하나

<img src='https://wikidocs.net/images/page/16/02_5_baseball.png' width="200" height ="100" /><br>

> 형태: {'key1':value1, 'key2':value2, 'key3':value3}

In [None]:
# 시리즈 만들기3 - 딕셔너리로 시리즈 만들기/이름 부여하기
fruit = {'a':'사과','b':'포도','c':'오렌지'}

# name - 시리즈에 이름을 부여해 줌
fruit_series = pd.Series(fruit, name='fruit')
fruit_series

a     사과
b     포도
c    오렌지
Name: fruit, dtype: object

**numpy**

- 배열을 다룰 수 있는 파이썬 라이브러리. 수치 계산에 특화됨

- 배열의 종류

    <img src='https://velog.velcdn.com/images/jhdai_ly/post/b5e3759c-8ae2-45e7-a89a-e177b70e9fdc/image.png' width="600" height ="300" />

    > 1차원 배열: 벡터, 배열 a 안에 리스트 [1,2,3]이 들어있는 모양
    >
    > 2차원 배열: 행렬, 배열 a 안에 [[1,2,3],[4,5,6]] 두 개의 리스트가 들어가 있는 모양
    >
    > 3차원 배열: 텐서, 배열 a 안에 3개의 리스트가 들어감 [[[]]]

- 넘파이 배열 만들기: `np.array(시퀀스자료형)`

In [None]:
# 시리즈 만들기5 - 넘파이 배열
data = np.array([1,2,3])
pd.Series(data)

0    1
1    2
2    3
dtype: int64

* index와 values를 사용하여 인덱스와 값들에 접근할 수 있다.

In [None]:
# 인덱스 알아보기
fruit_series.index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
# 값 알아보기
fruit_series.values

array(['사과', '포도', '오렌지'], dtype=object)

▶ 데이터프레임 만들기

- 2차원 데이터 구조의 배열, 행과 열이 있는 테이블 데이터 구조

- 시리즈가 모여 데이터프레임이 됨

- 각 열은 각각의 데이터 타입을 가짐

In [None]:
# 데이터프레임 만들기1 - 2차원 배열로 만들기
data = [[1,2,3],
        [4,5,6],
        [7,8,9]]
pd.DataFrame(data)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 데이터프레임 만들기2 - 컬럼 지정하기
data = [[1,2,3],
        [4,5,6],
        [7,8,9]]
pd.DataFrame(data, columns=['a','b','c'])

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 데이터프레임 만들기3 - 딕셔너리로 생성
cafe = {
        "Name" : ["아이스아메리카노", "카페라떼", "로얄밀크티","자몽 스파클링"],
        "Price": [2600, 2800, 4500, 3800],
        "Sales": [200,100,50,35]
    }
cafe_df = pd.DataFrame(cafe)
cafe_df

Unnamed: 0,Name,Price,Sales
0,아이스아메리카노,2600,200
1,카페라떼,2800,100
2,로얄밀크티,4500,50
3,자몽 스파클링,3800,35


➡️ 딕셔너리의 key값이 column의 이름으로 지정됨

* columns와 values를 사용하여 컬럼과 값들에 접근할 수 있다.

In [None]:
# 데이터프레임의 열 알아보기
cafe_df.columns

Index(['Name', 'Price', 'Sales'], dtype='object')

In [None]:
# 데이터프레임의 값 알아보기
cafe_df.values

array([['아이스아메리카노', 2600, 200],
       ['카페라떼', 2800, 100],
       ['로얄밀크티', 4500, 50],
       ['자몽 스파클링', 3800, 35]], dtype=object)

## 2. 데이터 불러오기

▶ CSV파일 데이터 불러오기
> **pd.read_csv (파일경로), pd.read_excel (파일경로)** <br>
> 이때 파일경로는 문자열 형태로 입력
>
> 예) pd.read_csv("/content/sample_data/sample.csv") <br>

In [None]:
# 데이터 불러오기
# 파일 경로 = "https://raw.githubusercontent.com/agtechresearch/LectureAlgorithm/main/csv/housing.csv"
cali_house = pd.read_csv("https://raw.githubusercontent.com/agtechresearch/LectureAlgorithm/main/csv/housing.csv")
cali_house

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


▶ 🏘️ 캘리포니아 집값 데이터셋

- **longitude**: 위도

- **latitude**: 경도

- **housing_median_age**: 건축물 중위연령

- **total_rooms**: 방의 총 개수

- **total_bedrooms**: 침실 총 개수

- **population**: 인구

- **households**: 가구수

- **median_income**: 중위소득

- **median_house_value**: 주택 중위가격

- **ocean_proximity**: 해안 근접도

## 3. 데이터셋 확인
▶ 전반적인 데이터셋 정보 확인 (**.info()**) <br>
> 데이터셋의 **컬럼정보와 값의 수, 각 컬럼별 데이터타입, 행의 갯수 등**의 정보 <br>

In [None]:
# 데이터셋 정보 확인
cali_house.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


▶ 앞부분 (**.head()**), 마지막부분 (**.tail()**)
> 괄호안에 숫자를 넣어 **앞에서 n개 행(row), 혹은 끝에서 n개 행**을 가져오기

In [None]:
# 데이터 앞 부분 확인하기
cali_house.head(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
9,-122.25,37.84,52.0,3549.0,707.0,1551.0,714.0,3.6912,261100.0,NEAR BAY


In [None]:
# 데이터 뒷 부분 확인하기
cali_house.tail()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND


▶ 데이터셋 기술통계량 확인
> **.describe()** <br>
> 데이터프레임 내부 각 컬럼에 대한 **count, mean, min, max, 사분위값, std 등의 항목을 자동으로 계산** <br>
> .describe() 외 **.min(), .max(), .mean()** 등으로 특정 항목만 구할수도 있음
>

In [None]:
# 데이터의 통계량 확인하기
cali_house.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


▶ 데이터셋 정렬하기

> **sort_index()** <br>
>
>  index 기준으로 정렬
>
>  default는 오름차순이며 ascending의 설정으로 조정가능
>>
>> ascending=False (내림차순으로 정렬)
>

> **sort_values(by =기준컬럼)** <br>
>
>  **값**을 기준으로 행을 정렬
>
>  두개 이상의 컬럼을 지정하여 정렬할 수 있음
>
>  ascending=True (오름차순)이 기본
>
>  컬럼별로 오름차순/내림차순 설정 가능
>

➕ 원본에도 똑같이 적용하고 싶을 경우 **inplace = True**

In [None]:
# 인덱스 기준으로 정렬하기
cali_house.sort_index(ascending=False).head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND


In [None]:
cali_house = cali_house.sort_index(ascending=False)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


In [None]:
# 값을 기준으로 정렬하기(원하는 값 기준으로 정렬해보세요)
cali_house.sort_values(by="population").head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
5342,-118.44,34.04,16.0,18.0,6.0,3.0,4.0,0.536,350000.0,<1H OCEAN
12458,-114.62,33.62,26.0,18.0,3.0,5.0,3.0,0.536,275000.0,INLAND
3126,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.375,137500.0,INLAND
12286,-116.95,33.86,1.0,6.0,2.0,8.0,2.0,1.625,55000.0,INLAND
18210,-122.06,37.39,26.0,18.0,4.0,8.0,4.0,3.75,375000.0,NEAR BAY


In [None]:
# 두 개 이상의 컬럼을 기준으로 정렬하기
cali_house.sort_values(by=['population', 'households'], ascending=[True, False]).head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
5342,-118.44,34.04,16.0,18.0,6.0,3.0,4.0,0.536,350000.0,<1H OCEAN
12458,-114.62,33.62,26.0,18.0,3.0,5.0,3.0,0.536,275000.0,INLAND
3126,-117.79,35.21,4.0,2.0,2.0,6.0,2.0,2.375,137500.0,INLAND
3125,-117.76,35.22,4.0,18.0,3.0,8.0,6.0,1.625,275000.0,INLAND
18210,-122.06,37.39,26.0,18.0,4.0,8.0,4.0,3.75,375000.0,NEAR BAY


## 4. 데이터셋 가공
▶ 데이터를 통해 의미있는 결과를 얻기 위해 원본 데이터에서 가공하거나 원하는 데이터를 선택할 수 있음<br>



### (1) 데이터프레임에서 원하는 특정 행 또는 열 가져오기

**1. 열 인덱싱**
> `df['column']`: 데이터프레임에서 열 하나 가져오기
>
> `df[['column']]`: 열 하나 가져오기, 데이터프레임 형태로 출력
>
> `df[['column1','column2']]`: 여러개의 열을 부를 때는 리스트로

In [None]:
# 데이터프레임에서 열 하나 가져오기
cali_house['population']

0         322.0
1        2401.0
2         496.0
3         558.0
4         565.0
          ...  
20635     845.0
20636     356.0
20637    1007.0
20638     741.0
20639    1387.0
Name: population, Length: 20640, dtype: float64

In [None]:
# 데이터프레임에서 열 가져오는데 데이터프레임 형태로 보기
cali_house[['population']]

Unnamed: 0,population
0,322.0
1,2401.0
2,496.0
3,558.0
4,565.0
...,...
20635,845.0
20636,356.0
20637,1007.0
20638,741.0


In [None]:
# 여러개의 열 가져오기
cali_house[['longitude','latitude']]

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85
...,...,...
20635,-121.09,39.48
20636,-121.21,39.49
20637,-121.22,39.43
20638,-121.32,39.43


**2. 행 인덱싱**

> 슬라이싱 형식으로 가져옴


In [None]:
# 데이터프레임에서 3번행부터 8번행까지 가져오기
cali_house[3:9]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY
6,-122.25,37.84,52.0,2535.0,489.0,1094.0,514.0,3.6591,299200.0,NEAR BAY
7,-122.25,37.84,52.0,3104.0,687.0,1157.0,647.0,3.12,241400.0,NEAR BAY
8,-122.26,37.84,42.0,2555.0,665.0,1206.0,595.0,2.0804,226700.0,NEAR BAY
