# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

### (1) 데이터만 생성

In [None]:
import pandas as pd

# Series : 열
data1 = pd.Series(data=['a', 'b', 'c'])
data2 = pd.Series(data=[10, 20, 30])
data3 = pd.Series(data=[10.1, 20.1, 30])

print(data1) # dtype이 object > int가 필요하면 변환 해줘야 함
print(data2)
print(data3)

0    a
1    b
2    c
dtype: object
0    10
1    20
2    30
dtype: int64
0    10.1
1    20.1
2    30.0
dtype: float64


### (2) 인덱스와 함께 생성

In [None]:
age_data = pd.Series(
    index=['kim', 'lee', 'park'], # 유니크한 값으로만 가능
    data=[24,31, 26]
)

print(age_data)
print(age_data.index) # object
print(age_data.values)
print(type(age_data.values)) # <class 'numpy.ndarray'>

kim     24
lee     31
park    26
dtype: int64
Index(['kim', 'lee', 'park'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [18]:
data1 = pd.Series(data=[10,20,30])
data1 = pd.Series(data=[1,2,3])

data3 = data1 * data2
print(data3)

0    10
1    40
2    90
dtype: int64


## 3) 결측치

In [20]:
import numpy as np
import pandas as pd

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


### (1) 결측치 발생

예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [62]:
# '광주' 라는 index가 불일치하는 상황
# index 기준으로 data 연산(index가 없으면 순서대로 연산)

data1 = pd.Series([10,20,30], index=['부산','울산','대구'])
data2 = pd.Series([1,2,3,4], index=['광주','부산','울산','대구'])

data3 = data1+data2
print(data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [54]:
data3.info()

# 4 entries - 3 non-null = 1 null(결측치)

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [55]:
data3.isna() # 결측치에 True 표현

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [56]:
data3.isna().sum() # 결측치의 숫자 더하기

np.int64(1)

### (3) 결측치 채우기

In [68]:
# 뭘로 채우느냐는 주관적 판단(평균, 예측치)
data4 = data3.fillna(0) # 원본 data에 재할당 필요
print(data4)

대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (4) 결측치 삭제

In [None]:
#data5 = data3.dropna()
data3.dropna(inplace=True) #재할당 필요 없음(data3에)
print(data3)


대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [76]:
data = pd.Series(
    data=['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

data.describe() # 문자열과 숫자의 결과가 다름

count      9
unique     3
top       HR
freq       4
dtype: object

In [75]:
data = pd.Series(
    index=['부산', '울산', '대구'],
    data=[10, 20, 30]
)

print(data.min())
print(data.mean())
print(data.var()) # 분산
print(data.std()) # 표준편차 : root 분산() - 제곱수인 분산을 좀 더 줄임
print(data.max())

print(data.describe())


10
20.0
100.0
10.0
30
count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64


# 2. 데이터프레임(DataFrame)

## 1) 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [108]:
data_list = [
    ['김영철', 'M', 24, 179.4],
    ['송윤지', 'F', 31, 161.0],
    ['임수현', 'F', 26, 174]
]

data1 = pd.DataFrame(data_list, columns=['이름', '성별', '나이', '키'])
#data1.columns = ['이름', '성별', '나이', '키']

print(data1)

data4 = data1.set_index('이름') # index 설정, 다른 table과 join할때 활용 
print(data4)

data5 = data4.reset_index()
print(data5)


    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0
    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0
    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [86]:
data_col_dict = {
    '이름' : ['김영철','송윤지','임수현'],
    '성별' : ['M','F','F'],
    '나이' : [24,31,26],
    '키' : [179.4,161.0,174]
}

data2 = pd.DataFrame(data_col_dict)
print(data2)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


In [None]:
# api 형태가 많음(그대로 쓰면 됨)
data_row_list = [
    {'이름':'김영철', '성별':'M', '나이':24, '키':179.4},
    {'이름':'송윤지', '성별':'F', '나이':31, '키':161.0},
    {'이름':'임수현', '성별':'F', '나이':26, '키':174}
]

data3 = pd.DataFrame(data_row_list)
print(data3)

    이름 성별  나이      키
0  김영철  M  24  179.4
1  송윤지  F  31  161.0
2  임수현  F  26  174.0


## 2) 조회

### (1) 이름으로 조회

#### 열 조회

In [95]:
data1['나이']

0    24
1    31
2    26
Name: 나이, dtype: int64

In [97]:
data1[['나이', '키']]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [226]:
#data1.loc[1]
data4.loc['송윤지'] 
#data4.iloc[1, :]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [102]:
data4.loc[['김영철','송윤지']]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0


#### 셀 조회

In [103]:
data4.loc['김영철', '키']

np.float64(179.4)

### (2) 인덱스로 조회

In [175]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [180]:
# 나이 index로 조회

data1.iloc[:,2] #전체행(:), 열

0    24
1    31
2    26
Name: 나이, dtype: int64

In [None]:
# 성별, 키 index로 조회

data1.iloc[:,[1,3]] #전체행(:), 1,3열만

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [None]:
# 송윤지 학생의 데이터를 인덱스로 조회

data4.iloc[1,:]
#data4.loc['송윤지']

    성별  나이      키
이름               
김영철  M  24  179.4
송윤지  F  31  161.0
임수현  F  26  174.0


성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [230]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회

data4.iloc[1:3,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [197]:
# 김영철 학생의 나이를 인덱스로 조회

data4.iloc[1, 1]

np.int64(31)

In [239]:
# 송윤지 학생의 성별을 인덱스로 조회

data4.iloc[1, 0]
#data4.loc['송윤지', '성별']

'F'

### (3) 조건부 조회

## 3) 편집

### (1) 인덱스 제거

### (2) 데이터 병합

### (3) 결측치 처리

## 4) 통계

# 3. 실습

## 예제 1.

## 예제 2.

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?