# 판다스(Pandas)

# 1. 시리즈(Series)

## 1) 생성 및 조회

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [625]:
import pandas as pd

In [626]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (1) 데이터만 생성

In [627]:
name_data = pd.Series(data=["김영철", "송윤지", "임수현"])
age_data = pd.Series(data=[24, 31, 26])
height_data = pd.Series(data=[179.4, 161.0, 174])

print(name_data)
print(age_data)
print(height_data)

# dtype 확인하는 습관을 가져야 됩니다.

0    김영철
1    송윤지
2    임수현
dtype: object
0    24
1    31
2    26
dtype: int64
0    179.4
1    161.0
2    174.0
dtype: float64


### (2) 인덱스와 함께 생성

<table>
    <thead>
        <tr>
            <th>이름</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><td>26</td><td>174</td></tr>
    </tbody>
</table>

In [628]:
age_data = pd.Series(
    data = [24, 31, 26],
    index = ["김영철", "송윤지", "임수현"]
)
print(age_data)

print(age_data.index)
print(age_data.values)
print(type(age_data.values))

김영철    24
송윤지    31
임수현    26
dtype: int64
Index(['김영철', '송윤지', '임수현'], dtype='object')
[24 31 26]
<class 'numpy.ndarray'>


## 2) 연산

In [629]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3])

data3 = data1 ** data2
print(data3)

0       10
1      400
2    27000
dtype: int64


## 3) 결측치

### (1) 결측치 발생

In [630]:
import pandas as pd
import numpy as np

data = pd.Series([1, np.nan])
print(data)

0    1.0
1    NaN
dtype: float64


In [631]:
data1 = pd.Series(data=[10, 20, 30])
data2 = pd.Series(data=[1, 2, 3, 4])

data3 =data1 + data2
print(data3)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


예제
* 데이터가 10, 20, 30인 시리즈 생성, 인덱스는 부산, 울산, 대구으로 설정
* 데이터가 1, 2, 3, 4인 시리즈 생성, 인덱스는 광주, 부산, 울산, 대구으로 설정
* 데이터의 덧셈

In [632]:
import pandas as pd
import numpy as np

local_data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
local_data2 = pd.Series(
    data=[1, 2, 3, 4],
    index=["광주", "부산", "울산", "대구"]
)

print(local_data)
print("="*50)
print(local_data2)
print("="*50)
local_data3 = local_data + local_data2
print(local_data3)

# 연산은 인덱스 기준으로 이루어진다

부산    10
울산    20
대구    30
dtype: int64
광주    1
부산    2
울산    3
대구    4
dtype: int64
광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64


### (2) 결측치 파악

In [633]:
local_data3.info()  # 결측치 파악

<class 'pandas.core.series.Series'>
Index: 4 entries, 광주 to 울산
Series name: None
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 64.0+ bytes


In [634]:
local_data3.isna() # 결측치 판단하기

광주     True
대구    False
부산    False
울산    False
dtype: bool

In [635]:
local_data3.isna().sum() # 총 결측치의 갯수

np.int64(1)

### (3) 결측치 채우기

In [636]:
local_data3

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64

In [637]:
# 결측치 채우기 -> 덮어씌워줘야 해요
local_data3.fillna(0)
print(local_data3)
local_data3 = local_data3.fillna(0)
print(local_data3)

광주     NaN
대구    34.0
부산    12.0
울산    23.0
dtype: float64
광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


In [638]:
local_data3

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64

### (4) 결측치 삭제

In [639]:
# 결측치 삭제 
local_data3.dropna(inplace=True)

In [640]:
# 결측치 삭제 
local_data3 = local_data3.dropna()
print(local_data3)

광주     0.0
대구    34.0
부산    12.0
울산    23.0
dtype: float64


## 4) 통계

예제. 문자 데이터

```
['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
```

In [641]:
data = pd.Series(
    data=[10, 20, 30],
    index=["부산", "울산", "대구"]
)
data

부산    10
울산    20
대구    30
dtype: int64

In [642]:
print(data.min())
print(data.mean())
print(data.var())
print(data.std())
print(data.max())

10
20.0
100.0
10.0
30


In [643]:
data.describe()

count     3.0
mean     20.0
std      10.0
min      10.0
25%      15.0
50%      20.0
75%      25.0
max      30.0
dtype: float64

In [644]:
dep_data = pd.Series(
    data = ['HR', 'Engineering', 'HR', 'Engineering', 'HR', 'Marketing', 'Engineering', 'Marketing', 'HR']
)

dep_data.describe()

# 범주형 데이터

count      9
unique     3
top       HR
freq       4
dtype: object

# 2. 데이터프레임(DataFrame)

## 1) 생성

In [645]:
# 2차원 리스트를 이용
import pandas as pd

data_list = [
    ["김영철", "M", 24, 179.4],
    ["송윤지", "F", 31, 161.0],
    ["임수현", "F", 26, 174]
]

data1 = pd.DataFrame(data_list, columns=["이름", "성별", "나이", "키"])
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [646]:
# 열 딕셔너리 이용
data_col_dict = {
    "이름": ["김영철", "송윤지", "임수현"],
    "성별": ["M", "F", "F"],
    "나이": [24, 31, 26],
    "키": [179.4, 161.0, 174]
}
data2 = pd.DataFrame(data_col_dict)
data2

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [647]:
# 행 딕셔너리 이용
data_row_dict = [
    {"이름": "김영철", "성별": "M", "나이": 24, "키":179.4},
    {"이름": "송윤지", "성별": "F", "나이": 31, "키":161.0},
    {"이름": "임수현", "성별": "F", "나이": 26, "키":174},
]

data3 = pd.DataFrame(data_row_dict)
data3

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [648]:
# 이름 열을 인덱스로 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data4 = data1.set_index("이름")
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [649]:
# 이름 열을 다시 되돌아오도록 설정하기(덮어쓰기 되는지 확인해보기 : 해야됨)
data5 = data4.reset_index()
data5

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


<table>
    <thead>
        <tr>
            <th>이름</th><th>성별</th><th>나이</th><th>키</th>
        </tr>
    </thead>
    <tbody>
        <tr><td>김영철</td><th>M</th><td>24</td><td>179.4</td></tr>
        <tr><td>송윤지</td><th>F</th><td>31</td><td>161.0</td></tr>
        <tr><td>임수현</td><th>F</th><td>26</td><td>174</td></tr>
    </tbody>
</table>

## 2) 조회

### (1) 이름으로 조회

In [650]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [651]:
# 나이 열을 조회
data1["나이"]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [652]:
# 나이, 키 열을 조회 (리스트처리! : 셀을 조회하기 위해 (excel)) 
data1[["나이", "키"]]

Unnamed: 0,나이,키
0,24,179.4
1,31,161.0
2,26,174.0


#### 행 조회

In [653]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [654]:
# 송윤지 행 데이터 조회
data4.loc["송윤지"]
data4.loc[["송윤지", "임수현"]]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

### (2) 인덱스로 조회

In [655]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


#### 열 조회

In [656]:
# 나이 열을 인덱스로 조회
data1.iloc[:,2]

0    24
1    31
2    26
Name: 나이, dtype: int64

In [657]:
# 성별, 키 열을 인덱스로 조회
data1.iloc[:,[1,3]]

Unnamed: 0,성별,키
0,M,179.4
1,F,161.0
2,F,174.0


#### 행 조회

In [658]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [659]:
# 송윤지 학생의 데이터를 인덱스로 조회
data4.iloc[1,:]

성별        F
나이       31
키     161.0
Name: 송윤지, dtype: object

In [660]:
# 송윤지, 임수현 학생의 데이터를 인덱스로 조회
data4.iloc[1:,:]

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
송윤지,F,31,161.0
임수현,F,26,174.0


#### 셀 조회

In [661]:
data4 # 1개의 열 추출 시, 시리즈로 나옴. / 2개 이상의 열 추출 시 데이터프레임으로 나옴.

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [662]:
# 임수현 학생의 성별을 인덱스로 조회
data4.iloc[2, 0]

'F'

In [663]:
# 김영철 학생의 키를 인덱스로 조회
data4.iloc[0, 2]

np.float64(179.4)

### (3) 조건부 조회

In [664]:
# 행으로 조회 : loc
# 열로 조회 : [["나이", "성별"]]
# 인덱스로 조회 : [행 인덱스, 열 인덱스]

In [665]:
data1

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [666]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [667]:
# 성별이 M인 데이터 조회

data1[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [668]:
# 성별이 M인 데이터 조회

data1.loc[data1["성별"] == "M"]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4


In [669]:
# 키가 170이 넘는 사람들 조회

data1[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [670]:
# 키가 170이 넘는 사람들 조회

data1.loc[data1["키"] >= 170]

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
2,임수현,F,26,174.0


In [671]:
# 성별이 F이면서 키가 170이상인 사람 조회 (if "성별" == "F" & "키" >= 170)

data1.loc[(data1["성별"] == "F")&(data1["키"] >= 170)]

Unnamed: 0,이름,성별,나이,키
2,임수현,F,26,174.0


In [672]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
# 나이가 30이상인 데이터를 조회해주세요
# '이'씨 성을 가진 데이터를 조회해주세요
# 지역이 서울인 데이터를 조회해주세요
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요

In [673]:
# 위에 있는 데이터프레임을 직접 써서 생성해주세요
solve_data_list = {
    "이름" : ["홍길동", "김준기", "이명식", "이준혁", "최명기"],
    "나이" : [25, 21, 22, 24, 31],
    "지역" : ["서울", "서울", "부산", "광주", "부산"]
}

data11 = pd.DataFrame(solve_data_list)
data11

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울
2,이명식,22,부산
3,이준혁,24,광주
4,최명기,31,부산


In [674]:
# 나이가 30이상인 데이터를 조회해주세요
data11[data11["나이"] >= 30]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


In [675]:
# '이'씨 성을 가진 데이터를 조회해주세요
data11[data11["이름"].str.contains("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [676]:
data11[data11["이름"].str.startswith("이")]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산
3,이준혁,24,광주


In [677]:
# 지역이 서울인 데이터를 조회해주세요
data11[data11["지역"] == "서울"]

Unnamed: 0,이름,나이,지역
0,홍길동,25,서울
1,김준기,21,서울


In [678]:
# 지역이 부산이고 '최'씨 성을 가진 사람의 나이를 조회해주세요
data11[(data11["지역"] == "부산") & (data11["이름"].str.contains("이"))]

Unnamed: 0,이름,나이,지역
2,이명식,22,부산


In [679]:
data11[(data11["지역"] == "부산") & (data11["이름"].str.startswith("최"))]

Unnamed: 0,이름,나이,지역
4,최명기,31,부산


## 3) 편집

### (1) 인덱스 제거

In [680]:
data4.reset_index()

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


In [681]:
data4

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
김영철,M,24,179.4
송윤지,F,31,161.0
임수현,F,26,174.0


In [682]:
data12345 = data4.reset_index()

In [683]:
data12345

Unnamed: 0,이름,성별,나이,키
0,김영철,M,24,179.4
1,송윤지,F,31,161.0
2,임수현,F,26,174.0


### (2) 데이터 병합

In [684]:
data1 = pd.DataFrame(
    [["강남", 1, 2], ["서초", 4, 5], ["노원", 5, 6]],
    columns = ["지역명", "지점수", "매출"]
)
data1

Unnamed: 0,지역명,지점수,매출
0,강남,1,2
1,서초,4,5
2,노원,5,6


In [685]:
data2 = pd.DataFrame(
    [["강남", 10, 20], ["도봉", 40, 50], ["노원", 50, 60]],
    columns = ["지역명", "지점수", "매출"]
)
data2

Unnamed: 0,지역명,지점수,매출
0,강남,10,20
1,도봉,40,50
2,노원,50,60


In [686]:
data1 + data2 # Numpy 와 같이 이루어짐 -> 그래서 원하는 데이터로 가공하려면 데이터 병합을 해야됨.

Unnamed: 0,지역명,지점수,매출
0,강남강남,11,22
1,서초도봉,44,55
2,노원노원,55,66


In [687]:
# 병합
total_data = pd.merge(
    left=data1,
    right=data2,
    how="outer", #right, inner, outer # like 집합
    on="지역명"
)

total_data

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,,,40.0,50.0
3,서초,4.0,5.0,,


### (3) 결측치 처리

In [688]:
total_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     4 non-null      object 
 1   지점수_x   3 non-null      float64
 2   매출_x    3 non-null      float64
 3   지점수_y   3 non-null      float64
 4   매출_y    3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 292.0+ bytes


In [689]:
# 결측치가 있는지 확인
total_data.isna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,False,False,False,False,False
1,False,False,False,False,False
2,False,True,True,False,False
3,False,False,False,True,True


In [692]:
# 각 열마다 결측치가 몇개 있는지 확인
total_data.isna().sum(axis=1)

0    0
1    0
2    2
3    2
dtype: int64

In [694]:
# 결측치 채우기
total_data.fillna(999)

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0
2,도봉,999.0,999.0,40.0,50.0
3,서초,4.0,5.0,999.0,999.0


In [None]:
# 결측치 삭제 (결측치가 하나라도 발생한 행은 삭제)
total_data.dropna()

Unnamed: 0,지역명,지점수_x,매출_x,지점수_y,매출_y
0,강남,1.0,2.0,10.0,20.0
1,노원,5.0,6.0,50.0,60.0


In [None]:
# 특정 열의 결측치 발생한 데이터 삭제
total_data.dropna(by=["지점수_x"])

TypeError: DataFrame.dropna() got an unexpected keyword argument 'columns'

## 4) 통계

In [700]:
total_data.describe()

Unnamed: 0,지점수_x,매출_x,지점수_y,매출_y
count,3.0,3.0,3.0,3.0
mean,3.333333,4.333333,33.333333,43.333333
std,2.081666,2.081666,20.81666,20.81666
min,1.0,2.0,10.0,20.0
25%,2.5,3.5,25.0,35.0
50%,4.0,5.0,40.0,50.0
75%,4.5,5.5,45.0,55.0
max,5.0,6.0,50.0,60.0


# 3. 데이터 불러오기

## 예제 1. cdata.csv 불러오기

## 예제 2. cdata_nohead.csv 불러오기

## 예제 3. 자동차 회사의연비 데이터

* manufacturer : 회사명
* cty : 도심연비
* hwy : 고속도로 연비

## 데이터 불러오기

## 데이터 파악하기

## Q1. 몇 개의 회사 데이터가 있나요?

## Q2. 회사별로 참여한 자동차가 몇 대인지 파악하세요.

## Q3. 도심연비와 고속도로 연비를 평균낸 total 연비를 구하세요

## Q4. total 연비 상위 10개 회사의 회사별 개수를 구하세요

## +Quiz. 현대자동차의 평균 total 연비에 대한 평균값은?

## Q5. 평균 total 연비보다 높은 자동차는 PASS, 낮은 자동차는 FAIL로 구분하세요.

## +Quiz. PASS인 자동차 중 가장 많은 숫자의 자동차 회사는?