## 04. Pandas
- 파이썬 기반의 강력하고 사용하기 쉬운 데이터 분석 및 조작 라이브러리

In [154]:
import pandas as pd
import numpy as np

# print(pd.__version__)

### Pandas의 핵심 자료 구조
- Series
- DataFrame

### Series
- 인데스(라벨)가 붙은 1차원 배열
- 인덱스 이름을 직접 지정할 수 있음

In [56]:
# series 생성
# 1. 리스트로 생성
data = [10, 20, 30, 40]
s = pd.Series(data)
print(s)

0    10
1    20
2    30
3    40
dtype: int64


In [57]:
# 2. 인덱스를 직접 지정
s = pd.Series(data, index = ["a", "b", "c", "d"])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [58]:
# 3. 딕셔너리로 생성
data = {'서울':100, '부산':200, '대구':300}
s = pd.Series(data)
print(s)

서울    100
부산    200
대구    300
dtype: int64


In [59]:
# 4. 하나의 값으로 series 생성
s = pd.Series(7, index = ["가", "나", "다"])
print(s)

가    7
나    7
다    7
dtype: int64


In [60]:
# 시리즈의 주요 속성
data = [10, 20, 30, 40]
s = pd.Series(data, index = ["a", "b", "c", "d"], name = 'test data')
print("values: ", s.values) # 실제 데이터 배열
print("index: ", s.index) # 인덱스 객체
print("dtype: ", s.dtype) # 실제 데이터의 타입
print("size: ", s.size) # 데이터의 개수
print("shape: ", s.shape) # 배열의 형태
print("name: ", s.name) # series 이름

values:  [10 20 30 40]
index:  Index(['a', 'b', 'c', 'd'], dtype='object')
dtype:  int64
size:  4
shape:  (4,)
name:  test data


In [61]:
# 시리즈의 연산
s1 = pd. Series([10, 20, 30], index = ["a", "b", "c"])
s2 = pd.Series([5, 6, 7], index = ['c', 'b', 'd'])

result = s1 + s2

print(result)

a     NaN
b    26.0
c    35.0
d     NaN
dtype: float64


In [62]:
# 브로드캐스팅
s = pd.Series([5, 10, 15])

print(s + 3)
print(s * 2)

0     8
1    13
2    18
dtype: int64
0    10
1    20
2    30
dtype: int64


In [63]:
# 불리언 연산 및 인덱싱
s = pd.Series([50, 60, 70, 80, 90, 100])

mask = s > 70
print(mask)
print(s[mask])

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool
3     80
4     90
5    100
dtype: int64


In [64]:
# 실습 1-1
s = pd.Series([5, 10, 15, 20])
print(s)

0     5
1    10
2    15
3    20
dtype: int64


In [65]:
# 실습 1-2
s = pd. Series([90, 80, 85, 70], index = ["국어", "영어", "수학", "과학"])
print(s)

국어    90
영어    80
수학    85
과학    70
dtype: int64


In [66]:
# 실습 1-3  
data = {'서울':950, '부산':340, '인천':520}
s = pd.Series(data)
print(s["인천"])

520


In [67]:
# 실습 1-4
s = pd.Series([1, 2 ,3, 4])
print("데이터 타입: ", s.dtype)

데이터 타입:  int64


In [68]:
# 실습 1-5
s1 = pd.Series([3, 5, 7], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['b', 'c', 'd'])

result = s1 + s2

print(result)

a     NaN
b    15.0
c    27.0
d     NaN
dtype: float64


In [69]:
# 실습 1-6
s = pd.Series([1, 2, 3, 4, 5])
print(s + 10)

0    11
1    12
2    13
3    14
4    15
dtype: int64


### DataFrame
- 2차원 라벨 데이터 구조
- 시리즈를 모아놓은 것
- 행과 열이 있고, 행과 열에 대해 라벨을 부여할 수 있음

In [70]:
# DataFrame 생성
# 1. 딕셔너리로 생성
data = {
    "이름": ['kim', 'lee', 'sim'],
    "나이": [15, 23, 44],
    "도시": ["서울", "부산", "대구"]

}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,도시
0,kim,15,서울
1,lee,23,부산
2,sim,44,대구


In [71]:
# 2. 리스트의 리스트(2차원 리스트)로 생성
data = [[1, "a"], [2, "b"], [3, "c"]]
df = pd.DataFrame(data, columns = ["번호", "코드"])
df

Unnamed: 0,번호,코드
0,1,a
1,2,b
2,3,c


In [72]:
# 3. 딕셔너리의 리스트 생성
data = [
    {"이름": "동윤2", "나이": 26, "도시": "포항"},
    {"이름": "배칠수", "나이": 43, "도시": "서울"}
]

df = pd.DataFrame(data, index = ["a", "b"])
df

Unnamed: 0,이름,나이,도시
a,동윤2,26,포항
b,배칠수,43,서울


In [73]:
# 4. 시리즈의 딕셔너리로 생성
s1 = pd.Series(["국어", "수학", "영어"], index = ["a", "b", "c"])
s2 = pd.Series([100, 90, 80], index = ["a", "b", "c"])

df = pd.DataFrame({"과목": s1, "점수": s2})
df

Unnamed: 0,과목,점수
a,국어,100
b,수학,90
c,영어,80


In [74]:
# 데이터 프레임 기본 속성
data = [
    {"이름": "동윤2", "나이": 26, "도시": "포항"},
    {"이름": "배칠수", "나이": 43, "도시": "서울"}
]

df = pd.DataFrame(data)

print("shape", df.shape)
print("columns", df.columns)
print("index", df.index)
print("dtypes", df.dtypes)
print("value", df.values)
print("info", df.info())

shape (2, 3)
columns Index(['이름', '나이', '도시'], dtype='object')
index RangeIndex(start=0, stop=2, step=1)
dtypes 이름    object
나이     int64
도시    object
dtype: object
value [['동윤2' 26 '포항']
 ['배칠수' 43 '서울']]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      2 non-null      object
 1   나이      2 non-null      int64 
 2   도시      2 non-null      object
dtypes: int64(1), object(2)
memory usage: 180.0+ bytes
info None


In [75]:
# 실습 1-1
data = [
    {"이름": "홍길동", "나이": 28, "도시": "서울"},
    {"이름": "김철수", "나이": 33, "도시": "부산"},
    {"이름": "이형의", "나이": 25, "도시": "대구"}
]

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,도시
0,홍길동,28,서울
1,김철수,33,부산
2,이형의,25,대구


In [76]:
# 실습 1-2
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [77]:
# 실습 1-3
data = [{'과목': '수학', '점수': 90}, {'과목': '영어', '점수': 85}, {'과목': '과학', '점수': 95}]
df = pd.DataFrame(data)
df

Unnamed: 0,과목,점수
0,수학,90
1,영어,85
2,과학,95


In [78]:
# 실습 1-4
data = {'이름': ['민수', '영희', '철수'], '점수': [80, 92, 77]}

df = pd.DataFrame(data, index = ["학생1", "학생2", "학생3"])
df

Unnamed: 0,이름,점수
학생1,민수,80
학생2,영희,92
학생3,철수,77


In [79]:
# 실습 1-5
kor = pd.Series([90, 85, 80], index=['a', 'b', 'c'])
eng = pd.Series([95, 88, 82], index=['a', 'b', 'c'])

df = pd.DataFrame({"국어 점수?": kor, "영어 점수?": eng})
df

Unnamed: 0,국어 점수?,영어 점수?
a,90,95
b,85,88
c,80,82


In [80]:
# 실습 1-6
data = {'A': [1, 2], 'B': [3,4]}
df = pd.DataFrame(data, index = ['B', 'A'])
df

Unnamed: 0,A,B
B,1,3
A,2,4


In [81]:
# 실습 1-7
data = [['펜', 1000, 50], ['노트', 2000, 30]]
df = pd.DataFrame(data, columns=['product', 'price', 'stock'])
df

Unnamed: 0,product,price,stock
0,펜,1000,50
1,노트,2000,30


In [82]:
# 실습 1-8
data = {'국가': ['한국', '일본', '미국'], '수도': ['서울', '도쿄', '워싱턴']}
df = pd.DataFrame(data)
print("국가", df.values[:,0])
print("국가", df["국가"])

국가 ['한국' '일본' '미국']
국가 0    한국
1    일본
2    미국
Name: 국가, dtype: object


In [83]:
# 데이터 탐색과 요약
data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원"],
    "나이": [23, 35, 31, 40, 28, 34],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


In [None]:
# 데이터 앞부분 미리보기: head(n)
# 기본값 n = 5
df.head()
df.head(3)

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군


In [None]:
# 데이터 뒷부분 미리보기: tail(n)
# 기본값 n = 5
df.tail()
df.tail(2)  

Unnamed: 0,이름,나이,직업
4,장보고,28,상인
5,이방원,34,왕자


In [None]:
# info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      6 non-null      object
 1   나이      6 non-null      int64 
 2   직업      6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


In [89]:
# describe()
df.describe() # 기본적으로 수치형 컬럼만 요약
df.describe(include = "object")
df.describe(include = "all")

Unnamed: 0,이름,나이,직업
count,6,6.0,6
unique,6,,5
top,홍길동,,장군
freq,1,,2
mean,,31.833333,
std,,5.913262,
min,,23.0,
25%,,28.75,
50%,,32.5,
75%,,34.75,


### 인덱싱과 슬라이싱

In [92]:
# 인덱싱: 컬럼에 대해 인덱싱 적용
# 특정 컬럼(시리즈) 선택
df["이름"]

# 여러 컬럼을 리스트로 선택
df[['이름', '나이']]

# .으로도 조회가 가능함
df.이름

0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [96]:
# 슬라이싱
df[1:4]
df[-3:]

# 슬라이싱은 행 기준으로 동작, 열 기준은 별도의 방법을 사용
# df[:, 0: 2]

Unnamed: 0,이름,나이,직업
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


### iloc, loc

In [98]:
# iloc
# Integer Location
# 정수 위치 기반의 인덱싱, 슬라이싱
# numpy의 슬라이싱과 거의 유사함

# 단일 행/열 선택
df.iloc[0] # 첫 번째 행
df.iloc[:, 1] # 두 번째 열

0    23
1    35
2    31
3    40
4    28
5    34
Name: 나이, dtype: int64

In [None]:
# 여러 행/열 동시 선택
df.iloc[1:4]
df.iloc[:, 0:2]
df.iloc[1:4, 0:2]

Unnamed: 0,이름,나이
0,홍길동,23
1,이순신,35
2,김유신,31
3,강감찬,40
4,장보고,28
5,이방원,34


In [105]:
# Fancy Indexing

df.iloc[[0,2,4]]
df.iloc[:, [1, 2]]
df.iloc[[0, 2, 4], [1, 2]]

Unnamed: 0,나이,직업
0,23,학생
2,31,장군
4,28,상인


In [106]:
# 음수 인덱스 슬라이싱
df.iloc[-1]
df.iloc[:, -2:]

Unnamed: 0,나이,직업
0,23,학생
1,35,군인
2,31,장군
3,40,장군
4,28,상인
5,34,왕자


In [108]:
# loc
# Location의 약자
# 라벨의 이름 기준으로 인덱싱/슬라이싱
# 단일 행/열 선택
# 시작과 끝을 모두 포함
# 음수 인덱스 사용 X

df.loc[0]
df.loc[:, "이름"]

0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [111]:
# 여러 행/열 선택
df.loc[2:4, ["이름", "직업"]]
df.loc[2:4, "이름": "직업"]

Unnamed: 0,이름,나이,직업
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인


In [114]:
# 조건식
mask = df["나이"] >= 30
df.loc[mask, ["이름", "나이"]]

Unnamed: 0,이름,나이
1,이순신,35
2,김유신,31
3,강감찬,40
5,이방원,34


In [117]:
# 컬럼을 인덱스로 지정
df2 = df.set_index("이름")
df2

df2.loc["이순신"]

나이    35
직업    군인
Name: 이순신, dtype: object

In [119]:
data = {
"이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원", "최무선", "정도전"],
"나이": [23, 35, 31, 40 , 28, 34 , 42, 29],
"직업": ["학생", "군인", "장군", "장군", "상인", "왕자", "과학자", "정치가"],
"점수": [85, 90, 75, 88, 92, 95, 87, 83]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업,점수
0,홍길동,23,학생,85
1,이순신,35,군인,90
2,김유신,31,장군,75
3,강감찬,40,장군,88
4,장보고,28,상인,92
5,이방원,34,왕자,95
6,최무선,42,과학자,87
7,정도전,29,정치가,83


In [126]:
# 실습 3-1
df.iloc[2:5, 1:3]


Unnamed: 0,나이,직업
2,31,장군
3,40,장군
4,28,상인


In [127]:
# 실습 3-2
df.loc[3:6, ["이름", "점수"]]

Unnamed: 0,이름,점수
3,강감찬,88
4,장보고,92
5,이방원,95
6,최무선,87


In [138]:
# 실습 3-3
df.iloc[-3:, 2:4]

Unnamed: 0,직업,점수
5,왕자,95
6,과학자,87
7,정치가,83


In [139]:
# 실습 3-4
df.iloc[[1, 3, 5, 7], :]

Unnamed: 0,이름,나이,직업,점수
1,이순신,35,군인,90
3,강감찬,40,장군,88
5,이방원,34,왕자,95
7,정도전,29,정치가,83


In [140]:
# 실습 3-5
df.loc[4:7, ["나이", "점수"]]

Unnamed: 0,나이,점수
4,28,92
5,34,95
6,42,87
7,29,83


In [141]:
df.iloc[[0, 2, 4, 6], [0, 2]]

Unnamed: 0,이름,직업
0,홍길동,학생
2,김유신,장군
4,장보고,상인
6,최무선,과학자


### 통계함수(집계함수)

In [143]:
data = {
    "상품명": ["무선 이어폰", "스마트 워치", "텀블러", "노트북", "블루투스 스피커", "무드등"],
    "가격": [129000, 250000, 15000, 1200000, 85000, 22000],
    "재고": [23, 12, 54, 5, 17, 31]
}
df = pd.DataFrame(data)
df

Unnamed: 0,상품명,가격,재고
0,무선 이어폰,129000,23
1,스마트 워치,250000,12
2,텀블러,15000,54
3,노트북,1200000,5
4,블루투스 스피커,85000,17
5,무드등,22000,31


In [None]:
df.describe()

Unnamed: 0,가격,재고
count,6.0,6.0
mean,283500.0,23.666667
std,457130.5,17.339742
min,15000.0,5.0
25%,37750.0,13.25
50%,107000.0,20.0
75%,219750.0,29.0
max,1200000.0,54.0


In [None]:
# 평균
df["가격"].mean()

# 중강값
df["재고"].median()

# 표준편차
df["가격"].std()
df["재고"].std()

# 분산
df["재고"].var()

# 값의 개수
df["상품명"].count()

# 최댓값
df["가격"].max()

# 최솟값
df["재고"].min()

# 합계
df["가격"].sum()

np.int64(6)

In [153]:
# 쵀댓값의 위치와 최소값의 위치
df.idxmax()

df.idxmin()
df["가격"].idxmin()

2

### 결측값 처리
- 결측값: 값이 기록되지 않은 상태의 데이터
- NaN(Not a Number)

In [155]:
data = {
    "이름": ["서준", "하은", "민준", "서연", "이안", "지민"],
    "나이": [22, 28, np.nan, 31, 27, 24],
    "점수": [89, np.nan, 83, 90, 88, 93]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [None]:
# 결측값 탐지
# isnull: 결측값이 맞으면 True 아니면 False
df.isnull()

# 각 컬럼의 결측값의 수 계산
df.isnull().sum()

# 데이터의 전체 결측값 수 계산
df.isnull().sum().sum()

이름    0
나이    1
점수    1
dtype: int64

In [161]:
# notnull 결측값이 아니면 True, 맞으면 False
df.notnull()

Unnamed: 0,이름,나이,점수
0,True,True,True
1,True,True,False
2,True,False,True
3,True,True,True
4,True,True,True
5,True,True,True


In [162]:
# dropna 결측값이 있는 행 삭제
df2 = df.dropna()
df2

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [165]:
# 결측값이 있는 열 삭제
df3 = df.dropna(axis = 1)
df3           

Unnamed: 0,이름
0,서준
1,하은
2,민준
3,서연
4,이안
5,지민


In [166]:
# fillna 결측값을 특정 값으로 대체
df4 = df.fillna(0)
df4

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,0.0
2,민준,0.0,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [171]:
avg_age = df["나이"].mean()
avg_age

df["나이"] = df["나이"].fillna(avg_age)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [174]:
# 이전 값으로 결측값 채우기 (forward fill)
df5 = df.ffill()
df5

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,89.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [175]:
# 뒤의 값으로 결측값 채우기 (backward fill)
df6 = df.bfill()
df6    

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,83.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [176]:
data = {
"도시": ["서울", "부산", "광주", "대구", np.nan, "춘천"],
"미세먼지": [45, 51, np.nan, 38, 49 , np.nan],
"초미세먼지": [20, np.nan, 17, 18, 22, 19],
"강수량": [0.0, 2.5, 1.0, np.nan, 3.1, 0.0]
}
df = pd.DataFrame(data)

In [178]:
# 실습 4-1
print(df["미세먼지"].mean())
print(df["미세먼지"].median())

45.75
47.0


In [179]:
# 실습 4-2
print(df["초미세먼지"].max())
print(df["초미세먼지"].min())

22.0
17.0


In [180]:
# 실습 4-3
print(df.isnull().sum())

도시       1
미세먼지     2
초미세먼지    1
강수량      1
dtype: int64


In [182]:
# 실습 4-4
df2 = df.dropna()
print(df2["초미세먼지"].mean)

<bound method Series.mean of 0    20.0
Name: 초미세먼지, dtype: float64>


In [183]:
# 실습 4-5
df3 = df.fillna(0)
print(df3["미세먼지"].sum())
print(df3["초미세먼지"].sum())

183.0
96.0


In [184]:
# 실습 4-6
avg_val = df["미세먼지"].mean()
avg_val

df["미세먼지"] = df["미세먼지"].fillna(avg_val)
print(df["미세먼지"].std())

4.444097208657794
