## 04. Pandas
- 파이썬 기반의 강력하고 사용하기 쉬운 데이터 분석 및 조작 라이브러리

In [73]:
import pandas as pd
import numpy as np
print(pd.__version__)

2.3.3


### pandas의 핵심 자료 구조
- Series
- DataFrame

### Series
- 인덱스(라벨)가 붙은 1차원 배열
- 인덱스 이름을 직접 지정할 수 있음

In [4]:
# 시리즈 생성
# 1. 리스트로 생성
data = [10,20,30,40]
s = pd.Series(data)
print(s)

0    10
1    20
2    30
3    40
dtype: int64


In [5]:
# 2. 인덱스를 직접 지정
s = pd.Series(data, index=["a","b","c","d"])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [6]:
# 3. 딕셔너리로 생성
data = {'서울': 100, '부산':200, '대구':300}
s = pd.Series(data)
print(s)

서울    100
부산    200
대구    300
dtype: int64


In [7]:
# 4. 하나의 값으로 시리즈 생성
s = pd.Series(7, index=["가","나","다"])
print(s)

가    7
나    7
다    7
dtype: int64


In [10]:
# 시리즈의 주요 속성
data = [10,20,30,40]
s = pd.Series(data, index=['a','b','c','d'], name='test data')
print("values:", s.values) # 실제 데이터 배열
print("index:", s.index) # 인덱스 객체
print("dtype:", s.dtype) # 실제 데이터의 타입
print("size:", s.size) # 데이터의 개수
print("shape:", s.shape) # 배열의 형태
print("name:", s.name) # 시리즈의 이름

values: [10 20 30 40]
index: Index(['a', 'b', 'c', 'd'], dtype='object')
dtype: int64
size: 4
shape: (4,)
name: test data


In [11]:
# 시리즈의 연산
s1 = pd.Series([10,20,30], index=['a','b','c'])
s2 = pd.Series([5,6,7], index=['c','b','d'])
result = s1 + s2
print(result)

a     NaN
b    26.0
c    35.0
d     NaN
dtype: float64


In [12]:
# 브로드 캐스팅
s = pd.Series([5,10,15])
print(s + 3)
print(s * 2)

0     8
1    13
2    18
dtype: int64
0    10
1    20
2    30
dtype: int64


In [13]:
# 불리언 연산 및 인덱싱
s = pd.Series([50,60,70,80,90,100])
mask = s > 70
print(mask)
print(s[mask])


0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool
3     80
4     90
5    100
dtype: int64


In [18]:
# 실습1.
# 1.
data = [5,10,15,20]
an1 = pd.Series(data)
print(an1)
print()
#2.
data = [90,80,85,70]
an2 = pd.Series(data, index=["국어","영어","수학","과학"])
print(an2)
print()
# 3.
data = {'서울': 950, '부산':340, '인천':520}
an3_s = pd.Series(data)
print(an3_s)
print(an3_s['인천'])

0     5
1    10
2    15
3    20
dtype: int64

국어    90
영어    80
수학    85
과학    70
dtype: int64

서울    950
부산    340
인천    520
dtype: int64
520


In [21]:
# 4.
an4 = pd.Series([1,2,3,4])
print(an4)
print("dtype:", an4.dtype)
print()
# 5.
s1 = pd.Series([3,5,7], index=['a','b','c'])
s2 = pd.Series([10,20,30], index=['b','c','d'])
an5 = s1 + s2
print(an5)
print()
#6.
q6 = pd.Series([1,2,3,4,5])
an6 = q6 + 10
print(an6)



0    1
1    2
2    3
3    4
dtype: int64
dtype: int64

a     NaN
b    15.0
c    27.0
d     NaN
dtype: float64

0    11
1    12
2    13
3    14
4    15
dtype: int64


### DataFrame
- 2차원 라베 데이터 구조
- 행과 열이 있고, 행과 열에 대해 라벨을 부여할 수 있음
- 시리즈를 모아놓은 것

In [3]:
# DataFrame 생성
# 1. 딕셔너리로 생성
data = {
    "이름":['kim','lee','sin'],
    "나이":[15,25,33],
    "도시":["서울","부산","대구"]
}
df = pd.DataFrame(data)
df


Unnamed: 0,이름,나이,도시
0,kim,15,서울
1,lee,25,부산
2,sin,33,대구


In [5]:
# 2. 리스트의 리스트(2차원 리스트)로 생성
data = [[1,"a"],[2,"b"],[3,"c"]]
df = pd.DataFrame(data, columns=["번호","코드"])
df

Unnamed: 0,번호,코드
0,1,a
1,2,b
2,3,c


In [6]:
# 3. 딕셔너리의 리스트 생성
data = [
    {"이름":"kim", "나이":20, "사는 곳":"서울"},
    {"이름":"choi", "나이":30,"사는 곳":"대구"}
]
df = pd.DataFrame(data, index=["a","b"])
df

Unnamed: 0,이름,나이,사는 곳
a,kim,20,서울
b,choi,30,대구


In [7]:
# 4. 시리즈로 딕셔너리로 생성
s1 = pd.Series(["국어","수학","영어"], index=["a","b","c"])
s2 = pd.Series([100,90,85], index=["a","b","c"])
df = pd.DataFrame({"과목":s1,"점수":s2})
df

Unnamed: 0,과목,점수
a,국어,100
b,수학,90
c,영어,85


In [9]:
# 데이터 프레임 기본 속성
data = [
    {"이름":"kim", "나이":20, "사는 곳":"서울"},
    {"이름":"choi", "나이":30,"사는 곳":"대구"}
]
df = pd.DataFrame(data)
print("shape:", df.shape)
print("clumns:", df.columns)
print("index:", df.index)
print("dtypes:", df.dtypes)
print("values:", df.values)
print("info:", df.info())



shape: (2, 3)
clumns: Index(['이름', '나이', '사는 곳'], dtype='object')
index: RangeIndex(start=0, stop=2, step=1)
dtypes: 이름      object
나이       int64
사는 곳    object
dtype: object
values: [['kim' 20 '서울']
 ['choi' 30 '대구']]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      2 non-null      object
 1   나이      2 non-null      int64 
 2   사는 곳    2 non-null      object
dtypes: int64(1), object(2)
memory usage: 180.0+ bytes
info: None


In [13]:
# 실습
# 1.
data = [['홍길동',28,'서울'],['김철수',33,'부산'],['이영희',25,'대구']]
an1 = pd.DataFrame(data, columns=['이름','나이','도시'])
print(an1)
print()
# 2.
data = {'A':[1,2,3],'B':[4,5,6]}
an2 = pd.DataFrame(data)
print(an2)
print()
# 3.
data = [{'과목':'수학','점수':90},
        {'과목':'영어','점수':85},
        {'과목':'과학','점수':95}]
an3 = pd.DataFrame(data)
print(an3)
print()
# 4.
data = {'이름':['민수','영희','철수'],
        '점수':[80,92,77]}
an4 = pd.DataFrame(data, index=['학생1','학생2','학생3'])
print(an4)

    이름  나이  도시
0  홍길동  28  서울
1  김철수  33  부산
2  이영희  25  대구

   A  B
0  1  4
1  2  5
2  3  6

   과목  점수
0  수학  90
1  영어  85
2  과학  95

     이름  점수
학생1  민수  80
학생2  영희  92
학생3  철수  77


In [24]:
# 5.
kor = pd.Series([90,85,80], index=['a','b','c'])
eng = pd.Series([95,88,82], index=['a','b','c'])
an5 = pd.DataFrame({'kor': kor, 'eng': eng})
print(an5)
print()
# 6.
data = {'A':[1,2],'B':[3,4]}
an6 = pd.DataFrame(data, columns=['B','A'])
print(an6)
print()
# 7.
data = [['펜',1000,50],['노트',2000,30]]
an7 = pd.DataFrame(data,columns=['product','price','stock'])
print(an7)
print()
# 8.
data = {'국가':['한국','일본','미국'], '수도':['서울','도쿄','워싱턴']}
an8 = pd.DataFrame(data)
print('국가명:\n', an8['국가'])

   kor  eng
a   90   95
b   85   88
c   80   82

   B  A
0  3  1
1  4  2

  product  price  stock
0       펜   1000     50
1      노트   2000     30

국가명:
 0    한국
1    일본
2    미국
Name: 국가, dtype: object


In [None]:
# 데이터 탐색과 요약
data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원"],
    "나이": [23, 35, 31, 40, 28, 34],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


In [27]:
# 데이터 앞부분 미리 보기: head(n)
# 기본값 n=5
df.head
df.head(3)

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군


In [29]:
# 데이터 뒷부분 미리 보기: tail(n)
# 기본값 n = 5
df.tail()
df.tail(3)

Unnamed: 0,이름,나이,직업
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


In [30]:
# info() 함수
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      6 non-null      object
 1   나이      6 non-null      int64 
 2   직업      6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


In [None]:
# describe() 함수
df.describe() # 기본적으로 수치형 컬럼만 요약
df.describe(include="object") # 문자열 컬럼 요약
df.describe(include="all") # 모든 컬럼 요약

Unnamed: 0,이름,나이,직업
count,6,6.0,6
unique,6,,5
top,홍길동,,장군
freq,1,,2
mean,,31.833333,
std,,5.913262,
min,,23.0,
25%,,28.75,
50%,,32.5,
75%,,34.75,


### 인덱싱과 슬라이싱

In [37]:
# 인덱싱: 컬럼에 대해 인덱싱 적용
# 특정 컬럼(시리즈)선택
df['이름']

# 여러 컬럼을 리스트로 선택
df[['이름','나이']]

# .으로도 조회가 가능함
df.이름

0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [None]:
# 슬라이싱
df[1:4]
df[-3:]

# 슬라이싱은 행 기준으로 작동, 열 기준은 별도의 방법을 사용
# df[:,0:2] # Error


Unnamed: 0,이름,나이,직업
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


### iloc, loc

In [None]:
# iloc
# Integer Location
# 정수 위치 기반의 인덱싱, 슬라이싱
# numpy의 슬라이싱과 거의 유사함

# 단일 행/열 선택
df.iloc[0] # 첫 번째 행
df.iloc[:, 1] # 두 번째 열


0    23
1    35
2    31
3    40
4    28
5    34
Name: 나이, dtype: int64

In [44]:
# 여러 행/열 동시 선택
df.iloc[1:4]
df.iloc[:, 0:2]
df.iloc[1:4, 0:2]

Unnamed: 0,이름,나이
1,이순신,35
2,김유신,31
3,강감찬,40


In [6]:
# Fancy Indexing
df.iloc[[0,2,4]]
df.iloc[:, [1,2]]
df.iloc[[0,2,4],[1,2]]

Unnamed: 0,나이,직업
0,23,학생
2,31,장군
4,28,상인


In [8]:
# loc
# location의 약자
# 라벨의 이름 기준으로 인덱싱/슬라이싱
# 단일 행/열 선택
# 시작과 끝을 모두 포함
# 음수 인덱스 사용불가

df.loc[0]
df.loc[:,"이름"]


0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [None]:
# 여러 행/열 선택
df.loc[2:4, ["이름","직업"]]
df.loc[2:4, "이름":"직업"]

Unnamed: 0,이름,나이,직업
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인


In [None]:
# 조건식
mask = df["나이"] >= 30
df.loc[mask, ["이름", "나이"]]


Unnamed: 0,이름,나이
1,이순신,35
2,김유신,31
3,강감찬,40
5,이방원,34


In [14]:
# 컬럼을 인덱스로 지정
df2 = df.set_index("이름")
df2

df2.loc["이순신"]

나이    35
직업    군인
Name: 이순신, dtype: object

In [16]:
# 실습2
data = {
    "이름": ["홍길동","이순신","김유신","강감찬","장보고","이방원","최무선","정도전"],
    "나이": [23,35,31,40,28,34,42,29],
    "직업": ["학생","군인","장군","장군","상인","왕자","과학자","정치가"],
    "점수": [85,90,75,88,92,95,87,83]
}
df = pd.DataFrame(data)
print(df)

    이름  나이   직업  점수
0  홍길동  23   학생  85
1  이순신  35   군인  90
2  김유신  31   장군  75
3  강감찬  40   장군  88
4  장보고  28   상인  92
5  이방원  34   왕자  95
6  최무선  42  과학자  87
7  정도전  29  정치가  83


In [None]:
# 1.
an1 = df.iloc[2:5,1:3]
print(an1)
print()
# 2.
an2 = df.loc[3:6, ['이름','점수']]
print(an2)
print()
# 3.
an3 = df.iloc[-3:, [2,3]]
# an3 = df.iloc[-3:, -2:] # 도 가능
print(an3)
print()


   나이  직업
2  31  장군
3  40  장군
4  28  상인

    이름  점수
3  강감찬  88
4  장보고  92
5  이방원  95
6  최무선  87

    직업  점수
5   왕자  95
6  과학자  87
7  정치가  83



In [None]:
# 4.
an4 = df.iloc[[1,3,5,7], :] # (:) 생략 가능
print(an4)
print()
# 5.
an5 = df.loc[4:7,['나이','점수']]
print(an5)
print()
# 6.
an6 = df.iloc[[0,2,4,6],[0,2]]
# df.iloc[::2, ::2] 도 가능하다
print(an6)

    이름  나이   직업  점수
1  이순신  35   군인  90
3  강감찬  40   장군  88
5  이방원  34   왕자  95
7  정도전  29  정치가  83

   나이  점수
4  28  92
5  34  95
6  42  87
7  29  83

    이름   직업
0  홍길동   학생
2  김유신   장군
4  장보고   상인
6  최무선  과학자


### 통계함수(집계함수)

In [31]:
data = {
    "상품명": ["무선 이어폰", "스마트 워치", "텀블러", "노트북", "블루투스 스피커", "무드등"],
    "가격": [129000, 250000, 15000, 1200000, 85000, 22000],
    "재고": [23, 12, 54, 5, 17, 31]
}
df = pd.DataFrame(data)
df

Unnamed: 0,상품명,가격,재고
0,무선 이어폰,129000,23
1,스마트 워치,250000,12
2,텀블러,15000,54
3,노트북,1200000,5
4,블루투스 스피커,85000,17
5,무드등,22000,31


In [32]:
df.describe(include="all")

Unnamed: 0,상품명,가격,재고
count,6,6.0,6.0
unique,6,,
top,무선 이어폰,,
freq,1,,
mean,,283500.0,23.666667
std,,457130.5,17.339742
min,,15000.0,5.0
25%,,37750.0,13.25
50%,,107000.0,20.0
75%,,219750.0,29.0


In [40]:
# 평균
df["가격"].mean()

# 중앙값
df["재고"].median()

# 표준편차
df["가격"].std()

# 분산
df["재고"].var()

# 값의 개수
df["상품명"].count()

# 최대값
df["가격"].max()

# 최소삾
df["재고"].min()

# 합계
df["가격"].sum()


np.int64(1701000)

In [None]:
# 최대값의 위치와 최소값의 위치
df.idxmax()
df.idxmin()
df["가격"].idxmin()


2

### 결측값 처리
- 결측값: 값이 기록되지 않은 상태의 데이터
- NaN: Not a Number


In [47]:

data = {
    "이름": ["서준", "하은", "민준", "서연", "이안", "지민"],
    "나이": [22, 28, np.nan, 31, 27, 24],
    "점수": [89, np.nan, 83, 90, 88, 93]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [50]:
# 결측값 탐지
# isnull: 결측값이 맞으면 True 아니면 False
df.isnull()

# 각 컬럼의 결측값의 수 계산
df.isnull().sum()

# 데이터의 전체 결측값 수 계산
df.isnull().sum().sum()

np.int64(2)

In [51]:
# notnull 결측값이 아니면 True, 맞으면 False
df.notnull()

Unnamed: 0,이름,나이,점수
0,True,True,True
1,True,True,False
2,True,False,True
3,True,True,True
4,True,True,True
5,True,True,True


In [None]:
# dropna 결측값이 있는 행 삭제
df2 = df.dropna()
df2

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [None]:

# 결측값이 있는 열 삭제
df3 = df.dropna(axis=1)
df3

Unnamed: 0,이름
0,서준
1,하은
2,민준
3,서연
4,이안
5,지민


In [55]:
# fillna 결측값을 특정값으로 대체
df4 = df.fillna(0)
df4

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,0.0
2,민준,0.0,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [57]:
avg_age = df["나이"].mean()
avg_age

df["나이"] = df["나이"].fillna(avg_age)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [59]:
# 이전 값으로 결측값 채우기 (forward fill)
df5 = df.ffill()
df5

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,89.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [60]:
# 뒤의 값으로 결측값 채우기 (backward fill)
df6 = df.bfill()
df6

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,83.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [65]:
# 실습 4.
data = {
    "도시": ["서울", "부산", "광주", "대구", np.nan, "춘천"],
    "미세먼지": [45, 51, np.nan, 38, 49, np.nan],
    "초미세먼지": [20, np.nan, 17, 18, 22, 19],
    "강수량": [0.0, 2.5, 1.0, np.nan, 3.1, 0.0]
}

df = pd.DataFrame(data)
print(df)



    도시  미세먼지  초미세먼지  강수량
0   서울  45.0   20.0  0.0
1   부산  51.0    NaN  2.5
2   광주   NaN   17.0  1.0
3   대구  38.0   18.0  NaN
4  NaN  49.0   22.0  3.1
5   춘천   NaN   19.0  0.0


In [69]:
# 1.
an1_1 = df['미세먼지'].mean()
an1_2 = df['미세먼지'].median()
print("평균값:", an1_1)
print("중앙값:", an1_2)
print()
# 2.
an2_1 = df['초미세먼지'].max()
an2_2 = df['초미세먼지'].min()
print("최대값:", an2_1)
print("최소값:", an2_2)
print()
# 3.
an3 = df.isnull().sum()
print(an3)


평균값: 45.75
중앙값: 47.0

최대값: 22.0
최소값: 17.0

도시       1
미세먼지     2
초미세먼지    1
강수량      1
dtype: int64


In [76]:
# 4.
an4_1 = df.dropna()
an4_2 = an4_1['초미세먼지'].mean()
print("결측값 삭제 후 데이터:\n", an4_1)
print("조미세먼지 평균:\n", an4_2)
print()
# 5.
an5 = df.fillna(0)
an5_1 = an5['미세먼지'].sum()
an5_2 = an5['초미세먼지'].sum()
print("미세먼지 합계:", an5_1)
print("초미세먼지 합계:", an5_2)
print()
# 6.
an6 = df['미세먼지'].mean()
df['미세먼지']=df['미세먼지'].fillna(an6)
print(df['미세먼지'].std())


결측값 삭제 후 데이터:
    도시   미세먼지  초미세먼지  강수량
0  서울  45.00   20.0  0.0
2  광주  45.75   17.0  1.0
5  춘천  45.75   19.0  0.0
조미세먼지 평균:
 18.666666666666668

미세먼지 합계: 274.5
초미세먼지 합계: 96.0

4.444097208657794
