# Pandas
panel data - 격자 무늬로 데이터가 들어가 있는 모습

## 주요특성
- 인덱싱을 활용하여 데이터 조작이 가능한 DataFrame 객체가 존재
- 데이터 컬럼의 추가 삭제 수정
- 데이터 간의 분할 병합
- 다수의 Series가 모여 DataFrame을 이룹니다!

In [3]:
import pandas as pd
import numpy as np

### Series
- index 와 value로 구성됨.
- DataFrame을 구성하는 하위 요소

In [4]:
# 시리즈 생성
# pd.Series(배열/리스트)
series1 = pd.Series([10,20,30])
series1

# 인덱스 미 지정시 0~ 숫자 생성

0    10
1    20
2    30
dtype: int64

In [5]:
# 인덱스 지정하여 시리즈 생성
series2 = pd.Series([10,20,30], index = ['a','b','c'])
series2

a    10
b    20
c    30
dtype: int64

In [6]:
# k : v -> 딕셔너리
# 인덱스 지정하여 시리즈 생성 2
series3 = pd.Series({'a' : 10, 'b' : 20, 'c' : 30})
series3

a    10
b    20
c    30
dtype: int64

In [8]:
# 시리즈 인덱싱
# 시리즈 인덱스 값이 정해져 있는 경우는 숫자가 아닌 인덱스 값으로 접근
print(series3['a'])

10


In [9]:
#시리즈 값 추가
series3['d'] = 100
series3

a     10
b     20
c     30
d    100
dtype: int64

In [10]:
#시리즈 값 수정
series3['a'] = 1
series3

a      1
b     20
c     30
d    100
dtype: int64

In [12]:
#시리즈 값 삭제
#.drop()
series3 = series3.drop('a')
series3

b     20
c     30
d    100
dtype: int64

In [14]:
#DataFrame
#pd.DataFrame(배열/리스트)

df1= pd.DataFrame([1,2,3])
df1

Unnamed: 0,0
0,1
1,2
2,3


In [15]:
df2 = pd.DataFrame([[1,2,3],[10,20,30]])
df2

Unnamed: 0,0,1,2
0,1,2,3
1,10,20,30


In [16]:
#컬럼명 지정(, columns = [])
df3 = pd.DataFrame([['a',10],['b',20],['c',30]], columns = ['hello','world'])
df3

Unnamed: 0,hello,world
0,a,10
1,b,20
2,c,30


In [17]:
#인덱스 명 지정(, index = [])
df3 = pd.DataFrame([['a',10],['b',20],['c',30]], columns = ['hello','world'], index = ['kim','lee','park'])
df3

Unnamed: 0,hello,world
kim,a,10
lee,b,20
park,c,30


In [18]:
#컬럼을 바로 지정하는 방법 - 딕셔너리 구조
df4 = pd.DataFrame({'hello':[1,2,3,4,5], 'world' : [10,20,30,40,50]})
df4

Unnamed: 0,hello,world
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [19]:
df5 = pd.DataFrame({'키':[175.3,180.2,178.6],'몸무게':[66.2,78.9,55.1],'나이':[27.0,49.0,35.0], '이름' : ['son','kim','park']})
df5

Unnamed: 0,키,몸무게,나이,이름
0,175.3,66.2,27.0,son
1,180.2,78.9,49.0,kim
2,178.6,55.1,35.0,park


In [20]:
#인덱싱 / 슬라이싱
# 1. 컬럼명 작성
# 2. 해당 컬럼만 시리즈 형식으로 가지고 옴
df5['키']

0    175.3
1    180.2
2    178.6
Name: 키, dtype: float64

In [21]:
# 슬라이싱
# 행에 접근
df5[1:3]

Unnamed: 0,키,몸무게,나이,이름
1,180.2,78.9,49.0,kim
2,178.6,55.1,35.0,park


# 데이터 탐색을 편하게 해주는 기능
## 인덱서 - loc / iloc

#### loc
: 실제로 보이는 인덱스/컬럼명을 통해 데이터 접근


In [27]:
df5

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [26]:
# 컬럼 -> 인덱스
#.set_index(컬럼명)
df5 = df5.set_index("이름")
df5

KeyError: "None of ['이름'] are in the columns"

#### iloc
: 인덱스 번호 접근

In [28]:
df5

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [33]:
print(df5.loc['kim'])
print()
print(df5.iloc[1])

키      180.2
몸무게     78.9
나이      49.0
Name: kim, dtype: float64

키      180.2
몸무게     78.9
나이      49.0
Name: kim, dtype: float64


In [36]:
#슬라이싱
# print(df5.loc["son":"kim"]) 좀 안 예쁘게 나옴 
# loc 데이터 슬라이싱 이름으로 접근시 마지막 데이터는 포함
display(df5.loc["son":"kim"])

display(df5.iloc[0:2])
# iloc 데이터 슬라이싱 - 마지막 번호는 포함 x

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0


Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0


In [40]:
#행, 열 구분
display(df5.loc[:,:])
display(df5.loc['son':'kim','키':'몸무게'])

#numpy처럼 여러 데이터 가져오고 싶으면 대괄호로 한번 더 감싸기
display(df5.loc[['son','park'],:])

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


Unnamed: 0_level_0,키,몸무게
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
son,175.3,66.2
kim,180.2,78.9


Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
park,178.6,55.1,35.0


In [41]:
#iloc 행, 열 구분
display(df5.iloc[:,:])
display(df5.iloc[0:2,:])
display(df5.iloc[0:2,:])


Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [43]:
df5[0:1]['몸무게']

이름
son    66.2
Name: 몸무게, dtype: float64

In [44]:
# 불리언 인덱싱
df5

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
son,175.3,66.2,27.0
kim,180.2,78.9,49.0
park,178.6,55.1,35.0


In [46]:
df5['키']

이름
son     175.3
kim     180.2
park    178.6
Name: 키, dtype: float64

In [48]:
df5['키'] + 100

이름
son     275.3
kim     280.2
park    278.6
Name: 키, dtype: float64

In [None]:
# 연산이 가능하다? ->  비교연산자 불리언도 사용 가능하다!

In [49]:
df5['키'] > 180

이름
son     False
kim      True
park    False
Name: 키, dtype: bool

In [51]:
#불리언 인덱싱
df5[df5['키'] > 180]

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
kim,180.2,78.9,49.0


In [52]:
#불리언 인덱싱을 도와주는 함수
# .query('조건식')
df5.query('키>180')

Unnamed: 0_level_0,키,몸무게,나이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
kim,180.2,78.9,49.0


In [53]:
mpg_copy['제조사'].unique()

NameError: name 'mpg_copy' is not defined

### 20240807

In [1]:
import pandas as pd

# 결측치
- 결측치란? 누락된 값, 비어있는 값
- 수집과정에서 오류로 인한 데이터 누락
- 적용 X , 분석결과에 왜곡이 발생
- 결측치 해결방법은 데이터/컬럼마다 다르지만 없애거나/채우거나
- e.g. 타이타닉 cabin -> 80% 이상이 결측치 --> 버리기
- e.g.          age  -> 소수의 결측치 --> 평균 / 중앙값 채우기

# 이상치
- 이상치란? 이상한 값
- 이상한 데이터 삽입
- 분석결과에 왜곡이 발생
- 이상치 해결방법 결측치와 유사 없애거나/ 수정하거나
- e.g. 타이타닉 성별이 2 -> 살았으면 여성 / 죽었으면 남성으로 수정 >> 확률적 접근