## Pandas DataFrame

판다스에서 데이터(테이블 형태 - DB, 엑셀, CSV, JSON) 처리하는 가장 기본단위 자료구조

<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width="500">

데이터프레임 생성
```python
pd.DataFrame(...)
```

In [1]:
import pandas as pd

In [2]:
# 데이터프레임 생성
data = {
    '이름': ['홍길동', '홍길순', '성유고', '박애슐'],
    '국어': [80, 100, 10, 90],
    '영어': [50, 100, 99, 100],
    '수학': [90, 100, 10, 40],
    '미술': [100, 100, 99, 30]
} # 기본데이터 실제로는 excel, db, csv, openAPI 등 다른곳에서 받아와서 처리

df1 = pd.DataFrame(data=data)
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,30


#### 데이터프레임 핸들링

##### 특정컬럼 사용, 데이터프레임 생성

In [3]:
data

{'이름': ['홍길동', '홍길순', '성유고', '박애슐'],
 '국어': [80, 100, 10, 90],
 '영어': [50, 100, 99, 100],
 '수학': [90, 100, 10, 40],
 '미술': [100, 100, 99, 30]}

In [4]:
df2 = pd.DataFrame(data=data, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,홍길동,50
1,홍길순,100
2,성유고,99
3,박애슐,100


In [5]:
df3 = pd.DataFrame(data=data, columns=['이름','미술','음악'])
df3

Unnamed: 0,이름,미술,음악
0,홍길동,100,
1,홍길순,100,
2,성유고,99,
3,박애슐,30,


In [6]:
# 인덱스번호를 변경해서 DF 생성
df4 = pd.DataFrame(data=data, index=[x for x in range(1, len(data))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [7]:
df5 = pd.DataFrame(data=data, index=['첫번째','두번째','세번째','네번째'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


#### DF 내의 데이터 조회

In [8]:
df1['국어']

0     80
1    100
2     10
3     90
Name: 국어, dtype: int64

In [9]:
type(df1['국어'])

pandas.core.series.Series

In [10]:
df1[['이름','수학']]

Unnamed: 0,이름,수학
0,홍길동,90
1,홍길순,100
2,성유고,10
3,박애슐,40


In [11]:
type(df1[['이름','수학']])

pandas.core.frame.DataFrame

In [12]:
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,30


In [13]:
# DF의 인덱스 기준으로 데이터를 조회
df1.loc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 1, dtype: object

In [14]:
df1.loc[[0, 2]]

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
2,성유고,10,99,10,99


In [15]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [16]:
# 지금 정해놓은 인덱스값 대로 조회
df4.loc[1]

이름    홍길동
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [17]:
# 원래의 인덱스값 대로 조회(아무리 인덱스를 변경해도 배열에서 첫번째인덱스가 0인것은 변함이 없음)
df4.iloc[0]

이름    홍길동
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [18]:
df5.loc['네번째']

이름    박애슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [19]:
df5.iloc[3]

이름    박애슐
국어     90
영어    100
수학     40
미술     30
Name: 네번째, dtype: object

In [20]:
# DF 슬라이싱(인덱스로)
df5[0:3]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99


##### 특정데이터 상세 조회

In [21]:
df5.loc['세번째', ['미술']]

미술    99
Name: 세번째, dtype: object

In [22]:
df4.iloc[2, [4]]

미술    99
Name: 3, dtype: object

In [23]:
df5.loc['세번째', '미술']

99

In [24]:
df5.iloc[2, 4]

99

In [25]:
type(df5.iloc[2, 4])

numpy.int64

##### 조건식 조회

In [26]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [27]:
# 한 컬럼에 조건걸어서 조회 --> 시리즈
df5['수학'] > 50

첫번째     True
두번째     True
세번째    False
네번째    False
Name: 수학, dtype: bool

In [28]:
# 조회조건이 참인 df만 출력
df5[df5['수학'] > 50]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100


In [29]:
# AND 조회조건
df5[(df5['수학'] > 50) & (df5['국어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,100,100,100


In [30]:
# OR 조회조건
df5[(df5['수학'] > 50) | (df5['국어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
네번째,박애슐,90,100,40,30


In [31]:
# ISIN 조건
df5['영어'].isin([50, 99])

첫번째     True
두번째    False
세번째     True
네번째    False
Name: 영어, dtype: bool

In [32]:
df5[df5['영어'].isin([50, 99])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
세번째,성유고,10,99,10,99


##### DF 데이터 추가/변경/삭제

In [33]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [34]:
# 컬럼이름 추가, 리스트로 데이터를 할당
# 똑같은 컬럼은 추가안됨
df5['음악'] = [70, 100, 30, 10]
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,50,90,100,70
두번째,홍길순,100,100,100,100,100
세번째,성유고,10,99,10,99,30
네번째,박애슐,90,100,40,30,10


In [35]:
# 연산후 컬럼 추가
df5['국어 + 10'] = df5['국어'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,70,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,30,20
네번째,박애슐,90,100,40,30,10,100


In [36]:
# 실행할때마다 연산
df5['음악'] = df5['음악'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,80,90
두번째,홍길순,100,100,100,100,110,110
세번째,성유고,10,99,10,99,40,20
네번째,박애슐,90,100,40,30,20,100


In [37]:
# 조건식 + loc으로 컬럼값은 변경
df5.loc[df5['음악'] > 100, ['음악']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악,국어 + 10
첫번째,홍길동,80,50,90,100,80,90
두번째,홍길순,100,100,100,100,100,110
세번째,성유고,10,99,10,99,40,20
네번째,박애슐,90,100,40,30,20,100


In [38]:
del df5['국어 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술,음악
첫번째,홍길동,80,50,90,100,80
두번째,홍길순,100,100,100,100,100
세번째,성유고,10,99,10,99,40
네번째,박애슐,90,100,40,30,20


In [39]:
# 특정위치 값 변경
df1.at[3, '미술'] = 40
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,40


##### 삭제 중 drop

In [40]:
# axis=1 한 컬럼을 기준으로 없앰
df7 = df1.drop(['미술'], axis=1)
df7

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10
3,박애슐,90,100,40


In [41]:
# axis=0 한 행을 다 없앰
df8 = df1.drop(3, axis=0)
df8

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [42]:
df10 = df1

In [43]:
# inplace 속성
df10.drop(3, axis=0, inplace=True)
df10

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [44]:
df10.drop(['미술'], axis=1, inplace=True)

In [45]:
df10

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10


##### 기타 속성값

In [46]:
df1.index

RangeIndex(start=0, stop=3, step=1)

In [47]:
df5.index

Index(['첫번째', '두번째', '세번째', '네번째'], dtype='object')

In [48]:
df1.columns

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [49]:
df4.values

array([['홍길동', 80, 50, 90, 100],
       ['홍길순', 100, 100, 100, 100],
       ['성유고', 10, 99, 10, 99],
       ['박애슐', 90, 100, 40, 30]], dtype=object)

In [50]:
# 제일 중요한 것 중 한 속성
df4.shape

(4, 5)

In [51]:
df4.size

20

In [52]:
df4.dtypes

이름    object
국어     int64
영어     int64
수학     int64
미술     int64
dtype: object

In [53]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [54]:
# DB에서 SQL로 이작업을 하려면 어렵다.
df4.T

Unnamed: 0,1,2,3,4
이름,홍길동,홍길순,성유고,박애슐
국어,80,100,10,90
영어,50,100,99,100
수학,90,100,10,40
미술,100,100,99,30


In [56]:
!pip install Jinja2

Collecting Jinja2


[notice] A new release of pip is available: 23.0 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip



  Using cached Jinja2-3.1.2-py3-none-any.whl (133 kB)
Collecting MarkupSafe>=2.0
  Downloading MarkupSafe-2.1.3-cp311-cp311-win_amd64.whl (17 kB)
Installing collected packages: MarkupSafe, Jinja2
Successfully installed Jinja2-3.1.2 MarkupSafe-2.1.3


In [58]:
!pip install matplotlib

Collecting matplotlib
  Downloading matplotlib-3.7.2-cp311-cp311-win_amd64.whl (7.5 MB)
     ---------------------------------------- 0.0/7.5 MB ? eta -:--:--
     - -------------------------------------- 0.3/7.5 MB 9.6 MB/s eta 0:00:01
     ---- ----------------------------------- 0.8/7.5 MB 10.4 MB/s eta 0:00:01
     ------- -------------------------------- 1.4/7.5 MB 10.7 MB/s eta 0:00:01
     ---------- ----------------------------- 1.9/7.5 MB 11.1 MB/s eta 0:00:01
     ------------- -------------------------- 2.5/7.5 MB 11.3 MB/s eta 0:00:01
     ---------------- ----------------------- 3.0/7.5 MB 11.4 MB/s eta 0:00:01
     ------------------- -------------------- 3.6/7.5 MB 11.4 MB/s eta 0:00:01
     --------------------- ------------------ 4.1/7.5 MB 11.4 MB/s eta 0:00:01
     ------------------------ --------------- 4.7/7.5 MB 11.5 MB/s eta 0:00:01
     --------------------------- ------------ 5.2/7.5 MB 11.6 MB/s eta 0:00:01
     ------------------------------ --------- 5.8/7.


[notice] A new release of pip is available: 23.0 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [61]:
# 제일 많이 쓰는 것 중 하나
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 228.0+ bytes


In [67]:
# EDA(Exploratory Data Analysis) 탐색적 데이터 분석 중 가장 기본
df5.describe()

Unnamed: 0,국어,영어,수학,미술,음악
count,4.0,4.0,4.0,4.0,4.0
mean,70.0,87.25,60.0,82.25,60.0
std,40.824829,24.837807,42.426407,34.836523,36.514837
min,10.0,50.0,10.0,30.0,20.0
25%,62.5,86.75,32.5,81.75,35.0
50%,85.0,99.5,65.0,99.5,60.0
75%,92.5,100.0,92.5,100.0,85.0
max,100.0,100.0,100.0,100.0,100.0
