### Pandas DataFrame

판다스에서 데이터(테이블 형태 - DB, 엑셀, csv, JSON) 처리하는 가장 기본단위 자료구조

<img src = "https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F99FD8D385BFBECE32D" width = "500">

데이터프레임 생성

pd.DataFrame(...)

In [3]:
import pandas as pd

In [4]:
# 데이터 프레임 생성
data = {
    '이름' : ['홍길동', '홍길순', '성유고', '박애슐'],
    '국어' : [80, 100, 10, 90],
    '영어' : [50, 100, 99, 100],
    '수학' : [90, 100, 10, 40],
    '미술' : [100, 100, 99, 30]
} # 기본데이터는 실제로는 excel, db, csv, openAPI 등 다른곳에서 받아와서 처리

df1 = pd.DataFrame(data=data)
df1


Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,30


### 데이터프레임 핸들링

특정컬럼 사용, 데이터프레임생성

In [5]:
data

{'이름': ['홍길동', '홍길순', '성유고', '박애슐'],
 '국어': [80, 100, 10, 90],
 '영어': [50, 100, 99, 100],
 '수학': [90, 100, 10, 40],
 '미술': [100, 100, 99, 30]}

In [7]:
df2 = pd.DataFrame(data=data, columns=['이름', '영어'])
df2

Unnamed: 0,이름,영어
0,홍길동,50
1,홍길순,100
2,성유고,99
3,박애슐,100


In [9]:
df3 = pd.DataFrame(data=data, columns=['이름','미술','음악'])
df3

Unnamed: 0,이름,미술,음악
0,홍길동,100,
1,홍길순,100,
2,성유고,99,
3,박애슐,30,


In [11]:
# 인덱스번호를 변경해서 DF 생성
df4 = pd.DataFrame(data=data, index=[x for x in range(1, len(data))])
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [31]:
df5 = pd.DataFrame(data=data, index=['첫번째', '두번째', '세번째', '네번째'])
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [16]:
df1['국어']

0     80
1    100
2     10
3     90
Name: 국어, dtype: int64

In [17]:
type(df1['국어'])

pandas.core.series.Series

In [22]:
type(df1[['이름','수학']])

pandas.core.frame.DataFrame

In [23]:
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,30


In [24]:
df1.loc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 1, dtype: object

In [25]:
df1.loc[[0,2]]

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
2,성유고,10,99,10,99


In [26]:
df4

Unnamed: 0,이름,국어,영어,수학,미술
1,홍길동,80,50,90,100
2,홍길순,100,100,100,100
3,성유고,10,99,10,99
4,박애슐,90,100,40,30


In [27]:
# loc : 지금 정해놓은 인덱스값 대로 조회
df4.loc[1]

이름    홍길동
국어     80
영어     50
수학     90
미술    100
Name: 1, dtype: object

In [29]:
# iloc : 원래의 인덱스값 대로 조회(아무리 인덱스 변경해도 배열에서 첫번재 인덱스가 0인것은 변함 없음.)
df4.iloc[1]

이름    홍길순
국어    100
영어    100
수학    100
미술    100
Name: 2, dtype: object

### 조건식 조회

In [32]:
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [33]:
# 한 컬럼에 조건걸어서 조회 --> 시리즈
df5['수학']>50

첫번째     True
두번째     True
세번째    False
네번째    False
Name: 수학, dtype: bool

In [35]:
# 조회조건이 참인 df만 출력
df5[df5['수학'] > 50]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100


In [36]:
# And 조회조건
df5[(df5['수학'] > 50) & (df5['국어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
두번째,홍길순,100,100,100,100


In [37]:
# OR 조회조건
df5[(df5['수학'] > 50) | (df5['국어'] > 80)]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
네번째,박애슐,90,100,40,30


In [38]:
# ISIN 조건
df5['영어'].isin([50,99])

첫번째     True
두번째    False
세번째     True
네번째    False
Name: 영어, dtype: bool

In [39]:
df5[df5['영어'].isin([50,99])]

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
세번째,성유고,10,99,10,99


In [41]:
# 연산 후 컬럼 추가
df5['국어 + 10'] = df5['국어'] + 10
df5

Unnamed: 0,이름,국어,영어,수학,미술,국어 + 10
첫번째,홍길동,80,50,90,100,90
두번째,홍길순,100,100,100,100,110
세번째,성유고,10,99,10,99,20
네번째,박애슐,90,100,40,30,100


In [42]:
df5.loc[df5['국어'] > 100, ['국어']] = 100
df5

Unnamed: 0,이름,국어,영어,수학,미술,국어 + 10
첫번째,홍길동,80,50,90,100,90
두번째,홍길순,100,100,100,100,110
세번째,성유고,10,99,10,99,20
네번째,박애슐,90,100,40,30,100


In [43]:
del df5['국어 + 10']
df5

Unnamed: 0,이름,국어,영어,수학,미술
첫번째,홍길동,80,50,90,100
두번째,홍길순,100,100,100,100
세번째,성유고,10,99,10,99
네번째,박애슐,90,100,40,30


In [45]:
# 특정위치값 변경
df1.at[3,'미술'] =40
df1

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99
3,박애슐,90,100,40,40


#### 삭제 중 drop

In [48]:
# axis=0(index), 1(column)
df1.drop(['미술'], axis=1)

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10
3,박애슐,90,100,40


In [49]:
# axis=0 한 행을 다 없앰
df8 = df1.drop(3,axis=0)
df8

Unnamed: 0,이름,국어,영어,수학,미술
0,홍길동,80,50,90,100
1,홍길순,100,100,100,100
2,성유고,10,99,10,99


In [50]:
df10 = df1

In [54]:
# inplace 속성
df10.drop(3, axis=0, inplace=True)
df10

KeyError: '[3] not found in axis'

In [55]:
df10.drop(['미술'], axis=1, inplace=True)

In [56]:
df10

Unnamed: 0,이름,국어,영어,수학
0,홍길동,80,50,90
1,홍길순,100,100,100
2,성유고,10,99,10


In [58]:
# 가장 많이 쓰는 것 중 하나
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      3 non-null      object
 1   국어      3 non-null      int64 
 2   영어      3 non-null      int64 
 3   수학      3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 228.0+ bytes


In [60]:
# EDA(Exploratory Data Analysis) 탐색적 데이터 분석 중 가장 기본
df1.describe()

Unnamed: 0,국어,영어,수학
count,3.0,3.0,3.0
mean,63.333333,83.0,66.666667
std,47.258156,28.583212,49.328829
min,10.0,50.0,10.0
25%,45.0,74.5,50.0
50%,80.0,99.0,90.0
75%,90.0,99.5,95.0
max,100.0,100.0,100.0


In [61]:
df1.count

<bound method DataFrame.count of     이름   국어   영어   수학
0  홍길동   80   50   90
1  홍길순  100  100  100
2  성유고   10   99   10>

In [62]:
!pip install matplotlib

Collecting matplotlib
  Downloading matplotlib-3.7.2-cp311-cp311-win_amd64.whl (7.5 MB)
     ---------------------------------------- 0.0/7.5 MB ? eta -:--:--
     - -------------------------------------- 0.3/7.5 MB 8.9 MB/s eta 0:00:01
     ---- ----------------------------------- 0.9/7.5 MB 11.0 MB/s eta 0:00:01
     ------- -------------------------------- 1.5/7.5 MB 11.9 MB/s eta 0:00:01
     ------------- -------------------------- 2.5/7.5 MB 14.5 MB/s eta 0:00:01
     -------------------- ------------------- 3.8/7.5 MB 17.4 MB/s eta 0:00:01
     ------------------------------ --------- 5.7/7.5 MB 21.4 MB/s eta 0:00:01
     ---------------------------------------  7.5/7.5 MB 25.2 MB/s eta 0:00:01
     ---------------------------------------- 7.5/7.5 MB 24.0 MB/s eta 0:00:00
Collecting contourpy>=1.0.1
  Downloading contourpy-1.1.0-cp311-cp311-win_amd64.whl (470 kB)
     ---------------------------------------- 0.0/470.9 kB ? eta -:--:--
     ------------------------------------- 4


[notice] A new release of pip is available: 23.0.1 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [63]:
!pip install numpy




[notice] A new release of pip is available: 23.0.1 -> 23.2.1
[notice] To update, run: python.exe -m pip install --upgrade pip





In [64]:
import pandas as pd
import numpy as np

#### Numpy

- python 1,000,000건 리스트를 만들고 사용처리 - 대략 200ms
- numpy 1,000,000,건 배열 만들고 사용처리 - 대략 20ms(1/10배)

In [65]:
py_list = list(range(1_000_000))  # 100만건 리스트
np_arr = np.arange(1_000_000) # 100만건 배열

In [67]:
%timeit for _ in range(10): py_list2 = py_list * 3

269 ms ± 2.71 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [68]:
%timeit for _ in range(10): np_arr2 = np_arr *3

13.3 ms ± 188 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
