# 데이터 분석 기본 - pandas


## Pandas 라이브러리 설치

In [1]:
# 판다스 설치
# pip install pandas

## Pandas 의 장점
- Allows the use of labels for rows and columns
- 기본적인 통계데이터 제공
- NaN values 를 알아서 처리함.
- 숫자 문자열을 알아서 로드함.
- 데이터셋들을 merge 할 수 있음.
- It integrates with NumPy and Matplotlib

In [2]:
import pandas as pd

In [3]:
pd.__version__

'2.3.3'

# Pandas Series 이해
- pandas는 사람 친화적인 데이터분석 라이브러리
- numpy는 기계 친화적인 데이터분석 라이브러리

[용어]
- Series : 판다스의 1차원 데이터를 Series(시리즈) 라고 함.
- 시리즈의 왼쪽을 인덱스라고 함  => 사람용!!! 임, 데이터가 아님.
- 시리즈의 오른쪽을 데이터 또는 밸류(values)라고 부름

In [5]:
index = ['eggs', 'apples', 'milk', 'bread']
data = [30, 6, 'Yes', 'No']

In [7]:
ser=pd.Series(data=data, index=index)

In [8]:
ser

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [9]:
type(ser)

pandas.core.series.Series

In [10]:
ser.shape

(4,)

In [11]:
ser.values

array([30, 6, 'Yes', 'No'], dtype=object)

In [12]:
ser.index

Index(['eggs', 'apples', 'milk', 'bread'], dtype='object')

In [13]:
ser.size

4

In [14]:
ser.dtype

dtype('O')

In [15]:
ser.value_counts()

30     1
6      1
Yes    1
No     1
Name: count, dtype: int64

In [16]:
ser.ndim

1

## 레이블과 인덱스
- Accessing and Deleting Elements in Pandas Series 

In [17]:
ser

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [18]:
ser['eggs']

30

In [20]:
type(ser['eggs'])

int

In [None]:
# 여러개 가져올때 리스트 형태로
ser[['eggs','milk']]

eggs     30
milk    Yes
dtype: object

In [21]:
type(ser[['eggs','milk']])

pandas.core.series.Series

In [23]:
# 인덱스가 인접해 있을 경우 : 범위지정, 리스트 아님
ser['eggs':'milk']

eggs       30
apples      6
milk      Yes
dtype: object

In [None]:
# dd: 셀 삭제하기
# z : 이전으로 되돌리기

## 산술연산자 
- Arithmetic Operations on Pandas Series

In [25]:
index = ['apples', 'oranges', 'bananas']
data = [10, 6, 3,]

In [27]:
fruits = pd.Series(data=data, index=index)
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [28]:
fruits.values

array([10,  6,  3])

In [29]:
fruits.index

Index(['apples', 'oranges', 'bananas'], dtype='object')

In [30]:
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [31]:
fruits_plus = fruits+5
fruits_plus

apples     15
oranges    11
bananas     8
dtype: int64

In [32]:
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [33]:
fruits['oranges'] = fruits['oranges'] - 2
fruits

apples     10
oranges     4
bananas     3
dtype: int64

In [34]:
# apples 와 bananas가 3개씩 더 들어왔다.
fruits[['apples', 'bananas']] = fruits[['apples', 'bananas']] + 3
fruits

apples     13
oranges     4
bananas     6
dtype: int64

## 문제 풀이
import pandas as pd

[] 1. 다음과 같은 레이블과 값을 가지는 Pandas Series 를 만드세요. 변수는 dist_planets 로 만드세요.
- 각 행성에서 태양까지의 거리(million km)
    - distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
    - planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
- dist_planets = 

[] 2. 거리를 빛의 상수 c( 18 ) 로 나눠서, 가는 시간이 얼마나 걸리는 지 계산하여 저장하세요.
- time_light = 

[] 3. Boolean indexing을 이용해서 가는 시간이 40분보다 작은것들만 셀렉트 하세요.
- close_planets = 
```

![image.png](attachment:image.png)

In [35]:
# 1. 다음과 같은 레이블과 값을 가지는 Pandas Series 를 만드세요. 변수는 dist_planets 로 만드세요.

# distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
# planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
# dist_planets = 

import pandas as pd

distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
dist_planets = pd.Series(data=distance_from_sun, index=planets)


dist_planets

Earth       149.6
Saturn     1433.5
Mars        227.9
Venus       108.2
Jupiter     778.6
dtype: float64

In [36]:
# 2. 거리를 빛의 상수 c( 18 ) 로 나눠서, 가는 시간이 얼마나 걸리는지 계산하여 저장하세요.
c = 18
time_light = dist_planets / c


time_light

Earth       8.311111
Saturn     79.638889
Mars       12.661111
Venus       6.011111
Jupiter    43.255556
dtype: float64

In [37]:
# 3. Boolean indexing을 이용해서 가는 시간이 40분보다 작은것들만 셀렉트 하세요.
close_planets = time_light[time_light < 40]

close_planets

Earth     8.311111
Mars     12.661111
Venus     6.011111
dtype: float64

# Pandas Dataframe
- 판다스 2차원 데이터

In [72]:
# 지금은 실습용으로 딕셔너리로 판다스 2차원 데이터프레임을 만들기만,
# 나중에는 진짜 데이터로 => csv 파일을 읽어서 처리함.

### 레이블로 생성하기

In [38]:
import pandas as pd

# We create a dictionary of Pandas Series 
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}



In [39]:
df = pd.DataFrame(data=items)
df

Unnamed: 0,Bob,Alice
bike,245.0,500.0
book,,40.0
glasses,,110.0
pants,25.0,45.0
watch,55.0,


In [42]:
type(items)

dict

In [75]:
# 판다스에서 2차원 데이터를 처리하는 클래스를 데이터 프레임이라고 한다.
# 데이터 프레임의 왼쪽을 인덱스, 위쪽은 컬럼이라고 부름
# 데이터프레임의 안쪽 부분을 데이터, value라고 함

In [43]:
#dict를 데이터로 넣으면 -> df로 생성
df = pd.DataFrame(data=items)
df

Unnamed: 0,Bob,Alice
bike,245.0,500.0
book,,40.0
glasses,,110.0
pants,25.0,45.0
watch,55.0,


In [44]:
df.values

array([[245., 500.],
       [ nan,  40.],
       [ nan, 110.],
       [ 25.,  45.],
       [ 55.,  nan]])

In [45]:
type(df.values)

numpy.ndarray

In [46]:
type(df.index)

pandas.core.indexes.base.Index

In [47]:
df.columns

Index(['Bob', 'Alice'], dtype='object')

In [48]:
type(df.columns)

pandas.core.indexes.base.Index

In [None]:
# 요소의 갯수
df.size

10

In [None]:
# 행의 갯수
len(df)

5

In [51]:
df.ndim

2

In [52]:
df.value_counts()

Bob    Alice
25.0   45.0     1
245.0  500.0    1
Name: count, dtype: int64

In [53]:
df_val = df.value_counts()
df_val.index

MultiIndex([( 25.0,  45.0),
            (245.0, 500.0)],
           names=['Bob', 'Alice'])

In [54]:
df_val.values

array([1, 1])

### NaN 은 해당 항목에 값이 없음을 뜻합니다.  (Not a Number)

In [55]:
# We create a dictionary of Pandas Series without indexes
data = {'Bob' : pd.Series([245, 25, 55]),
        'Alice' : pd.Series([40, 110, 500, 45])}


In [None]:
data pd.DataFrame(datas)

NameError: name 'datas' is not defined

### 인덱스 및 컬럼 생성하기

In [None]:
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}


## csv 파일을 로딩 -> df 만들기

In [61]:
# data_path = './datas/avocado.csv'
data_path = './datas/avocado.csv'
# index_col=1 : 디폴트 1, 인덱스를 제외시키려면 0 명시해야 함.
df = pd.read_csv(data_path, index_col=0)
df.head(2)

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany


## Accessing Elements in Pandas DataFrames

In [145]:
import pandas as pd

In [63]:
# We create a list of Python dictionaries
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, 
          {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}]



In [66]:
# 인덱스를 따로 지정하지 않으며, 파이썬의 기본 인덱스인 0~ 시작하는 숫자로 셋팅됨
# 프랜차이즈 매장 2개를 열었다.
# pd.DataFrame(items2)  # index를 지정하지 않으면 0~ 자동 인덱싱 됨
df = pd.DataFrame(items2,index=['store1','store2'])
df.head()

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [67]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [149]:
# 판다스의 데이터에서 데이터를 억세스하는 3가지 방법.
# 1. 컬럼의 값을 가져오는 방법 => 변수명 오른쪽에 대괄호를 쓰고, 컬럼명을 적는다.

In [68]:
# 팬츠 컬럼의 데이터를 가져오세요.
df['pants']

store1    30
store2     5
Name: pants, dtype: int64

In [69]:
type(df['pants'])

pandas.core.series.Series

In [152]:
# bikes, watches 컬럼 두개 다 가져오기

In [70]:
df[['bikes','watches']]

Unnamed: 0,bikes,watches
store1,20,35
store2,15,10


In [71]:
# pants, watches, glasses
df[[planets, watches, glasses]]

NameError: name 'watches' is not defined

In [154]:
# 데이터 프레임에서 데이터 억세스하는 두번째 방법
# 2. 사람용 인덱스와 컬럼명으로 데이터를 가져오는 방법
#  변수명.loc[,]  <= location 
#  변수명.iloc[,]

In [77]:
# store1의 시계 데이터를 가져오기
#df.loc[행위치, 열위치]
df.loc['store1','watches']

np.int64(35)

In [78]:
type(df.loc['store1','watches'])

numpy.int64

In [80]:
type(int(df.loc['store1','watches']))

int

In [81]:
# store2의 glasses 데이터를 가져오시오.
df.loc['store2', 'glasses']

np.float64(50.0)

In [None]:
# df.loc[범위지정]
# df.loc[행범위,열범위]
# df.loc['pants':'glasses']  # 'pants':'glasses' <- 행 인덱스로 인식함
df.loc[:, 'pants':'glasses']

Unnamed: 0,pants,watches,glasses
store1,30,35,
store2,5,10,50.0


In [75]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [159]:
# store1의 pants watches glasses 데이터를 가져오세요.

In [82]:
# 3번째 방법 : 컴퓨터가 매기는 인데스로 가져오는 방법
#   변수명.iloc[]  <- index location
df.loc['store1':'store2', ['pants', 'watches', 'glasses']]

Unnamed: 0,pants,watches,glasses
store1,30,35,
store2,5,10,50.0


In [83]:
# store0, pants 데이터
# df.iloc[ , ]
df.iloc[0 , 1]

np.int64(30)

In [84]:
# store1의 pants, watches, glasses 데이터 가져오기
df.iloc[0, 1:3+1]

pants      30.0
watches    35.0
glasses     NaN
Name: store1, dtype: float64

In [85]:
df.iloc[0, 1:]

pants      30.0
watches    35.0
glasses     NaN
Name: store1, dtype: float64

In [86]:
df.iloc[0, [1, 2, 3]]

pants      30.0
watches    35.0
glasses     NaN
Name: store1, dtype: float64

- 판다스는 데이터 구조가 2가지
    - 1차원 시리즈 구조, 2차원 판다스 구조

## 데이터에 값 바꾸기

- 컬럼 데이터 추가

In [169]:
# store2에 pants 데이터를 20으로 변경

In [87]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [88]:
# df.loc[index명, '컬럼명']
df.loc['store2', 'pants'] = 20
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,20,10,50.0


In [89]:
# 새로운 컬럼을 만들자. 컬럼명은 shirts라고 만들고, 데이터는 15, 2
df['shirts'] = [15,2]
df

Unnamed: 0,bikes,pants,watches,glasses,shirts
store1,20,30,35,,15
store2,15,20,10,50.0,2


In [90]:
# suits 컬럼을 만들기. 데이터는 pants의 수와 shirts의 수를 더해서 만든다.
df['pants']

store1    30
store2    20
Name: pants, dtype: int64

In [91]:
df['shirts']

store1    15
store2     2
Name: shirts, dtype: int64

In [92]:
df['suits'] = df['pants'] + df['shirts']
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15,45
store2,15,20,10,50.0,2,22


- 행추가는 pd.concate() 권장함.

- 데이터 프레임 합치기

In [93]:
new_item = [{'bikes': 20, 'pants':30, 'watches': 35, 'glasses': 4}]
new_item

[{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4}]

In [94]:
new_sotre = pd.DataFrame(data=new_item, index=['store3'])

In [103]:
df = pd.concat([df, new_sotre], axis=0)
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


- 행삭제, 열삭제
- 인덱서 삭제, 컬럼 삭제

In [105]:
df.drop('store3')

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0


In [106]:
df.drop('store2')

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


In [107]:
df.drop('glasses', axis=1)
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


In [108]:
df.drop('store3')

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0


In [109]:
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


In [110]:
# 마지막 행만 삭제
df = df.iloc[:-1]
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,


In [None]:
# bikes, suits 컬럼을 삭제하세요.

In [111]:
df.drop(['bikes', 'suits'], axis=1)

Unnamed: 0,pants,watches,glasses,shirts
store1,30,35,,15.0
store2,20,10,50.0,2.0
store3,30,35,4.0,


In [112]:
df[['pants', 'watches', 'shirts']]

Unnamed: 0,pants,watches,shirts
store1,30,35,15.0
store2,20,10,2.0
store3,30,35,


- 컬럼 이름 변경

In [113]:
df.rename(index= {'store3':'last store'})

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
last store,20,30,35,4.0,,


In [114]:
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,


In [115]:
# bites는 hat으로, suits는 shoes로 컬럼명 변경.
df.rename(columns={'bites':'hat', 'suits':'shoes'})

Unnamed: 0,bikes,pants,watches,glasses,shirts,shoes
store1,20,30,35,,15.0,45.0
store2,15,20,10,50.0,2.0,22.0
store3,20,30,35,4.0,,


In [None]:
# 인덱스를 통째로 바꾸되, 기존의 컬럼을 인덱스로 만드는 방법

In [None]:
# 새로운 컬럼 name 컬럼을 만들고, 데이터는 A, B, C로 만듬

In [116]:
df['name'] = ['A', 'B', 'C']
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['name'] = ['A', 'B', 'C']


Unnamed: 0,bikes,pants,watches,glasses,shirts,suits,name
store1,20,30,35,,15.0,45.0,A
store2,15,20,10,50.0,2.0,22.0,B
store3,20,30,35,4.0,,,C


In [117]:
# name 컬럼을 index로 만들고 싶다.
# data가 unique 해야함.
df2 = df.set_index('name')
# df.set_index('name', inplace=True)

In [118]:
df2

Unnamed: 0_level_0,bikes,pants,watches,glasses,shirts,suits
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,20,30,35,,15.0,45.0
B,15,20,10,50.0,2.0,22.0
C,20,30,35,4.0,,


In [119]:
# index를 원래 데이터로 변경
df2.reset_index()

Unnamed: 0,name,bikes,pants,watches,glasses,shirts,suits
0,A,20,30,35,,15.0,45.0
1,B,15,20,10,50.0,2.0,22.0
2,C,20,30,35,4.0,,


In [120]:
# df에 적용하려면
# df2 = df2.reset_index()
df2.reset_index(inplace=True)
df2

Unnamed: 0,name,bikes,pants,watches,glasses,shirts,suits
0,A,20,30,35,,15.0,45.0
1,B,15,20,10,50.0,2.0,22.0
2,C,20,30,35,4.0,,


## Dealing with NaN

In [121]:
# We create a list of Python dictionaries
items2 = [
    {'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
    {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
    {'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}
]

In [122]:
index_list = ['store1', 'store2', 'store3']

In [123]:
# 데이터 프레임 생성
df = pd.DataFrame(data=items2, index=index_list)
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [124]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, store1 to store3
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   bikes    3 non-null      int64  
 1   pants    3 non-null      int64  
 2   watches  3 non-null      int64  
 3   shirts   2 non-null      float64
 4   shoes    3 non-null      int64  
 5   suits    2 non-null      float64
 6   glasses  2 non-null      float64
dtypes: float64(3), int64(4)
memory usage: 192.0+ bytes


In [215]:
# 평균을 구하라, 
# 학습할 때 nan이 있으면 학습이 되지 않음, 학습하다가 중간에 멈추면 다시 해야함.
# 그러면 GPU를 다시 사용해야하니까 비용 낭비가 됨, 시간 비용

# 함수에서 계수를 찾는것

In [125]:
# nan이 있는지 파악하는 방법
df.isna()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,False,False,False,False,False,False,True
store2,False,False,False,False,False,False,False
store3,False,False,False,True,False,True,False


In [126]:
# 값이 있니
df.notna()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,True,True,True,True,True,True,False
store2,True,True,True,True,True,True,True
store3,True,True,True,False,True,False,True


In [127]:
# 각 컬럼별로 nan의 갯수 세기
df.isna()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,False,False,False,False,False,False,True
store2,False,False,False,False,False,False,False
store3,False,False,False,True,False,True,False


In [128]:
# 각 컬럼별로 nan 갯수 세기
# 기본 행 방향으로 더함.
df.isna().sum()

bikes      0
pants      0
watches    0
shirts     1
shoes      0
suits      1
glasses    1
dtype: int64

In [129]:
# df 전체에서 nan인 것은 몇개?
df.isna().sum().sum()

np.int64(3)

## nan을 처리하는 전략
- 1. nan이 들어있는 데이터를 삭제함
- 2. nan에 0을 넣음
- 3. 각 컬럼의 대푯값으로 채우기(평균, 중앙값, 최빈값)

In [130]:
# 1. nan이 들어있는 데이터(행)을 삭제함. 전용함수 있음.
df.dropna() # 행삭제

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store2,15,5,10,2.0,5,7.0,50.0


In [131]:
# 2. nan에 모두 0을 넣음
df.fillna(0)

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,0.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,0.0,10,0.0,4.0


In [132]:
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [133]:
# df.fillna(-1)
df.fillna("데이터 없음")

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,데이터 없음
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,데이터 없음,10,데이터 없음,4.0


In [230]:
# 각 컬럼의 대푯값으로 채우기(평균, 중앙값, 최빈값)
# 각 컬럼의 평균값으로 채우기

In [134]:
# 각 컬럼별 합계
df.sum()

bikes      55.0
pants      65.0
watches    80.0
shirts     17.0
shoes      23.0
suits      52.0
glasses    54.0
dtype: float64

In [135]:
# 각 컬럼별 최소값
df.min()

bikes      15.0
pants       5.0
watches    10.0
shirts      2.0
shoes       5.0
suits       7.0
glasses     4.0
dtype: float64

In [136]:
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [137]:
df.max()

bikes      20.0
pants      30.0
watches    35.0
shirts     15.0
shoes      10.0
suits      45.0
glasses    50.0
dtype: float64

In [138]:
df.mean()

bikes      18.333333
pants      21.666667
watches    26.666667
shirts      8.500000
shoes       7.666667
suits      26.000000
glasses    27.000000
dtype: float64

In [139]:
df.median()

bikes      20.0
pants      30.0
watches    35.0
shirts      8.5
shoes       8.0
suits      26.0
glasses    27.0
dtype: float64

In [140]:
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [141]:
# 각 컬럼의 nan에 각 컬럼의 최소값으로 채우기
df.fillna(df.min())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,4.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,2.0,10,7.0,4.0


In [142]:
# 각 컬럼의 nan에 각 컬럼의 평균으로 채우기
df.fillna(df.mean())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,27.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,8.5,10,26.0,4.0


In [143]:
df.mode()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
0,20.0,30.0,35.0,2.0,5,7.0,4.0
1,,,,15.0,8,45.0,50.0
2,,,,,10,,


In [144]:
# 최빈값
df.fillna(df.mode())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


## DataFrame 실습
1. 딕셔너리를 만들고,
2. 데이터프레임으로 만든 후,
3. nan을  평균값으로 채운다.


In [146]:
import pandas as pd
import numpy as np

# 각 유저별 별점을 주는것이므로, 1 decimal 로 셋팅.
# pd.set_option('precision', 1)

# 책 제목과 작가, 그리고 유저별 별점 데이터가 있다.

books = pd.Series(data = ['Great Expectations', 'Of Mice and Men', 'Romeo and Juliet', 'The Time Machine', 'Alice in Wonderland' ])
authors = pd.Series(data = ['Charles Dickens', 'John Steinbeck', 'William Shakespeare', ' H. G. Wells', 'Lewis Carroll' ])

user_1 = pd.Series(data = [3.2, np.nan ,2.5])
user_2 = pd.Series(data = [5., 1.3, 4.0, 3.8])
user_3 = pd.Series(data = [2.0, 2.3, np.nan, 4])
user_4 = pd.Series(data = [4, 3.5, 4, 5, 4.2])

#  np.nan values 는 해당 유저가 해당 책에는 아직 별점 주지 않은것이다.
# labels: 'Author', 'Book Title', 'User 1', 'User 2', 'User 3', 'User 4'. 
# 아래 그림처럼 나오도록 만든다.


![image.png](attachment:image.png)

In [None]:
# 1. 딕셔너리를 만들고,     

my_data = { 
    'Book Title' : books,
    'Author' : authors ,
    'User1':user_1, 
    'User2':user_2, 
    'User3': user_3, 
    'User4': user_4  
}


In [148]:
# 2. 데이터 프레임 만들기
df = pd.DataFrame(my_data)
df

Unnamed: 0,Book Title,Author,User1,User2,User3,User4
0,Great Expectations,Charles Dickens,3.2,5.0,2.0,4.0
1,Of Mice and Men,John Steinbeck,,1.3,2.3,3.5
2,Romeo and Juliet,William Shakespeare,2.5,4.0,,4.0
3,The Time Machine,H. G. Wells,,3.8,4.0,5.0
4,Alice in Wonderland,Lewis Carroll,,,,4.2


In [150]:
df.fillna(df.loc['User1':'User4'].mean())

Unnamed: 0,Book Title,Author,User1,User2,User3,User4
0,Great Expectations,Charles Dickens,3.2,5.0,2.0,4.0
1,Of Mice and Men,John Steinbeck,,1.3,2.3,3.5
2,Romeo and Juliet,William Shakespeare,2.5,4.0,,4.0
3,The Time Machine,H. G. Wells,,3.8,4.0,5.0
4,Alice in Wonderland,Lewis Carroll,,,,4.2


In [None]:
#3. nan을 각 컬럼의 평균값으로 채운다.
# df.mean(numeric_only=True)
df.fillna(df.mean(numeric_only=True))
    

Unnamed: 0,Book Title,Author,User1,User2,User3,User4
0,Great Expectations,Charles Dickens,3.2,5.0,2.0,4.0
1,Of Mice and Men,John Steinbeck,2.85,1.3,2.3,3.5
2,Romeo and Juliet,William Shakespeare,2.5,4.0,2.766667,4.0
3,The Time Machine,H. G. Wells,2.85,3.8,4.0,5.0
4,Alice in Wonderland,Lewis Carroll,2.85,3.525,2.766667,4.2


In [None]:
# 1. 딕셔너리를 만들고,     

my_data = { 
    'Book Title' : books,
    'Author' : authors ,
    'User1':user_1, 
    'User2':user_2, 
    'User3': user_3, 
    'User4': user_4  
}

# 2. 데이터 프레임 만들기
df = pd.DataFrame(my_data)

#3. nan을 각 컬럼의 평균값으로 채운다.
df.fillna(df.mean(numeric_only=True))

## Loading Data into a Pandas DataFrame

In [260]:
# csv 파일을 읽어서 처리함
# json/jsonl 파일을 읽어서 처리함

In [3]:
# 데이터베이스의 테이블 데이터, 엑셀의 데이터 => CSV로 내보내기
# 구글의 주식 데이터 정보
data_path = 'datas/GOOG.csv'
df = pd.read_csv(data_path)
df

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49.676899,51.693783,47.669952,49.845802,49.845802,44994500
1,2004-08-20,50.178635,54.187561,49.925285,53.805050,53.805050,23005800
2,2004-08-23,55.017166,56.373344,54.172661,54.346527,54.346527,18393200
3,2004-08-24,55.260582,55.439419,51.450363,52.096165,52.096165,15361800
4,2004-08-25,52.140873,53.651051,51.604362,52.657513,52.657513,9257400
...,...,...,...,...,...,...,...
3308,2017-10-09,980.000000,985.424988,976.109985,977.000000,977.000000,891400
3309,2017-10-10,980.000000,981.570007,966.080017,972.599976,972.599976,968400
3310,2017-10-11,973.719971,990.710022,972.250000,989.250000,989.250000,1693300
3311,2017-10-12,987.450012,994.119995,985.000000,987.830017,987.830017,1262400


In [264]:
# 3.313000e+03
# e+03 : 10의 3승 : 1000
# e-03 : 10dml -3승  : 0.001

## [실습1] 와인데이터 분석 실습
- 1.[실습]pandas_와인데이터분석.ipynb

# 집계함수 

In [4]:
# 인사 데이터
data_path = 'datas/fake_company.csv'
df = pd.read_csv(data_path)
df

Unnamed: 0,Year,Name,Department,Age,Salary
0,1990,Alice,HR,25,50000
1,1990,Bob,RD,30,48000
2,1990,Charlie,Admin,45,55000
3,1991,Alice,HR,26,52000
4,1991,Bob,RD,31,50000
5,1991,Charlie,Admin,46,60000
6,1992,Alice,HR,27,60000
7,1992,Bob,RD,32,52000
8,1992,Charlie,Admin,47,62000


In [6]:
import numpy as np
# df.describe(include=[np.number])
df.describe(exclude=[np.number])

Unnamed: 0,Name,Department
count,9,9
unique,3,3
top,Alice,HR
freq,3,3


In [14]:
df.shape

(9, 5)

##  중복데이터 처리

In [277]:
df

Unnamed: 0,Year,Name,Department,Age,Salary
0,1990,Alice,HR,25,50000
1,1990,Bob,RD,30,48000
2,1990,Charlie,Admin,45,55000
3,1991,Alice,HR,26,52000
4,1991,Bob,RD,31,50000
5,1991,Charlie,Admin,46,60000
6,1992,Alice,HR,27,60000
7,1992,Bob,RD,32,52000
8,1992,Charlie,Admin,47,62000


In [278]:
# 중복된 데이터가 있을 것을, 범주형(카테고리컬; categorical) 데이터라고 함.

In [None]:
#year 컬럼의 중복 제거한 유니크한 값 추출
df['Year'].unique()

array([1990, 1991, 1992])

# GETTING HTML DATA

In [31]:
# pip install lxml

In [9]:
# 캐나다 집값 정보
html_url = 'https://www.livingin-canada.com/house-prices-canada.html'
df_html = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html')
type(df_html)

list

In [10]:
df_html

[                                                City  \
 0                                      Vancouver, BC   
 1                                       Toronto, Ont   
 2                                        Ottawa, Ont   
 3                                       Calgary, Alb   
 4                                      Montreal, Que   
 5                                        Halifax, NS   
 6                                       Regina, Sask   
 7                                    Fredericton, NB   
 8  (adsbygoogle = window.adsbygoogle || []).push(...   
 
                                  Average House Price  \
 0                                         $1,036,000   
 1                                           $870,000   
 2                                           $479,000   
 3                                           $410,000   
 4                                           $435,000   
 5                                           $331,000   
 6                           

In [11]:
df1 = df_html[0]
df1

Unnamed: 0,City,Average House Price,12 Month Change
0,"Vancouver, BC","$1,036,000",+ 2.63 %
1,"Toronto, Ont","$870,000",+10.2 %
2,"Ottawa, Ont","$479,000",+ 15.4 %
3,"Calgary, Alb","$410,000",– 1.5 %
4,"Montreal, Que","$435,000",+ 9.3 %
5,"Halifax, NS","$331,000",+ 3.6 %
6,"Regina, Sask","$254,000",– 3.9 %
7,"Fredericton, NB","$198,000",– 4.3 %
8,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...,(adsbygoogle = window.adsbygoogle || []).push(...


In [12]:
df1.shape

(9, 3)

In [13]:
# 마지막 행 삭제
df1 = df1.drop(8)
df1

Unnamed: 0,City,Average House Price,12 Month Change
0,"Vancouver, BC","$1,036,000",+ 2.63 %
1,"Toronto, Ont","$870,000",+10.2 %
2,"Ottawa, Ont","$479,000",+ 15.4 %
3,"Calgary, Alb","$410,000",– 1.5 %
4,"Montreal, Que","$435,000",+ 9.3 %
5,"Halifax, NS","$331,000",+ 3.6 %
6,"Regina, Sask","$254,000",– 3.9 %
7,"Fredericton, NB","$198,000",– 4.3 %


# PANDAS OPERATIONS

- 어떤 조건에 맞는 데이터를 가져오는 방법

In [14]:
# 데이터 프레임 만들기
df = pd.DataFrame({'Employee ID':[111, 222, 333, 444],
                   'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'],
                   'Salary [$/h]':[35, 29, 38, 20],
                   'Years of Experience':[3, 4 ,9, 1]})
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


In [15]:
# 경력이 3년 이상인 사람의 데이터를 가져오기
df[df['Years of Experience'] >= 3]

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9


In [16]:
# 경력이 3년 이상인 사람의 데이터 가져오기
# df.loc[, ]
df.loc[df['Years of Experience'] >= 3]

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9


In [17]:
df.loc[df['Years of Experience'] >= 3, ['Employee Name', 'Salary [$/h]', 'Years of Experience']]

Unnamed: 0,Employee Name,Salary [$/h],Years of Experience
0,Chanel,35,3
1,Steve,29,4
2,Mitch,38,9


In [18]:
# 이렇게 쓰면 안됨
df.iloc[df['Years of Experience'] >= 3]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

- 경력이 3년 이상이고, 시급이 30달러 이상인 사람의 데이터를 가져오기

In [19]:
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


In [20]:
# 조건
df['Years of Experience'] >=3

0     True
1     True
2     True
3    False
Name: Years of Experience, dtype: bool

In [21]:
# 조건
df['Salary [$/h]'] >= 30

0     True
1    False
2     True
3    False
Name: Salary [$/h], dtype: bool

In [22]:
# and 오류남
(df['Years of Experience'] >=3) & (df['Salary [$/h]'] >= 30)

0     True
1    False
2     True
3    False
dtype: bool

In [23]:
# True인 행을 가져옴 =>  .loc[,] 에서 콤마의 왼쪽 행자리에 적어준다.

In [24]:
df.loc[(df['Years of Experience'] >=3) & (df['Salary [$/h]'] >= 30)]

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
2,333,Mitch,38,9


In [25]:
# 이 사람의 이름만 가져오기
df.loc[(df['Years of Experience'] >=3) & (df['Salary [$/h]'] >= 30), 'Employee Name']

0    Chanel
2     Mitch
Name: Employee Name, dtype: object

In [26]:
df.loc[(df['Years of Experience'] >=3) & (df['Salary [$/h]'] >= 30), ['Employee Name', 'Years of Experience']]

Unnamed: 0,Employee Name,Years of Experience
0,Chanel,3
2,Mitch,9


- 경력이 3년 이하이거나 8년 이상인 사람의 데이터를 가져오기
- 거나, or에 해당되는 것은 | 기호를 사용함.

In [27]:
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


In [28]:
(df['Years of Experience'] <=3) | (df['Years of Experience'] >=8 )

0     True
1    False
2     True
3     True
Name: Years of Experience, dtype: bool

In [29]:
# df.loc[행, 열]
df.loc[(df['Years of Experience'] <=3) | (df['Years of Experience'] >=8 ), ['Employee Name', 'Years of Experience']]

Unnamed: 0,Employee Name,Years of Experience
0,Chanel,3
2,Mitch,9
3,Bird,1


In [30]:
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


- 시급이 가장 높은 사람의 데이터 가져오기

In [31]:
# 1. 최대값을 먼저 찾는다.
df['Salary [$/h]'].max()

np.int64(38)

In [32]:
# 2. 시급컬럼에서, 위에서 찾은 최대값과 같은 데이터를 찾음.
(df['Salary [$/h]'] == df['Salary [$/h]'].max())

0    False
1    False
2     True
3    False
Name: Salary [$/h], dtype: bool

In [33]:
# 3. 위에서 True인 행을 가져옴
df.loc[(df['Salary [$/h]'] == df['Salary [$/h]'].max()), : ]

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
2,333,Mitch,38,9


# [실습 2] 
- 1.b[실습1]pandas기본_와인분석.ipynb

# APPLYING FUNCTIONS

In [378]:
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


In [None]:
# 직원 이름은 몇글자인지, 글자수를 세어서, 새로운 커럼 length 컬럼에 저장하자.
# 실무에 많이 쓰는 기능
# https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html

# df['Employee Name'].str  <- 시리즈의 각 요소을 지정함

# 모두 대문자로



0    CHANEL
1     STEVE
2     MITCH
3      BIRD
Name: Employee Name, dtype: object

In [388]:
# 첫글자만 대문자로


0    Chanel
1     Steve
2     Mitch
3      Bird
Name: Employee Name, dtype: object

## [실습]

- 1.b[실습2]pandas기본_와인분석.ipynb

# SORTING(정렬)

In [75]:
df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 
                   'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 
                   'Salary [$/h]':[35, 29, 38, 20], 
                   'Years of Experience':[3, 4 ,9, 1]})
df


Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


# CONCATENATING AND MERGING

## Concate(합치기)

![image.png](attachment:image.png)
Reference: https://pandas.pydata.org/pandas-docs/stable/merging.html

In [80]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [79]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7]) 
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [78]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
index=[8, 9, 10, 11])

df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


## 문제 해결
- 두 데이터프레임을 만들고, 합치기 

In [20]:
# 데이터 프레임 만들기
raw_data = {
        'Employee ID': ['1', '2', '3', '4', '5'],
        'first name': ['Diana', 'Cynthia', 'Shep', 'Ryan', 'Allen'], 
        'last name': ['Bouchard', 'Ali', 'Rob', 'Mitch', 'Steve']}
columns = ['Employee ID', 'first name', 'last name']
df_Engineering_dept = 
df_Engineering_dept

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve


In [21]:
# 데이터 프레임 만들기
raw_data = {
        'Employee ID': ['6', '7', '8', '9', '10'],
        'first name': ['Bill', 'Dina', 'Sarah', 'Heather', 'Holly'], 
        'last name': ['Christian', 'Mo', 'Steve', 'Bob', 'Michelle']}
columns =  ['Employee ID', 'first name', 'last name']
df_Finance_dept = 
df_Finance_dept

Unnamed: 0,Employee ID,first name,last name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [91]:
# 두 데이터 프레임 합치기
df_user = 
df_user

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


## Merge(병합)
- 두 데이터 프레임간에 연결할 수 있는 key값이 있어야함.

In [93]:
df_user

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [94]:
df_Engineering_dept

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve


In [22]:
# 급여 데이터 프레임
raw_data = {
        'Employee ID': ['1', '2', '3', '4', '5', '7', '8', '9', '10'],
        'Salary [$/hour]': [25, 35, 45, 48, 49, 32, 33, 34, 23]}
df_salary = pd.DataFrame(raw_data, columns = ['Employee ID','Salary [$/hour]'])
df_salary

Unnamed: 0,Employee ID,Salary [$/hour]
0,1,25
1,2,35
2,3,45
3,4,48
4,5,49
5,7,32
6,8,33
7,9,34
8,10,23


In [23]:
#  inner join하기
# df_Engineering_dept와 df_salary

## [실습]

1.c[실습2]pandas문제해결_와인분석.ipynb

# EXCELLENT JOB!