# 데이터 분석 기본 - pandas


## Pandas 라이브러리 설치

In [1]:
# 판다스 설치
# pip install pandas

## Pandas 의 장점
- Allows the use of labels for rows and columns
- 기본적인 통계데이터 제공
- NaN values 를 알아서 처리함.
- 숫자 문자열을 알아서 로드함.
- 데이터셋들을 merge 할 수 있음.
- It integrates with NumPy and Matplotlib

In [39]:
import pandas as pd

In [3]:
pd.__version__

'2.3.3'

# Pandas Series 이해
- pandas는 사람 친화적인 데이터분석 라이브러리
- numpy는 기계 친화적인 데이터분석 라이브러리

[용어]
- Series : 판다스의 1차원 데이터를 Series(시리즈) 라고 함.
- 시리즈의 왼쪽을 인덱스라고 함  => 사람용!!! 임, 데이터가 아님.
- 시리즈의 오른쪽을 데이터 또는 밸류(values)라고 부름

In [4]:
index = ['eggs', 'apples', 'milk', 'bread']
data = [30, 6, 'Yes', 'No']

In [6]:
ser = pd.Series(data = data, index = index)
ser

eggs       30
apples      6
milk      Yes
bread      No
dtype: object

In [7]:
type(ser)

pandas.core.series.Series

In [8]:
ser.shape

(4,)

In [9]:
ser.values

array([30, 6, 'Yes', 'No'], dtype=object)

In [21]:
ser['eggs']

30

In [22]:
ser[['eggs','milk']]

eggs     30
milk    Yes
dtype: object

In [23]:
ser['eggs':'milk']

eggs       30
apples      6
milk      Yes
dtype: object

In [24]:
type(ser['eggs':'milk'])

pandas.core.series.Series

## 산술연산자 
- Arithmetic Operations on Pandas Series

In [25]:
index = ['apples', 'oranges', 'bananas']
data = [10, 6, 3,]

In [35]:
fruits = pd.Series(data=data, index=index)
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [27]:
fruits.values

array([10,  6,  3])

In [28]:
fruits.index

Index(['apples', 'oranges', 'bananas'], dtype='object')

In [34]:
fruits

apples     10
oranges     2
bananas     3
dtype: int64

In [30]:
# 과일을 모두 5개씩 더 들여왔다. 
fruits_plus5 = fruits+5
fruits_plus5

apples     15
oranges    11
bananas     8
dtype: int64

In [36]:
fruits

apples     10
oranges     6
bananas     3
dtype: int64

In [37]:
fruits['oranges'] = fruits['oranges'] - 2
fruits

apples     10
oranges     4
bananas     3
dtype: int64

In [38]:
# apples 와 bananas가 3개씩 더 들어왔다.
fruits[['apples', 'bananas']] = fruits[['apples', 'bananas']] + 3
fruits

apples     13
oranges     4
bananas     6
dtype: int64

## 문제 풀이
import pandas as pd

[] 1. 다음과 같은 레이블과 값을 가지는 Pandas Series 를 만드세요. 변수는 dist_planets 로 만드세요.
- 각 행성에서 태양까지의 거리(million km)
    - distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
    - planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
- dist_planets = 

[] 2. 거리를 빛의 상수 c( 18 ) 로 나눠서, 가는 시간이 얼마나 걸리는 지 계산하여 저장하세요.
- time_light = 

[] 3. Boolean indexing을 이용해서 가는 시간이 40분보다 작은것들만 셀렉트 하세요.
- close_planets = 
```

![image.png](attachment:image.png)

In [42]:
distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']

In [44]:
# 1. 다음과 같은 레이블과 값을 가지는 Pandas Series 를 만드세요. 변수는 dist_planets 로 만드세요.

distance_from_sun = [149.6, 1433.5, 227.9, 108.2, 778.6]
planets = ['Earth','Saturn', 'Mars','Venus', 'Jupiter']
dist_planets = pd.Series(data = distance_from_sun, index = planets)



dist_planets

Earth       149.6
Saturn     1433.5
Mars        227.9
Venus       108.2
Jupiter     778.6
dtype: float64

In [45]:
# 2. 거리를 빛의 상수 c( 18 ) 로 나눠서, 가는 시간이 얼마나 걸리는지 계산하여 저장하세요.
c = 18
time_light=  dist_planets / c


time_light

Earth       8.311111
Saturn     79.638889
Mars       12.661111
Venus       6.011111
Jupiter    43.255556
dtype: float64

In [47]:
time_light < 40

Earth       True
Saturn     False
Mars        True
Venus       True
Jupiter    False
dtype: bool

In [46]:
# 3. Boolean indexing을 이용해서 가는 시간이 40분보다 작은것들만 셀렉트 하세요.
close_planets = time_light[time_light < 40]

close_planets

Earth     8.311111
Mars     12.661111
Venus     6.011111
dtype: float64

# Pandas Dataframe
- 판다스 2차원 데이터

In [72]:
# 지금은 실습용으로 딕셔너리로 판다스 2차원 데이터프레임을 만들기만,
# 나중에는 진짜 데이터로 => csv 파일을 읽어서 처리함.

### 레이블로 생성하기

In [49]:
import pandas as pd

# We create a dictionary of Pandas Series 
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
         'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}



In [50]:
type(items)

dict

In [52]:
# dict를 데이터로 넣으면 -> df(Data Frame) 생성.
df = pd.DataFrame(data =items)
df

Unnamed: 0,Bob,Alice
bike,245.0,500.0
book,,40.0
glasses,,110.0
pants,25.0,45.0
watch,55.0,


In [53]:
df.values

array([[245., 500.],
       [ nan,  40.],
       [ nan, 110.],
       [ 25.,  45.],
       [ 55.,  nan]])

In [54]:
type(df.values)

numpy.ndarray

In [55]:
df.shape

(5, 2)

In [56]:
df.index

Index(['bike', 'book', 'glasses', 'pants', 'watch'], dtype='object')

In [60]:
type(df.index)

pandas.core.indexes.base.Index

In [58]:
df.columns

Index(['Bob', 'Alice'], dtype='object')

In [59]:
type(df.columns)

pandas.core.indexes.base.Index

In [63]:
# 요소의 갯수

df.size

10

In [62]:
# 행의 갯수

len(df)

5

In [64]:
df.ndim

2

In [67]:
df

Unnamed: 0,Bob,Alice
bike,245.0,500.0
book,,40.0
glasses,,110.0
pants,25.0,45.0
watch,55.0,


In [66]:
df.value_counts()

Bob    Alice
25.0   45.0     1
245.0  500.0    1
Name: count, dtype: int64

In [69]:
type(df.value_counts())

pandas.core.series.Series

In [70]:
df_value = df.value_counts()
df_value.index

MultiIndex([( 25.0,  45.0),
            (245.0, 500.0)],
           names=['Bob', 'Alice'])

In [71]:
df_value.values

array([1, 1])

In [75]:
# 판다스에서 2차원 데이터를 처리하는 클래스를 데이터 프레임이라고 한다.
# 데이터 프레임의 왼쪽을 인덱스, 위쪽은 컬럼이라고 부름
# 데이터프레임의 안쪽 부분을 데이터, value라고 함

### NaN 은 해당 항목에 값이 없음을 뜻합니다.  (Not a Number)

In [72]:
# We create a dictionary of Pandas Series without indexes
data = {'Bob' : pd.Series([245, 25, 55]),
        'Alice' : pd.Series([40, 110, 500, 45])}




In [73]:
pd.DataFrame(data)

Unnamed: 0,Bob,Alice
0,245.0,40
1,25.0,110
2,55.0,500
3,,45


## csv파일을 로딩 -> df만들기

In [81]:
# index_col = 1 : 디폴트 1, 인덱스를 제외시키려면 0으로 명시해야 함.

In [82]:
data_path = '../datas/avocado.csv'
df = pd.read_csv(data_path,index_col=0)
df.head(2)

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany


## Accessing Elements in Pandas DataFrames

In [145]:
import pandas as pd

In [83]:
# We create a list of Python dictionaries
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, 
          {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}]



In [90]:
# 인덱스를 따로 지정하지 않으며, 파이썬의 기본 인덱스인 0~ 시작하는 숫자로 셋팅됨
# 프랜차이즈 매장 2개를 열었다.

pd.DataFrame(items2) #index를 지정하지 않으면 0~ 자동 인덱싱.


Unnamed: 0,bikes,pants,watches,glasses
0,20,30,35,
1,15,5,10,50.0


In [88]:
df = pd.DataFrame(items2, index=['store1', 'store2'])
df.head()

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [149]:
# 판다스의 데이터에서 데이터를 억세스하는 3가지 방법.
# 1. 컬럼의 값을 가져오는 방법 => 변수명 오른쪽에 대괄호를 쓰고, 컬럼명을 적는다.

In [91]:
# 팬츠 컬럼의 데이터를 가져오세요.
df['pants']

store1    30
store2     5
Name: pants, dtype: int64

In [92]:
type(df['pants'])

pandas.core.series.Series

In [151]:
# 팬츠 컬럼의 데이터를 가져오세요.


store1    30
store2     5
Name: pants, dtype: int64

In [152]:
# bikes, watches 컬럼 두개 다 가져오기

In [95]:
df[['bikes','watches']]

Unnamed: 0,bikes,watches
store1,20,35
store2,15,10


In [98]:
# df[['bikes':'watches']]    안됨
# df['bikes':'watches']      안됨

SyntaxError: invalid syntax (2083243350.py, line 1)

In [154]:
# 데이터 프레임에서 데이터 억세스하는 두번째 방법
# 2. 사람용 인덱스와 컬럼명으로 데이터를 가져오는 방법
#  변수명.loc[,]  <= location 
#  변수명.iloc[,] <= index location

In [99]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [None]:
# df.Loc[범위지정]
# df.Loc[행범위, 열범위]
# df.loc['bikes':'watches']
df.loc[: , 'bikes':'watches']           #행위치, 열위치 범위가 둘다 필수 입력사항.

Unnamed: 0,bikes,pants,watches
store1,20,30,35
store2,15,5,10


In [104]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [106]:
# store1의 시계 데이터를 가져오기
# df.loc[행 위치_lable,열 위치_lable]
df.loc['store1','watches']

np.int64(35)

In [107]:
type(df.loc['store1','watches'])

numpy.int64

In [108]:
int(df.loc['store1','watches'])

35

In [109]:
type(int(df.loc['store1','watches']))

int

In [110]:
# store2의 glasses 데이터를 가져오시오.
df.loc['store2','glasses']

np.float64(50.0)

In [111]:
int(df.loc['store2','glasses'])

50

In [159]:
# store1의 pants watches glasses 데이터를 가져오세요.

In [112]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [113]:
df.loc['store1','pants':'glasses']

pants      30.0
watches    35.0
glasses     NaN
Name: store1, dtype: float64

In [114]:
type(df.loc['store1','pants':'glasses'])

pandas.core.series.Series

In [117]:
# store1, store2의 watches, glasses 데이터를 가져오세요.
# df.loc[:,'watches':'glasses']
df.loc[['store1','store2'],'watches':'glasses']

Unnamed: 0,watches,glasses
store1,35,
store2,10,50.0


In [162]:
# 3번째 방법 : 컴퓨터가 매기는 인데스로 가져오는 방법
#   변수명.iloc[]  <- index location


In [118]:
df.loc[['store1','store2'],'pants':'glasses']

Unnamed: 0,pants,watches,glasses
store1,30,35,
store2,5,10,50.0


In [None]:
# df.loc[['store1','store2'],'pants':'glasses']
# 위 데이터 추출을 ilox로 추출하기.

In [120]:
# df.iloc[행_start_index : 행_stop_index+1 , 열_start_index : 열_stop_index+1] 
# df.iloc[0:m+1,1:n+1]    # n+1까지 지정을해줘야 n까지 표현..
df.iloc[0:1+1,1:3+1]    # n+1까지 지정을해줘야 n까지 표현..

Unnamed: 0,pants,watches,glasses
store1,30,35,
store2,5,10,50.0


In [123]:
# df.iloc[0:1+1,1:]     #마지막까지 범위를 지정하려면지막은 생략(가능)
df.iloc[0:,1:] 

Unnamed: 0,pants,watches,glasses
store1,30,35,
store2,5,10,50.0


- 판다스는 데이터 구조가 2가지
    - 1차원 시리즈 구조, 2차원 판다스 구조

## 데이터에 값 바꾸기(Update)

- 컬럼 데이터 추가

In [129]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,5,10,50.0


In [169]:
# store2에 pants 데이터를 20으로 변경

In [130]:

# df['store2', 'pants'] = 20 <-------변경 안됨, 오류는 없음... 주의요망. not syntax error.
df.iloc[1,1] = 20

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,20,10,50.0


In [132]:
df.loc['store2','pants'] = 30
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0


In [133]:
# 새로운 컬럼을 만들자. 컬럼명은 shirts라고 만들고, 데이터는 15, 2
df['shirts'] = [15,2]
df

Unnamed: 0,bikes,pants,watches,glasses,shirts
store1,20,30,35,,15
store2,15,30,10,50.0,2


In [135]:
# suits 컬럼을 만들기. 데이터는 pants의 수와 shirts의 수를 더해서 만든다.
df['suits'] = df['pants'] + df['shirts']
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15,45
store2,15,30,10,50.0,2,32


- 행추가는 pd.concate() 권장함.

- 데이터 프레임 합치기

In [136]:
new_item = [{'bikes': 20, 'pants':30, 'watches': 35, 'glasses': 4}]
new_item

[{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4}]

In [139]:
new_store = pd.DataFrame(data = new_item, index = ['store3'])
new_store

Unnamed: 0,bikes,pants,watches,glasses
store3,20,30,35,4


In [146]:
# 기본방향 axis= 0
df = pd.concat([df, new_store], axis = 0)
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,30,10,50.0,2.0,32.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


- 행삭제, 열삭제
- 인덱서 삭제, 컬럼 삭제

In [147]:
# store3 index행이 모두 삭제됨.
df.drop('store3')

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,30,10,50.0,2.0,32.0


In [148]:
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,30,10,50.0,2.0,32.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


## 칼럼 삭제

In [153]:
#기본 axis의 방향, 기본은 0 행이 증가하는 방향...
#inplace = True : 자신의 df에 덮어쓰기
# df.drop('shirts', axis = 1, inplace = True)
df = df.drop('shirts', axis = 1) #공식문서 권고사항

In [152]:
df

Unnamed: 0,bikes,pants,watches,glasses,shirts,suits
store1,20,30,35,,15.0,45.0
store2,15,30,10,50.0,2.0,32.0
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,
store3,20,30,35,4.0,,


In [159]:
df

Unnamed: 0,bikes,pants,watches,glasses,suits
store1,20,30,35,,45.0
store2,15,30,10,50.0,32.0
store3,20,30,35,4.0,
store3,20,30,35,4.0,
store3,20,30,35,4.0,


In [160]:
# 마지막 행만 삭제.
df = df.iloc[:-1]
df

Unnamed: 0,bikes,pants,watches,glasses,suits
store1,20,30,35,,45.0
store2,15,30,10,50.0,32.0
store3,20,30,35,4.0,
store3,20,30,35,4.0,


In [161]:
df

Unnamed: 0,bikes,pants,watches,glasses,suits
store1,20,30,35,,45.0
store2,15,30,10,50.0,32.0
store3,20,30,35,4.0,
store3,20,30,35,4.0,


In [164]:
# 마지막 column삭제하기.
df = df.iloc[:,:-1]
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
store3,20,30,35,4.0
store3,20,30,35,4.0


In [165]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
store3,20,30,35,4.0
store3,20,30,35,4.0


In [166]:
df[['bikes','watches']]

Unnamed: 0,bikes,watches
store1,20,35
store2,15,10
store3,20,35
store3,20,35


In [167]:
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
store3,20,30,35,4.0
store3,20,30,35,4.0


- row, column 이름 변경

In [171]:
df = df.iloc[:-1]
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
store3,20,30,35,4.0


In [174]:
df = df.rename(index = {'store3':'last_store'})
df

Unnamed: 0,bikes,pants,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
last_store,20,30,35,4.0


In [176]:
# column이름 변경
df.rename(columns={'pants':'shirts'})

Unnamed: 0,bikes,shirts,watches,glasses
store1,20,30,35,
store2,15,30,10,50.0
last_store,20,30,35,4.0


In [178]:
# 새로운 컬럼 name 컬럼을 만들고, 데이터는 A, B, C로 만듬
df['name'] = ['A','B','C']
df

Unnamed: 0,bikes,pants,watches,glasses,name
store1,20,30,35,,A
store2,15,30,10,50.0,B
last_store,20,30,35,4.0,C


In [179]:
# name 컬럼을 index로 만들고 싶다.
# data가 unique 해야함.
df2 = df.set_index('name')
# df.set_index('name', inplace=True)
df2

Unnamed: 0_level_0,bikes,pants,watches,glasses
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,20,30,35,
B,15,30,10,50.0
C,20,30,35,4.0


In [180]:
# index를 원래 데이터로 변경
df2.reset_index()

Unnamed: 0,name,bikes,pants,watches,glasses
0,A,20,30,35,
1,B,15,30,10,50.0
2,C,20,30,35,4.0


In [182]:
# df에 적용하려면
# df2 = df2.reset_index()
df2.reset_index(inplace=True)
df2

Unnamed: 0,name,bikes,pants,watches,glasses
0,A,20,30,35,
1,B,15,30,10,50.0
2,C,20,30,35,4.0


## Dealing with NaN

In [184]:
# We create a list of Python dictionaries
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

In [185]:
index_list = ['store1', 'store2', 'store3']

In [186]:
# 데이터 프레임 생성
df = pd.DataFrame(data = items2, index = index_list)
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [188]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, store1 to store3
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   bikes    3 non-null      int64  
 1   pants    3 non-null      int64  
 2   watches  3 non-null      int64  
 3   shirts   2 non-null      float64
 4   shoes    3 non-null      int64  
 5   suits    2 non-null      float64
 6   glasses  2 non-null      float64
dtypes: float64(3), int64(4)
memory usage: 192.0+ bytes


In [215]:
# 평균을 구하라, 
# ml학습할 때 nan이 있으면 학습이 되지 않음, 학습하다가 중간에 멈추면 다시 해야함.
# 그러면 GPU를 다시 사용해야하니까 비용 낭비가 됨, 시간 비용

# 함수에서 계수를 찾는것

In [189]:
# nan이 있는지 파악하는 방법
df.isna()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,False,False,False,False,False,False,True
store2,False,False,False,False,False,False,False
store3,False,False,False,True,False,True,False


In [190]:
# 없을 때 True, 있을 때 False
df.notna()

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,True,True,True,True,True,True,False
store2,True,True,True,True,True,True,True
store3,True,True,True,False,True,False,True


In [191]:
# 각 컬럼별로 nan 갯수 세기
# 기본 행 방향으로 더함.
df.isna().sum()

bikes      0
pants      0
watches    0
shirts     1
shoes      0
suits      1
glasses    1
dtype: int64

In [192]:
# df 전체에서 nan인 것은 몇개?
df.isna().sum().sum()

np.int64(3)

## nan을 처리하는 전략
- 1. nan이 들어있는 데이터를 삭제함
- 2. nan에 0을 넣음
- 3. 각 컬럼의 대푯값으로 채우기(평균, 중앙값, 최빈값)

In [194]:
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [193]:
# 1. nan이 들어있는 데이터(행)을 삭제함. 전용함수 있음.
df.dropna() # 행삭제

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store2,15,5,10,2.0,5,7.0,50.0


In [195]:
df.dropna(axis =1 ) #열삭제

Unnamed: 0,bikes,pants,watches,shoes
store1,20,30,35,8
store2,15,5,10,5
store3,20,30,35,10


In [196]:
# 2. nan에 모두 0을 넣음
df.fillna(0)

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,0.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,0.0,10,0.0,4.0


In [197]:
# df.fillna(-1)
df.fillna("데이터 없음")

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,데이터 없음
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,데이터 없음,10,데이터 없음,4.0


In [230]:
# 각 컬럼의 대푯값으로 채우기(평균, 중앙값, 최빈값)
# 각 컬럼의 평균값으로 채우기

In [198]:
# 각 컬럼별 합계
df.sum()

bikes      55.0
pants      65.0
watches    80.0
shirts     17.0
shoes      23.0
suits      52.0
glasses    54.0
dtype: float64

In [199]:
# 각 컬럼별 최소값
df.min()

bikes      15.0
pants       5.0
watches    10.0
shirts      2.0
shoes       5.0
suits       7.0
glasses     4.0
dtype: float64

In [200]:
# 최댓값
df.max()

bikes      20.0
pants      30.0
watches    35.0
shirts     15.0
shoes      10.0
suits      45.0
glasses    50.0
dtype: float64

In [202]:
df.mean()

bikes      18.333333
pants      21.666667
watches    26.666667
shirts      8.500000
shoes       7.666667
suits      26.000000
glasses    27.000000
dtype: float64

In [203]:
df.median()

bikes      20.0
pants      30.0
watches    35.0
shirts      8.5
shoes       8.0
suits      26.0
glasses    27.0
dtype: float64

In [204]:
df

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


In [205]:
# 각 컬럼의 nan에 각 컬럼의 최소값으로 채우기
df.fillna(df.min())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,4.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,2.0,10,7.0,4.0


In [206]:
# 각 컬럼의 nan에 각 컬럼의 평균으로 채우기
df.fillna(df.mean())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,27.0
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,8.5,10,26.0,4.0


In [207]:
# 최빈값
df.fillna(df.mode())

Unnamed: 0,bikes,pants,watches,shirts,shoes,suits,glasses
store1,20,30,35,15.0,8,45.0,
store2,15,5,10,2.0,5,7.0,50.0
store3,20,30,35,,10,,4.0


## DataFrame 실습
1. 딕셔너리를 만들고,
2. 데이터프레임으로 만든 후,
3. nan을  평균값으로 채운다.


In [208]:
import pandas as pd
import numpy as np

# 각 유저별 별점을 주는것이므로, 1 decimal 로 셋팅.
# pd.set_option('precision', 1)

# 책 제목과 작가, 그리고 유저별 별점 데이터가 있다.

books = pd.Series(data = ['Great Expectations', 'Of Mice and Men', 'Romeo and Juliet', 'The Time Machine', 'Alice in Wonderland' ])
authors = pd.Series(data = ['Charles Dickens', 'John Steinbeck', 'William Shakespeare', ' H. G. Wells', 'Lewis Carroll' ])

user_1 = pd.Series(data = [3.2, np.nan ,2.5])
user_2 = pd.Series(data = [5., 1.3, 4.0, 3.8])
user_3 = pd.Series(data = [2.0, 2.3, np.nan, 4])
user_4 = pd.Series(data = [4, 3.5, 4, 5, 4.2])

#  np.nan values 는 해당 유저가 해당 책에는 아직 별점 주지 않은것이다.
# labels: 'Author', 'Book Title', 'User 1', 'User 2', 'User 3', 'User 4'. 
# 아래 그림처럼 나오도록 만든다.


![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202019-12-27%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%206.28.49.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202019-12-27%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%206.28.49.png)

In [209]:
# 1. 딕셔너리를 만들고,     
my_data ={
    "Book Title": books,
    "Author": authors,
    "User_1": user_1,
    "User_2": user_2,
    "User_3": user_3,
    "User_4": user_4
}

In [210]:
# 2. 데이터 프레임 만들기
df = pd.DataFrame(data = my_data)
df

Unnamed: 0,Book Title,Author,User_1,User_2,User_3,User_4
0,Great Expectations,Charles Dickens,3.2,5.0,2.0,4.0
1,Of Mice and Men,John Steinbeck,,1.3,2.3,3.5
2,Romeo and Juliet,William Shakespeare,2.5,4.0,,4.0
3,The Time Machine,H. G. Wells,,3.8,4.0,5.0
4,Alice in Wonderland,Lewis Carroll,,,,4.2


In [215]:
# 3. nan을  평균값으로 채운다.

df.fillna(df.iloc[:,2:].mean())

Unnamed: 0,Book Title,Author,User_1,User_2,User_3,User_4
0,Great Expectations,Charles Dickens,3.2,5.0,2.0,4.0
1,Of Mice and Men,John Steinbeck,2.85,1.3,2.3,3.5
2,Romeo and Juliet,William Shakespeare,2.5,4.0,2.766667,4.0
3,The Time Machine,H. G. Wells,2.85,3.8,4.0,5.0
4,Alice in Wonderland,Lewis Carroll,2.85,3.525,2.766667,4.2


## Loading Data into a Pandas DataFrame

In [260]:
# csv 파일을 읽어서 처리함
# json/jsonl 파일을 읽어서 처리함

In [3]:
import pandas as pd

In [8]:
# 데이터베이스의 테이블 데이터, 엑셀의 데이터 => CSV로 내보내기
# 구글의 주식 데이터 정보
data_path = '../datas/GOOG.csv'
df = pd.read_csv(data_path)    #csv파일 로딩 -> df 제작.
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2004-08-19,49.676899,51.693783,47.669952,49.845802,49.845802,44994500
1,2004-08-20,50.178635,54.187561,49.925285,53.80505,53.80505,23005800
2,2004-08-23,55.017166,56.373344,54.172661,54.346527,54.346527,18393200
3,2004-08-24,55.260582,55.439419,51.450363,52.096165,52.096165,15361800
4,2004-08-25,52.140873,53.651051,51.604362,52.657513,52.657513,9257400


In [7]:
#df에 몇개 있고, nan이 있느지 확인.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3313 entries, 0 to 3312
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       3313 non-null   object 
 1   Open       3313 non-null   float64
 2   High       3313 non-null   float64
 3   Low        3313 non-null   float64
 4   Close      3313 non-null   float64
 5   Adj Close  3313 non-null   float64
 6   Volume     3313 non-null   int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 181.3+ KB


In [9]:
# df 기술 통계 확인
df.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,3313.0,3313.0,3313.0,3313.0,3313.0,3313.0
mean,380.186092,383.49374,376.519309,380.072458,380.072458,8038476.0
std,223.81865,224.974534,222.473232,223.85378,223.85378,8399521.0
min,49.274517,50.541279,47.669952,49.681866,49.681866,7900.0
25%,226.556473,228.394516,224.003082,226.40744,226.40744,2584900.0
50%,293.312286,295.433502,289.929291,293.029114,293.029114,5281300.0
75%,536.650024,540.0,532.409973,536.690002,536.690002,10653700.0
max,992.0,997.210022,989.0,989.679993,989.679993,82768100.0


In [264]:
# 3.313000e+03
# e+03 : 10의 3승 : 1000
# e-03 : 10dml -3승  : 0.001

In [11]:
df.tail(2)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
3311,2017-10-12,987.450012,994.119995,985.0,987.830017,987.830017,1262400
3312,2017-10-13,992.0,997.210022,989.0,989.679993,989.679993,1157700


## [실습1] 와인데이터 분석 실습
- 1.[실습]pandas_와인데이터분석.ipynb

# 집계함수 

In [12]:
# 인사 데이터
df =
df

Unnamed: 0,Year,Name,Department,Age,Salary
0,1990,Alice,HR,25,50000
1,1990,Bob,RD,30,48000
2,1990,Charlie,Admin,45,55000
3,1991,Alice,HR,26,52000
4,1991,Bob,RD,31,50000
5,1991,Charlie,Admin,46,60000
6,1992,Alice,HR,27,60000
7,1992,Bob,RD,32,52000
8,1992,Charlie,Admin,47,62000


In [13]:
df.describe()

Unnamed: 0,Year,Age,Salary
count,9.0,9.0,9.0
mean,1991.0,34.333333,54333.333333
std,0.866025,9.055385,5147.81507
min,1990.0,25.0,48000.0
25%,1990.0,27.0,50000.0
50%,1991.0,31.0,52000.0
75%,1992.0,45.0,60000.0
max,1992.0,47.0,62000.0


In [14]:
df.shape

(9, 5)

##  중복데이터 처리

In [277]:
df

Unnamed: 0,Year,Name,Department,Age,Salary
0,1990,Alice,HR,25,50000
1,1990,Bob,RD,30,48000
2,1990,Charlie,Admin,45,55000
3,1991,Alice,HR,26,52000
4,1991,Bob,RD,31,50000
5,1991,Charlie,Admin,46,60000
6,1992,Alice,HR,27,60000
7,1992,Bob,RD,32,52000
8,1992,Charlie,Admin,47,62000


In [278]:
# 중복된 데이터가 있을 것을, 범주형(카테고리컬; categorical) 데이터라고 함.

# GETTING HTML DATA

In [31]:
# pip install lxml

In [42]:
# 캐나다 집값 정보
html_url = 'https://www.livingin-canada.com/house-prices-canada.html'
df_html =
type(df_html)

list

In [43]:
df_html

[                                                City  \
 0                                      Vancouver, BC   
 1                                       Toronto, Ont   
 2                                        Ottawa, Ont   
 3                                       Calgary, Alb   
 4                                      Montreal, Que   
 5                                        Halifax, NS   
 6                                       Regina, Sask   
 7                                    Fredericton, NB   
 8  (adsbygoogle = window.adsbygoogle || []).push(...   
 
                                  Average House Price  \
 0                                         $1,036,000   
 1                                           $870,000   
 2                                           $479,000   
 3                                           $410,000   
 4                                           $435,000   
 5                                           $331,000   
 6                           

# PANDAS OPERATIONS

- 어떤 조건에 맞는 데이터를 가져오는 방법

In [57]:
# 데이터 프레임 만들기
df = pd.DataFrame({'Employee ID':[111, 222, 333, 444],
                   'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'],
                   'Salary [$/h]':[35, 29, 38, 20],
                   'Years of Experience':[3, 4 ,9, 1]})
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


- 경력이 3년 이하이거나 8년 이상인 사람의 데이터를 가져오기
- 거나, or에 해당되는 것은 | 기호를 사용함.

# [실습 2] 
- 1.b[실습1]pandas기본_와인분석.ipynb

# APPLYING FUNCTIONS

In [378]:
df

Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


In [None]:
# 직원 이름은 몇글자인지, 글자수를 세어서, 새로운 커럼 length 컬럼에 저장하자.
# 실무에 많이 쓰는 기능
# https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html

# df['Employee Name'].str  <- 시리즈의 각 요소을 지정함

# 모두 대문자로



0    CHANEL
1     STEVE
2     MITCH
3      BIRD
Name: Employee Name, dtype: object

In [388]:
# 첫글자만 대문자로


0    Chanel
1     Steve
2     Mitch
3      Bird
Name: Employee Name, dtype: object

## [실습]

- 1.b[실습2]pandas기본_와인분석.ipynb

# SORTING(정렬)

In [75]:
df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 
                   'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 
                   'Salary [$/h]':[35, 29, 38, 20], 
                   'Years of Experience':[3, 4 ,9, 1]})
df


Unnamed: 0,Employee ID,Employee Name,Salary [$/h],Years of Experience
0,111,Chanel,35,3
1,222,Steve,29,4
2,333,Mitch,38,9
3,444,Bird,20,1


# CONCATENATING AND MERGING

## Concate(합치기)

![image.png](attachment:image.png)
Reference: https://pandas.pydata.org/pandas-docs/stable/merging.html

In [80]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 1, 2, 3])
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [79]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
index=[4, 5, 6, 7]) 
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [78]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
index=[8, 9, 10, 11])

df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


## 문제 해결
- 두 데이터프레임을 만들고, 합치기 

In [20]:
# 데이터 프레임 만들기
raw_data = {
        'Employee ID': ['1', '2', '3', '4', '5'],
        'first name': ['Diana', 'Cynthia', 'Shep', 'Ryan', 'Allen'], 
        'last name': ['Bouchard', 'Ali', 'Rob', 'Mitch', 'Steve']}
columns = ['Employee ID', 'first name', 'last name']
df_Engineering_dept = 
df_Engineering_dept

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve


In [21]:
# 데이터 프레임 만들기
raw_data = {
        'Employee ID': ['6', '7', '8', '9', '10'],
        'first name': ['Bill', 'Dina', 'Sarah', 'Heather', 'Holly'], 
        'last name': ['Christian', 'Mo', 'Steve', 'Bob', 'Michelle']}
columns =  ['Employee ID', 'first name', 'last name']
df_Finance_dept = 
df_Finance_dept

Unnamed: 0,Employee ID,first name,last name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [91]:
# 두 데이터 프레임 합치기
df_user = 
df_user

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


## Merge(병합)
- 두 데이터 프레임간에 연결할 수 있는 key값이 있어야함.

In [93]:
df_user

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [94]:
df_Engineering_dept

Unnamed: 0,Employee ID,first name,last name
0,1,Diana,Bouchard
1,2,Cynthia,Ali
2,3,Shep,Rob
3,4,Ryan,Mitch
4,5,Allen,Steve


In [22]:
# 급여 데이터 프레임
raw_data = {
        'Employee ID': ['1', '2', '3', '4', '5', '7', '8', '9', '10'],
        'Salary [$/hour]': [25, 35, 45, 48, 49, 32, 33, 34, 23]}
df_salary = pd.DataFrame(raw_data, columns = ['Employee ID','Salary [$/hour]'])
df_salary

Unnamed: 0,Employee ID,Salary [$/hour]
0,1,25
1,2,35
2,3,45
3,4,48
4,5,49
5,7,32
6,8,33
7,9,34
8,10,23


In [23]:
#  inner join하기
# df_Engineering_dept와 df_salary

## [실습]

1.c[실습2]pandas문제해결_와인분석.ipynb

# EXCELLENT JOB!