# Pandas 라이브러리 학습

In [1]:
import pandas as pd 

# pandas의 데이터 프레임을 생성

names  = ['Bob', 'Jessica', 'Mary', 'John', 'Mel']
births = [968, 155, 77, 578, 973]
custom = [1, 5, 25, 13, 23232]

BabyDataSet = list(zip(names, births))
df = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births'])

print (BabyDataSet)

[('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)]


In [2]:
# df 상단 부분 출력
print(df.head())

     Names  Births
0      Bob     968
1  Jessica     155
2     Mary      77
3     John     578
4      Mel     973


In [None]:
# df 기본 정보 출력

print (df.dtypes) # 열 타입 정보
print ("-----------")
print(df.index) # 인덱스 정보 
print ("-----------")
print(df.columns) # df 열의 형태 정보  

Names     object
Births     int64
dtype: object
-----------
RangeIndex(start=0, stop=5, step=1)
-----------
Index(['Names', 'Births'], dtype='object')


In [11]:
# df의 열 선택

df ['Names']

0        Bob
1    Jessica
2       Mary
3       John
4        Mel
Name: Names, dtype: object

In [None]:
# df의 인덱스 선택

# 0-3번째 인덱스 선택 (행 선택)
df[0:3]

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
2,Mary,77


In [20]:
# 필터링 기능 (조건을 추가하여 선택)

# Births 열이 100보다 큰 데이터를 선택
df[df['Births'] > 100]  # 100보다 큰 경우에만 데이터를 반환

Unnamed: 0,Names,Births
0,Bob,968
1,Jessica,155
3,John,578
4,Mel,973


In [None]:
# 평균값 계산
# mean 함수는 각 열들의 데이터 타입을 체크한 뒤, 연산이 가능한 열의 평균값을 반환

# df.mean() <-- 이건 에러 발생함 (문자열 데이터가 있어서)

df.mean(numeric_only=True)

Births    550.2
dtype: float64

## 나동빈 Pandas 기본 사용법

In [24]:
import pandas as pd

array = pd.Series(['사과','바나나','당근'], index= ['a','b','c'])

print(array)
print(array['a'])

a     사과
b    바나나
c     당근
dtype: object
사과


In [25]:
data = {
    'a' : '사과',
    'b' : '바나나',
    'c' : '당근'
}

series = pd.Series(data)
print(series)

a     사과
b    바나나
c     당근
dtype: object


In [26]:
word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)   

# 이름 (name) : 값 (Values)
summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency})
print(summary)

       Word  Frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          2


In [28]:
# 시리즈의 연산

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2
}

importance_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency, 'Importance' : importance})

# print(summary)
score = summary['Frequency'] * summary['Importance']
summary['score'] = score

print(summary)

       Word  Frequency  Importance  score
Apple    사과          3           3      9
Banana  바나나          5           2     10
Carrot   당근          2           1      2


In [33]:
# df 의 슬라이싱


word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2,
    'Durian' : 4
}

importance_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency, 'Importance' : importance})
print(summary)

print ("----이름을 기준으로 슬라이싱----")
print (summary.loc['Banana': 'Carrot','Importance':])

print ("----인덱스를 기준으로 슬라이싱----")
print (summary.iloc[1: 3, 2:])



       Word  Frequency  Importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          2           1
Durian  두리안          4           1
----이름을 기준으로 슬라이싱----
        Importance
Banana           2
Carrot           1
----인덱스를 기준으로 슬라이싱----
        Importance
Banana           2
Carrot           1


In [36]:
# df의 연산

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2,
    'Durian' : 4
}

importance_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency, 'Importance' : importance})
print(summary)

summary.loc['Apple', 'Frequency'] = 7
print(summary)

summary.loc['Elderberry'] = ['엘더베리', 1, 5]
print(summary)

       Word  Frequency  Importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          2           1
Durian  두리안          4           1
       Word  Frequency  Importance
Apple    사과          7           3
Banana  바나나          5           2
Carrot   당근          2           1
Durian  두리안          4           1
            Word  Frequency  Importance
Apple         사과          7           3
Banana       바나나          5           2
Carrot        당근          2           1
Durian       두리안          4           1
Elderberry  엘더베리          1           5


In [None]:
# 엑셀로 내보내기 불러오기 

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)   

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency})

summary.to_csv('./data/practice.csv', encoding='utf-8-sig') # 엑셀로 내보내기

saved = pd.read_csv('./data/practice.csv', index_col=0) # 엑셀 읽기 
print(saved)

       Word  Frequency
Apple    사과          3
Banana  바나나          5
Carrot   당근          2


## pandas 연산과 함수

In [1]:
# df의 null 여부 확인

import pandas as pd
import numpy as np

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : np.nan,
    'Durian' : 4
}

importance_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency, 'Importance' : importance})
print(summary)
print("-------------------------")
print(summary.notnull())
print("-------------------------")
print(summary.isnull())
print("-------------------------")
summary['Frequency'] = summary['Frequency'].fillna('데이터없음')
print(summary)

       Word  Frequency  Importance
Apple    사과        3.0           3
Banana  바나나        5.0           2
Carrot   당근        NaN           1
Durian  두리안        4.0           1
-------------------------
        Word  Frequency  Importance
Apple   True       True        True
Banana  True       True        True
Carrot  True      False        True
Durian  True       True        True
-------------------------
         Word  Frequency  Importance
Apple   False      False       False
Banana  False      False       False
Carrot  False       True       False
Durian  False      False       False
-------------------------
       Word Frequency  Importance
Apple    사과       3.0           3
Banana  바나나       5.0           2
Carrot   당근     데이터없음           1
Durian  두리안       4.0           1


In [None]:
# 시리즈 자료형의 연산

array1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
array2 = pd.Series([4, 5, 6], index=['b', 'c', 'd'])

array = array1.add(array2, fill_value=0) # filll_value 는 NaN 값을 0으로 채워서 연산 (즉, 겹치는 인덱스만 더함)
print(array)

array = array1.add(array2) # 겹치지 않는 값은 NaN 
print(array)


a    1.0
b    6.0
c    8.0
d    6.0
dtype: float64
a    NaN
b    6.0
c    8.0
d    NaN
dtype: float64


In [8]:
# 데이터 프레임 자료형의 연산

array1 = pd.DataFrame([[1, 2],[3,4]], index=['a', 'b'])
array2 = pd.DataFrame([[1,2,3],[4, 5, 6],[7,8,9]], index=['b', 'c', 'd'])


print(array1)
print(array2)

array = array1.add(array2, fill_value=0)

print(array)

   0  1
a  1  2
b  3  4
   0  1  2
b  1  2  3
c  4  5  6
d  7  8  9
     0    1    2
a  1.0  2.0  NaN
b  4.0  6.0  3.0
c  4.0  5.0  6.0
d  7.0  8.0  9.0


In [None]:
# df의 집계 함수

array1 = pd.DataFrame([[1, 2],[3,4]], index=['a', 'b'])
array2 = pd.DataFrame([[1,2,3],[4, 5, 6],[7,8,9]], index=['b', 'c', 'd'])

array = array1.add(array2, fill_value=0)

print(array)
print("컬럼 1의 합 : ", array[1].sum()) 
print(array.sum())
# 기본적으로 nan은 0으로 간주하여 연산


     0    1    2
a  1.0  2.0  NaN
b  4.0  6.0  3.0
c  4.0  5.0  6.0
d  7.0  8.0  9.0
컬럼 1의 합 :  21.0
0    16.0
1    21.0
2    18.0
dtype: float64


In [None]:
# df의 정렬 함수 

word_dict = {
    'Apple' : '사과',
    'Banana' : '바나나',
    'Carrot' : '당근',
    'Durian' : '두리안'
}

frequency_dict = {
    'Apple' : 3,
    'Banana' : 5,
    'Carrot' : 2,
    'Durian' : 4
}

importance_dict = {
    'Apple' : 3,
    'Banana' : 2,
    'Carrot' : 1,
    'Durian' : 1
}   

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({'Word' : word, 'Frequency' : frequency, 'Importance' : importance})
print(summary)
summary = summary.sort_values('Frequency', ascending=False) # ascending=False 내림차순 정렬
print(summary)

       Word  Frequency  Importance
Apple    사과          3           3
Banana  바나나          5           2
Carrot   당근          2           1
Durian  두리안          4           1
       Word  Frequency  Importance
Banana  바나나          5           2
Durian  두리안          4           1
Apple    사과          3           3
Carrot   당근          2           1
