# Pandas
- 데이터 처리와 분석을 위한 파이썬 라이브러리
- R의 data.frame을 본떠서 설계한 DataFrame이라는 데이터 구조를 기반으로 제작
- 각 열의 데이터 타입이 달라도 되며 엑셀의 스프레드시트와 비슷한 테이블 형태 제공.
- 파이썬계의 엑셀
- http://pandas.pydata.org

In [1]:
import numpy as np
import pandas as pd

## 판다스의 자료구조
-  시리즈(Series) : 리스트와 딕셔너리 두가지의 특징을 혼합한 형태.
     - 세로 형태로 키와 값의 조합으로 표시된다.
     - 넘파이 배열이 데이터 값으로 구성된다
-  데이타프레임(DataFrame) : Row와 Column으로 이뤄진 2차원 형태의 자료구조.
     - 시리즈(Series)의 결합체

## 시리즈
- 시리즈(Series)란?
    - 인덱스와 데이터 값으로 구성된 데이터 구조
- 1차원 집합형 자료구조
- 리스트, 딕셔너리와의 차이점은? 키가 있고 세로로 출력
- 시리즈이름 = pd.Series([리스트]) : 숫자키(인덱스)
- 시리즈이름 = pd.Series({딕셔너리}) : 키
- 시리즈이름 = pd.Series(넘파이배열 np.arange() 등) : 숫자키(인덱스)

In [8]:
# 리스트 => 판다스의 시리즈
myList = [100, 23, 56, 78, -89]
print(myList, '\n')

s1 = pd.Series(myList)
print(type(s1), '\n')
print(s1)

[100, 23, 56, 78, -89] 

<class 'pandas.core.series.Series'> 

0    100
1     23
2     56
3     78
4    -89
dtype: int64


In [11]:
# 딕셔너리 => 판다스의 시리즈
mydict = {'b':'banana', 'p':'python', 'm':'mysql', 'f':'flask'}
print(mydict, '\n')
          
s2 = pd.Series(mydict)
print(s2)

{'b': 'banana', 'p': 'python', 'm': 'mysql', 'f': 'flask'} 

b    banana
p    python
m     mysql
f     flask
dtype: object


In [33]:
# 넘파이배열 => 판다스의 시리즈
arr=np.random.randint(1, 51, 5)
print(arr, '\n')

s3 = pd.Series(arr)
print(s3)

[25 14 26 38  8] 

0    25
1    14
2    26
3    38
4     8
dtype: int32


In [43]:
'''
- 키인덱스 설정
- 시리즈변수 = pd.Series(데이타, index=[값,값2...])
- 시리즈의 데이타 먼저 생성 후 인덱스 설정
- 시리즈변수 = pd.Series(데이타)
- 시리즈변수.index=[값,값2...]
'''

s1 = pd.Series(np.random.randint(1, 100, 5))
print(s1, '\n')
s1.index = ['일','이','삼','사','오']
print(s1,'\n')

# 인덱스명은 위, 아래의 두 방법 모두 가능하며, 재설정도 가능!
s2 = pd.Series(['사과','바나나', '포도', '레몬'], index=[101, 201, 301, 401])
print(s2,'\n')

# s2.index = False # TypeError

0    70
1    80
2    81
3    37
4    16
dtype: int32 

일    70
이    80
삼    81
사    37
오    16
dtype: int32 

101     사과
201    바나나
301     포도
401     레몬
dtype: object 



In [50]:
# 시리즈 속성
'''
- 인덱스값 : index
- 데이타값 : values
- 시리즈인덱스명 : index.name => 인덱스의 대표 이름(IDX) 주는 것 뿐
- 시리즈명 : name
'''

s2.index.name = 'myTestIndex'
s2.name = 'myTestName'
print(s2,'\n')



myTestIndex
101     사과
201    바나나
301     포도
401     레몬
Name: myTestName, dtype: object 



In [52]:
s = pd.Series(['사과','바나나', '포도', '레몬'], index=[101, 201, 301, 401])
print(s.index, '\n')
print(s.values, '\n') 
print(s.dtype, '\n')
print(s.index.dtype, '\n')
print(s)

Int64Index([101, 201, 301, 401], dtype='int64') 

['사과' '바나나' '포도' '레몬'] 

object 

int64 

101     사과
201    바나나
301     포도
401     레몬
dtype: object


In [56]:
s2 = pd.Series(np.random.randint(1,100,10))
print(s2.index, '\n') # RangeIndex(start, stop, step)
print(s2.values, type(s2.values), '\n')
print(s2.dtype, s2.index.dtype, '\n')
print(s2)

RangeIndex(start=0, stop=10, step=1) 

[60 61 47 25 32 44 91 44 14 24] <class 'numpy.ndarray'> 

int32 int64 

0    60
1    61
2    47
3    25
4    32
5    44
6    91
7    44
8    14
9    24
dtype: int32


In [55]:
fruitSeries = pd.Series([2000, 4000, 5000, 1500], index=['사과', '바나나', '포도', '레몬'])
print(fruitSeries, '\n')
print(fruitSeries.index[0] , fruitSeries[0], '\n')

# 인덱싱: 숫자 위치 형태나 정의된 키로 조회 가능 => cf) Python의 Dict는 키로만 접근 가능
print(f'{fruitSeries.index[2]}의 가격은 {fruitSeries[2]}입니다.')
print(f'{fruitSeries.index[2]}의 가격은 {fruitSeries["포도"]}입니다.')

사과     2000
바나나    4000
포도     5000
레몬     1500
dtype: int64 

사과 2000 

포도의 가격은 5000입니다.
포도의 가격은 5000입니다.


In [58]:
sdata = {"Charles": 35000, "Julia":71000, "Hayoung":16000, "Sangjae":5000}
print(sdata , '\n')

s1 = pd.Series(sdata)
print(s1 , '\n')
print(s1.index , '\n')
print(list(s1.index))

{'Charles': 35000, 'Julia': 71000, 'Hayoung': 16000, 'Sangjae': 5000} 

Charles    35000
Julia      71000
Hayoung    16000
Sangjae     5000
dtype: int64 

Index(['Charles', 'Julia', 'Hayoung', 'Sangjae'], dtype='object') 

['Charles', 'Julia', 'Hayoung', 'Sangjae']


In [61]:
sdata = {"Charles": 100, "Julia":75, "Hayoung":80, "Sangjae":50}
print(sdata , '\n')

s1 = pd.Series(sdata)

s1.index.name ='ST_Name'

s1.name = 'Score'
print(s1, '\n')

{'Charles': 100, 'Julia': 75, 'Hayoung': 80, 'Sangjae': 50} 

ST_Name
Charles    100
Julia       75
Hayoung     80
Sangjae     50
Name: Score, dtype: int64 



In [None]:
# 슬라이드 82, 83 퀴즈

In [65]:
# 82 퀴즈
'''
1) 딕셔너리 생성 {'a': 'apart', 'b': 'banana', 'c': 'cat'}
2) 리스트 생성 ['아파트', '바나나', '고양이']
3) 1번의 키값 + 2번의 데이타 => 시리즈생성
'''

abcDict = {'a': 'apart', 'b': 'banana', 'c': 'cat'}
wordList = ['아파트', '바나나', '고양이']

mySeries = pd.Series(wordList, index = abcDict)
print(mySeries)
print()

mySeries2 = pd.Series(wordList, index = abcDict.keys())
print(mySeries2)

a    아파트
b    바나나
c    고양이
dtype: object

a    아파트
b    바나나
c    고양이
dtype: object


In [70]:
# 83 퀴즈
'''
시리즈를 생성하고 평균값을 출력하여라
'''

subjectDict = {'국어':90,'수학':80,'영어':100,'과학':55,'역사':70}
mySeries3 = pd.Series(subjectDict.values(), index = subjectDict.keys())
mySeries3.name = '중간고사성적표'
mySeries3.index.name = '과목'
myAvg = sum(mySeries3)/len(mySeries3)

print(mySeries3)
print('평균=', myAvg)

과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사성적표, dtype: int64
평균= 79.0


In [132]:
# 83 퀴즈
# .mean()
score = pd.Series([90, 80, 100, 55, 70], 
                  index=['국어','수학','영어', '과학', '역사'])
score.name = '중간고사성적표'
score.index.name = '과목'
print(score)
print(f'평균 = {score.mean()}')

과목
국어     90
수학     80
영어    100
과학     55
역사     70
Name: 중간고사성적표, dtype: int64
평균 = 79.0


## 데이타프레임 생성_01
- 딕셔너리 리스트 => 데이타프레임
- 딕셔너리 리스트 구조 : 딕셔너리 키 하나당 리스트 등 집합형 자료
    - {키1:[값1, 값2 ], 키2:[값1, 값2 ]...}
- 행의 인덱스가 숫자 / 컬럼인덱스는 딕셔너리의 키값
- 데이타프레임변수 = pd.DataFrame(딕셔너리리스트)
- 리스트의 길이는 동일해야 한다!

In [78]:
dictList = {'user1':[30, 40, 80],
            'user2':[67, 77, 88],
            'user3':[90, 100, 90]}
print(type(dictList),'\n', dictList, '\n')

df = pd.DataFrame(dictList)
print(type(df), '\n', df)

<class 'dict'> 
 {'user1': [30, 40, 80], 'user2': [67, 77, 88], 'user3': [90, 100, 90]} 

<class 'pandas.core.frame.DataFrame'> 
    user1  user2  user3
0     30     67     90
1     40     77    100
2     80     88     90


## 데이타프레임 생성_02
- Nested Dictionary : 딕셔너리 안에 딕셔너리가 정의된 구조 { 메인키1: {키1-1:값1, 키1-2:값2 ... }, 메인키2: {키2-1:값1, 키2-2:값2 ... }}
    - 메인키(Lv1) => 컬럼명 | 서브키(Lv2) => 로우명
- 데이타프레임변수 = pd.DataFrame(Nested Dictionary)
- 데이타프레임 생성시 메인 키는 컬럼으로 서브키는 행으로 정의

In [84]:
# 이중(중첩)딕셔너리 구조 생성
dictDictList = {'Main1':{'sub1':'value1','sub2':'value2','sub3':'value3'},
                'Main2':{'sub1':'value1','sub2':'value2','sub3':'value3'},
                'Main3':{'sub1':'value1','sub2':'value2','sub3':'value3'}}
print(dictDictList)
df = pd.DataFrame(dictDictList)

print()
print(dictDictList['Main2']['sub3'])

# value data가 없는 경우 => NaN(결측치; Not a Number, null)
df

{'Main1': {'sub1': 'value1', 'sub2': 'value2', 'sub3': 'value3'}, 'Main2': {'sub1': 'value1', 'sub2': 'value2', 'sub3': 'value3'}, 'Main3': {'sub1': 'value1', 'sub2': 'value2', 'sub3': 'value3'}}

value3


Unnamed: 0,Main1,Main2,Main3
sub1,value1,value1,value1
sub2,value2,value2,value2
sub3,value3,value3,value3


## 데이타프레임 생성_03
- 컬럼별 출력 => 시리즈
- 데이타프레임명[컬럼명], 데이타프레임명.컬럼명

In [101]:
# 컬럼 조회
'''
1) 데이터프레임명[컬럼명] => 시리즈
2) 데이터프레임명.컬럼명 => 시리즈
3) 데이터프레임명[[컬럼명리스트...]] => 데이터프레임
4) 데이터프레임명.loc[:, 컬럼명1:컬럼명2] => 데이타프레임 (컬럼위치 연속)
5) 데이터프레임명.iloc[:, 컬럼명1:컬럼명2]
    iloc => index location: 숫자 인덱스로 조회
'''
    
# Main1 컬럼 조회
print(type(df['Main1']), '\n')
print()

<class 'pandas.core.series.Series'> 




In [108]:
print(type(df['Main1']))
df['Main1']

<class 'pandas.core.series.Series'>


sub1    value1
sub2    value2
sub3    value3
Name: Main1, dtype: object

In [106]:
print(type(df.Main1))
df.Main1

<class 'pandas.core.series.Series'>


sub1    value1
sub2    value2
sub3    value3
Name: Main1, dtype: object

In [105]:
print(type(df[['Main1']]))
df[['Main1']]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Main1
sub1,value1
sub2,value2
sub3,value3


In [111]:
print(type(df.loc[:, 'Main1':'Main2']))
df.loc[:, 'Main1':'Main2']

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Main1,Main2
sub1,value1,value1
sub2,value2,value2
sub3,value3,value3


In [116]:
print(type(df.iloc[:, 0:2]))
df.iloc[:, 1:3]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Main2,Main3
sub1,value1,value1
sub2,value2,value2
sub3,value3,value3


In [117]:
# 딕셔너리의 갯수가 틀린 경우
pop = {'Nevada': { 2001:2.4, 2002:2.9 }, 'Ohio': { 2000:1.5, 2001:1.7, 2002:3.6 }}
print('\n', type(pop))
print('\n', pop)

df_pop = pd.DataFrame(pop)
df_pop


 <class 'dict'>

 {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}


Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


## 데이타프레임 생성_03
- 인덱스명, 컬럼명 지정
- pd.DataFrame(데이터 , columns=[컬럼리스트], index=[인덱스리스트])
- columns = [컬럼리스트]
- Index = [인덱스리스트]

In [120]:
'''
데이터프레임 속성
index, columns, shape: 구조 | dypes: 데이터타입
'''

data = {"name":['Elise', 'Julia', 'Jhon', 'Charles', 'Charles'],
        "year":[2014, 2015, 2016, 2017, 2018],
        "points":[1.5, 1.7, 3.6, 2.5, 2.9]}

df = pd.DataFrame(data)

print(df.index)
print(df.columns)

df

RangeIndex(start=0, stop=5, step=1)
Index(['name', 'year', 'points'], dtype='object')


Unnamed: 0,name,year,points
0,Elise,2014,1.5
1,Julia,2015,1.7
2,Jhon,2016,3.6
3,Charles,2017,2.5
4,Charles,2018,2.9


In [122]:
df.index = [f'{i+1}번' for i in range(len(df))]
df

Unnamed: 0,name,year,points
1번,Elise,2014,1.5
2번,Julia,2015,1.7
3번,Jhon,2016,3.6
4번,Charles,2017,2.5
5번,Charles,2018,2.9


In [124]:
df.index = ['1st','2nd','3rd','4th','5th']
df

Unnamed: 0,name,year,points
1st,Elise,2014,1.5
2nd,Julia,2015,1.7
3rd,Jhon,2016,3.6
4th,Charles,2017,2.5
5th,Charles,2018,2.9


In [129]:
# data structure
print(df.shape,'\n')

# data type => 메인키를 시리즈로 받음
print(df.dtypes)

(5, 3) 

name       object
year        int64
points    float64
dtype: object
