# **1. 판다스의 시리즈와 데이터 프레임**
* 판다스(Pandas) : 데이터 프레임 자료구조를 제공하는 파이썬의 핵심 패키지
* 시리즈(Series) : 인덱스와 값이 한 쌍을 이루는 1차원 자료구조

1) 시리즈와 데이터프레임 생성

In [38]:
# 판다스의 Series() 함수에 리스트를 입력하여 리스트 데이터로 시리즈 생성
import pandas as pd                 # 판다스 라이브러리 불러옴, 별칭은 pd
num1 = pd.Series([1, 2, 3, 4])      # Series() 함수를 이용하여 괄호 안에 리스트 데이터를 만든다
print(num1)                         # 인덱스 | 값 형식으로 출력된다 # 기본 인덱스 : 0, 1, 2, 3에 값 1, 2, 3, 4

print()

num2 = pd.Series([1, 2, 3], index = ['a', 'b', 'c'])        # 인덱스 형식을 지정할 수 있음
print(num2)

0    1
1    2
2    3
3    4
dtype: int64

a    1
b    2
c    3
dtype: int64


2) 판다스의 DataFrame() 함수로 데이터프레임 만들기

In [39]:
# 리스트로 데이터프레임 만들기
list1 = list([
    ['홍길동', '남자', '20세', '180'],
    ['김길동', '남자', '21세', '177'],
    ['박길동', '여자', '20세', '160']
])  # 리스트로 변환하여 데이터를 삽입(리스트 안에 리스트)

# 열 이름 리스트 만들기
colNames = ['이름', '성별', '나이', '키(cm)']

# 데이터프레임을 만들어보자
pd.DataFrame(list1, columns = colNames)  # 행 입력 (list1), 열 입력(colNames)   # 행 우선

Unnamed: 0,이름,성별,나이,키(cm)
0,홍길동,남자,20세,180
1,김길동,남자,21세,177
2,박길동,여자,20세,160


In [40]:
# 딕셔너리로 데이터프레임 만들기
# 딕셔너리의 키는 열 이름, 값은 열에 대한 행의 데이터(리스트 형식으로 만들어야 한다)
d1 = {
    '이름' : {0:'홍길동', 1:'김길동', 2:'박길동'}, # 0번지 홍길동, 1번지 김길동, 2번지 박길동
    '성별' : {0:'남자', 1:'남자', 2:'여자'},       # 0번지 남자, 1번지 남자, 2번지 여자
    '나이' : {0:'20세', 1:'21세', 2:'20세'},
    '키'   : {0:'180', 1:'177', 2:'160'}
}   # key : value   --> value는 여러개의 데이터가 있으므로 리스트 형식으로 만든다

pd.DataFrame(d1)    # d1을 데이터프레임으로 만들어라

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,20세,180
1,김길동,남자,21세,177
2,박길동,여자,20세,160


3) 데이터프레임을 만들어 CSV파일로 생성하기

In [41]:
# 데이터프레임을 만들어보자
import pandas as pd     # 판다스 라이브러리 불러오기

# 데이터 생성
list1 = list([
    ['홍길동', '남자', '30', '183'],
    ['지은탁', '여자', '24', '162'],
    ['한서준', '남자', '23', '172'],
    ['이수호', '남자', '21', '182'],
    ['임주경', '여자', '17', '155'],
    ['이두나', '여자', '30', '157'],
    ['강남순', '여자', '24', '157'],
    ['도봉순', '여자', '24', '155']
])  # 행

colNames = ['이름', '성별', '나이', '키']   # 열

# 데이터프레임 생성하여 변수에 저장
df = pd.DataFrame(list1, columns = colNames)
df  # 출력

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


In [42]:
# df 변수에 저장된 데이터를 csv 파일로 만들어 저장하기
df.to_csv('./file.csv', header = True, index = False, encoding = 'utf-8')   # ./ 는 현재파일이란 뜻

In [43]:
# 저장한 csv 파일을 읽어오기
df2 = pd.read_csv('./file.csv', sep =',')  # sep는 구분자, 무엇을 기준으로 읽어올 것인가? --> 쉼표를 기준으로 읽어옴
df2 # 출력

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


In [44]:
# 열 이름 조회하기
df.columns  # df에 저장되어 있는 열 이름

Index(['이름', '성별', '나이', '키'], dtype='object')

In [45]:
# 통계 확인하기
df.describe()   # 열별 값의 개수, 빈도 수와 같은 통계를 확인할 수 있음
# count | 값의 개수
# unique | 유일한 값의 개수(중복 빼고 개수 알려줌) ex) 성별 : 2개
# top | 제일 개수가 많은 값(이름은 0번지가 top이 된다)
# freq | 빈도수

Unnamed: 0,이름,성별,나이,키
count,8,8,8,8
unique,8,2,5,6
top,홍길동,여자,24,155
freq,1,5,3,2


In [46]:
# 데이터 미리보기 (일부분만 보기)
df.head()   # 시작부터 5줄만 보인다(기본 5줄)

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155


In [47]:
df.head(3)

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172


In [48]:
df.tail()   # 마지막 5줄 보기

Unnamed: 0,이름,성별,나이,키
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


## 데이터프레임 데이터 분석

In [49]:
# 정렬
# 인덱스를 기준으로 정렬 sort_index()
df.sort_index(axis = 0).head()  # 5개만 보여줌

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155


In [50]:
# 특정 열을 기준으로 정렬하기
# sort_values() 활용하기
# 나이순으로 정렬하되, 나이가 같으면 키 순으로 정렬하시오.
df.sort_values(by=['나이', '키'], ascending=False)   # by --> (첫번째 기준은 나이, 두번째는 키)
# ascending 의미? --> 내림차순 정렬함 (기본은 오름차순, 아무것도 적지 않았을때)

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
5,이두나,여자,30,157
1,지은탁,여자,24,162
6,강남순,여자,24,157
7,도봉순,여자,24,155
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155


In [51]:
# 데이터 조회하기 (이름과 키만 출력)
df[['이름', '키']]

Unnamed: 0,이름,키
0,홍길동,183
1,지은탁,162
2,한서준,172
3,이수호,182
4,임주경,155
5,이두나,157
6,강남순,157
7,도봉순,155


In [52]:
# iloc 함수를 사용하여 인덱스로 데이터 조회가 가능하다 !
df.iloc[1:4, 0:3]
# iloc[행(1부터 4-1번지까지), 열(0부터 3-1번지까지)]

Unnamed: 0,이름,성별,나이
1,지은탁,여자,24
2,한서준,남자,23
3,이수호,남자,21


In [53]:
# 키가 180보다 큰 사람만 조회하기
df[df['키'] > 180]  # df를 출력한다, 키가 180보다 커야함
# 출력하면? 오류발생! --> 키 열의 데이터는 문자열이다, 숫자와 비교할 수 없음
# 해결방법? --> 키를 정수형으로 입력하라

TypeError: ignored

In [54]:
# 데이터 수정하기, 나이와 키를 정수로 수정하자
import pandas as pd     # 판다스 라이브러리 불러오기

# 데이터 생성
list1 = list([
    ['홍길동', '남자', 30, 183],
    ['지은탁', '여자', 24, 162],
    ['한서준', '남자', 23, 172],
    ['이수호', '남자', 21, 182],
    ['임주경', '여자', 17, 155],
    ['이두나', '여자', 30, 157],
    ['강남순', '여자', 24, 157],
    ['도봉순', '여자', 24, 155]
])  # 행

colNames = ['이름', '성별', '나이', '키']   # 열

# 데이터프레임 생성하여 변수에 저장
df = pd.DataFrame(list1, columns = colNames)
df  # 출력

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


In [55]:
# 키가 180보다 큰 사람만 조회하기
df[df['키'] > 180]  # df를 출력한다, 키가 180보다 커야함

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
3,이수호,남자,21,182


### **조건식에 isin()함수, and기호(&), or기호(|), str.contains()함수를 사용하여 더 복잡한 조건으로도 조회가 가능하다**

In [58]:
# 나이가 21세 또는 23세인 사람을 조회하기 (or)
df[df['나이']. isin([21, 23])]  # 나이를 기준으로 21세 또는 23세를 조회한다

Unnamed: 0,이름,성별,나이,키
2,한서준,남자,23,172
3,이수호,남자,21,182


In [60]:
# 성별이 '여자' 이면서 키가 160보다 큰 사람을 조회하기 (and)
# and => &
df[(df['성별'] == '여자') & (df['키'] > 160)]

Unnamed: 0,이름,성별,나이,키
1,지은탁,여자,24,162


In [64]:
# 나이가 28세 이상이거나 성별이 '남자'인 사람을 조회하기 (or)
# or => |
df[(df['나이'] >= 28) | (df['성별'] == '남자')]

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
2,한서준,남자,23,172
3,이수호,남자,21,182
5,이두나,여자,30,157


In [65]:
# 이름에 '순' 이 들어간 사람을 조회하기
df[df['이름'].str.contains('순')]

Unnamed: 0,이름,성별,나이,키
6,강남순,여자,24,157
7,도봉순,여자,24,155


In [66]:
df.describe()   # 결과가 나이와 키에 대한 통계 출력
# 숫자형 데이터만 통계를 구한다

Unnamed: 0,나이,키
count,8.0,8.0
mean,24.125,165.375
std,4.323937,11.93958
min,17.0,155.0
25%,22.5,156.5
50%,24.0,159.5
75%,25.5,174.5
max,30.0,183.0


In [67]:
df # 원본

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


In [68]:
# 인덱스 변경 (이름으로 변경해보자)
# inplace = True ==> 원본 데이터프레임에 적용하라
df.set_index('이름', inplace=True)

df

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,남자,30,183
지은탁,여자,24,162
한서준,남자,23,172
이수호,남자,21,182
임주경,여자,17,155
이두나,여자,30,157
강남순,여자,24,157
도봉순,여자,24,155


In [69]:
df.head()

Unnamed: 0_level_0,성별,나이,키
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,남자,30,183
지은탁,여자,24,162
한서준,남자,23,172
이수호,남자,21,182
임주경,여자,17,155


In [83]:
# 열을 추가해보자
# ex) 나이에 1000을 곱한 값으로 지정 -- 보너스 열 추가!
df['보너스'] = df['나이'] * 1000

df

Unnamed: 0,index,이름,성별,나이,키,보너스
0,0,홍길동,남자,30,183,30000
1,1,지은탁,여자,24,162,24000
2,2,한서준,남자,23,172,23000
3,3,이수호,남자,21,182,21000
4,4,임주경,여자,17,155,17000
5,5,이두나,여자,30,157,30000
6,6,강남순,여자,24,157,24000
7,7,도봉순,여자,24,155,24000


In [82]:
# 열을 삭제하기
# 첫번째 방법 : drop, 두번째 방법 : del
df.drop('보너스', axis = 1, inplace=True)

In [77]:
df.head()

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155


In [90]:
del df['index']
df.head()

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155


In [89]:
# 원래대로 원본파일 되돌려놓기 (기본 인덱스로 변경)
df.reset_index(inplace=True)

df

Unnamed: 0,index,이름,성별,나이,키
0,0,홍길동,남자,30,183
1,1,지은탁,여자,24,162
2,2,한서준,남자,23,172
3,3,이수호,남자,21,182
4,4,임주경,여자,17,155
5,5,이두나,여자,30,157
6,6,강남순,여자,24,157
7,7,도봉순,여자,24,155


In [91]:
df

Unnamed: 0,이름,성별,나이,키
0,홍길동,남자,30,183
1,지은탁,여자,24,162
2,한서준,남자,23,172
3,이수호,남자,21,182
4,임주경,여자,17,155
5,이두나,여자,30,157
6,강남순,여자,24,157
7,도봉순,여자,24,155


### **성별을 기준으로 조회하여 키의 평균과 표준편자 계산하기**

In [92]:
df.describe()

# 평균 ==> mean(), 표준편차 ==> std()

Unnamed: 0,나이,키
count,8.0,8.0
mean,24.125,165.375
std,4.323937,11.93958
min,17.0,155.0
25%,22.5,156.5
50%,24.0,159.5
75%,25.5,174.5
max,30.0,183.0


In [94]:
# 성별의 평균 키 구하기
# 성별을 기준으로 그룹화하여 그룹별 키의 평균을 계산
mean_by_gender = df.groupby(by=['성별'], as_index = False)['키'].mean()  # mean() -> 평균
# 변수를 만든다, df 데이터 가지고 성별 기준으로 그룹화 시킨 것을 변수에 저장
# index = False => 데이터프레임으로 출력된다

# 열 이름 바꾸기
mean_by_gender.rename(columns={'키':'평균키'}, inplace=True)    # 키 라는 열 이름을 평균키라는 열 이름으로 바꿈

mean_by_gender

Unnamed: 0,성별,평균키
0,남자,179.0
1,여자,157.2


In [96]:
# 성별의 키의 표준편차
std_by_gender = df.groupby(by=['성별'], as_index = False)['키'].std() # 먼저 그룹으로 만들어 변수에 저장한다
std_by_gender.rename(columns={'키':'표준편차 키'}, inplace=True)   # 키 라는 열 이름을 표준편차 키라는 열 이름으로 바꿈

std_by_gender

Unnamed: 0,성별,표준편차 키
0,남자,6.082763
1,여자,2.863564


In [97]:
# 두 데이터프레임 합치기    (성별이라는 기준이 똑같음)
new_df = pd.merge(mean_by_gender, std_by_gender)    # 두 데이터프레임을 합쳐서 변수에 저장함

new_df

Unnamed: 0,성별,평균키,표준편차 키
0,남자,179.0,6.082763
1,여자,157.2,2.863564


## **연습문제) 시간표 분석**

In [98]:
# 열 이름과 시간표 데이터를 리스트로 저장
colNames = ['과목번호','과목명','강의실','시간수']  # 행
list1 = list([
    ['C1', '파이썬', '303호', 3],
    ['C2', '국어', '201호', 3],
    ['C3', '영어', '203호', 3],
    ['C4', '한국사', '201호', 2],
    ['C5', '과학', '401호', 3],
    ['C6', '사회', '201호', 2]
])  # 열

In [99]:
# <시간표 데이터를 데이터프레임 객체 df로 변환하여 CSV 파일로 저장하기>
import pandas as pd

timeTable_df = pd.DataFrame(list1, columns = colNames)  # 데이터프레임으로 변환하여 변수에 저장
timeTable_df.to_csv('./timeTable.csv', header = True, index = False, encoding = 'utf-8')   # CSV 파일로 만들어서 저장하기

In [100]:
# CSV 파일을 읽어와서 출력하기
timeTable_df = pd.read_csv('./timeTable.csv', sep = ',')    # 판다스를 이용하여 파일을 읽어온다, 쉼표로 구분하여 읽음
timeTable_df

Unnamed: 0,과목번호,과목명,강의실,시간수
0,C1,파이썬,303호,3
1,C2,국어,201호,3
2,C3,영어,203호,3
3,C4,한국사,201호,2
4,C5,과학,401호,3
5,C6,사회,201호,2


In [103]:
# 열 이름 '담당 교사' 추가
# 값 ==> '이순신', '김유신', '강감찬', '신사임당', '정약용', '허준'
timeTable_df['담당교사'] = ['이순신', '김유신', '강감찬', '신사임당', '정약용', '허준']
timeTable_df

Unnamed: 0,과목번호,과목명,강의실,시간수,담당교사
0,C1,파이썬,303호,3,이순신
1,C2,국어,201호,3,김유신
2,C3,영어,203호,3,강감찬
3,C4,한국사,201호,2,신사임당
4,C5,과학,401호,3,정약용
5,C6,사회,201호,2,허준


In [104]:
# 강의실 별 최대 시간 구하기
timeTable_df.describe()

Unnamed: 0,시간수
count,6.0
mean,2.666667
std,0.516398
min,2.0
25%,2.25
50%,3.0
75%,3.0
max,3.0


In [105]:
from types import MappingProxyType
# 성별의 키의 표준편차
max_hour = timeTable_df.groupby(by=['강의실'], as_index = False)['시간수'].max() # 먼저 그룹으로 만들어 변수에 저장한다
max_hour

Unnamed: 0,강의실,시간수
0,201호,3
1,203호,3
2,303호,3
3,401호,3
