#### 판다스

<br>https://pandas.pydata.org/docs/index.html

* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열
<br> - 여러 시리즈가 모여서 데이터 프레임이 됨
<br> - 여러가지 데이터(리스트, 딕셔너리, 튜플 등)를 판다스에서 이용하기 위해서는 시리즈나 데이터프레임 형태로 바꿔줘야 함. 
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 
<br> - 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)
 
 

In [7]:
# 딕셔너리 -> 시리즈


import pandas as pd                # 판다스 라이브러리를 pd라는 이름으로 가져올게요

dict_data = {'a':1, 'b':2, 'c':3}           # 딕셔너리 데이터로 가져올게요

sr = pd.Series(dict_data)                   # 위의 데이터를 시리즈로 바꾼다.
print(sr,type(sr))                          # 키가 인덱스로 들어가고 값은 값으로

# sr은 객체인데 타입 함수에 객체를 넣어주면 그 객체를 만들어준 타입이 나옴.
# 그래서 판다스라는 패키지에 있는 클래스가 되는 것. 

a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>


In [8]:
# 리스트 -> 시리즈


list_data = ['2019-07-02', 3.14, 'ABC', 100, True]

sr = pd.Series(list_data)
print(sr)

# 딕셔너리는 키, 벨류 형태라 키가 인덱스가 되었는데 리스트는 별도의 키 값이 없고 인덱스가 안에 자동으로 있는 것. 
# 그런데 이 기본 인덱스가 아닌 특정 인덱스를 주고 싶다면

sr = pd.Series(list_data, index = list('abcde'))
# sr = pd.Series(list_data, index = ['a', 'b', 'c' ,'d' ,'e'])
# 인덱스와 값이 일대일 대응이 되는 것
print(sr,type(sr))

0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object
a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object <class 'pandas.core.series.Series'>


In [9]:
# 인덱스 뽑는 방법

print(sr[0])
print(sr['a'])

2019-07-02
2019-07-02


In [10]:
# 튜플 -> 시리즈

tup_data = ('kevin','2019-07-02','남',True)

sr = pd.Series(tup_data)
print(sr)

sr = pd.Series(tup_data,index = ['이름','생년월일','성별','학생여부'])
sr

0         kevin
1    2019-07-02
2             남
3          True
dtype: object


이름           kevin
생년월일    2019-07-02
성별               남
학생여부          True
dtype: object

In [11]:
# 인덱스 뽑는 방법

print(sr[0])
print(sr['이름'])

kevin
kevin


In [12]:
# 인덱스 및 값

idx = sr.index
print(idx)

val = sr.values
print(val)

Index(['이름', '생년월일', '성별', '학생여부'], dtype='object')
['kevin' '2019-07-02' '남' True]


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
<br> - 언어에 대한 부담이 적고 쉽게 할 수 있고 여러가지 라이브러리를 제공하는 R. 
<br> - 그러나 한계가 있음. 프로그램 언어가 아닌 패키지이기 때문에, 요즘에는 파이썬을 주로 사용
<br>
* 데이터프레임의 열은 각각 시리즈 개체
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
<br> - 하나의 칼럼이 있는 걸 열 벡터라고 함
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음

In [88]:
import numpy as np
np.random.seed(0)
data = np.random.randint(100,120, size=(3,3))

df = pd.DataFrame(data,index=['태현','서진','동완'],
                 columns = ['몸무게', '식사량','운동량'])

df


# 식사량, 운동량의 변수로 몸무게를 예측
# 데이터프레임의 기본적인 형태
# 관측치의 수, 지금은 3개인데 백개, 만개가 있을텐데 만개까지 관측한게 예측성이 더 늘어날 것.
# 행위라는 것은 관측치, 데이터의 개수를 의미. 
# 열(칼럼), 영향을 많이 주는 요인들. 이를 뽑는 것이 머신러닝에서 핵심임. 
# 네이블 값과 열(칼럼) 간의 상관성을 보고 분별하는게 중요. 
# 그래서 영양가가 많은 칼럼들은 최대한 개발해서 넣고 영양가가 없는 건 빼줘야 좋은 데이터

Unnamed: 0,몸무게,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


#### 데이터프레임에서 인덱스

pandas indexing : iloc 정수 인덱스, loc 이름 인덱스

In [81]:
print(df.iloc[1])

몸무게    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [82]:
print(df.loc['서진'])

몸무게    103
식사량    103
운동량    107
Name: 서진, dtype: int32


In [86]:
df_org = df.copy()
df_org

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [89]:
# Q. iloc, loc를 사용하여 107을 출력하세요.

print(df.iloc[1,2])
print(df.loc["서진","운동량"])

107
107


In [92]:
# 하나의 값 변경

df.iloc[0,0] = 85
df

Unnamed: 0,몸무게,식사량,운동량
태현,85,115,100
서진,103,103,107
동완,109,119,118


In [94]:
# 행별로 값 변경
df.iloc[0] = [60,3,2]
df.loc["서진"] = [80,3,5]
df.loc["동완"]=[68,3,2]
df

Unnamed: 0,몸무게,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2


In [95]:
# Q. 행 2, 열 2 추가해서 데이터를 삽입하세요.
df.loc['예슬'] = 0
df

Unnamed: 0,몸무게,식사량,운동량
태현,60,3,2
서진,80,3,5
동완,68,3,2
예슬,0,0,0


In [96]:
# df.loc[:,'수면시간']
df['수면시간'] = 0
df

Unnamed: 0,몸무게,식사량,운동량,수면시간
태현,60,3,2,0
서진,80,3,5,0
동완,68,3,2,0
예슬,0,0,0,0


In [21]:
df.loc[:,'간식횟수'] = 0           # 행의 전체 범위에서 열에 간식횟수
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60,3,2,0,0
서진,80,3,5,0,0
동완,68,3,2,0,0
예슬,0,0,0,0,0


In [22]:
df.loc['용훈',:] = 0
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,0.0,0.0,0.0,0.0,0.0
용훈,0.0,0.0,0.0,0.0,0.0


In [23]:
df.iloc[3] =df.iloc[2]          # 같은 값들을 써도 되겠다. 비어있는 데이터 = 복사할 데이터
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,0.0,0.0,0.0,0.0,0.0


In [24]:

df.iloc[4] =df.iloc[0]          # 같은 값들을 써도 되겠다. 비어있는 데이터 = 복사할 데이터
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,0.0,0.0
서진,80.0,3.0,5.0,0.0,0.0
동완,68.0,3.0,2.0,0.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [25]:
df.iloc[:3,3] = 7               # 앞 3개의 행이 수면시간이 같을 때
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,0.0
서진,80.0,3.0,5.0,7.0,0.0
동완,68.0,3.0,2.0,7.0,0.0
예슬,68.0,3.0,2.0,0.0,0.0
용훈,60.0,3.0,2.0,0.0,0.0


In [26]:
df.iloc[3:,3] = 5
df.iloc[:,4] = 3
df

Unnamed: 0,몸무게,식사량,운동량,수면시간,간식횟수
태현,60.0,3.0,2.0,7.0,3
서진,80.0,3.0,5.0,7.0,3
동완,68.0,3.0,2.0,7.0,3
예슬,68.0,3.0,2.0,5.0,3
용훈,60.0,3.0,2.0,5.0,3


In [97]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [98]:
df.loc['주경'] = 0
df.loc['인혁'] = 0

df['공부시간'] = 0
df['멍 때리는 시간'] = 0

df.iloc[:3, 3] = 8
df.iloc[:3, 4] = 3

df.loc['주경'] = df.loc['태현']

df.loc['인혁'] = [100,85,90,17,5]

df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간),공부시간,멍 때리는 시간
서진,112,115.0,100,8,3
태현,103,117.0,107,8,3
동완,109,119.0,118,8,3
주경,103,117.0,107,8,3
인혁,100,85.0,90,17,5


In [99]:
import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data,'\n')
data1 = data.drop('column2',axis=1)
print(data1,'\n')
print(data)

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9 

   column1  column3
0        1        7
1        2        8
2        3        9 

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


In [100]:
# 열삭제

import pandas as pd

data = pd.DataFrame({'column1': [1, 2, 3],
                   'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})
print(data)
data.drop('column2',axis=1,inplace=True) # 원본에서 삭제
data

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


Unnamed: 0,column1,column3
0,1,7
1,2,8
2,3,9


In [101]:
# 행삭제
data.drop(0,axis=0,inplace=True)
data

Unnamed: 0,column1,column3
1,2,8
2,3,9


In [102]:
df = df_org.copy()
df

Unnamed: 0,몸무개,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [103]:
df.columns

Index(['몸무개', '식사량(끼니)', '운동량(시간)'], dtype='object')

In [104]:
# 컬럼명 변경
df.columns = ["몸무게","식사량(끼니)","운동량(시간)"]
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [105]:
df.iloc[1,1] = np.nan
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,,107
동완,109,119.0,118


In [106]:
# null값 있는지 확인, 개수 구하기
df.isnull().sum().sum()

1

In [108]:
# 각 열의 평균
df.mean(axis=0)

몸무게        108.000000
식사량(끼니)    117.000000
운동량(시간)    108.333333
dtype: float64

In [109]:
# 평균값 대체
df.iloc[1,1] = 117
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간)
서진,112,115.0,100
태현,103,117.0,107
동완,109,119.0,118


In [37]:
# 2차원 리스트를 데이터프레임으로 변환

import numpy as np
a = np.random.randint(1,5,size=(10,5))         # 1~4까지 10행 5열을 랜덤으로 정수로 뽑아주세요
print(a,type(a))                               # <class 'numpy.ndarray'> 배열

[[1 3 2 2 4]
 [3 1 1 4 3]
 [1 1 2 3 1]
 [4 2 1 1 4]
 [2 2 3 2 2]
 [2 2 2 4 3]
 [4 1 1 4 4]
 [1 4 1 1 1]
 [3 3 4 4 1]
 [4 2 2 3 1]] <class 'numpy.ndarray'>


In [14]:
import pandas as pd

df_a = pd.DataFrame(a,
                   columns = ["국어", "영어","수학","과학","사회"],    # 상황에 맞게 칼럼을 정해주면 좋음
                   index = ['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'])
df_a

Unnamed: 0,국어,영어,수학,과학,사회
s1,1,2,2,1,3
s2,3,1,2,2,1
s3,1,4,2,1,2
s4,4,1,3,3,2
s5,2,2,1,3,1
s6,2,2,4,4,1
s7,1,1,1,4,1
s8,3,1,1,4,1
s9,4,2,3,4,3
s10,3,3,4,3,2


#### Q. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요
- S1~S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [6]:
# S1~S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급 간 점수 차는 5점
 # 일단 점수들을 5점씩 차이나게 설정
    
for i in range(10):      # 10 개를 뽑는데
    df_a.iloc[i] = 90 - i*5
df_a
    

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,90,90,90,90
s2,85,85,85,85,85
s3,80,80,80,80,80
s4,75,75,75,75,75
s5,70,70,70,70,70
s6,65,65,65,65,65
s7,60,60,60,60,60
s8,55,55,55,55,55
s9,50,50,50,50,50
s10,45,45,45,45,45


In [7]:
# 영어, 수학의 평균 점수가 국어 대비 5점 낮음

for i in range(10):      #10 개를 뽑는데
    df_a.iloc[i,1:3] = df_a.iloc[i,0] - 5     # 국어 점수를 기준으로 영어, 수학을 5점 낮게 바꿈
df_a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90,85,85,90,90
s2,85,80,80,85,85
s3,80,75,75,80,80
s4,75,70,70,75,75
s5,70,65,65,70,70
s6,65,60,60,65,65
s7,60,55,55,60,60
s8,55,50,50,55,55
s9,50,45,45,50,50
s10,45,40,40,45,45


In [9]:
# 결시자가 국어 3명, 수학 2명 있음

df_a.iloc[7:,0] = np.nan            # 결시자는 맨 마지막에 적혀있기 때문에
df_a.iloc[8:,2] = np.nan 
df_a

Unnamed: 0,국어,영어,수학,과학,사회
s1,90.0,85,85.0,90,90
s2,85.0,80,80.0,85,85
s3,80.0,75,75.0,80,80
s4,75.0,70,70.0,75,75
s5,70.0,65,65.0,70,70
s6,65.0,60,60.0,65,65
s7,60.0,55,55.0,60,60
s8,,50,50.0,55,55
s9,,45,,50,50
s10,,40,,45,45


In [10]:
df_a["평균"] =(df_a["국어"] + df_a["영어"] + df_a["수학"] + df_a["과학"] + df_a["사회"])/5
df_a

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,85.0,80,80.0,85,85,83.0
s3,80.0,75,75.0,80,80,78.0
s4,75.0,70,70.0,75,75,73.0
s5,70.0,65,65.0,70,70,68.0
s6,65.0,60,60.0,65,65,63.0
s7,60.0,55,55.0,60,60,58.0
s8,,50,50.0,55,55,
s9,,45,,50,50,
s10,,40,,45,45,


### 3월 23일  학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요
- S1~S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
- 결시자가 국어 3명, 수학 2명 있음
- 영어, 수학의 평균 점수가 국어 대비 5점 낮음

In [38]:
# 다시 풀어보기

import pandas as pd

df_b = pd.DataFrame(a,
                   columns = ["국어", "영어","수학","과학","사회"],    # 상황에 맞게 칼럼을 정해주면 좋음
                   index = ['s1','s2','s3','s4','s5','s6','s7','s8','s9','s10'])
df_b

Unnamed: 0,국어,영어,수학,과학,사회
s1,1,3,2,2,4
s2,3,1,1,4,3
s3,1,1,2,3,1
s4,4,2,1,1,4
s5,2,2,3,2,2
s6,2,2,2,4,3
s7,4,1,1,4,4
s8,1,4,1,1,1
s9,3,3,4,4,1
s10,4,2,2,3,1


In [39]:
# iloc[행,열]


for i in range(10):
    df_b.iloc[i] = 90 - i * 5
    
################################## 5점씩 차이나게 설정

    df_b.iloc[i,1:3] =  df_b.iloc[i,0] - 5
    
################################## 영어, 수학의 평균 점수가 국어 대비 5점 낮음

    df_b.iloc[7:,0] = np.nan
    df_b.iloc[8:,2] = np.nan
    
################################## 결시자가 국어3명 수학 2명 있음

    df_b["평균"] = (df_b["국어"]+df_b["영어"]+df_b["수학"]+df_b["과학"]+df_b["사회"])/5
    
    # NaN 있을 때는 mean() 함수로 평균값 계산
    
################################### 평균
df_b

Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90,90,88.0
s2,85.0,80,80.0,85,85,83.0
s3,80.0,75,75.0,80,80,78.0
s4,75.0,70,70.0,75,75,73.0
s5,70.0,65,65.0,70,70,68.0
s6,65.0,60,60.0,65,65,63.0
s7,60.0,55,55.0,60,60,58.0
s8,,50,50.0,55,55,
s9,,45,,50,50,
s10,,40,,45,45,


#### 과제2 아래 데이터를 보완하여 10명의 나이, 키, 식사횟수, 수면시간, 몸무게를 포함하는 데이터프레임을 작성하세요.
- 행인덱스의 이름을 한글이름으로 변경
- 칼럼 이름은 문제에서 주어진 순서를 준수할 것.

https://blog.naver.com/PostView.nhn?blogId=gdpresent&logNo=221664079097&from=search&redirect=Log&widgetTypeCall=true&directAccess=false

In [27]:
import pandas as pd

df_c = pd.DataFrame(index = ['a','b','c','d','e'],
                   columns = ['나이', '키', '몸무게'])
# df_c.loc[:] = [[20, 170, 40], [25,180,80], [27,175,50], [23,160,50]]
df_c.loc['a'] = [20, 170, 63]
df_c.loc['b'] = [25, 173, 60]
df_c.loc['c'] = [23, 180, 80]
df_c.loc['d'] = [24, 165, 50]
df_c.loc['e'] = [28, 190, 95]
df_c

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [28]:
df_c.loc[:,'식사횟수'] = 0
df_c.loc[:,'수면시간'] = 0


   # 행index 이름 변경       rename(하나만 바꾸고싶거나, 행, 열 둘 다 바꾸고 싶을 때 딕셔너리 형식으로 바꾸기)
df_c.rename(index={'a':'영희','b':'철수','c':'민호','d':'주은','e':'대현'}, inplace = True)

# df_c.index = ['영희','철수','민호','주은','대현']

  # 데이터 입력      [행, 열]
df_c.loc['영희','식사횟수':'수면시간'] = [3,6]               # 다 입력해야하나? 적힌 데이터는 안 건드리고 나머지 데이터를 입력하는 방법????
df_c.loc['철수','식사횟수':'수면시간'] = [2,5]
df_c.loc['민호','식사횟수':'수면시간'] = [4,6]
df_c.loc['주은','식사횟수':'수면시간'] = [2,7]
df_c.loc['대현','식사횟수':'수면시간'] = [5,6]
df_c.loc['희영'] = [28, 165, 60, 3, 6]
df_c.loc['수철'] = df_c.loc['대현']
df_c.loc['호민'] = [30,185,70,2,7]
df_c.loc['기현'] = [27,170,68,3,7]
df_c.loc['은주'] = [25,160,50,2,6]

   # 열columns 순서 변경    reindex()

df_c.reindex(columns=['나이','키','식사횟수','수면시간','몸무게'])



Unnamed: 0,나이,키,식사횟수,수면시간,몸무게
영희,20,170,3,6,63
철수,25,173,2,5,60
민호,23,180,4,6,80
주은,24,165,2,7,50
대현,28,190,5,6,95
희영,28,165,3,6,60
수철,28,190,5,6,95
호민,30,185,2,7,70
기현,27,170,3,7,68
은주,25,160,2,6,50


#### 과제3 생성된 데이터프레임에서 아래 사항을 수행하세요.

- 열이름과 행이름 변경
- 3행만 출력
- 5열만 출력
- 3행 5열의 값 출력
- 4열의 값을 모두 0으로 변경
- 2,3행의 3열 값을 조회(2가지 방법)
- 6행의 2,3,4열의 값을 조회(2가지 방법)
- 2열을 Series와 DataFrame으로 각각 출력
- 2행 3열의 값을 2행 4열의 값과 동일하게 변경
- 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [46]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df


Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


In [67]:
#열이름과 행이름 변경

df.index = ["익명1","익명2","익명3","익명4","익명5","익명6","익명7","익명8"]
df.columns = ['짜장면','짬뽕','탕수육','깐쇼새우','중화비빔밥']
        
df

Unnamed: 0,짜장면,짬뽕,탕수육,깐쇼새우,중화비빔밥
익명1,92,74,53,0,50
익명2,71,69,60,0,0
익명3,60,71,88,0,70
익명4,94,79,89,0,76
익명5,67,76,72,0,52
익명6,51,76,55,0,96
익명7,83,79,92,0,57
익명8,93,83,65,0,87


In [48]:
# 3행 익명3만 출력
print(df.loc["익명3"])      # 대괄호 [] 1개로 해당 column의 이름을 지정해주시면 Series 형태로 열 추출이 됩니다.
df.loc[["익명3"]]       # 대괄호 2개로 column 이름을 감싸주면 DataFrame 형태로 추출된 결과가 반환됩니다.

짬뽕       60
짜장면      71
중화비빔밥    88
깐쇼새우     82
탕수육      70
Name: 익명3, dtype: int32


Unnamed: 0,짬뽕,짜장면,중화비빔밥,깐쇼새우,탕수육
익명3,60,71,88,82,70


In [49]:
# 5열만 출력
df[["중화비빔밥"]]

Unnamed: 0,중화비빔밥
익명1,53
익명2,60
익명3,88
익명4,89
익명5,72
익명6,55
익명7,92
익명8,65


In [50]:
# 3행 5열의 값 출력

df.loc["익명3","중화비빔밥"]

88

In [51]:
# 4열의 값을 모두 0으로 변경

df.iloc[:,3] = 0
df

Unnamed: 0,짬뽕,짜장면,중화비빔밥,깐쇼새우,탕수육
익명1,92,74,53,0,50
익명2,71,69,60,0,91
익명3,60,71,88,0,70
익명4,94,79,89,0,76
익명5,67,76,72,0,52
익명6,51,76,55,0,96
익명7,83,79,92,0,57
익명8,93,83,65,0,87


In [63]:
# 2,3행의 3열 값을 조회(2가지 방법)

# 1) 숫자
print(df.iloc[1:3,2])

# 2) 문자
df.loc["익명2":"익명3","중화비빔밥"]   


익명2    60
익명3    88
Name: 중화비빔밥, dtype: int32


익명2    60
익명3    88
Name: 중화비빔밥, dtype: int32

In [64]:
# 6행의 2,3,4열의 값을 조회(2가지 방법)

# 1) 숫자
print(df.iloc[5,1:4])

# 2) 문자
df.loc["익명6","짜장면":"깐쇼새우"]


짜장면      76
중화비빔밥    55
깐쇼새우      0
Name: 익명6, dtype: int64


짜장면      76
중화비빔밥    55
깐쇼새우      0
Name: 익명6, dtype: int64

In [66]:
# 2열을 Series와 DataFrame으로 각각 출력

print(df.iloc[:,1])

df[["짜장면"]]
# df.loc[:,2:2]      칼럼이 있고 없고의 차이



익명1    74
익명2    69
익명3    71
익명4    79
익명5    76
익명6    76
익명7    79
익명8    83
Name: 짜장면, dtype: int32


Unnamed: 0,짜장면
익명1,74
익명2,69
익명3,71
익명4,79
익명5,76
익명6,76
익명7,79
익명8,83


In [54]:
# 2행 3열의 값을 2행 4열의 값과 동일하게 변경

df.loc["익명2","탕수육"] = df.loc["익명2","깐쇼새우"]
df

Unnamed: 0,짬뽕,짜장면,중화비빔밥,깐쇼새우,탕수육
익명1,92,74,53,0,50
익명2,71,69,60,0,0
익명3,60,71,88,0,70
익명4,94,79,89,0,76
익명5,67,76,72,0,52
익명6,51,76,55,0,96
익명7,83,79,92,0,57
익명8,93,83,65,0,87


In [None]:
# 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [2]:
# Q. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요.
# 배열
import numpy as np

np.random.seed(0)
data = np.random.randint(80,100,size=(5,5))
print(data,type(data))

[[92 95 80 83 83]
 [87 89 99 98 84]
 [86 92 81 86 87]
 [94 97 85 93 88]
 [89 99 96 99 85]] <class 'numpy.ndarray'>


In [5]:
import pandas as pd
df_ar = pd.DataFrame(data,columns=list('abcde'),index=list('가나다라마'))
df_ar

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [6]:
# 리스트
data_list = data.tolist()
print(data_list,type(data_list))

[[92, 95, 80, 83, 83], [87, 89, 99, 98, 84], [86, 92, 81, 86, 87], [94, 97, 85, 93, 88], [89, 99, 96, 99, 85]] <class 'list'>


In [7]:
df_list = pd.DataFrame(data_list,columns=list('abcde'),index=list('가나다라마'))
df_list

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [8]:
# 사전
dict_data = {'a':[92, 95, 80, 83, 83], 'b':[87, 89, 99, 98, 84], 'c':[86, 92, 81, 86, 87], \
             'd':[94, 97, 85, 93, 88], 'e':[89, 99, 96, 99, 85]}
print(dict_data,type(dict_data))

{'a': [92, 95, 80, 83, 83], 'b': [87, 89, 99, 98, 84], 'c': [86, 92, 81, 86, 87], 'd': [94, 97, 85, 93, 88], 'e': [89, 99, 96, 99, 85]} <class 'dict'>


In [9]:
df_dict = pd.DataFrame(dict_data,index=list('가나다라마'))
df_dict

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [10]:
df = df_dict.copy()
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [11]:
# df - > 배열
ar = df.values
print(ar, type(ar))

[[92 87 86 94 89]
 [95 89 92 97 99]
 [80 99 81 85 96]
 [83 98 86 93 99]
 [83 84 87 88 85]] <class 'numpy.ndarray'>


In [12]:
# df -> 리스트
li = df.values.tolist()
print(li,type(li))

[[92, 87, 86, 94, 89], [95, 89, 92, 97, 99], [80, 99, 81, 85, 96], [83, 98, 86, 93, 99], [83, 84, 87, 88, 85]] <class 'list'>


In [13]:
# df -> 사전
df.to_dict()

{'a': {'가': 92, '나': 95, '다': 80, '라': 83, '마': 83},
 'b': {'가': 87, '나': 89, '다': 99, '라': 98, '마': 84},
 'c': {'가': 86, '나': 92, '다': 81, '라': 86, '마': 87},
 'd': {'가': 94, '나': 97, '다': 85, '라': 93, '마': 88},
 'e': {'가': 89, '나': 99, '다': 96, '라': 99, '마': 85}}

In [14]:
# 값을 리스트 형태로 반환
df.to_dict('list')

{'a': [92, 95, 80, 83, 83],
 'b': [87, 89, 99, 98, 84],
 'c': [86, 92, 81, 86, 87],
 'd': [94, 97, 85, 93, 88],
 'e': [89, 99, 96, 99, 85]}

### 인덱스 처리 함수
- set_index()
- reset_index()
- reindex()
- rename()

In [15]:
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [16]:
df1 = df.reset_index()
df1

Unnamed: 0,index,a,b,c,d,e
0,가,92,87,86,94,89
1,나,95,89,92,97,99
2,다,80,99,81,85,96
3,라,83,98,86,93,99
4,마,83,84,87,88,85


In [18]:
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [19]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,87,86,94,89
1,나,95,89,92,97,99
2,다,80,99,81,85,96
3,라,83,98,86,93,99
4,마,83,84,87,88,85


In [20]:
new_index = ['나','다','라','마','가','바']
df4 = df2.reindex(new_index,fill_value=0)
df4

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85
가,92,87,86,94,89
바,0,0,0,0,0


In [21]:
new_columns = list('bcdea')
df5 = df4.reindex(columns=new_columns)
df5

Unnamed: 0_level_0,b,c,d,e,a
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나,89,92,97,99,95
다,99,81,85,96,80
라,98,86,93,99,83
마,84,87,88,85,83
가,87,86,94,89,92
바,0,0,0,0,0


#### [과제] 아래 2차원 배열로 데이터 프레임을 만들고 아래사항을 수행하세요.
- 행인덱스를 한글이름으로, 컬럼이름을 교과목으로 지정하세요.
- 행인덱스를 정수형 인덱스로 변환하세요
- 행이름의 순서를 반대로 바꾸어 출력하세요.
- 컬럼이름의 순서를 반대로 바꾸어 출력하세요.
- 한국사 이름을 역사로 변경하세요

In [23]:
import pandas as pd
import numpy as np

np.random.seed(0)
score = np.random.randint(50,101, size = (10,10))
SD = pd.DataFrame(score,index = ["동완","날두","메시","모드리치","페르난데스",
                              "포그바","스털링","음바페","손흥민","차붐"],
              columns=["한국사","국어","영어","수학","사회","화학","생명과학","물리",
                      "지구과학","예체능"])
SD

Unnamed: 0,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
동완,94,97,50,53,53,89,59,69,71,100
날두,86,73,56,74,74,62,51,88,89,73
메시,96,74,67,87,75,63,58,59,70,66
모드리치,55,65,97,50,68,85,74,99,79,69
페르난데스,69,64,89,82,51,59,82,81,60,73
포그바,85,61,100,78,84,50,50,86,55,88
스털링,90,67,65,54,91,92,81,51,51,89
음바페,91,85,88,61,96,68,77,50,64,85
손흥민,62,92,70,61,54,56,54,97,53,62
차붐,86,90,64,65,70,85,73,65,63,71


In [27]:
# 행인덱스를 정수형 인덱스로 변환하세요
SD1 = SD.reset_index()
SD1

Unnamed: 0,index,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
0,동완,94,97,50,53,53,89,59,69,71,100
1,날두,86,73,56,74,74,62,51,88,89,73
2,메시,96,74,67,87,75,63,58,59,70,66
3,모드리치,55,65,97,50,68,85,74,99,79,69
4,페르난데스,69,64,89,82,51,59,82,81,60,73
5,포그바,85,61,100,78,84,50,50,86,55,88
6,스털링,90,67,65,54,91,92,81,51,51,89
7,음바페,91,85,88,61,96,68,77,50,64,85
8,손흥민,62,92,70,61,54,56,54,97,53,62
9,차붐,86,90,64,65,70,85,73,65,63,71


In [37]:
# 행이름의 순서를 반대로 바꾸어 출력하세요.
SD1.index(::-1)

SyntaxError: invalid syntax (3655442044.py, line 2)