#### 판다스

https://pandas.pydata.org/docs/index.html

* 데이터 처리를 위한 라이브러리
* 판다스는 구조화된 데이터 형식을 제공. 시리즈는 1차원 배열, 데이터프레임은 2차원 배열 (시리즈를 모아 놓은 것 -> 데이터 프레임)
* 라이브러리는 여러 종류의 class와 다양한 내장 함수로 구성. 시리즈와 데이터프레임은 대표적인 클래스 객체임
* 시리즈 인덱스는 데이터 값과 일대일 대응. 파이썬 딕셔너리와 비슷한 구조. pandas.Series(딕셔너리)

- Contents
 - Series(변환, 인덱스 구조, 원소 선택)
 - DataFrame(변환, 행인덱스/열이름 지정, 삭제,선택,추가, 변경, 전치, 인덱스 활용)

#### 용어
- 열 = column = 시리즈
- 행 = row
- 식별자 - 이름, 나이 등
- 인덱스
각각의 행(row)과 열(column)을 식별하는 번호 또는 이름입니다.
인덱스를 사용하면 데이터를 쉽게 찾고 정렬할 수 있습니다.
- 1차원 배열
    - 하나의 행 또는 열로 이루어진 선형적인 구조입니다.
    - 1차원 배열은 데이터 요소들이 선형적으로 배열되어 있기 때문에 인덱스(index)를 사용하여 각 요소에 쉽게 접근할 수 있습니다.
    - 1차원 배열은 데이터를 일렬로 저장할 때 자주 사용되며,
    - 파이썬에서는 리스트(list)를 사용하여 1차원 배열을 구현할 수 있습니다.

- 표
    - 행과 열은 표 형식의 데이터에서 매우 중요한 개념입니다.
    - 표는 행과 열의 조합으로 이루어진 2차원 배열 형태로 데이터를 저장하며, 각 행과 열은 고유한 식별자를 가집니다.
    - 이를 통해 데이터를 쉽게 찾고 정렬할 수 있습니다.

# Dictionary -> Series
# key:value가 1:1 대응인 것처럼, key가 index, value가 값으로 1:1대응함
# 시리즈에서의 인덱스 = 행 인덱스(row index)

import pandas as pd

dict_data = {'a':1, 'b':2, 'c':3}

sr = pd.Series(dict_data)
print(sr, type(sr))

# key가 index로 들어감
# Series()는 class임(pandas package에 있는)

In [None]:
# List - Series
# 인덱스와 값이 1:1 대응

list_data = ['2019-07-02', 3.14, 'ABC', 100, True]

sr = pd.Series(list_data)
sr


0    2019-07-02
1          3.14
2           ABC
3           100
4          True
dtype: object

In [None]:
sr[0]

'2019-07-02'

In [None]:
idx = sr.index
print(list(idx))
print(type(idx))


[0, 1, 2, 3, 4]
<class 'pandas.core.indexes.range.RangeIndex'>


In [None]:
# List - Series (특정 인덱스 주고 싶을 때)

list_data = ['2019-07-02', 3.14, 'ABC', 100, True]

# sr = pd.Series(list_data, index = list('abcde'))
sr = pd.Series(list_data, index = ['a','b','c','d','e'])
sr


a    2019-07-02
b          3.14
c           ABC
d           100
e          True
dtype: object

In [None]:
# Tuple -> Series
# 인덱스와 값이 1:1 대응

tup_data = ('kevin', '2019-07-02', '남', True)

# sr = pd.Series(tup_data)
sr = pd.Series(tup_data, index = ['이름', '생년월일', '성별', '학생'])
sr

이름           kevin
생년월일    2019-07-02
성별               남
학생            True
dtype: object

In [None]:
# 기본 인덱스를 포함하고 있기 때문에 이렇게 나오는 것임

print(sr[1])
print(sr['생년월일'])

2019-07-02
2019-07-02


In [None]:
# 인덱스 값

idx = sr.index
print(idx)
val = sr.values
print(val, type(val))

Index(['이름', '생년월일', '성별', '학생'], dtype='object')
['kevin' '2019-07-02' '남' True] <class 'numpy.ndarray'>


#### 데이터프레임
* 데이터프레임은 2차원 배열. R의 데이터프레임에서 유래.
* 데이터프레임의 열은 각각 시리즈 개체. 
* 시리즈를 열벡터라고 하면 데이터프레임은 여러개의 열벡터들이 같은 행 인덱스를
  기준으로 줄지어 결합된 2차원 벡터 또는 행렬.
* 선형대수학에서 열 벡터(m x 1 행렬)는 m 원소들의 단일 열 행렬
* 행 벡터(1 x m 행렬)은 m원소들의 단일 행 행렬.
* 리스트, 딕셔너리, ndarray 등 다양한 데이터로부터 생성
* 반대로 리스트, 딕셔너리, ndarray 등으로 변환될 수 있음
* 일반적으로 판다스(Pandas)의 데이터프레임(DataFrame)에서 index는 행(row)의 인덱스를 나타냄
* 열에 대한 인덱스는 그냥 columns라고 부른다

In [None]:
# 예전에 한 것

import pandas as pd

df1 = pd.DataFrame({'a': [1, 2, 3], 'b': [4,5,6], 'c': [7, 8,9]})
df1

Unnamed: 0,a,b,c
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
# 예전에 한 것

import numpy as np
df2 = pd.DataFrame(np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]),
                   columns=['a', 'b', 'c'])
df2

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# 예전에 한 것

data = np.array([(1, 2, 3), (4, 5, 6), (7, 8, 9)])
df3 = pd.DataFrame(data, columns=['a', 'b', 'c'])
df3

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'city': ['New York', 'Paris', 'London', 'Tokyo']}

df = pd.DataFrame(data, index=['id001', 'id002', 'id003', 'id004'], columns=['name', 'age', 'city'])
df

Unnamed: 0,name,age,city
id001,Alice,25,New York
id002,Bob,32,Paris
id003,Charlie,18,London
id004,David,47,Tokyo


In [None]:
# 행은 관측치이다
# 데이터가 동일해야 한다
# 많을수록 더 정확해진다(column 정보) - 쓸데없는 column은 말고...빼버려라
# 변수 개발, feature engineering이 머신러닝에서 중요하다 - 행과 열의 상관관계
# 숫자 하나를 scalar라 함, 여러 개 있는게 vector (숫자 하나는 scalar인데, vector는 방향이 있음)
# 하나의 column은 2차원 vector임??? (column이 모이면 2차원 벡터일 것임)

import pandas as pd
import numpy as np
np.random.seed(0) #시간의 변화에 따라 난수가 바뀜, 단 숫자를 입력해 놓으면 그 해당 숫자에 해당하는 난수를 기억하고 같은 값을 계속 출력해 줌

data = np.random.randint(100, 120, size=(3,3))

df = pd.DataFrame(data, index=['태현','서진','동완'],
                  columns = ['몸무게','식사량','운동량'])
                  
df

Unnamed: 0,몸무게,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [None]:
# iloc는 판다스(Pandas) 데이터프레임(DataFrame)에서 행(row)과 열(column)을 정수(integer) 인덱스를 사용하여 선택하는 인덱싱 방법(method)
# pandas indexing : iloc 정수 인덱스, loc 이름 인덱스
# 순서는 iloc[행 인덱스, 열 인덱스]

print(df.iloc[1])
print()
print(df.iloc[1, 2])

몸무게    103
식사량    103
운동량    107
Name: 서진, dtype: int32

107


In [None]:
df.iloc[0]

몸무게    112
식사량    115
운동량    100
Name: 태현, dtype: int32

In [None]:
print(df.loc['서진'])
print()
print(df.loc['서진', '몸무게'])

몸무게    103
식사량    103
운동량    107
Name: 서진, dtype: int64

103


In [None]:
df_ori = df.copy()

df_ori

Unnamed: 0,몸무게,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [None]:
# Q. iloc, loc를 사용하여 107을 출력하세요.
# 행=row 인덱스 / 열=column 인덱스 순서임

print(df.iloc[1][2])
print(df.iloc[1,2])
print(df.loc['서진']['운동량'])
print(df.loc['서진','운동량'])

3
3


KeyError: ignored

In [None]:
# dtype = data type

d1 = df.index #행인덱스
print(d1, type(d1))
d2 = df.columns # 열인덱스
print(d2, type(d2))
df.columns

Index(['학생1', '학생2', '학생3', '학생4', '학생5', '학생6', '학생7', '학생8', '학생9', '학생10',
       '예슬'],
      dtype='object') <class 'pandas.core.indexes.base.Index'>
Index(['나이', '키', '식사횟수', '수면시간', '몸무게'], dtype='object') <class 'pandas.core.indexes.base.Index'>


Index(['나이', '키', '식사횟수', '수면시간', '몸무게'], dtype='object')

In [None]:
df

Unnamed: 0,몸무게,식사량,운동량
태현,112,115,100
서진,103,103,107
동완,109,119,118


In [None]:
df.index = ['서진', '태현', '동완']
df

Unnamed: 0,몸무게,식사량,운동량
서진,112,115,100
태현,103,103,107
동완,109,119,118


In [None]:
df.iloc[0,0] = 85
df

Unnamed: 0,몸무게,식사량,운동량
태현,85,115,100
서진,103,103,107
동완,109,119,118


In [None]:
# scalar 바꾸기

df.loc['태현']['몸무게'] = 70
df.loc['태현']['식사량'] = 3
df.loc['태현']['운동량'] = 50

df.loc['서진']['몸무게'] = 60
df.loc['서진']['식사량'] = 3
df.loc['서진']['운동량'] = 43

df.loc['동완']['몸무게'] = 63
df.loc['동완']['식사량'] = 3
df.loc['동완']['운동량'] = 30

df

Unnamed: 0,몸무게,식사량,운동량
태현,70,3,50
서진,60,3,43
동완,63,3,30
예슬,80,3,5
용훈,0,0,0


In [None]:
df.iloc[0] = [6,32,0]
# df.iloc[0] = 0
df.loc["서진"] = [80,3,5]
df.loc["동완"] = [68,3,2]

df

Unnamed: 0,몸무게,식사량,운동량
태현,6,32,0
서진,80,3,5
동완,68,3,2
예슬,0,0,0


In [None]:
df.iloc[0] = 0
df.loc['예슬'] = 0
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간,간식횟수
태현,0,0,0,0,0
서진,103,103,107,7,0
동완,109,119,118,7,0
용훈,0,0,0,0,0
예슬,0,0,0,0,0


In [None]:
# df.loc[:, '수면시간'] = 0
df['수면시간'] = 0

df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간
태현,112,115,100,0
서진,103,103,107,0
동완,109,119,118,0


In [None]:
df.loc[:, '간식횟수'] = 0

df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간,간식횟수
태현,112,115,100,0,0
서진,103,103,107,0,0
동완,109,119,118,0,0


In [None]:
df.loc['용훈'] = 0

df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간,간식횟수
태현,112,115,100,7,0
서진,103,103,107,7,0
동완,109,119,118,7,0
용훈,0,0,0,0,0


In [None]:
df.iloc[3] = df.iloc[1]
df

Unnamed: 0,몸무게,식사량,운동량
태현,70,3,50
서진,60,3,43
동완,63,3,30
예슬,60,3,43
용훈,0,0,0


In [None]:
df.iloc[:3,3] = 7
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간,간식횟수
태현,112,115,100,7,0
서진,103,103,107,7,0
동완,109,119,118,7,0


In [None]:
df.iloc[3:, 3] = 6
df.iloc[:, 4] = 2
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간),수면시간,간식횟수
태현,0,0,0,0,2
서진,103,103,107,7,2
동완,109,119,118,7,2
용훈,0,0,0,6,2
예슬,0,0,0,6,2


In [None]:
# 실습

df = df_ori.copy()

df.loc['주경'] = 0
df.loc['인혁'] = 0

df['공부시간'] = 0
df['멍 때리는 시간'] = 0

df.iloc[:3, 3] = 8
df.iloc[:3, 4] = 3

df.loc['주경'] = df.loc['태현']

df.loc['인혁'] = [100,85,90,17,5]

df


Unnamed: 0,몸무게,식사량,운동량,공부시간,멍 때리는 시간
태현,112,115,100,8,3
서진,103,103,107,8,3
동완,109,119,118,8,3
주경,112,115,100,8,3
인혁,100,85,90,17,5


In [None]:
# 열삭제
# 인덱스 값은 기본으로 있고, key:value가 열 이름과 해당 열 벡터의 scalar이 되는 것임
# axis는 '축'임, 0 = 'index', 1 = 'columns'

import pandas as pd

data = pd.DataFrame({'column1': [1,2,3],
                    'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})

print(data, '\n')
data1 = data.drop('column2', axis=1) # axis=1은 열이고, 0은 행이다 / # 그리고 inplace=True를 안하게 되면 원본에서 안없어진다
print(data1, '\n')
print(data)

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9 

   column1  column3
0        1        7
1        2        8
2        3        9 

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


In [None]:
# 열삭제
# 인덱스 값은 기본으로 있고, key:value가 열 이름과 해당 열 벡터의 scalar이 되는 것임

import pandas as pd

data = pd.DataFrame({'column1': [1,2,3],
                    'column2': [4, 5, 6],
                   'column3': [7, 8, 9]})

print(data)
data.drop('column2', axis=1, inplace=True) # axis=1은 열이고, 0은 행이다 / # 그리고 inplace=True를 안하게 되면 원본에서 안없어진다
data

   column1  column2  column3
0        1        4        7
1        2        5        8
2        3        6        9


Unnamed: 0,column1,column3
0,1,7
1,2,8
2,3,9


In [None]:
# 행삭제
data.drop(0, axis=0, inplace = True)
data

Unnamed: 0,column1,column2,column3
1,2,5,8
2,3,6,9


### [과제] 아래 데이터프레임을 보완하여 10명의 나이, 키, 몸무게, 식사횟수, 수면시간, 몸무게를 포함하는 데이터 프레임을 작성하세요.
- 행인덱스의 이름을 한글이름으로 변경
- 컬럼이름은 문제에서 주어진 순서를 준수
- 루프, 포켓몬



In [None]:
# 열이름 바꾸기
import pandas as pd

df_c = pd.DataFrame(index = ['a','b','c','d','e'],
                   columns = ['나이', '키', '몸무게'])
# df_c.loc[:] = [[20, 170, 40], [25,180,80], [27,175,50], [23,160,50]]
df_c.loc['a'] = [20, 170, 63]
df_c.loc['b'] = [25, 173, 60]
df_c.loc['c'] = [23, 180, 80]
df_c.loc['d'] = [24, 165, 50]
df_c.loc['e'] = [28, 190, 95]
df_c

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [None]:
import pandas as pd

class Student:
    def __init__(self, 나이, 키, 몸무게, 식사횟수, 수면시간, 몸무게):
        self.나이 = 나이
        self.키 = 키
        self.몸무게 = 몸무게
        self.식사횟수 = 식사횟수
        self.수면시간 = 수면시간
        self.몸무게 = 몸무게
        
    def create_dataframe:
        df_c = pd.DataFrame(index = ['이상해씨', '피카츄', '야도린', '펭도리', '메타몽', '푸린', '리자몽', '잠만보', '꼬마돌', '잉어킹'],
                            columns = ['나이', '키', '몸무게', '식사횟수', '수면시간', '몸무게'])        
    
    def input_scalar:
        df_c.loc['이상해씨'] = [20, 170, 63, 3, 4, 5]
        df_c.loc['피카츄'] = [25, 173, 60, 3, 4, 5]
        df_c.loc['야도린'] = [23, 180, 80, 3, 4, 5]
        df_c.loc['펭도리'] = [24, 165, 50, 3, 4, 5]
        df_c.loc['메타몽'] = [28, 190, 95, 3, 4, 5]
        df_c.loc['푸린'] = [28, 190, 95, 3, 4, 5]
        df_c.loc['리자몽'] = [28, 190, 95, 3, 4, 5]
        df_c.loc['잠만보'] = [28, 190, 95, 3, 4, 5]
        df_c.loc['꼬마돌'] = [28, 190, 95, 3, 4, 5]
        df_c.loc['잉어킹'] = [28, 190, 95, 3, 4, 5]


students = [
    Student('이상해씨', 20, 170, 63, 3, 4, 5),
    Student('피카츄', 25, 173, 60, 3, 4, 5),
    Student('야도린', 23, 180, 80, 3, 4), 
    Student('펭도리', 24, 165, 50, 3, 4), 
    Student('메타몽', 28, 190, 95, 3, 4, 5),
    Student('푸린', 28, 190, 95, 3, 4, 5),
    Student('리자몽', 28, 190, 95, 3, 4, 5),
    Student('잠만보', 28, 190, 95, 3, 4, 5),
    Student('꼬마돌', 28, 190, 95, 3, 4, 5),
    Student('잉어킹', 28, 190, 95, 3, 4, 5)
]

SyntaxError: invalid syntax (3578739728.py, line 13)

In [None]:
df_c = pd.DataFrame(index = list('abcdefghij'),
                   columns = ['나이', '키', '몸무게', '식사횟수', '수면시간', '몸무게'])

df_c

Unnamed: 0,나이,키,몸무게,식사횟수,수면시간,몸무게.1
a,,,,,,
b,,,,,,
c,,,,,,
d,,,,,,
e,,,,,,
f,,,,,,
g,,,,,,
h,,,,,,
i,,,,,,
j,,,,,,


In [None]:
# 열이름 바꾸기
import pandas as pd

df_c = pd.DataFrame(index = ['a','b','c','d','e'],
                   columns = ['나이', '키', '몸무게'])
# df_c.loc[:] = [[20, 170, 40], [25,180,80], [27,175,50], [23,160,50]]
df_c.loc['a'] = [20, 170, 63]
df_c.loc['b'] = [25, 173, 60]
df_c.loc['c'] = [23, 180, 80]
df_c.loc['d'] = [24, 165, 50]
df_c.loc['e'] = [28, 190, 95]
df_c

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [None]:
df_org = df_c.copy()

In [None]:
# 원본 미반영
df_r=df_c.rename(columns={'나이':'age'})
df_r

Unnamed: 0,age,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [None]:
# 원본 반영
df_r.rename(columns={'age':'나이'},inplace=True)
df_r

Unnamed: 0,나이,키,몸무게
a,20,170,63
b,25,173,60
c,23,180,80
d,24,165,50
e,28,190,95


In [None]:
df_c = df_org.copy()

In [None]:
# concat() - Pandas 라이브러리에서 제공하는 함수 중 하나로, 두 개 이상의 Pandas 객체 (Series, DataFrame)를 연결(concatenate)하여 새로운 객체를 생성하는 함수임 ([]로 묶는 것 체크)
# reindex() - Pandas 객체(DataFrame, Series)의 인덱스를 재배열하는 함수, 기존의 인덱스를 새로운 인덱스로 대체하거나, 기존의 인덱스를 유지하되 일부 인덱스를 추가하거나 제거하는 등 다양한 인덱스 조작을 할 수 있음 (대체에 추가 기능까지 포함됨)

import pandas as pd
df_a = pd.concat([df_c, df_c],axis=0)
df_a.index = ['학생1','학생2','학생3','학생4','학생5','학생6','학생7','학생8','학생9','학생10']
df_a['수면시간'] = 7
df_a['식사횟수'] = 3
new_columns = ['나이', '키', '식사횟수', '수면시간', '몸무게']
df = df_a.reindex(columns=new_columns)
df

Unnamed: 0,나이,키,식사횟수,수면시간,몸무게
학생1,20,170,3,7,63
학생2,25,173,3,7,60
학생3,23,180,3,7,80
학생4,24,165,3,7,50
학생5,28,190,3,7,95
학생6,20,170,3,7,63
학생7,25,173,3,7,60
학생8,23,180,3,7,80
학생9,24,165,3,7,50
학생10,28,190,3,7,95


In [None]:
# np.nan은 NumPy(Numerical Python) 라이브러리에서 사용되는 상수(constant)임, 이는 누락된 데이터(missing data)를 나타내는 값으로 사용됨 - 상수는 변하지 않는 수
# np.nan은 "Not a Number"를 의미하며, 64비트 부동소수점(floating point) 값 중 하나임
# 이 값은 계산 결과가 유효하지 않은 경우에 자동으로 생성되며, NaN 또는 nan으로 표시됨
# np.nan은 NumPy 배열뿐만 아니라 Pandas DataFrame과 Series에서도 사용됨
# 예를 들어, Pandas에서 누락된 데이터는 NaN으로 표시됨, 이는 데이터를 다룰 때 매우 중요한 개념 중 하나이며, 데이터 전처리나 결측값 처리 등에서 자주 사용됨

df.iloc[1,1] = np.nan
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간)
태현,112,115.0,100
서진,103,,107
동완,109,119.0,118


In [None]:
df.columns = ['몸무게', '식사량(끼니)', '운동량(시간)']


In [None]:
# isnull() 메서드는 데이터프레임(DataFrame) 또는 시리즈(Series)에서 누락된 값(missing value)을 찾아내어 해당 위치에 True를 반환하고, 누락된 값이 아닌 위치에 False를 반환함
# 이렇게 반환된 True와 False 값을 sum() 메서드를 이용하여 누적하여 총 누락된 값의 수를 구할 수 있음
# 따라서 isnull().sum()은 데이터프레임 또는 시리즈에서 누락된 값의 총 개수를 구하는 코드임
# column별로 NaN의 누락 수 구해줌

print(df.isnull())
print()

df.isnull().sum()

      몸무게  식사량(끼니)  운동량(시간)
태현  False    False    False
서진  False     True    False
동완  False    False    False



몸무게        0
식사량(끼니)    1
운동량(시간)    0
dtype: int64

In [None]:
# null값 총 개수 구하기
# column 별로 구한 누락 수를 더해서 총 누락 수 알려줌

df.isnull().sum().sum()

1

In [None]:
# 각 열의 평균 (NaN 제외하고 값 구해줌)
# axis 기본값은 0 -> 행(column) 평균 구하려면 axis=1
# df.mean(axis=1)

df.mean()

몸무게        108.000000
식사량(끼니)    117.000000
운동량(시간)    108.333333
dtype: float64

In [None]:
# 평균값 대체
# 중요하지 않으면 행 자체를 없애거나, 열 자체를 없애거나
# 아니면 식사량의 평균값을 구해서 넣어 준다거나

df.iloc[1,1] = 117
df

Unnamed: 0,몸무게,식사량(끼니),운동량(시간)
태현,112,115.0,100
서진,103,117.0,107
동완,109,119.0,118


In [None]:
# 2차원 리스트를 데이터프레임으로 변환

import numpy as np

a = np.random.randint(1,5, size=(10,5))
print(a, type(a))

[[4 3 4 4 3]
 [3 4 1 2 3]
 [4 3 2 3 2]
 [1 3 3 4 1]
 [4 3 4 1 1]
 [3 1 3 4 3]
 [3 4 1 1 1]
 [2 3 1 2 3]
 [4 3 3 4 2]
 [1 1 1 4 4]] <class 'numpy.ndarray'>


In [None]:
import pandas as pd
import numpy as np

a = np.random.randint(0,101, size=(10,5))


df = pd.DataFrame(a, index=['s1', 's2', 's3', 's4', 's5', 's6', 's7', 's8', 's9', 's10'],
                  columns = ['국어', '영어', '수학', '과학', '사회'])

df['총점'] = df.mean(axis=1)

df



Unnamed: 0,국어,영어,수학,과학,사회,총점
s1,34,15,37,51,90,45.4
s2,2,52,46,82,14,39.2
s3,81,93,85,18,97,74.8
s4,94,83,35,11,61,56.8
s5,8,59,62,40,37,41.2
s6,30,94,20,97,80,64.2
s7,23,66,10,14,6,23.8
s8,27,85,21,23,87,48.6
s9,99,49,56,82,85,74.2
s10,47,66,25,9,11,31.6


In [None]:
# Q. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 반영)
    # - S1~S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 5점
    # - 결시자가 국어 3명, 수학 2명 있음
    # - 영어, 수학의 평균 점수가 국어 대비 5점 낮음

import pandas as pd
import numpy as np

a = np.random.randint(0,101, size=(10,5))


a = pd.DataFrame(a, index=['s1', 's2', 's3', 's4', 's5', 's6', 's7', 's8', 's9', 's10'],
                  columns = ['국어', '영어', '수학', '과학', '사회'])

a['총점'] = a.mean(axis=1)

a


Unnamed: 0,국어,영어,수학,과학,사회,총점
s1,59,24,7,36,56,36.4
s2,49,43,12,9,92,41.0
s3,54,6,81,26,68,47.0
s4,25,77,44,26,88,52.0
s5,66,73,25,48,56,53.6
s6,39,71,57,6,88,52.2
s7,69,24,60,47,54,50.8
s8,75,84,79,9,92,67.8
s9,51,69,20,28,99,53.4
s10,36,37,83,12,100,53.6


In [None]:
for i in range(10):
    a.iloc[i] = 90 - i*5
a

Unnamed: 0,국어,영어,수학,과학,사회,총점
s1,90,90,90,90,90,90.0
s2,85,85,85,85,85,85.0
s3,80,80,80,80,80,80.0
s4,75,75,75,75,75,75.0
s5,70,70,70,70,70,70.0
s6,65,65,65,65,65,65.0
s7,60,60,60,60,60,60.0
s8,55,55,55,55,55,55.0
s9,50,50,50,50,50,50.0
s10,45,45,45,45,45,45.0


In [None]:
for i in range(10):
    a.iloc[i,1:3] = a.iloc[i,0] -5

a

Unnamed: 0,국어,영어,수학,과학,사회,총점
s1,90,85,85,90,90,90.0
s2,85,80,80,85,85,85.0
s3,80,75,75,80,80,80.0
s4,75,70,70,75,75,75.0
s5,70,65,65,70,70,70.0
s6,65,60,60,65,65,65.0
s7,60,55,55,60,60,60.0
s8,55,50,50,55,55,55.0
s9,50,45,45,50,50,50.0
s10,45,40,40,45,45,45.0


In [None]:
a.iloc[7:,0] = np.nan
a.iloc[8:,2] = np.nan
a

Unnamed: 0,국어,영어,수학,과학,사회,총점
s1,90.0,85,85.0,90,90,90.0
s2,85.0,80,80.0,85,85,85.0
s3,80.0,75,75.0,80,80,80.0
s4,75.0,70,70.0,75,75,75.0
s5,70.0,65,65.0,70,70,70.0
s6,65.0,60,60.0,65,65,65.0
s7,60.0,55,55.0,60,60,60.0
s8,,50,50.0,55,55,55.0
s9,,45,,50,50,50.0
s10,,40,,45,45,45.0


In [None]:
a['평균'] = (a['국어'] + a['영어'] + a['수학'] + a['과학'] + a['사회']) /5
a

Unnamed: 0,국어,영어,수학,과학,사회,총점,평균
s1,90.0,85,85.0,90,90,90.0,88.0
s2,85.0,80,80.0,85,85,85.0,83.0
s3,80.0,75,75.0,80,80,80.0,78.0
s4,75.0,70,70.0,75,75,75.0,73.0
s5,70.0,65,65.0,70,70,70.0,68.0
s6,65.0,60,60.0,65,65,65.0,63.0
s7,60.0,55,55.0,60,60,60.0,58.0
s8,,50,50.0,55,55,55.0,
s9,,45,,50,50,50.0,
s10,,40,,45,45,45.0,


In [None]:
# [과제] # Q. 학생별 성적 데이터셋으로 의미있게 데이터 셋을 수정하세요.(아래 사항 수정해서 진행)
- S1 ~ S10은 평균 점수를 기준으로 1등급에서 10등급이고 등급간 점수 차는 8점
- 결시자가 국어 2명, 수학 2명, 과학 2명 있음
- 영어, 수학의 점수가 국어 대비 7점 낮음

In [None]:
import pandas as pd
import numpy as np

a = np.random.randint(0,101, size=(10,5))


a = pd.DataFrame(a, index=['s1', 's2', 's3', 's4', 's5', 's6', 's7', 's8', 's9', 's10'],
                  columns = ['국어', '영어', '수학', '과학', '사회'])

for i in range(10):
    a.iloc[i] = 90 - i*8 # 일단 열 단위 값은 똑같더라도, 행 단위로 8점 차이가 나게 만듦

    
for i in range(10):
    a.iloc[i,1:3] = a.iloc[i,0] -5

    
a.iloc[8:,0] = np.nan
a.iloc[8:,2] = np.nan
a.iloc[8:,3] = np.nan


a['평균'] = (a['국어'] + a['영어'] + a['수학'] + a['과학'] + a['사회']) /5
a


Unnamed: 0,국어,영어,수학,과학,사회,평균
s1,90.0,85,85.0,90.0,90,88.0
s2,82.0,77,77.0,82.0,82,80.0
s3,74.0,69,69.0,74.0,74,72.0
s4,66.0,61,61.0,66.0,66,64.0
s5,58.0,53,53.0,58.0,58,56.0
s6,50.0,45,45.0,50.0,50,48.0
s7,42.0,37,37.0,42.0,42,40.0
s8,34.0,29,29.0,34.0,34,32.0
s9,,21,,,26,
s10,,13,,,18,


In [None]:
# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,92,74,53,58,50
1,71,69,60,93,91
2,60,71,88,82,70
3,94,79,89,64,76
4,67,76,72,52,52
5,51,76,55,90,96
6,83,79,92,74,57
7,93,83,65,98,87


과제 : 생성된 데이터프레임에서 아래 사항을 수행하세요.
- 열이름과 행이름 변경
- 3행만 출력
- 5열만 출력
- 3행 5열의 값 출력
- 4열의 값을 모두 0으로 변경
- 2,3행의 3열 값을 조회(2가지 방법)
- 6행의 2,3,4열의 값을 조회(2가지 방법)
- 2열을 Series와 DataFrame으로 각각 출력
- 2행 3열의 값을 2행 4열의 값과 동일하게 변경
- 2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력

In [None]:
# 과제 : 생성된 데이터프레임에서 아래 사항을 수행하세요.

# 데이터프레임 생성(8행 5열)
import numpy as np
import pandas as pd

np.random.seed(3)
data = np.random.randint(50,100,size=(8,5))

df = pd.DataFrame(data, columns=list('abcde'))

In [None]:
print('<열이름과 행이름 변경>')
df.index = ['학생1', '학생2', '학생3', '학생4', '학생5', '학생6', '학생7', '학생8']
df.columns = ['국어', '영어', '수학', '과학' ,'사회']

df

<열이름과 행이름 변경>


ValueError: Length mismatch: Expected axis has 9 elements, new values have 8 elements

In [None]:
print('<3행만 출력>')
df.loc['학생3']
# print(df.iloc[2])

<3행만 출력>


국어    60
영어    71
수학    88
과학    82
사회    70
Name: 학생3, dtype: int32

In [None]:
print('<5열만 출력>')
df.loc[:, '사회']
# print(df.iloc[:, 4])

<5열만 출력>


학생1    50
학생2    91
학생3    70
학생4    76
학생5    52
학생6    96
학생7    57
학생8    87
Name: 사회, dtype: int32

In [None]:
print('<3행 5열의 값 출력>')
df.loc['학생3', '사회']
# print(df.iloc[2, 4])

<3행 5열의 값 출력>


70

In [None]:
print('<4열의 값을 모두 0으로 변경>')
# df.loc[:, '과학'] = 0
df.loc['과학'] = 0

# df.iloc[:, 3] = 0
df

<4열의 값을 모두 0으로 변경>


Unnamed: 0,국어,영어,수학,과학,사회
학생1,92,74,53,58,50
학생2,71,69,60,93,91
학생3,60,71,88,82,70
학생4,94,79,89,64,76
학생5,67,76,72,52,52
학생6,51,76,55,90,96
학생7,83,79,92,74,57
학생8,93,83,65,98,87
과학,0,0,0,0,0


In [None]:
print('<2,3행의 3열 값을 조회(2가지 방법)>')
print(df.iloc[1:3, 2])
df.loc['학생2':'학생3', '수학']

<2,3행의 3열 값을 조회(2가지 방법)>
학생2    60
학생3    88
Name: 수학, dtype: int32


학생2    60
학생3    88
Name: 수학, dtype: int32

In [None]:
print('<6행의 2,3,4열의 값을 조회(2가지 방법)>') # 위의 0으로 변경 문제 때문에, 4열 값이 0으로 나옴
print(df.iloc[5, 1:4])
df.loc['학생6', '영어':'과학']

<6행의 2,3,4열의 값을 조회(2가지 방법)>
영어    76
수학    55
과학     0
Name: 학생6, dtype: int64


영어    76
수학    55
과학     0
Name: 학생6, dtype: int64

In [None]:
print('<2열을 Series와 DataFrame으로 각각 출력>')

print('<Series 출력>')
print(pd.Series(df['영어']))

print('<DataFrame 출력>')
pd.DataFrame(df['영어'])

print(df.loc[[:,[2]]

# 강사님
print(df.iloc[:,1],type(df.iloc[:,1]),'\n')
print(df.iloc[:,[1]],type(df.iloc[:,[1]]),'\n')             

<2열을 Series와 DataFrame으로 각각 출력>
<Series 출력>
학생1    74
학생2    69
학생3    71
학생4    79
학생5    76
학생6    76
학생7    79
학생8    83
Name: 영어, dtype: int32
<DataFrame 출력>


Unnamed: 0,영어
학생1,74
학생2,69
학생3,71
학생4,79
학생5,76
학생6,76
학생7,79
학생8,83


In [None]:
print('<2행 3열의 값을 2행 4열의 값과 동일하게 변경>')
df.iloc[1,2] = df.iloc[1,3]
# df.loc['학생2', '수학'] = df.loc['학생2', '과학']
df

<2행 3열의 값을 2행 4열의 값과 동일하게 변경>


Unnamed: 0,국어,영어,수학,과학,사회
학생1,92,74,53,0,50
학생2,71,69,0,0,91
학생3,60,71,88,0,70
학생4,94,79,89,0,76
학생5,67,76,72,0,52
학생6,51,76,55,0,96
학생7,83,79,92,0,57
학생8,93,83,65,0,87


In [None]:
print('<2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력>')
print(df,'\n')
print(df.iloc[1,2:4])

<2행 3열의 값과 2행 4열의 값을 동시에 만족하는 3,4열을 출력>
     국어  영어  수학  과학  사회
학생1  92  74  53   0  50
학생2  71  69   0   0  91
학생3  60  71  88   0  70
학생4  94  79  89   0  76
학생5  67  76  72   0  52
학생6  51  76  55   0  96
학생7  83  79  92   0  57
학생8  93  83  65   0  87 

수학    0
과학    0
Name: 학생2, dtype: int64


In [None]:
df = df.rename(index={'태현': '학생'})

# 2023-03-27(월)

In [None]:
# Q. 5행 5열의 리스트, 배열, 사전 형태의 데이터를 데이터 프레임으로 변환하여 출력하세요.

import numpy as np
import pandas as pd

np.random.seed(0)
data = np.random.randint(80, 100, size=(5,5))

df_ar = pd.DataFrame(data, columns=list('abcde'), index=list('가나다라마'))
df_ar

Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [None]:
data_list = data.tolist()
print(data_list, type(data_list))

df_list = pd.DataFrame(data_list, columns=list('abcde'), index=list('가나다라마'))
df_list

[[92, 95, 80, 83, 83], [87, 89, 99, 98, 84], [86, 92, 81, 86, 87], [94, 97, 85, 93, 88], [89, 99, 96, 99, 85]] <class 'list'>


Unnamed: 0,a,b,c,d,e
가,92,95,80,83,83
나,87,89,99,98,84
다,86,92,81,86,87
라,94,97,85,93,88
마,89,99,96,99,85


In [None]:
# columns를 주면 NaN이 된다

dict_data = {'a':[92, 95, 80, 83, 83], 'b':[87, 89, 99, 98, 84], 'c':[86, 92, 81, 86, 87], 'd':[94, 97, 85, 93, 88], 'e':[89, 99, 96, 99, 85]}
print(dict_data, type(dict_data))   

df_dict = pd.DataFrame(dict_data, index=list('가나다라마'))
# df_dict = pd.DataFrame(dict_data, columns=list('12345'), index=list('가나다라마'))
df_dict

{'a': [92, 95, 80, 83, 83], 'b': [87, 89, 99, 98, 84], 'c': [86, 92, 81, 86, 87], 'd': [94, 97, 85, 93, 88], 'e': [89, 99, 96, 99, 85]} <class 'dict'>


Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [None]:
df = df_dict.copy()
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [None]:
# df -> 배열
# 데이터프레임(DataFrame)이나 시리즈(Series) 객체를 넘파이(NumPy) 배열(numpy.ndarray)로 변환해주는 속성(attribute).

ar = df.values
print(ar, type(ar))

[[92 87 86 94 89]
 [95 89 92 97 99]
 [80 99 81 85 96]
 [83 98 86 93 99]
 [83 84 87 88 85]] <class 'numpy.ndarray'>


In [None]:
# df -> 리스트

li = df.values.tolist()
print(li, type(li))

[[92, 87, 86, 94, 89], [95, 89, 92, 97, 99], [80, 99, 81, 85, 96], [83, 98, 86, 93, 99], [83, 84, 87, 88, 85]] <class 'list'>


In [None]:
# df -> 사전

df.to_dict()

{'a': {'가': 92, '나': 95, '다': 80, '라': 83, '마': 83},
 'b': {'가': 87, '나': 89, '다': 99, '라': 98, '마': 84},
 'c': {'가': 86, '나': 92, '다': 81, '라': 86, '마': 87},
 'd': {'가': 94, '나': 97, '다': 85, '라': 93, '마': 88},
 'e': {'가': 89, '나': 99, '다': 96, '라': 99, '마': 85}}

In [None]:
# 값을 리스트 형태로 반환

df.to_dict('list')

{'a': [92, 95, 80, 83, 83],
 'b': [87, 89, 99, 98, 84],
 'c': [86, 92, 81, 86, 87],
 'd': [94, 97, 85, 93, 88],
 'e': [89, 99, 96, 99, 85]}

In [None]:
df

Unnamed: 0,a,b,c,d,e
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [None]:
# reset_index()

df.reset_index(name='f') # 원본에 반영은 안됨


TypeError: reset_index() got an unexpected keyword argument 'name'

In [None]:
# set_index() - 비파괴, non-destructive 메서드임

df1 = df.reset_index()
df2 = df1.set_index('index')
df2

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
가,92,87,86,94,89
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85


In [None]:
df3 = df2.reset_index()
df3

Unnamed: 0,index,a,b,c,d,e
0,가,92,87,86,94,89
1,나,95,89,92,97,99
2,다,80,99,81,85,96
3,라,83,98,86,93,99
4,마,83,84,87,88,85


In [None]:
new_index = ['나', '다', '라', '마', '가', '바']
df4 = df2.reindex(new_index, fill_value=0)
df4

Unnamed: 0_level_0,a,b,c,d,e
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나,95,89,92,97,99
다,80,99,81,85,96
라,83,98,86,93,99
마,83,84,87,88,85
가,92,87,86,94,89
바,0,0,0,0,0


In [None]:
# reindex()
# 기본값은 axis = 0임 (행 인덱스 바꿈)

new_columns = ['a', 'b', 'c', 'd', 'e', 'index']
df4 = df3.reindex(new_columns, axis = 1)
df4

Unnamed: 0,a,b,c,d,e,index
0,92,87,86,94,89,가
1,95,89,92,97,99,나
2,80,99,81,85,96,다
3,83,98,86,93,99,라
4,83,84,87,88,85,마


#### Q. 아래 2차원 배열로 데이터 프레임을 만들고 아래사항을 수행하세요.
* 행인덱스를 한글이름으로, 컬럼이름을 교과목으로 지정하세요.
* 행인덱스를 정수형 인덱스로 변환하세요
* 행이름의 순서를 반대로 바꾸어 출력하세요.
* 열이름의 순서를 반대로 바꾸어 출력하세요.
* 인덱스 컬럼으로 인덱스를 세팅하세요.

In [None]:
import pandas as pd
import numpy as np

np.random.seed(0)
score = np.random.randint(50,101, size = (10,10))
SD = pd.DataFrame(score,index = ["동완","날두","메시","모드리치","페르난데스",
                              "포그바","스털링","음바페","손흥민","차붐"],
              columns=["한국사","국어","영어","수학","사회","화학","생명과학","물리",
                      "지구과학","예체능"])
SD

Unnamed: 0,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
동완,94,97,50,53,53,89,59,69,71,100
날두,86,73,56,74,74,62,51,88,89,73
메시,96,74,67,87,75,63,58,59,70,66
모드리치,55,65,97,50,68,85,74,99,79,69
페르난데스,69,64,89,82,51,59,82,81,60,73
포그바,85,61,100,78,84,50,50,86,55,88
스털링,90,67,65,54,91,92,81,51,51,89
음바페,91,85,88,61,96,68,77,50,64,85
손흥민,62,92,70,61,54,56,54,97,53,62
차붐,86,90,64,65,70,85,73,65,63,71


In [None]:
SD1 = SD.reset_index()

Unnamed: 0,index,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
0,동완,94,97,50,53,53,89,59,69,71,100
1,날두,86,73,56,74,74,62,51,88,89,73
2,메시,96,74,67,87,75,63,58,59,70,66
3,모드리치,55,65,97,50,68,85,74,99,79,69
4,페르난데스,69,64,89,82,51,59,82,81,60,73
5,포그바,85,61,100,78,84,50,50,86,55,88
6,스털링,90,67,65,54,91,92,81,51,51,89
7,음바페,91,85,88,61,96,68,77,50,64,85
8,손흥민,62,92,70,61,54,56,54,97,53,62
9,차붐,86,90,64,65,70,85,73,65,63,71


In [None]:
# new_index = SD1.index[::-1]
# SD2 = SD1.reindex(new_index)

# SD1 = SD1.reindex(SD1.index[::-1])

SD2 = SD1.reindex(SD1.index[::-1])
SD2

Unnamed: 0,index,한국사,국어,영어,수학,사회,화학,생명과학,물리,지구과학,예체능
9,차붐,86,90,64,65,70,85,73,65,63,71
8,손흥민,62,92,70,61,54,56,54,97,53,62
7,음바페,91,85,88,61,96,68,77,50,64,85
6,스털링,90,67,65,54,91,92,81,51,51,89
5,포그바,85,61,100,78,84,50,50,86,55,88
4,페르난데스,69,64,89,82,51,59,82,81,60,73
3,모드리치,55,65,97,50,68,85,74,99,79,69
2,메시,96,74,67,87,75,63,58,59,70,66
1,날두,86,73,56,74,74,62,51,88,89,73
0,동완,94,97,50,53,53,89,59,69,71,100


In [None]:
SD3 = SD2.reindex(SD2.columns[::-1], axis=1)
SD3

Unnamed: 0,예체능,지구과학,물리,생명과학,화학,사회,수학,영어,국어,한국사,index
9,71,63,65,73,85,70,65,64,90,86,차붐
8,62,53,97,54,56,54,61,70,92,62,손흥민
7,85,64,50,77,68,96,61,88,85,91,음바페
6,89,51,51,81,92,91,54,65,67,90,스털링
5,88,55,86,50,50,84,78,100,61,85,포그바
4,73,60,81,82,59,51,82,89,64,69,페르난데스
3,69,79,99,74,85,68,50,97,65,55,모드리치
2,66,70,59,58,63,75,87,67,74,96,메시
1,73,89,88,51,62,74,74,56,73,86,날두
0,100,71,69,59,89,53,53,50,97,94,동완


In [None]:
ex = np.random.randint(50, 100, size=(10,10))
np.random.seed(0)
# print(ex)

index = ['철수','철민','철이','철구','영희','영수','영자','민수','순자','말자']
columns = ['국어', '영어', '수학', '과학', '사회','국사','세계사','물리','화학','한자']

index_r = index[::-1]
columns_r = columns[::-1]

df = pd.DataFrame(ex, index = index, columns = columns)

df1 = df.reset_index()
df1

df2 = df.reindex(columns_r, axis=1)

df3 = df2.reindex(index_r)
df3

# df2 = df1.reindex(index)
# df3 = df2.reindex(columns_r)



# df2 = df1.reindex(, axis=1)

Unnamed: 0,한자,화학,물리,세계사,국사,사회,과학,수학,영어,국어
말자,99,98,71,63,65,73,85,70,65,64
순자,90,86,62,53,97,54,56,54,61,70
민수,92,62,85,64,50,77,68,96,61,88
영자,85,91,89,51,51,81,92,91,54,65
영수,67,90,88,55,86,50,50,84,78,61
영희,85,73,60,81,82,59,51,82,89,64
철구,69,69,79,99,74,85,68,50,97,65
철이,55,66,70,59,58,63,75,87,67,74
철민,96,73,89,88,51,62,74,74,56,73
철수,86,71,69,59,89,53,53,50,97,94
