## 시리즈와 데이터프레임 직접 만들기
### 데이터프레임과 시리즈는 리스트나 딕셔너리와 비슷하지만 데이터를 다루는데 더 특화되어있다.

### 1. 시리즈 만들기

In [1]:
import pandas as pd
s = pd.Series( ['apple', 33] )  #인덱스는 보통 0부터 시작
print(s)

0    apple
1       33
dtype: object


In [2]:
list_data = ['2023-04-28', 3.14, 'encore', 100, True]
s = pd.Series(list_data)
print(s)
print('\n')           #enter 기능
print(type(s))

0    2023-04-28
1          3.14
2        encore
3           100
4          True
dtype: object


<class 'pandas.core.series.Series'>


In [3]:
# 인덱스 배열은 변수 idx에 저장, 데이터 값 배열은 변수 val에 저장
idx = s.index
val = s.values
print(idx)
print('\n')
print(val)

RangeIndex(start=0, stop=5, step=1)


['2023-04-28' 3.14 'encore' 100 True]


In [4]:
#딕셔너리를 Series() 함수에 전달하면 시리즈 객체로 변환
dict_data = {'a':1, 'b':2, 'c':3}
s = pd.Series(dict_data)
print(s)
print(type(s))

a    1
b    2
c    3
dtype: int64
<class 'pandas.core.series.Series'>


## 2. 시리즈를 생성할 문자열을 인덱스로 지정할 수도 있다.
### 문자열을 인덱스로 지정하려면 Series 메서드의 index 인자를 통해 사용하고자 하는 문자열을 리스트에 담아 전달하면 됩니다. 

In [5]:
s = pd.Series(['Jane', 'student'], index = ['Person', 'Job'])   #index는 default가 0,1,2,3, ... 이다
print(s)

Person       Jane
Job       student
dtype: object


## 딕셔너리로 데이터프레임 생성하기
* 파이썬의 기본 자료구조로 데이터프레임 생성이 가능합니다. 
* 아래 예제는 딕셔너리로 데이터프레임을 생성하는 예제입니다.
* 딕셔너리를 DataFrame클래스에 전달해야함
* 데이터프레임의 컬럼은 모두 시리즈입니다. 아래 예제는 5개의 시리즈로 구성된 데이터프레임입니다.

In [6]:
scientists = pd.DataFrame({
    'Name': ['Rosaline Franklin', 'William Gosset'],
    'Occupation': ['Chemist', 'Statistician'],
    'Born': ['1920-07-25', '1876-06-13'],
    'Died': ['1958-04-16', '1937-10-16'],
    'Age': [37,61]
})
scientists

Unnamed: 0,Name,Occupation,Born,Died,Age
0,Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
1,William Gosset,Statistician,1876-06-13,1937-10-16,61


### columns 인자를 사용하면 데이터프레임의 열 순서를 지정할 수 있다. (index, columns 지정)

In [7]:
scientists2 = pd.DataFrame(
    data = {
    'Occupation': ['Chemist', 'Statistician'],    #dictionary- key&value
    'Died': ['1958-04-16', '1937-10-16'],
    'Born': ['1920-07-25', '1876-06-13'],
    'Age': [37,61]},
    index = ['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died','Age']
)
scientists2

Unnamed: 0,Occupation,Born,Died,Age
Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
William Gosset,Statistician,1876-06-13,1937-10-16,61


### 딕셔너리는 데이터의 순서를 보장하지 않습니다. 
### 순서가 보장된 딕셔너리를 전달하려면 OrderedDict클래스를 사용

In [8]:
from collections import OrderedDict
scientists = pd.DataFrame(OrderedDict([    
    ('Name', ['Rosaline Franklin', 'William Gosset']),
    ('Occupation', ['Chemist', 'Statistician']),
    ('Born', ['1920-07-25', '1876-06-13']),
    ('Died', ['1958-04-16', '1937-10-16']),
    ('Age', [37,61])
])
)
print(scientists)

                Name    Occupation        Born        Died  Age
0  Rosaline Franklin       Chemist  1920-07-25  1958-04-16   37
1     William Gosset  Statistician  1876-06-13  1937-10-16   61


## 데이터프레임에서 시리즈 선택하기

In [9]:
scientists2 = pd.DataFrame(
    data = {
    'Occupation': ['Chemist', 'Statistician'],    #dictionary- key&value
    'Died': ['1958-04-16', '1937-10-16'],
    'Born': ['1920-07-25', '1876-06-13'],
    'Age': [37,61]},
    index = ['Rosaline Franklin', 'William Gosset'],
    columns=['Occupation', 'Born', 'Died','Age']
)
scientists2

Unnamed: 0,Occupation,Born,Died,Age
Rosaline Franklin,Chemist,1920-07-25,1958-04-16,37
William Gosset,Statistician,1876-06-13,1937-10-16,61


In [10]:
first_row = scientists2.loc['William Gosset']
print(type(first_row))

<class 'pandas.core.series.Series'>


In [11]:
first_row

Occupation    Statistician
Born            1876-06-13
Died            1937-10-16
Age                     61
Name: William Gosset, dtype: object

## index, values 속성과 keys 메서드 사용하기
### 1. index 속성 사용하기       

#### 클래스 안에 있는 함수를 메서드라 한다. 속성은 attribute

In [12]:
print(first_row.index)   

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


### 2. values 속성 사용하기

In [13]:
print(first_row.values)

['Statistician' '1876-06-13' '1937-10-16' 61]


### 3. keys 메서드 사용하기

In [14]:
#keys는 속성이 아닌 메서드. keys메서드는 index 속성과 같은 역할을 한다. 
print(first_row.keys())

Index(['Occupation', 'Born', 'Died', 'Age'], dtype='object')


### 4. index 속성 응용하기

In [15]:
print(first_row.index[0])

Occupation


### 시리즈의 mean, min, max, std 메서드 사용하기

In [16]:
ages = scientists['Age']
print(ages)

0    37
1    61
Name: Age, dtype: int64


In [17]:
print(ages.mean())

49.0


In [18]:
print(ages.min())

37


In [19]:
print(ages.max())

61


In [20]:
print(ages.std())

16.97056274847714


### 시리즈와 불린 추출 사용하기

In [21]:
scientists = pd.read_csv('../data/python_data/scientists.csv')
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist


In [22]:
scientists[['Name']]

Unnamed: 0,Name
0,Rosaline Franklin
1,William Gosset
2,Florence Nightingale
3,Marie Curie
4,Rachel Carson
5,John Snow
6,Alan Turing
7,Johann Gauss


In [23]:
scientists[['Name', 'Occupation']]

Unnamed: 0,Name,Occupation
0,Rosaline Franklin,Chemist
1,William Gosset,Statistician
2,Florence Nightingale,Nurse
3,Marie Curie,Chemist
4,Rachel Carson,Biologist
5,John Snow,Physician
6,Alan Turing,Computer Scientist
7,Johann Gauss,Mathematician


In [24]:
ages = scientists['Age']
print(ages)
print(ages.max())

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64
90


In [25]:
print(ages.mean())    #mean은 python 의 내장함수

59.125


In [26]:
#평균보다 나이가 많은 사람의 데이터만 추출
ages[ages > ages.mean()]

1    61
2    90
3    66
7    77
Name: Age, dtype: int64

In [27]:
#1,2,3,7 인덱스의 값이 참(True)
print(ages > ages.mean())

0    False
1     True
2     True
3     True
4    False
5    False
6    False
7     True
Name: Age, dtype: bool


In [28]:
print(type(ages > ages.mean()))

<class 'pandas.core.series.Series'>


In [29]:
#불린 추출
# 리스트 형태로 참,거짓을 담아 시리즈에 전달하면 참인 인덱스의 데이터만 추출할 수 있다. 
manual_bool_values = [True, True, False, False, True, True, False, True]
print(ages[manual_bool_values])

0    37
1    61
4    56
5    45
7    77
Name: Age, dtype: int64


In [30]:
scientists.sort_values(by='Age', ascending = True).head()    #오름차순

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
5,John Snow,1813-03-15,1858-06-16,45,Physician
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician


In [31]:
scientists.sort_values(by='Age', ascending = False).head()    #내림차순

Unnamed: 0,Name,Born,Died,Age,Occupation
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist


### 벡터와 스칼라로 브로드캐스팅 수행하기
* 벡터: 시리즈처럼 여러 개의 값을 가진 데이터
* 스칼라: 단순 크기를 나타내는 데이터

In [32]:
# 같은 길이의 벡터로 더하기, 곱하기 연산을 수행-결과값으로 같은 길이의 벡터 출력
print(ages + ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [33]:
print(ages * ages)   #행렬곱 연산아님. 벡터의 원소의 제곱

0    1369
1    3721
2    8100
3    4356
4    3136
5    2025
6    1681
7    5929
Name: Age, dtype: int64


In [34]:
#벡터의 모든 값에 스칼라 연산
print(ages + 100)

0    137
1    161
2    190
3    166
4    156
5    145
6    141
7    177
Name: Age, dtype: int64


In [35]:
print(ages * 2)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


In [36]:
#길이가 서로 다른 벡터를 연산
pd.Series([1,100])

0      1
1    100
dtype: int64

In [37]:
#시리즈와 시리즈를 연산하는 경우 같은 인덱스 값만 계산
# 인덱스가 일치하는 0,1만 계산. 나머지는 인덱스를 계산 못하므로 누락값(NaN)으로 처리
print(ages + pd.Series([1,100]))

0     38.0
1    161.0
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
dtype: float64


In [38]:
#인덱스 역순 정렬
rev_ages = ages.sort_index(ascending = False)
rev_ages

7    77
6    41
5    45
4    56
3    66
2    90
1    61
0    37
Name: Age, dtype: int64

In [39]:
ages*2

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

In [40]:
#ages의 인덱스(0~7)와 rev_ages(0~7)의 인덱스가 일치하는 값끼리 연산
#벡터와 벡터의 연산은 일치하는 인덱스 값끼리 수행
print(ages + rev_ages)

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64


### 불린 추출과 브로드캐스팅

In [41]:
scientists['Age'].mean()

59.125

In [42]:
#평균보다 나이가 많은 행 출력
print(scientists[scientists['Age'] > scientists['Age'].mean()])

                   Name        Born        Died  Age     Occupation
1        William Gosset  1876-06-13  1937-10-16   61   Statistician
2  Florence Nightingale  1820-05-12  1910-08-13   90          Nurse
3           Marie Curie  1867-11-07  1934-07-04   66        Chemist
7          Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


In [43]:
#True는 출력, False는 출력x
# 인덱스가 2,4,5,6 인 행 데이터는 출력되지 않음
print(scientists.loc[[True, True, False, True, False, False, False,True]]) 

                Name        Born        Died  Age     Occupation
0  Rosaline Franklin  1920-07-25  1958-04-16   37        Chemist
1     William Gosset  1876-06-13  1937-10-16   61   Statistician
3        Marie Curie  1867-11-07  1934-07-04   66        Chemist
7       Johann Gauss  1777-04-30  1855-02-23   77  Mathematician


In [44]:
# df 브로드캐스팅. 
# 정수데이터는 2를 곱한 수가 되고, 문자열데이터는 문자열이 2번 반복됨.
print(scientists * 2)

                                       Name                  Born  \
0        Rosaline FranklinRosaline Franklin  1920-07-251920-07-25   
1              William GossetWilliam Gosset  1876-06-131876-06-13   
2  Florence NightingaleFlorence Nightingale  1820-05-121820-05-12   
3                    Marie CurieMarie Curie  1867-11-071867-11-07   
4                Rachel CarsonRachel Carson  1907-05-271907-05-27   
5                        John SnowJohn Snow  1813-03-151813-03-15   
6                    Alan TuringAlan Turing  1912-06-231912-06-23   
7                  Johann GaussJohann Gauss  1777-04-301777-04-30   

                   Died  Age                            Occupation  
0  1958-04-161958-04-16   74                        ChemistChemist  
1  1937-10-161937-10-16  122              StatisticianStatistician  
2  1910-08-131910-08-13  180                            NurseNurse  
3  1934-07-041934-07-04  132                        ChemistChemist  
4  1964-04-141964-04-14  112     

In [45]:
#날짜의 type은 object
#날짜가 문자열로 저장됨
print(scientists['Born'].dtype)
print(scientists['Died'].dtype)
print(scientists['Born'])

object
object
0    1920-07-25
1    1876-06-13
2    1820-05-12
3    1867-11-07
4    1907-05-27
5    1813-03-15
6    1912-06-23
7    1777-04-30
Name: Born, dtype: object


In [46]:
#날짜 문자열을 시간관련작업을 할 수 있도록 datetime 자료형으로 변형
born_datetime = pd.to_datetime(scientists['Born'], format = '%Y-%m-%d')
born_datetime

0   1920-07-25
1   1876-06-13
2   1820-05-12
3   1867-11-07
4   1907-05-27
5   1813-03-15
6   1912-06-23
7   1777-04-30
Name: Born, dtype: datetime64[ns]

In [47]:
# 출력된 dtype에 주목. object에서 datatime64로 변경됨
died_datetime = pd.to_datetime(scientists['Died'], format = '%Y-%m-%d')
died_datetime

0   1958-04-16
1   1937-10-16
2   1910-08-13
3   1934-07-04
4   1964-04-14
5   1858-06-16
6   1954-06-07
7   1855-02-23
Name: Died, dtype: datetime64[ns]

In [48]:
scientists.head(n=3)

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse


In [49]:
scientists['born_dt'], scientists['died_dt'] = (born_datetime, died_datetime)    # ***데이터 처리 후 컬럼추가***
scientists.head()

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14


In [50]:
print(scientists.shape)

(8, 7)


In [51]:
scientists['age_days_dt'] = (scientists['died_dt'] - scientists['born_dt'])
scientists

Unnamed: 0,Name,Born,Died,Age,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,61,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist,1907-05-27,1964-04-14,20777 days
5,John Snow,1813-03-15,1858-06-16,45,Physician,1813-03-15,1858-06-16,16529 days
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist,1912-06-23,1954-06-07,15324 days
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician,1777-04-30,1855-02-23,28422 days


### 시리즈, 데이터프레임의 데이터 섞기

In [52]:
print(scientists['Age'])

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64


In [53]:
#seed 메서드는 컴퓨터가 생성하는 난수의 기준값을 정하기 위해 사용
import random
#random.seed(2023)
random.seed(42)
random.shuffle(scientists['Age'])    #나이를 무작위로 섞는다.
print(scientists['Age'])

0    66
1    56
2    41
3    77
4    90
5    45
6    37
7    61
Name: Age, dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x[i], x[j] = x[j], x[i]


### 7. 데이터프레임의 열 삭제하기

In [54]:
scientists.columns

Index(['Name', 'Born', 'Died', 'Age', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')

In [55]:
#axis() 행, axis = 1 열 의미
scientists_dropped = scientists.drop(['Age'], axis = 1)

print(scientists_dropped.columns)

Index(['Name', 'Born', 'Died', 'Occupation', 'born_dt', 'died_dt',
       'age_days_dt'],
      dtype='object')


In [56]:
scientists_dropped.head()

Unnamed: 0,Name,Born,Died,Occupation,born_dt,died_dt,age_days_dt
0,Rosaline Franklin,1920-07-25,1958-04-16,Chemist,1920-07-25,1958-04-16,13779 days
1,William Gosset,1876-06-13,1937-10-16,Statistician,1876-06-13,1937-10-16,22404 days
2,Florence Nightingale,1820-05-12,1910-08-13,Nurse,1820-05-12,1910-08-13,32964 days
3,Marie Curie,1867-11-07,1934-07-04,Chemist,1867-11-07,1934-07-04,24345 days
4,Rachel Carson,1907-05-27,1964-04-14,Biologist,1907-05-27,1964-04-14,20777 days


# 데이터를 피클, csv, tsv 파일로 저장하고 불러오기

### 1. 피클로 저장하기
* 바이너리 형태로 스프레드시트보다 작은 용량으로 데이터를 저장
* 오래 보관한다는 의미로 붙여진 이름

In [57]:
names = scientists['Name']
names

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object

In [58]:
names.to_pickle('../output/scientists_names_series.pickle')   #scientists_names_series.pickle 파일이 output 폴더밑에 만들어졌다.

In [59]:
scientists.to_pickle('../output/scientists_df.pickle')    #scientists_df.pickle 파일이 output 폴더밑에 만들어졌다.

In [60]:
scientist_names_from_pickle = pd.read_pickle('../output/scientists_names_series.pickle')  #피클파일 읽어오기
print(scientist_names_from_pickle)

0       Rosaline Franklin
1          William Gosset
2    Florence Nightingale
3             Marie Curie
4           Rachel Carson
5               John Snow
6             Alan Turing
7            Johann Gauss
Name: Name, dtype: object


In [61]:
df_pickle = pd.read_pickle('../output/scientists_df.pickle')  #피클파일 읽어오기
print(df_pickle)

                   Name        Born        Died  Age          Occupation  \
0     Rosaline Franklin  1920-07-25  1958-04-16   66             Chemist   
1        William Gosset  1876-06-13  1937-10-16   56        Statistician   
2  Florence Nightingale  1820-05-12  1910-08-13   41               Nurse   
3           Marie Curie  1867-11-07  1934-07-04   77             Chemist   
4         Rachel Carson  1907-05-27  1964-04-14   90           Biologist   
5             John Snow  1813-03-15  1858-06-16   45           Physician   
6           Alan Turing  1912-06-23  1954-06-07   37  Computer Scientist   
7          Johann Gauss  1777-04-30  1855-02-23   61       Mathematician   

     born_dt    died_dt age_days_dt  
0 1920-07-25 1958-04-16  13779 days  
1 1876-06-13 1937-10-16  22404 days  
2 1820-05-12 1910-08-13  32964 days  
3 1867-11-07 1934-07-04  24345 days  
4 1907-05-27 1964-04-14  20777 days  
5 1813-03-15 1858-06-16  16529 days  
6 1912-06-23 1954-06-07  15324 days  
7 1777-04-3

### 4. CSV 파일과 TSV파일로 저장하기

In [62]:
names.to_csv('../output/names_series.csv')

In [63]:
scientists.to_csv('../output.scientists_df.tsv', sep = '\t')

In [64]:
scientists.to_csv('../output/scientists_df_no_index.csv', index = False)

In [65]:
# 시리즈는 엑셀과 구조가 맞지 않기 때문에 엑셀 파일로 저장할 수 없습니다. 
# 엑셀 파일로 저장할 수 있는 df구조로 변환
names_df = names.to_frame()
names_df
import xlwt
names_df.to_excel('../output/scientists_names_series_df.xlsx')

import openpyxl
names_df.to_excel('../output/scientists_names_series_df.xlsx')

## 연습문제

<!-- 
1. 다음과 같이 데이터 프레임(df)을 만들어 보세요.
   인덱스는 이름으로 하세요. (서준, 우현, 인아)
     수학  영어   음악   체육
서준  90    98     85     100
예현  80    89      95       90
인아  70    95    100       90
민아  60    95    100       90
2. 데이터프레임(df)를 복제하여 변수 df1에 저장
3. df1의 1개 행(row)을 삭제 ==> '예현'
4. 데이터프레임 df를 복제하여 변수 df2에 저장
5. df2의 1개 열(column)을 삭제 ==> '수학'
6. 데이터프레임 df를 복제하여 변수 df3에 저장
7. df3의 2개 열(column)을 삭제 ==> '영어'   '음악' 
-->

1.  다음과 같이 데이터 프레임(df)을 만들어 보세요.
   인덱스는 이름으로 하세요. (서준, 우현, 인아)
     수학  영어   음악   체육
서준  90    98     85     100
예현  80    89      95       90
인아  70    95    100       90
민아  60    95    100       90

In [66]:
df = pd.DataFrame(
    data = {'수학':[90, 80, 70, 60], 
            '영어': [98,89,95,95], 
            '음악' : [85,95,100,100], 
            '체육':[100,90,90,90]},
    
    index = ['서준', '예현', '인아', '민아'],
    columns = ['수학', '영어', '음악', '체육']
)
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
예현,80,89,95,90
인아,70,95,100,90
민아,60,95,100,90


2. 데이터프레임(df)를 복제하여 변수 df1에 저장

In [67]:
df1 = df
df1

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
예현,80,89,95,90
인아,70,95,100,90
민아,60,95,100,90


3. df1의 1개 행(row)을 삭제 ==> '예현'

In [68]:
df1_dropped = df1.drop(['예현'])

In [69]:
df1_dropped

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
인아,70,95,100,90
민아,60,95,100,90


4. 데이터프레임 df를 복제하여 변수 df2에 저장

In [70]:
df2 = df

5. df2의 1개 열(column)을 삭제 ==> '수학'

In [71]:
df2_dropped = df2.drop(['수학'], axis = 1)

In [72]:
df2_dropped

Unnamed: 0,영어,음악,체육
서준,98,85,100
예현,89,95,90
인아,95,100,90
민아,95,100,90


6. 데이터프레임 df를 복제하여 변수 df3에 저장

In [73]:
df3 = df

7. df3의 2개 열(column)을 삭제 ==> '영어'   '음악'

In [74]:
df3.drop(['영어', '음악'], axis = 1 )

Unnamed: 0,수학,체육
서준,90,100
예현,80,90
인아,70,90
민아,60,90


<img src = '../img/11.PNG' width=600px >