## 판다스 ##


- 데이터 분석을 위한 라이브러리로 주로 행과 열로 이뤄진 2차원 데이터를 다루는데 사용.
- 데이터 필터링, 통계, 열과 행 처리 같이 다양한 조작을 수행.


## 판다스와 넘파이 ##


1. 넘파이 특징
- 파이썬 리스트보다 빠르고 효율적인 넘파이 배열 제공
- 메모리를 효율적으로 사용
- 다양한 배열 연산 기능을 제공


2. 판다스 특징
- 표 형태의 데이터를 바로 불러올 수 있음
- 다양한 표 연산 기능을 제공


## 판다스 사용 이유 ##


- 강력한 전처리 기능: 결측값 처리, 필터링, 그룹화 같은 작업을 통해 데이터를 손쉽게 조작
- 유연하고 직관적인 인덱싱: 데이터프레임에서 데이터를 선택하고 조작할 수 있는 다양한 인덱싱 방법 제공
- 통계 및 요약 정보 제공: 데이터의 통계적 특성과 요약 정보를 빠르게 파악할 수 있는 다양한 함수 제공
- 시각적 차원: 시각화 라이브러리와 함께 사용되어 데이터의 트렌드와 패턴을 빠르게 시각화함

In [230]:
#series: 판다스는  데이터 프레임이라는 구조화된 데이터 타입을 제공
# 1차원 배열과 같은 형태
# 인덱스와 값으로 구성돼있고. 시리즈의 인덱스는 기본으로 정수지만 원하는 데이터 타입의 인덱스로 설정할수 있음


In [231]:
import numpy as np
import pandas as pd

In [232]:
series_data = pd.Series([True, 3.14, 'abc'])

print(series_data)
print(type(series_data))

0    True
1    3.14
2     abc
dtype: object
<class 'pandas.core.series.Series'>


In [233]:
df = pd.DataFrame({"c0": [1,2,3], 'c2': [4,5,6]})

dict_netflix = {
    "show_id": [1, 2, 3, 4, 5, 6, 7, 8],
    "type": ["TV Show", "TV Show", "Movie", "Movie", "Movie", "TV Show", "Movie", "Movie"],
    "title": ["Squid Game", "Stranger Things", "Sherlock Holmes", "Iron Man & Captain America: Heroes United", "Bird Box", "Anne with an E", "About Time", "Inception"],
    "director": [np.nan, np.nan, "Guy Ritchie", "Leo Riley", "Susanne Bier", np.nan, "Richard Curtis", "Christopher Nolan"],
    "cast": ["Lee Jung-jae", "Winora Ryder", "Robert Downey Jr", "Adrian Pasder", "Sandra Bullock", "Amybeth McNulty", "Domhnall Gleeson", "Deonardo Dicaprio"],
    "country": [np.nan, "United States", "United States, Germany", "United States", "United States", "Canada", np.nan, "United States"],
    'release_year': [2021, 2019, 2009, 2014, 2018, 2019, 2013, 2010],
    "duration": [300, 800, 128, 71, 124, 900, 123, 148],
    "listed_in": [np.nan, "TV Horror", "Action & Adventure", np.nan, np.nan, np.nan, np.nan, np.nan]
}

netflix = pd.DataFrame(dict_netflix)
netflix

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


In [234]:
# csv 파일로 저장하기
netflix.to_csv('netflix.csv', index=False)

In [235]:
# CSV 파일 읽기
netflix_new = pd.read_csv('netflix.csv')

netflix_new

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


## 판다스 데이터 타입 ##


- int: 정수데이터
- float: 실수 데이터 ex) 1.234
- object: 문자열 데이터 또는 혼합형 데이터
- category: 한정된 고유값으로 구성된 범주형 데이터 ex) "male", "female"
- bool: 논리형 데이터
- datetime: 날짜 정보데이터
- timedelta: 날짜 간격 데이터 ex) "3 days"


## object ##


- 문자열 데이터: 판다스에서 object는 문자열 데이터를 저장할 때 사용. 다른 언어에서 문자열 데이터를 string으로 처리하는데 반해 판다스에서는 object 사용
- 혼합형 데이터: 한 열에 다양한 데이터 타입ㄷ을 혼합하면 판다스는 해당 열을 object로 간주

In [236]:
list(netflix_new.columns)

['show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'release_year',
 'duration',
 'listed_in']

In [237]:
list(netflix_new.index)

[0, 1, 2, 3, 4, 5, 6, 7]

In [238]:
netflix_new.head()

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,


In [239]:
netflix_new.tail()

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


In [240]:
netflix_new.shape

(8, 9)

In [241]:
netflix_new.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8 non-null      int64 
 1   type          8 non-null      object
 2   title         8 non-null      object
 3   director      5 non-null      object
 4   cast          8 non-null      object
 5   country       6 non-null      object
 6   release_year  8 non-null      int64 
 7   duration      8 non-null      int64 
 8   listed_in     2 non-null      object
dtypes: int64(3), object(6)
memory usage: 708.0+ bytes


## 시리즈 반환 ##

- DataFrame ['column_name']: 컬림 이름을 띠옴표와 함께 입력하여 해당 컬럼만 반환
- dataframe column_name: 체이닝 방식으로 컬럼 이름을 선택하여 반환

In [242]:
# 타이틀만 추출하여 반환 
title = netflix_new['title']
title

0                                   Squid Game
1                              Stranger Things
2                              Sherlock Holmes
3    Iron Man & Captain America: Heroes United
4                                     Bird Box
5                               Anne with an E
6                                   About Time
7                                    Inception
Name: title, dtype: object

In [243]:
# 체이닝 방식으로 타이틀 데이터 추출 
title = netflix_new.title
title


0                                   Squid Game
1                              Stranger Things
2                              Sherlock Holmes
3    Iron Man & Captain America: Heroes United
4                                     Bird Box
5                               Anne with an E
6                                   About Time
7                                    Inception
Name: title, dtype: object

In [244]:
# 두개이상의 데이터 컬럼 반환 = 중복 대괄호를 사용하여 2차원 행렬 생성 
title_release_year = netflix_new[['title', 'release_year']]
title_release_year

Unnamed: 0,title,release_year
0,Squid Game,2021
1,Stranger Things,2019
2,Sherlock Holmes,2009
3,Iron Man & Captain America: Heroes United,2014
4,Bird Box,2018
5,Anne with an E,2019
6,About Time,2013
7,Inception,2010


In [245]:
# 조건 필터링 
netflix_new['release_year'] > 2015

# 필터링 된 데이터가 안나오는게 아니라 False 로 표시됨 

0     True
1     True
2    False
3    False
4     True
5     True
6    False
7    False
Name: release_year, dtype: bool

In [246]:
# 필터링된 데이터 전체 추출
more2015 = netflix_new[netflix_new['release_year'] > 2015]
more2015

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,


In [247]:
# 부정조건 필터링 
less2015 = netflix_new[-(netflix_new['release_year'] > 2015)]
less2015

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


In [248]:
# 논리연산 필터링: &\
# 2015년 이후 영화이면서 tv show 인 데이터 
more2015_tv = netflix_new[(netflix_new['release_year']>2015) & (netflix_new['type'] == 'TV Show')]
more2015_tv

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,


## loc [] 필터링 ##

- df.loc [row_name, column_name]: 특정 로우와 컬럼을 선택
- df.loc [:, column_name]: 전체 로우와 표시된 하나의 컬럼 선택
- df.loc [:, column_name1,column_name2, ... ]: 전체 로우와 여러개 컬럼 선택
- df.loc [row_name]: 하나의 로우만 선택 
- df.loc [[row_name_1,row_name_2, ...]]: 여러개의 로우를 선택 
- df.loc [[row_name_1, row_name_2, ...], [column_name_1, column_name_2, ...]]: 여러개 로우와 여러가지 열을 선택 

In [249]:
# 전체 로우와 title 과 release_year 컬럼을 출력
title_year = netflix_new.loc[:,['title', 'release_year']]
title_year

Unnamed: 0,title,release_year
0,Squid Game,2021
1,Stranger Things,2019
2,Sherlock Holmes,2009
3,Iron Man & Captain America: Heroes United,2014
4,Bird Box,2018
5,Anne with an E,2019
6,About Time,2013
7,Inception,2010


In [250]:
# 0. 1번째 인덱스 로우와 title, release_year 의 컬럼을 출력 
title_year_idx = netflix_new.loc[[0,1], ['title', 'release_year']]
title_year_idx

Unnamed: 0,title,release_year
0,Squid Game,2021
1,Stranger Things,2019


In [251]:
netflix_new.index = ['a','b','c','d','e','f','g','h']

# b,c 인덱스 로우와 title, release_year 컬럼 출력 
title_year_bc = netflix_new.loc[['b', 'c'], ['title', 'release_year']]

title_year_bc

Unnamed: 0,title,release_year
b,Stranger Things,2019
c,Sherlock Holmes,2009


In [252]:
netflix_new.index = [0, 1, 2, 3, 4, 5, 6, 7]
type_director = netflix_new.iloc[[3, 4], [1, 3]]
type_director

Unnamed: 0,type,director
3,Movie,Leo Riley
4,Movie,Susanne Bier


In [253]:
# isin(values) 각 요소가 values 에 포함된 값인지 파악하여 불 타입으로 반환
# type변수의 값이 TV show 인 경우는 True
netflix_new['type'].isin(['TV Show'])

0     True
1     True
2    False
3    False
4    False
5     True
6    False
7    False
Name: type, dtype: bool

In [254]:
# type 변수의 값이 TV  Show 인 경우만 추출
tv_show = netflix_new[netflix_new['type'].isin(['TV Show'])]
tv_show

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,


## 결측치 ##


- 결측치란 데이터프레임 또는 시리즈에서 누락된 데이터를 나타내는데 사용
- 데이터가 없거나 부적절한 경우 결측치로 표시
- 판다스의 결축치는 NaN, None으로 표시됨
- NaN은 의도하지 않은 잘못된 값
- None은 파이썬에서 사용하는 값으로 값이 없음을 나타냄(0은 값이 있음)


## 결측치 처리 이유 ##


- 결측치가 있는 데이터를 그대로 사용하면 분석 결과가 왜곡될 수 있다. 예를 들어 평균 계산 시 결측치로 인해 산술 평균 값이 크게 달라진다.
- 결측치가 있는 데이터로 예측 모델을 구축하면 모델의 성능이 저하된다.
- 데이터의 완전성이 저하된다. 완정성이란 데이터에 필요한 값들이 모두 있고, 누락된 값이 없는 상태를 의미한다.
- 결측치가 있는 데이터를 기반으로 의사 결정을 내리면 신뢰성이 하락할 수 있다.


## 결측치 처리 방법 ##


- 결측치가 5% 미만이라면 일부분 이므로 행을 삭제하는 것이 적절하다.
- 결측치가 5% ~ 20% 정도라면 대체하는 방법이 적합하다. 이때 평균, 중간, 최빈값 등을 사용해 대체하거나, 필요에 따라 모델 기반 처리도 고려할 수 있다.
- 20% 이상이라면 변수의 중요성, 분석 목적, 데이터 양을 종합적으로 고려해 열을 제거할지 대체할지 결정해야 한다.

In [255]:
for i in netflix_new.columns:
    missingValueRate = netflix_new[i].isna().sum() / len(netflix_new) * 100
    if missingValueRate > 0: # 결축치가 0인
        print(f'{i} 결측치 비율: {round(missingValueRate,2)}')

director 결측치 비율: 37.5
country 결측치 비율: 25.0
listed_in 결측치 비율: 75.0


In [256]:
# 결측 데이터에 임의 데이터 추가: fillna('a') - 결측 데이터에 a 문자열 추가 
netflix_new['country'] = netflix_new['country'].fillna('No Data')
netflix_new

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,,Lee Jung-jae,No Data,2021,300,
1,2,TV Show,Stranger Things,,Winora Ryder,United States,2019,800,TV Horror
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,,Amybeth McNulty,Canada,2019,900,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


In [257]:
# 결측 데이터에 임의 데이터를 추가: replace('a') - 결측 데이터에 a 문자열 추가 
netflix_new['director'] = netflix_new['director'].replace(np.nan,'No Data')
netflix_new

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,listed_in
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300,
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800,TV Horror
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,Action & Adventure
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900,
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123,
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,


In [258]:
# 결측 데이터가 너무 많은 경우 삭제: dropna(axis=1 or 0)
# axis = 0: 결측치가 있는 로우를 제거, axis= 1: 결측치가 있는 컬럼 제거 
# inplace: 원본 데이터 번경 여부 

netflix_new.dropna(axis=1, inplace=True)
netflix_new

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148


In [259]:
netflix_new.to_csv('netflix_cleaned.csv', index=False)

## 데이터 통계 처리 ##


- 데이터 탐색: 데이터프레임에 어떤 값이 있는지, 값들의 범위는 어떤지 확인. 예를들어 각 열의 개수, 평균, 표준편차, 최솟값, 1분위수, 중앙값, 3분위수, 최댓값 등을 통해 값들의 범위를 확인
- 데이터 비교: 열을 비교하여 평균, 중앙값, 표준편차 등을 계산하여 열 간의 차이를 파악. 이를 통해 열 간의 상관관계와 데이터 분포를 분석
- 데이터 집계: 열의 합계, 평균, 개수 등으로 집계하여 원하는 정보를 수집
- 이상치 탐지: 열의 분산, 표준편차를 계산하여 이상 수치 파악. 평균에서 크게 벗어난 값은 극단값. 이 경우 표준편차를 이용해 식별

In [260]:
netflix = pd.read_csv('netflix_cleaned.csv')
print(f"duration mean: {netflix['duration'].mean()}")

duration mean: 324.25


In [261]:
# 중앙값 , 평균값 극단치 존재 그수치까지 고려 
print(f"median:{netflix['duration'].median()}")
print(f"sum:{netflix['duration'].sum()}")
print(f"min:{netflix['duration'].min()}")
print(f"max:{netflix['duration'].max()}")

median:138.0
sum:2594
min:71
max:900


In [262]:
# std() 표준편차이며, 데이터 값들이 평균으로 부터 얼마나 퍼저있는지 나타낸다. 분산의 제곱근으로 나타낸다
# 표준편차 값이 작으면 평균값에 가까운 데이터가 많다는 의미고. 크면 평균값에 가까운 데이터가 적다는 의미 
print(f"std: {netflix['duration'].std()}") # 대부분의 쇼가 평균 지속시간에서 약 332.25 내로 분포
 

std: 332.2497984520511


In [263]:
#var() : 분산은 데이터 값들의 평균으로 부터 얼마나 떨어저 있는지를 평균을 구하여 나타낸 값 
# 분산의 값이 작으면 평균에 가장 가까운 데이터가 많다는 의미다. 다만 분산은 값 계산 방식에 의하여 표준편차보다 훨씬 값이 크다 
print(f"var: {netflix['duration'].var()}") 

var: 110389.92857142857


In [264]:
# value_counts(): 특정 로우의 고유값이 나타내는 빈도수 
# 특정 칼럼이 몇가지 종류의 고유값을 가질떄, 예를 들어 넷플 타입 티비 쇼 무비 두개로 구분되는 상황에서 유용하다 

print(f"count: {netflix['type'].count()}")
print(f"value_counts: {netflix['type'].value_counts()}")

count: 8
value_counts: type
Movie      5
TV Show    3
Name: count, dtype: int64


In [265]:
# describe() 통계 지표 요약 - 갯수 평균 표준편차 최솟값 1분위주 중앙값 3분위주 최대값 
print(netflix[['release_year','duration']].describe)

<bound method NDFrame.describe of    release_year  duration
0          2021       300
1          2019       800
2          2009       128
3          2014        71
4          2018       124
5          2019       900
6          2013       123
7          2010       148>


In [266]:
# agg(): 원하는 통계 함수를 지정할수 있다.
# dataframe.agg({콜럼: 펑션 ~~~~})
netflix.agg({'release_year':['min', 'max', 'median','std'],'duration':['min', 'max', 'median','std', 'mean']})

Unnamed: 0,release_year,duration
min,2009.0,71.0
max,2021.0,900.0
median,2016.0,138.0
std,4.501984,332.249798
mean,,324.25


In [267]:
# 그룹별 집계 : groupby()
netflix.groupby('type')['duration'].mean()

type
Movie      118.800000
TV Show    666.666667
Name: duration, dtype: float64

In [268]:
netflix.groupby(['type', 'country'])[['release_year','duration']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,release_year,duration
type,country,Unnamed: 2_level_1,Unnamed: 3_level_1
Movie,No Data,2013.0,123.0
Movie,United States,2014.0,114.333333
Movie,"United States, Germany",2009.0,128.0
TV Show,Canada,2019.0,900.0
TV Show,No Data,2021.0,300.0
TV Show,United States,2019.0,800.0


In [269]:
# 로우 추가 : df.loc[index] = value
new = netflix.iloc[0, :]  # 첫 열의 로우 전체 데이터 저장 
netflix.loc[8] = new
netflix

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148
8,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300


In [270]:
# 컬럼 추가 df['뉴 콜럼'] = 값
netflix['new_duration'] = netflix['duration'] * 2
netflix

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,new_duration
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300,600
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800,1600
2,3,Movie,Sherlock Holmes,Guy Ritchie,Robert Downey Jr,"United States, Germany",2009,128,256
3,4,Movie,Iron Man & Captain America: Heroes United,Leo Riley,Adrian Pasder,United States,2014,71,142
4,5,Movie,Bird Box,Susanne Bier,Sandra Bullock,United States,2018,124,248
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900,1800
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123,246
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,296
8,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300,600


In [273]:
# 로우와 컬럼 삭제: drop(labels, axis=1 or 0)
# labels: 삭제할 로우 또는 컬럼의 인덱스 지정 
# axis: 삭제할 축을 지정 0은 로우를 삭제 1은 컬럼을 삭제

# 로우 삭제 
netflix = pd.read_csv('netflix_cleaned.csv')
netflix = netflix.drop(np.arange(2, 5), axis=0)
netflix['new_duration'] = netflix['duration'] * 2
netflix

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration,new_duration
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300,600
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800,1600
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900,1800
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123,246
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148,296


In [274]:
netflix = netflix.drop('new_duration', axis=1)
netflix

Unnamed: 0,show_id,type,title,director,cast,country,release_year,duration
0,1,TV Show,Squid Game,No Data,Lee Jung-jae,No Data,2021,300
1,2,TV Show,Stranger Things,No Data,Winora Ryder,United States,2019,800
5,6,TV Show,Anne with an E,No Data,Amybeth McNulty,Canada,2019,900
6,7,Movie,About Time,Richard Curtis,Domhnall Gleeson,No Data,2013,123
7,8,Movie,Inception,Christopher Nolan,Deonardo Dicaprio,United States,2010,148
