# 값 접근 방법들


In [9]:
import pandas as pd

In [10]:
rich_set = pd.read_csv('TopRichestInWorld.csv')
rich_set

Unnamed: 0,Name,NetWorth,Age,Country/Territory,Source,Industry
0,Elon Musk,"$219,000,000,000",50,United States,"Tesla, SpaceX",Automotive
1,Jeff Bezos,"$171,000,000,000",58,United States,Amazon,Technology
2,Bernard Arnault & family,"$158,000,000,000",73,France,LVMH,Fashion & Retail
3,Bill Gates,"$129,000,000,000",66,United States,Microsoft,Technology
4,Warren Buffett,"$118,000,000,000",91,United States,Berkshire Hathaway,Finance & Investments
...,...,...,...,...,...,...
96,Vladimir Potanin,"$17,300,000,000",61,Russia,metals,Metals & Mining
97,Harold Hamm & family,"$17,200,000,000",76,United States,oil & gas,Energy
98,Sun Piaoyang,"$17,100,000,000",63,China,pharmaceuticals,Healthcare
99,Luo Liguo & family,"$17,000,000,000",66,China,chemicals,Manufacturing


In [11]:
# 알만한 이름이 나올까?
rich_name=pd.read_csv('TopRichestInWorld.csv', usecols=["Name"]).squeeze()
rich_name

0                     Elon Musk
1                    Jeff Bezos
2      Bernard Arnault & family
3                    Bill Gates
4                Warren Buffett
                 ...           
96             Vladimir Potanin
97         Harold Hamm & family
98                 Sun Piaoyang
99           Luo Liguo & family
100                   Peter Woo
Name: Name, Length: 101, dtype: object

## ????, ???? - 10개 조회하기

In [12]:
# 앞단 10개 조회
rich_name.head(10)

0                   Elon Musk
1                  Jeff Bezos
2    Bernard Arnault & family
3                  Bill Gates
4              Warren Buffett
5                  Larry Page
6                 Sergey Brin
7               Larry Ellison
8               Steve Ballmer
9               Mukesh Ambani
Name: Name, dtype: object

In [13]:
# 뒷단 10개 조회
rich_name.tail(10)

91     Savitri Jindal & family
92                 Wang Wenyin
93                   Li Xiting
94              Stefan Persson
95                 Steve Cohen
96            Vladimir Potanin
97        Harold Hamm & family
98                Sun Piaoyang
99          Luo Liguo & family
100                  Peter Woo
Name: Name, dtype: object

## 특정 index 조회

In [14]:
rich_name[0]

'Elon Musk'

In [15]:
rich_name[100]

'Peter Woo'

In [16]:
# 범위를 넘기면 에러 인덱스에러가 아닌 키에러 
# 인데스가아니라 인덱스 레이블을 통해 접근이기때문에 ,숫자뿐아니라 글자도 가능. 딕셔너리에 키와같다 
rich_name[101]

KeyError: 101

## 특정 Index들 조회

In [17]:
rich_name[[0,15,20]]

0        Elon Musk
15      Jim Walton
20    Charles Koch
Name: Name, dtype: object

## 인덱스 슬라이싱(Slicing)을 이용한 조회

In [18]:
# head와 동일한 기능 인덱싱 레이블로 접근해야해!! 숫자 0부터 5전까지
rich_name[0:5]

0                   Elon Musk
1                  Jeff Bezos
2    Bernard Arnault & family
3                  Bill Gates
4              Warren Buffett
Name: Name, dtype: object

In [19]:
# 슬라이스 숫자 생략도 파이썬처럼 가능 
rich_name[:]

0                     Elon Musk
1                    Jeff Bezos
2      Bernard Arnault & family
3                    Bill Gates
4                Warren Buffett
                 ...           
96             Vladimir Potanin
97         Harold Hamm & family
98                 Sun Piaoyang
99           Luo Liguo & family
100                   Peter Woo
Name: Name, Length: 101, dtype: object

In [20]:
# 0~50명단까지, 5배수에 해당하는 사람 이름을 조회하려면 
rich_name[4:50:5]

4                                 Warren Buffett
9                                  Mukesh Ambani
14                               Mark Zuckerberg
19                                Changpeng Zhao
24                                  Zhang Yiming
29                               MacKenzie Scott
34    Beate Heister & Karl Albrecht Jr. & family
39                                 Len Blavatnik
44           German Larrea Mota Velasco & family
49                                Miriam Adelson
Name: Name, dtype: object

## Series 인덱스 조회

In [21]:
rich_name.index
#숫자로 자동으로 넣어주고 그때 넣어주는객체가 RangeIndex라는 객체이다.

RangeIndex(start=0, stop=101, step=1)

In [22]:
# 다른 예시 1
data = ['banana', 'apple', 'coconut']
data_set=pd.Series(data)
data_set.index

RangeIndex(start=0, stop=3, step=1)

In [23]:
# 다른 예시 2
user = {"name": "Spencer", "age": 20, "job": None}
user_set=pd.Series(user)
user_set.index

Index(['name', 'age', 'job'], dtype='object')

**RangeIndex**
- RangeIndex는 순차적인 정수로 구성된 인덱스 객체.
- 데이터프레임(DataFrame)이나 시리즈(Series)를 생성할 때, 명시적으로 인덱스를 지정하지 않은 경우에 기본적으로 생성되는 인덱스.
- RangeIndex는 0부터 시작하는 정수로 구성되며
- 일반적으로 데이터의 길이 또는 행의 개수에 따라 자동으로 생성
- RangeIndex는 **변경할 수 없는(immutable) 객체**로, 크기가 고정.
- RangeIndex는 메모리 사용을 최적화하여 데이터의 검색과 접근 속도를 향상시킵니다.

**Index**
- Index는 일련의 값으로 구성된 인덱스 객체.
- 문자열, 정수, 날짜 등 다양한 데이터 타입을 가질 수 있다.
- Index는 RangeIndex와 달리 명시적으로 지정되거나 다른 데이터의 인덱스로부터 생성될 수 있다.
- Index는 **변경 가능한(mutable) 객체** 
- 따라서, 인덱스의 값이나 순서를 변경하거나 인덱스를 추가/삭제할 수 있다.
- Index는 데이터의 레이블링, 인덱싱, 슬라이싱 등 다양한 데이터 조작 작업에 활용된다.

**RangeIndex vs Index 요약**
- RangeIndex
    - 순차적인 정수로 구성되는 고정 크기의 인덱스 객체,
- Index
    - 일련의 값으로 구성되며 변경 가능한 특성을 가진 인덱스 객체
- 두 객체 모두 데이터프레임이나 시리즈의 인덱스로 사용되고, 데이터 조작 및 접근을 위해 다양한 기능을 제공.

## Index 특이사항1 - 순환될까?

In [24]:
# 파이썬 순환 조회
numbers = [3, 6, 9, 12]
numbers[-1]

12

In [25]:
# 파이썬 순환 생략&슬라이싱
numbers[::-1]

[12, 9, 6, 3]

In [26]:
# 파이썬 리스트처럼 순환이 될까?
rich_name[-1]

KeyError: -1

'지원을 안한다'가 아니라 '방식이 잘못되었다'는 걸 Key Error를 보고 깨달아야한다.
파이썬 리스트를 생각했다면 KeyError가 아닌 IndexError가 발생했을 것.

In [27]:
# 상황 1
data = ['banana', 'apple', 'coconut']
data_set=pd.Series(data)
data_set


0     banana
1      apple
2    coconut
dtype: object

In [28]:
data_set.index

RangeIndex(start=0, stop=3, step=1)

In [29]:
# 미리보기 : 삭제
del data_set[1]
data_set

0     banana
2    coconut
dtype: object

In [30]:
data_set.index

RangeIndex(start=0, stop=3, step=2)

In [31]:
# 인덱스가 아니라 인덱스 열(인덱스 객체로 이루어진)이다.
# 때문에 1로 인덱스 접근하면 에러
data_set[1]

KeyError: 1

## Index 특이사항2 - 인덱스가 문자열일때

In [32]:
# 상황 2
user = {"name": "Spencer", "age": 20, "job": None}
user_set=pd.Series(user)
user_set

name    Spencer
age          20
job        None
dtype: object

In [33]:
user_set.index

Index(['name', 'age', 'job'], dtype='object')

In [34]:
# 이건 되고
user_set['name']

'Spencer'

In [35]:
# 이것도 되고
user_set[0]

  user_set[0]


'Spencer'

In [36]:
# 이건 되고
del user_set['name']

In [37]:
# 이건 안되고?
del user_set[0]

KeyError: 0

**`del user_set['name']`는 되고 `del user_set[0]`은 안되는 이유**
- `del user_set['name']` : 인덱스 레이블을 사용하여 해당하는 인덱스와 값을 삭제하는 것
- `del user_set[0]` : 정수 인덱스를 사용하여 삭제하는 것이 불가능

**정수 인덱스? 인덱스 레이블?**
- 인덱스가 문자열일 경우 Series객체는 인덱스를 사용할 수 있다는 원칙이 있다.
- Series 객체는 인덱스 레이블 기준 연산이 우선된다.

**삭제 연산은 레이블 접근만 허용**
- 조회는 데이터를 파괴하지 않기에 정수 인덱스를 통한 방식도 허용하나
- del을 이용한 삭제는 인덱스 레이블 방식만 허용한다.

In [40]:
# 이해를 돕는 코드 - 정수 인덱스와 인덱스 레이블이 일치하는 상황
data = ['banana', 'apple', 'coconut']
data_set=pd.Series(['banana', 'apple', 'coconut'] , index=[0,1,2])
data_set

0     banana
1      apple
2    coconut
dtype: object

In [41]:
# 이해를 돕는 코드 - 정수 인덱스와 인덱스 레이블이 다른 상황
user = {"name": "Spencer", "age": 20, "job": None}
user_set=pd.Series(['Spencer',20,None],index=['name','age','job'])
user_set

name    Spencer
age          20
job        None
dtype: object