In [91]:
!pip install pandas



In [92]:
import numpy as np
import pandas as pd

---

# Series
- pd.Series() 함수를 사용하여 생성
- 특징:
    - 각 데이터는 고유한 인덱스를 가지며, 이를 통해 데이터에 쉽게 접근 가능
    - dtype은 Series 내부의 데이터 타입을 나타냄

In [93]:
# 리스트로 Series 생성
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
s

a    10
b    20
c    30
d    40
dtype: int64

In [94]:
# 인덱스를 이용한 선택
print(s['b'])

20


---

# DataFrame
- 다양한 방법으로 생성
- 대표적인 방법으로는 딕셔너리 or 리스트를 사용
- 특징:
    - 각 열(Column)은 고유한 Series로 간주
    - 행과 열에는 각각의 인덱스와 컬럼 라벨이 있어 데이터를 쉽게 선택 가능

In [95]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,Los Angeles
2,Charlie,35,Chicago
3,David,40,Houston


In [96]:
# 특정 열 선택
print(df['Name'])

0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object


In [97]:
# 행을 선택하려면 loc나 iloc을 사용할 수 있다.
print(df.loc[1])

print(df.iloc[1])

Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object
Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object


### Series와 DataFrame의 차이점
- Series는 1차원 데이터 구조로, 데이터에 고유한 인덱스를 부여하여 데이터에 접근
- DataFrame은 2차원 데이터 구조로, 여러 개의 Series가 모여 테이블을 이루며, 행과 열 모두 인덱스를 통해 접근

---

# DataFrame 기본 연산

In [98]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}

df = pd.DataFrame(data)

# 단일 열 선택
print(df['Name'])

0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object


In [99]:
# 인덱스를 기반으로 행 선택
print(df.loc[1])
print(df.iloc[2])

Name            Bob
Age              30
City    Los Angeles
Name: 1, dtype: object
Name    Charlie
Age          35
City    Chicago
Name: 2, dtype: object


### 행과 열 추가

In [100]:
# 'Country' 열 추가
df['Country'] = ['USA', 'USA', 'USA', 'USA']
print(df)

      Name  Age         City Country
0    Alice   25     New York     USA
1      Bob   30  Los Angeles     USA
2  Charlie   35      Chicago     USA
3    David   40      Houston     USA


In [101]:
# 새로운 행 추가 (인덱스 사용)
df.loc[4] = ['Eve', 28, 'San Francisco', 'USA']
print(df)

      Name  Age           City Country
0    Alice   25       New York     USA
1      Bob   30    Los Angeles     USA
2  Charlie   35        Chicago     USA
3    David   40        Houston     USA
4      Eve   28  San Francisco     USA


### 행과 열 삭제

In [102]:
# 'Country' 열 삭제
df = df.drop('Country', axis=1)
print(df)

      Name  Age           City
0    Alice   25       New York
1      Bob   30    Los Angeles
2  Charlie   35        Chicago
3    David   40        Houston
4      Eve   28  San Francisco


In [103]:
# 행 삭제
df = df.drop(0)
print(df)

      Name  Age           City
1      Bob   30    Los Angeles
2  Charlie   35        Chicago
3    David   40        Houston
4      Eve   28  San Francisco


### 기초적인 데이터 수정 및 조작

In [104]:
# 'Age' 열의 값을 수정
# 특정 값을 변경하려면 인덱스와 열을 지정하고 값을 할당한다.
df.loc[1, 'Age'] = 31
print(df)

      Name  Age           City
1      Bob   31    Los Angeles
2  Charlie   35        Chicago
3    David   40        Houston
4      Eve   28  San Francisco


In [109]:
# 'Age' 열을 float 타입으로 변경
df['Age'] = df['Age'].astype(float)
df.dtypes

Name     object
Age     float64
City     object
dtype: object