In [1]:
import pandas as pd

data = {
    'name': ['김철수', '이영희', '박민수', '최지영', '정현우'],
    'kor': [85, 92, 78, 95, 88],
    'math': [90, 85, 92, 88, 95],
    'eng': [88, 90, 85, 92, 87]
}

df = pd.DataFrame(data)

print("지정한 열만 출력\n")
print(df['name'])
print(df[['kor']])
print(df[['eng']])

지정한 열만 출력

0    김철수
1    이영희
2    박민수
3    최지영
4    정현우
Name: name, dtype: object
   kor
0   85
1   92
2   78
3   95
4   88
   eng
0   88
1   90
2   85
3   92
4   87


# Pandas Series 연산


## 📊 Series 연산의 기본 개념

Pandas Series는 1차원 배열 형태의 데이터 구조로, 인덱스와 값으로 구성됩니다. Series 간의 연산은 같은 인덱스를 가진 값들끼리 수행됩니다.

## 🔢 주요 연산 방법

### 1. 기본 산술 연산
- `+` : 덧셈
- `-` : 뺄셈  
- `*` : 곱셈
- `/` : 나눗셈

### 2. 연산 시 주의사항

#### NaN 처리
- **키가 없는 경우**: NaN(Not a Number) 값이 생성됩니다
- **NaN의 의미**: 누락된 데이터를 나타내는 표준 표기법

#### fill_value 사용
- `add()`, `sub()`, `mul()`, `div()` 메서드의 `fill_value` 매개변수 활용
- 누락된 값을 특정 값으로 대체하여 연산 수행

## 💡 실습 예제 설명

아래 코드에서 확인할 수 있는 내용:

1. **기본 Series 생성**: 각각 다른 키 순서로 데이터 생성
2. **NaN 발생**: 키가 일치하지 않는 경우 NaN 출력
3. **연산 결과**: 
   - 기본 연산: NaN이 포함된 결과
   - fill_value 사용: 0으로 대체하여 완전한 연산 결과 도출

## 🎯 활용 팁

- 데이터 전처리 시 NaN 값 처리 방법 선택
- fill_value 값을 상황에 맞게 조정 (0, 평균값, 중앙값 등)
- Series 연산 전 데이터 구조 확인 필수


In [4]:
print(df.loc[:, 'name' : 'eng']) # 행 전체 name ~ eng까지
print(df.loc[:, ['name', 'eng', 'math']]) # numpy
print(df.iloc[[1, 3], [0, 1, 2]]) # 행 1, 3번째, 열 0, 1, 2(name, eng, math)
print(df.loc[[1, 3], ['name', 'kor']]) # 양쪽 다 슬라이싱 가능
print(df.iloc[[1, 3], [0, 2]]) # 행 1, 3번째, 열 0, 2(name, math)

  name  kor  math  eng
0  김철수   85    90   88
1  이영희   92    85   90
2  박민수   78    92   85
3  최지영   95    88   92
4  정현우   88    95   87
  name  eng  math
0  김철수   88    90
1  이영희   90    85
2  박민수   85    92
3  최지영   92    88
4  정현우   87    95
  name  kor  math
1  이영희   92    85
3  최지영   95    88
  name  kor
1  이영희   92
3  최지영   95
  name  math
1  이영희    85
3  최지영    88


In [5]:
import pandas as pd

data1 = {'eng': 88, 'math': 90, 'kor': 85}
data2 = {'math': 85, 'kor': 92, 'eng': 90}
data3 = {'kor': 78, 'eng': 85, 'math': 92}
data4 = {'math': 88, 'kor': 95, 'eng': 92}

# 키가 없으면 NaN 출력.  NaN은 누락된 값을 의미
s1 = pd.Series(data1)
s2 = pd.Series(data2)
s3 = pd.Series(data3)
s4 = pd.Series(data4)

print("s1:\n", s1)
print("s2:\n", s2)
print("s3:\n", s3)
print("s4:\n", s4)

s1:
 eng     88
math    90
kor     85
dtype: int64
s2:
 math    85
kor     92
eng     90
dtype: int64
s3:
 kor     78
eng     85
math    92
dtype: int64
s4:
 math    88
kor     95
eng     92
dtype: int64


In [6]:
result = s1+s2+s3+s4
print("result:\n", result)

result:
 eng     355
kor     350
math    355
dtype: int64


In [7]:
result2 = s1.add(s2, fill_value=0).add(s3, fill_value=0).add(s4, fill_value=0)
print("result2:\n", result2)

result2:
 eng     355
kor     350
math    355
dtype: int64


In [None]:
import pandas as pd

data1 = {'eng': 88, 'math': 90, 'kor': 85}
data2 = {'math': 85, 'kor': 92, 'eng': 90}
data3 = {'kor': 78, 'eng': 85, 'math': 92}
data4 = {'math': 88, 'kor': 95, 'eng': 92}

df = pd.DataFrame(columns=["kor", "eng", "mat"])
# pandas 2.0 이상 버전에서는 _append 메서드 대신 concat 메서드 사용
# df = df._append(data1, ignore_index = True)

In [8]:
# 데이터프레임 생성
import pandas as pd

data = {
    'name': ['김철수', '이영희', '박민수', '최지영', '정현우'],
    'kor': [85, 92, 78, 95, 88],
    'math': [90, 85, 92, 88, 95],
    'eng': [88, 90, 85, 92, 87]
}
df = pd.DataFrame(data)

# 행 추가
df.loc[len(df)] = data1
df.loc[len(df)] = data2
df.loc[len(df)] = data3
df.loc[len(df)] = data4

# 인덱스 재설정(필요시)
df = df.reset_index(drop=True)

# 원하는 행, 열 출력
print(df.iloc[[1, 3, 5], [0, 1, 2]])

  name  kor  math
1  이영희   92    85
3  최지영   95    88
5  NaN   85    90


In [9]:
df = pd.concat([
    pd.DataFrame([data1]),
    pd.DataFrame([data2]),
    pd.DataFrame([data3]),
    pd.DataFrame([data4]),
    ], ignore_index = True)
print("\n concat 결과 : ")
print(df)


 concat 결과 : 
   eng  math  kor
0   88    90   85
1   90    85   92
2   85    92   78
3   92    88   95


In [12]:
df['total'] = df['kor'] + df['eng'] + df['math']
df['avg'] = round(df['total'] / 3)

print(df)

   eng  math  kor  total   avg
0   88    90   85    263  88.0
1   90    85   92    267  89.0
2   85    92   78    255  85.0
3   92    88   95    275  92.0


In [15]:
import pandas as pd
 
new_data = {
    'fruits':['망고', '딸기', '수박', '파인애플'],
    'price':[2500, 5000,10000, 7000],
    'count':[5, 2, 2, 4],
}
df = pd.DataFrame(columns=['fruits', 'price', 'count'])
df.loc[len(df)] = {'fruits': '사과', 'price': 3500, 'count': 10}

print(df)

  fruits  price  count
0     사과   3500     10


# 문제
아래 표의 데이터를 데이터프레임(DataFrame)으로 만드세요.<br>
X1  X2  X3  X4
2.9	9.2	13.2	2
2.4	8.7	11.5	3
2	7.2	10.8	4
2.3	8.5	12.3	2
3.2	9.6	12.6	3
위 데이터프레임에 마지막 행으로 [10, 20, 30, 40]을 추가하세요.
각 열의 합을 구해서, 새로운 열 total에 저장하세요.

In [16]:
import pandas as pd

# 1. 데이터프레임 생성
data = {
    'X1': [2.9, 2.4, 2, 2.3, 3.2],
    'X2': [9.2, 8.7, 7.2, 8.5, 9.6],
    'X3': [13.2, 11.5, 10.8, 12.3, 12.6],
    'X4': [2, 3, 4, 2, 3]
}
df = pd.DataFrame(data)

# 2. 마지막 행 추가
df.loc[len(df)] = [10, 20, 30, 40]

# 3. 각 행의 합을 구해서 'total' 컬럼에 저장
df['total'] = df.sum(axis=1)

print(df)

     X1    X2    X3  X4  total
0   2.9   9.2  13.2   2   27.3
1   2.4   8.7  11.5   3   25.6
2   2.0   7.2  10.8   4   24.0
3   2.3   8.5  12.3   2   25.1
4   3.2   9.6  12.6   3   28.4
5  10.0  20.0  30.0  40  100.0
