## 데이터 생성 (Creating Data)

In [1]:
import pandas as pd

# 리스트를 이용하여 Series 생성
s = pd.Series([1, 2, 3, 4, 5])
print(s)
import pandas as pd

# 리스트를 이용하여 Series 생성
s = pd.Series([1, 2, 3, 4, 5])
print(s)


0    1
1    2
2    3
3    4
4    5
dtype: int64
0    1
1    2
2    3
3    4
4    5
dtype: int64


In [2]:
# 사용자 정의 인덱스와 dtype 지정
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'], dtype='float64')
print(s)


a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64


## DataFrame 생성
- DataFrame은 2차원 테이블 구조로, 여러 열을 포함할 수 있는 데이터 구조입니다. pd.DataFrame()을 사용하여 DataFrame을 생성할 수 있습니다.

In [3]:
# 딕셔너리를 이용한 DataFrame 생성
data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'score': [85, 90, 88]}
df = pd.DataFrame(data)
print(df)


      name  age  score
0    Alice   25     85
1      Bob   30     90
2  Charlie   35     88


In [4]:
# 열 순서 지정 및 인덱스 설정
df = pd.DataFrame(data, columns=['name', 'age', 'score'], index=['a', 'b', 'c'])
print(df)


      name  age  score
a    Alice   25     85
b      Bob   30     90
c  Charlie   35     88


## numpy 배열을 이용한 DataFrame 생성
> numpy 배열을 사용하여 DataFrame을 만들 수도 있습니다.

In [6]:
import numpy as np

# 2D numpy 배열을 이용한 DataFrame 생성
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)


   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


## DataFrame의 기본 정보 확인
> - shape: 데이터의 행(row)과 열(column) 크기를 튜플로 반환합니다.
> - columns: 열 이름을 반환합니다.
> - index: 행 인덱스를 반환합니다.
> - dtypes: 각 열의 데이터 타입을 반환합니다.
> - head(): DataFrame의 상위 5개 행을 반환합니다.
> - tail(): DataFrame의 하위 5개 행을 반환합니다.
> - info(): DataFrame에 대한 요약 정보를 출력합니다.

In [14]:
# DataFrame 기본 속성 확인

print(df.shape)  # (행, 열) 크기
print("--------------------------------------------------------") 
print(df.columns)  # 열 이름
print("--------------------------------------------------------") 
print(df.index)  # 인덱스
print("--------------------------------------------------------") 
print(df.dtypes)  # 데이터 타입
print("--------------------------------------------------------") 
print()
# 상위 5개 행
print(df.head())

# 하위 5개 행
print(df.tail())

# DataFrame 요약 정보
print(df.info())
print() 

(3, 3)
--------------------------------------------------------
Index(['A', 'B', 'C'], dtype='object')
--------------------------------------------------------
RangeIndex(start=0, stop=3, step=1)
--------------------------------------------------------
A    int64
B    int64
C    int64
dtype: object
--------------------------------------------------------

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
 2   C       3 non-null      int64
dtypes: int64(3)
memory usage: 204.0 bytes
None



### Series의 기본 속성 확인
> - index: Series의 인덱스를 반환합니다.
> - dtype: Series의 데이터 타입을 반환합니다.
> - values: Series의 값을 반환합니다.

In [15]:
# Series의 기본 속성 확인
print(s.index)  # 인덱스
print(s.dtype)  # 데이터 타입
print(s.values)  # 값들


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
float64
[1. 2. 3. 4. 5.]


### describe() - 기초 통계량 계산
> describe() 함수는 데이터셋에 대한 통계적 요약을 제공하며, 기본적으로 수치형 데이터에 대한 정보를 보여줍니다.

In [17]:
# DataFrame의 기초 통계량
print(df.describe())
print()

# Series의 기초 통계량
print(s.describe())


         A    B    C
count  3.0  3.0  3.0
mean   4.0  5.0  6.0
std    3.0  3.0  3.0
min    1.0  2.0  3.0
25%    2.5  3.5  4.5
50%    4.0  5.0  6.0
75%    5.5  6.5  7.5
max    7.0  8.0  9.0

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64


### sum(), mean(), std() 
> pandas는 여러 기본 통계 함수도 제공하며, 각 열에 대해 합계, 평균, 표준편차 등을 계산할 수 있습니다.

In [19]:
# 각 열에 대한 합계
print(df.sum())
print()

# 각 열에 대한 평균
print(df.mean())
print()

# 각 열에 대한 표준편차
print(df.std())


A    12
B    15
C    18
dtype: int64

A    4.0
B    5.0
C    6.0
dtype: float64

A    3.0
B    3.0
C    3.0
dtype: float64


## 데이터 수정 및 값 변경
> 열 추가/삭제
> 열을 추가하려면 새로운 열을 할당하면 됩니다. 열을 삭제하려면 **drop()**을 사용합니다.

In [20]:
# 열 추가
df['gender'] = ['F', 'M', 'M']
print(df)

# 열 삭제
df = df.drop('gender', axis=1)  # axis=1은 열을 의미
print(df)


   A  B  C gender
0  1  2  3      F
1  4  5  6      M
2  7  8  9      M
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


> - 행 추가/삭제
> - 행을 추가하려면 loc[] 또는 **append()**를 사용하고, 행을 삭제하려면 **drop()**을 사용합니다.

In [21]:
# 행 추가
df.loc[3] = ['Eve', 40, 85]  # 새로운 행 추가
print(df)

# 행 삭제
df = df.drop(3, axis=0)  # 3번 인덱스의 행 삭제
print(df)


     A   B   C
0    1   2   3
1    4   5   6
2    7   8   9
3  Eve  40  85
   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


값 수정
특정 위치의 값을 수정하려면 **loc[]**이나 **iloc[]**을 사용합니다.

In [23]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

In [35]:
import pandas as pd
import numpy as np

# 난수 생성기 시드 설정 (재현성 위해)
np.random.seed(0)

# 데이터 생성
names = ['Alice', 'Bob', 'Charlie', 'David', 'Eve']
age = np.random.randint(20, 50, size=100)  # 나이는 20-50 사이에서 랜덤 생성
score = np.random.randint(30, 100, size=100)  # 점수는 60-100 사이에서 랜덤 생성

# 랜덤하게 이름 선택
name = np.random.choice(names, size=100)

# 데이터프레임 생성
df = pd.DataFrame({
    'name': name,
    'age': age,
    'score': score
})



In [36]:
# 'age'가 30 이상인 학생의 'score' 값을 100으로 수정
df.loc[df['age'] >= 30, 'score'] = 100
print(df)


     name  age  score
0   David   32    100
1   Alice   35    100
2   David   41    100
3   Alice   20     33
4     Eve   23     82
..    ...  ...    ...
95  David   45    100
96  David   30    100
97  Alice   40    100
98  David   31    100
99  Alice   24     65

[100 rows x 3 columns]


### DataFrame의 정렬 (Sorting)
> pandas는 데이터프레임을 정렬할 수 있는 기능도 제공합니다. sort_values()는 데이터를 오름차순 또는 내림차순으로 정렬합니다.

In [38]:
# 'age' 열 기준으로 오름차순 정렬
df_sorted = df.sort_values(by='age')
print(df_sorted)

print()

# 'age' 열 기준으로 내림차순 정렬
df_sorted_desc = df.sort_values(by='score', ascending=False)
print(df_sorted_desc)


       name  age  score
49      Eve   20     62
90      Eve   20     70
3     Alice   20     33
53      Eve   20     49
63      Eve   20     70
..      ...  ...    ...
76  Charlie   46    100
89    Alice   47    100
5   Charlie   47    100
61  Charlie   48    100
44    David   49    100

[100 rows x 3 columns]

       name  age  score
0     David   32    100
32    Alice   39    100
86    Alice   31    100
36    Alice   35    100
37    David   35    100
..      ...  ...    ...
92    David   23     41
73      Bob   24     41
26  Charlie   25     40
3     Alice   20     33
51      Bob   29     30

[100 rows x 3 columns]


### 중복 제거
> drop_duplicates()를 사용하여 중복된 행을 제거할 수 있습니다.

In [39]:
# 중복된 행 제거
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)


     name  age  score
0   David   32    100
1   Alice   35    100
2   David   41    100
3   Alice   20     33
4     Eve   23     82
..    ...  ...    ...
93  Alice   41    100
94  Alice   32    100
97  Alice   40    100
98  David   31    100
99  Alice   24     65

[86 rows x 3 columns]
