# 데이터프레임 생성

In [1]:
import pandas as pd
import numpy as np

print(np.__version__)
print(pd.__version__)

2.1.1
2.2.3


## 생성 장법 2가지
- 1) 리스트 활용
- 2) 딕셔너리 활용 (강사 선호)

## 리스트 활용
- 중첩리스트로 만들어야 한다

In [7]:
data = [
    ["039900", "알파코", "100000", 10.05],
    ["039910", "A", "5000", 1.05],
    ["039920", "B", "100", 1.28]
]

columns = ["종목코드", "종목명", "현재가", "등락률" ]

df = pd.DataFrame(data = data , columns = columns) # colmns 라는 매개변수 써야 열 맞게 들어감
df

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,100000,10.05
1,39910,A,5000,1.05
2,39920,B,100,1.28


## 딕셔너리 활용
- 

In [8]:
data2 = {
    "종목코드" : ['039900' , '039910', '039920'],
    "종목명" : ["알파코", "A", "B"]
}

df2=pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명
0,39900,알파코
1,39910,A
2,39920,B


In [10]:
# 망분리된 프로젝트 진행할 때, 패턴만 챗지피티 한테 주고 난수로 데이터 만들어서, 시험해볼 수 있음.
# 해보시고

In [18]:
import pandas as pd
import random
import string

# 그게 이거임

# Regenerating the dictionary where each key (종목코드, 종목명, 현재가, 등락률) has a list of values

data_dict = {
    "종목코드": [],
    "종목명": [],
    "현재가": [],
    "등락률": []
}

# Function to generate simpler 종목코드 and 종목명 ensuring the 종목코드 starts with '0'
def generate_code_name_for_dict(existing_codes):
    while True:
        code = '0' + ''.join(random.choices(string.digits, k=5))  # Ensure it starts with '0'
        name = ''.join(random.choices(string.ascii_uppercase, k=2))  # Simpler 종목명 with 2 letters
        if code not in existing_codes:
            return code, name

# Generating 10,000 rows of data
existing_codes_for_dict = set()

for _ in range(10000):
    code, name = generate_code_name_for_dict(existing_codes_for_dict)
    existing_codes_for_dict.add(code)
    current_price = random.randint(1000, 1000000)  # Simpler current price
    change_rate = round(random.uniform(-5, 5), 2)  # Simpler change rate
    
    data_dict["종목코드"].append(code)
    data_dict["종목명"].append(name)
    data_dict["현재가"].append(current_price)
    data_dict["등락률"].append(change_rate)

# Previewing a portion of the dictionary
data_dict_preview = {k: data_dict[k][:5] for k in data_dict} # 실행시 5개만 보겠다. 


df3=pd.DataFrame(data_dict_preview)
df3

Unnamed: 0,종목코드,종목명,현재가,등락률
0,19915,UL,619875,-2.25
1,40838,MX,91872,0.48
2,9434,LG,2010,-3.63
3,75238,IZ,434433,3.84
4,52075,TW,859853,4.24


## 체크해야할 메서드

In [14]:
df3.head()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64
1,15379,TH,299707,2.97
2,2547,NW,298506,2.41
3,27552,HP,761520,-3.91
4,78164,FH,991308,-4.33


In [15]:
df3.head(1)

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64


In [17]:
# 끝 쪽 값 확인 : .tail()
df3.tail()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,2169,AQ,768739,1.64
1,15379,TH,299707,2.97
2,2547,NW,298506,2.41
3,27552,HP,761520,-3.91
4,78164,FH,991308,-4.33


In [19]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   종목코드    5 non-null      object 
 1   종목명     5 non-null      object 
 2   현재가     5 non-null      int64  
 3   등락률     5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


In [20]:
# 프로젝트 하다가 보면 결측값 존재 함, 
# ?? RangeIndex 랑 non-null ??

In [22]:
df3.describe() # 수치 데이터에 대한 기술 통계량들 나옴

Unnamed: 0,현재가,등락률
count,5.0,5.0
mean,401608.6,0.536
std,358581.021262,3.526915
min,2010.0,-3.63
25%,91872.0,-2.25
50%,434433.0,0.48
75%,619875.0,3.84
max,859853.0,4.24


In [23]:
# 습관적으로 dataframe 불러오면 head, tail, info, describe 활용해서 
# 데이터가 잘 불러와졌는지
# 샘플링이 잘 되었는지 확인

In [24]:
data2 = {
    "종목코드" : ['039900', '039910', '039920'], 
    "종목명" : ["알파코", "A", "B"], 
    "현재가" : [10000000, 500000, 1000], 
    "등락률" : [10.05, 1.05, 1.28]
}

df2 = pd.DataFrame(data = data2)
df2

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,10000000,10.05
1,39910,A,500000,1.05
2,39920,B,1000,1.28


## coulumn to Index

In [25]:
df2 = df2.set_index("종목코드")
df2

Unnamed: 0_level_0,종목명,현재가,등락률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
39900,알파코,10000000,10.05
39910,A,500000,1.05
39920,B,1000,1.28


In [26]:
# 리셋 되면서 인덱스가 원래 컬럼 형태로 돌아감
df2.reset_index()

Unnamed: 0,종목코드,종목명,현재가,등락률
0,39900,알파코,10000000,10.05
1,39910,A,500000,1.05
2,39920,B,1000,1.28


In [27]:
# df2.reset_index(drop=True) : 원래 갖고 있던 인덱스 컬럼을 아예 삭제하곘다.

In [28]:
df2.reset_index(drop=True)

Unnamed: 0,종목명,현재가,등락률
0,알파코,10000000,10.05
1,A,500000,1.05
2,B,1000,1.28


In [30]:
# 둘 차이 보고 필요할 때 쓸 것
# 일반적으로는 drop=True 하게됨. 왜냐면 결국 컬럼이었던 종목코드를 지우는 경우 많기 때문

In [33]:
from pandas import DataFrame

data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"] # index 칼럼 지정한 것, set_index랑 또 다름
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [34]:
df.index

Index(['039900', '039910', '039900'], dtype='object')

In [35]:
df.index.shape

(3,)

In [38]:
# 1차원 배열임을 알수 있음

In [37]:
df.values

array([['알파코', 10000000, 10.05],
       ['A', 500000, 1.05],
       ['B', 1000, 1.28]], dtype=object)

In [39]:
# 머가 numpy라는 거임?

In [40]:
# 회사에서 큰 데이터 다룰 수록 numpy를 더 깊게 다루게 됨. 그걸 잘해야 빠르기 때문

## 각각의 컬럼에 접근해보자

In [41]:
df['현재가']

039900    10000000
039910      500000
039900        1000
Name: 현재가, dtype: int64

In [42]:
df[['현재가']]

Unnamed: 0,현재가
39900,10000000
39910,500000
39900,1000


In [46]:
# 밑에 거랑 위에 거 출력 값이 다르다.
# 출력값이 다르다는 것 = 클래스가 다르다는 것 = 속성과 메서드가 다를거다
# 위에건 series, 밑에건s dataframe으로 출력된것
# 클래스 안에 메서드가 없으면 -> attribute error !! 프로젝트 할 때 늑느낄 껏

In [47]:
type(df['현재가']) , type(df[['현재가']])

(pandas.core.series.Series, pandas.core.frame.DataFrame)

In [48]:
# type으로 확인해보면 됨. 위에 처럼 ㅇㅇ

## Low Indexing
- iloc, loc
  + loc : Label ( => 컬럼 ) 기준 인덱싱
  + iloc : index 기준 인덱싱

In [49]:
import seaborn as sns

sns.__version__

'0.13.2'

In [50]:
iris = sns.load_dataset("iris")
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [51]:
# data 잘 들어왔는 지 확인
iris.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [53]:
# iris.loc[행, 열]
iris.loc[[0,1], :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [54]:
iris.iloc[[0,1], :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [55]:
iris.loc[[0,1], ["sepal_width", "species"]]

Unnamed: 0,sepal_width,species
0,3.5,setosa
1,3.0,setosa


In [56]:
# 이렇게 loc는 컬럼별로 선택적으로 가져올 수 있음

In [57]:
# iloc는 저렇게 선택적으로 가져오려면 컬럼 수를 세어야 함
iris.iloc[[0,1],[1,4]]

Unnamed: 0,sepal_width,species
0,3.5,setosa
1,3.0,setosa


In [59]:
# 결과는 동일한데, 특정 행열을 가져오려면, iloc는 숫자를 세야함. 다른사람이 봤을 떄 iloc는 컬럼 명이 없으니까, 봤을 때 모름. 주석 달아야함.
# 협업 어려움
# 그럴바에 컬럼명 바로 보이는 loc를 쓰슈

### 행 추출

In [64]:
# 일종의 조건
# 값을 가져오고 싶다면, True 값만 가져옴
iris['sepal_width'] >= 4.0

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal_width, Length: 150, dtype: bool

In [65]:
# 위 조건 식 활용하면 행 추출 할 수 있다.
iris.loc[iris['sepal_width'] >= 4.0, :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
32,5.2,4.1,1.5,0.1,setosa
33,5.5,4.2,1.4,0.2,setosa


In [66]:
# df이냐 series냐 , index 항상 확인해야함

In [67]:
# 지급 뽑힌 상태를 보면, 완전하게 인덱스 정렬이 안된 상태임 (14, 15, 32, 33)
# 조회는 됐는데, 정리가 안된 상태임 !
# 어케 정렬함

### 행 추출 후 정렬
- 추출과 인덱스 처리까지 해야 전처리 완료된거임 ㅇㅋ

In [68]:
iris.loc[iris['sepal_width'] >= 4.0, :].reset_index(drop=True) 
# .reset_index : 인덱스 해제 하면서(.reset_index), 인덱스 컬럼 삭제(drop = True)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.8,4.0,1.2,0.2,setosa
1,5.7,4.4,1.5,0.4,setosa
2,5.2,4.1,1.5,0.1,setosa
3,5.5,4.2,1.4,0.2,setosa


In [69]:
# 그 뽑힌게 원하는 결과면 따로 추출 하면됨. 아래와 같이
result = iris.loc[iris['sepal_width'] >= 4.0, :].reset_index(drop=True) 
result

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.8,4.0,1.2,0.2,setosa
1,5.7,4.4,1.5,0.4,setosa
2,5.2,4.1,1.5,0.1,setosa
3,5.5,4.2,1.4,0.2,setosa


In [70]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [73]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [79]:
iris.loc[iris['sepal_length']>=6.4, ['sepal_length','petal_length']]

Unnamed: 0,sepal_length,petal_length
50,7.0,4.7
51,6.4,4.5
52,6.9,4.9
54,6.5,4.6
58,6.6,4.6
65,6.7,4.4
74,6.4,4.3
75,6.6,4.4
76,6.8,4.8
77,6.7,5.0


In [80]:
(iris.loc[iris['sepal_length']>=6.4, ['sepal_length','petal_length']]).describe()

Unnamed: 0,sepal_length,petal_length
count,42.0,42.0
mean,6.87619,5.5
std,0.43718,0.681104
min,6.4,4.3
25%,6.5,5.025
50%,6.7,5.55
75%,7.175,5.9
max,7.9,6.9


In [81]:
result2 = iris.loc[iris['sepal_length']>=6.4, ['sepal_length','petal_length']].reset_index(drop=True)
result2

Unnamed: 0,sepal_length,petal_length
0,7.0,4.7
1,6.4,4.5
2,6.9,4.9
3,6.5,4.6
4,6.6,4.6
5,6.7,4.4
6,6.4,4.3
7,6.6,4.4
8,6.8,4.8
9,6.7,5.0


### 문자열 기반으로 조회

In [83]:
iris.loc[iris['species'] == 'setosa', :].reset_index(drop=True)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [84]:
# 너무 기니까 잘 나오는지 만 확인
iris.loc[iris['species'] == 'setosa', :].reset_index(drop=True).head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [86]:
# 확인 되면 result로 값 추출 저장
result = iris.loc[iris['species'] == 'setosa', :].reset_index(drop=True)
#result

## 다중조건

In [87]:
# series에서도 했었음. 괄호 열고 해라...

In [88]:
# 어떻게 하면 좋냐면...

In [89]:
# 다중 조건
iris.loc[:,:] # 행과 열을 다 잘 나오는 지 일단 테스트

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [90]:
# 다중조건
# and
# iris.loc[(조건식 1) & (조건식 2), :]
# or
# iris.loc[(조건식 1) | (조건식 2), :]

# 처음에 이렇게 안하면 계속 문법 error 뜸

In [92]:
iris.loc[(iris['species'] == 'setosa') & (iris['sepal_width']>3.2), :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
10,5.4,3.7,1.5,0.2,setosa
11,4.8,3.4,1.6,0.2,setosa
14,5.8,4.0,1.2,0.2,setosa
15,5.7,4.4,1.5,0.4,setosa
16,5.4,3.9,1.3,0.4,setosa


In [94]:
iris.loc[(iris['species'] == 'versicolor') & (iris['sepal_width']>3.2), :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
56,6.3,3.3,4.7,1.6,versicolor
85,6.0,3.4,4.5,1.6,versicolor


In [95]:
# 그러니까 안에 들어가는 조건식을 먼저 쓰고, 확인하고, 그걸 합쳐서 다중조건 전체 식 으로 가는 거임
# 그냥 쭉 쓰면 헷갈림. 뭐 빼먹음

In [101]:
# 다중조건 2개 초과도 가능

iris.loc[(iris['species'] == 'virginica') & (iris['sepal_width']>=3.2) & (iris['petal_length']>=6.2), :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
117,7.7,3.8,6.7,2.2,virginica
131,7.9,3.8,6.4,2.0,virginica


In [102]:
iris.loc[(iris['species'] == 'virginica') & (iris['sepal_width']>=3.2) & (iris['petal_length']>=6.2), :].reset_index(drop=True)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,7.7,3.8,6.7,2.2,virginica
1,7.9,3.8,6.4,2.0,virginica


In [104]:
# and or 연산자 적용 순서 ; 괄호 없으면 순서대로 아닌가? 어차피 교, 합집합인데......

## 컬럼 추가하기

In [105]:
# 작업하다보면 원본데이터 영향 갈 수 있으니, 복사한 후에 추가 등 할 것
iris2 = iris.copy()
iris2

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [106]:
# 컬럼 추가하기
iris2['newCol'] = 0
iris2

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,newCol
0,5.1,3.5,1.4,0.2,setosa,0
1,4.9,3.0,1.4,0.2,setosa,0
2,4.7,3.2,1.3,0.2,setosa,0
3,4.6,3.1,1.5,0.2,setosa,0
4,5.0,3.6,1.4,0.2,setosa,0
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,0
146,6.3,2.5,5.0,1.9,virginica,0
147,6.5,3.0,5.2,2.0,virginica,0
148,6.2,3.4,5.4,2.3,virginica,0


In [107]:
iris2['sepals'] = iris2['sepal_length'] + iris2['sepal_width']
iris2

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,newCol,sepals
0,5.1,3.5,1.4,0.2,setosa,0,8.6
1,4.9,3.0,1.4,0.2,setosa,0,7.9
2,4.7,3.2,1.3,0.2,setosa,0,7.9
3,4.6,3.1,1.5,0.2,setosa,0,7.7
4,5.0,3.6,1.4,0.2,setosa,0,8.6
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,0,9.7
146,6.3,2.5,5.0,1.9,virginica,0,8.8
147,6.5,3.0,5.2,2.0,virginica,0,9.5
148,6.2,3.4,5.4,2.3,virginica,0,9.6


In [109]:
iris2.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,newCol,sepals
0,5.1,3.5,1.4,0.2,setosa,0,8.6


## 컬럼 삭제

In [110]:
data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [111]:
df.drop("039900", axis=0)

Unnamed: 0,종목명,현재가,등락률
39910,A,500000,1.05


In [112]:
# axis = 0 : 행을 처리한다.
# axis = 1 : 열을 처리한다.

In [113]:
df.drop("종목명", axis=1)

Unnamed: 0,현재가,등락률
39900,10000000,10.05
39910,500000,1.05
39900,1000,1.28


In [115]:
df.drop('종목명', axis = 1, inplace=True) # inplace=True: 코드 연속성이 떨어져서 별로 안 좋아함 . 그냥 이런게 있다 정도로만...
df

KeyError: "['종목명'] not found in axis"

In [116]:
# 분석은 한 줄 한 줄 다 의미가 있음. 기존 있는 값이 업데이트 되는 거보단 분리해놓는게 좋음. 그래서 inplace=True 별로임
# 쟤는 실행 즉시 원본 반영됨. 데이터 분석에는 보통 좋지 않음. 원 데이터 하나하나 다 의미가 ㅣㅇㅆ는 거기 때무네


## 컬럼 수정

In [117]:
data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df2= df.rename(columns = { '중목명' : 'code'})

In [118]:
df2.head()

Unnamed: 0,종목명,현재가,등락률
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [120]:
data = [
    ["알파코", 10000000, 10.05], 
    ["A", 500000, 1.05], 
    ["B", 1000, 1.28]
]

index = ["039900", "039910", "039900"]
columns = ["종목명", "현재가", "등락률"]
df = DataFrame(data=data, index=index, columns=columns)
df3= df.rename(columns = { '종목명' : 'code' , '현재가' : 'current' , '등락률' : 'up and down' })
df3.head()

Unnamed: 0,code,current,up and down
39900,알파코,10000000,10.05
39910,A,500000,1.05
39900,B,1000,1.28


In [121]:
# 공식문서 가면 - user guide - 10 minutes to pandas , dd, dd, 등등 메서드 엄청 많음. 거기 있는 코드를 필사 하면 늚. 필사 하면 됨.

In [123]:
# 미션 ! 숫자로 바꾸셈!! ?? 맞음??
data = [
    ["1,000", "1,100", '1,510'],
    ["1,410", "1,420", '1,790'],
    ["850", "900", '1,185'],
]
columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns) 
df

Unnamed: 0,03/02,03/03,03/04
0,1000,1100,1510
1,1410,1420,1790
2,850,900,1185


In [131]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   03/02   3 non-null      object
 1   03/03   3 non-null      object
 2   03/04   3 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


In [135]:
data = [
    ["1,000", "1,100", '1,510'],
    ["1,410", "1,420", '1,790'],
    ["850", "900", '1,185'],
]
columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns) 
df2 = df.copy()
df2['03/02'] = df2['03/02'].str.replace(',', '').astype(float)
df2['03/02'].info()
# 가격 변수가 'object' 였어서, 'int64' 숫자로 변경
#df1['price'] = df['price'].str.replace(',', '').astype(int64)

<class 'pandas.core.series.Series'>
RangeIndex: 3 entries, 0 to 2
Series name: 03/02
Non-Null Count  Dtype  
--------------  -----  
3 non-null      float64
dtypes: float64(1)
memory usage: 156.0 bytes


In [136]:
data = [
    ["1,000", "1,100", '1,510'],
    ["1,410", "1,420", '1,790'],
    ["850", "900", '1,185'],
]
columns = ["03/02", "03/03", "03/04"]
df = DataFrame(data=data, columns=columns) 
df2 = df.copy()
df2['03/02'] = df2['03/02'].str.replace(',', '').astype(float)
df2['03/03'] = df2['03/03'].str.replace(',', '').astype(float)
df2['03/04'] = df2['03/04'].str.replace(',', '').astype(float)
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   03/02   3 non-null      float64
 1   03/03   3 non-null      float64
 2   03/04   3 non-null      float64
dtypes: float64(3)
memory usage: 204.0 bytes


# 데이터 내보내기 / 불러오기

In [137]:
#iris.to_csv("경로")

In [141]:
iris.to_csv("iris_240930.csv",index=False) # index=False 안하면 내보낼 떄 쓸 데 없는 index_col 생김

In [139]:
# 불러오기

In [140]:
df = pd.read_csv("iris_240930.csv")
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [142]:
iris.to_excel("iris_excel_240930.xlsx")

ModuleNotFoundError: No module named 'openpyxl'

In [143]:
# moduel not found error: 엑셀은 판다스에서 바로 하는게 아니라 다른 라이브러리 참조해서 함. 그래서 생긴거 

In [144]:
# pandas 업데이트 해야함. 

In [145]:
# 새로운 깃배시 열어서, 거기서 가상환경 접속해서, pip install 하거나

In [146]:
# vscode 열어서 , openpyxl 을 requirements 추가하고, 다시 가상하ㅗㄴ경 세팅하고 주피터 들어오면 될 것

In [None]:
# 정리하자면, 새로 git bash 터미널 열고, 가상환경 세팅하고, openpyxl 넣은 requirements.txt 다시 pip install 하고 주ㅍ터 실행해보면 됨

In [147]:
iris.to_excel("iris_excel_240930.xlsx")

In [149]:
iris_excel=pd.read_excel("iris_excel_240930.xlsx")
iris_excel

Unnamed: 0.1,Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,0,5.1,3.5,1.4,0.2,setosa
1,1,4.9,3.0,1.4,0.2,setosa
2,2,4.7,3.2,1.3,0.2,setosa
3,3,4.6,3.1,1.5,0.2,setosa
4,4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,145,6.7,3.0,5.2,2.3,virginica
146,146,6.3,2.5,5.0,1.9,virginica
147,147,6.5,3.0,5.2,2.0,virginica
148,148,6.2,3.4,5.4,2.3,virginica


In [150]:
df = pd.read_csv("test/iris_240930.csv")
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
DataFrame.astype(dtype, copy=None, errors='raise')

In [11]:
# 만든 데이터 프레임을 내보내고 불러오기 해야함.