# Object creation (2024-01-26)

In [None]:
import numpy as np
import pandas as pd

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

In [None]:
dates = pd.date_range("20130101", periods=6)
dates

In [None]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))
df

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1,index=list(range(4)),dtype="float32"),
        "D": np.array([3]*4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo", #특이한게 ,로 끝내도 되고 아닌 것으로 끝내도 되네?
    }
)
df2

In [None]:
df2.dtypes

In [None]:
#df2.<TAB> # noqa: E225, E999

#df2.까지 입력후 탭누르라는 의미, vscode에서는 탭안눌러도 자동으로 표시 단 컬럼은 안 표시됨

# Viewing data (2024-01-27)

In [None]:
df.head()

In [None]:
df.tail(3)

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.to_numpy()

In [None]:
df.values

In [None]:
df2.dtypes

In [None]:
df2.to_numpy()

In [None]:
df2.values

In [None]:
df.describe()

In [None]:
df.T
#행과 열을 바꿔주는데 미리 계산되어 있음
#메소드가 아닌 속성임

In [None]:
df.T.index
#값만 바꿔서 나타내는가해서 확인용으로 해줬는데 인덱스도 확실히 바뀌어있다

In [None]:
df.sort_index(axis=1, ascending=False)
#axis = 1 하면 열끼리 정렬하는 것

In [None]:
df.sort_values(by="B")
#df안에 있는 특정 열의 값에 대해서 정렬해줄 수 있음

# Selection (2024-01-28)

## Getitem ([])

In [None]:
df["A"]

In [None]:
df[0:3]

In [None]:
df["20130102":"20130104"]

## Selection by label

In [None]:
df.loc[dates[0]]

In [None]:
df.loc[dates[0],:]

In [None]:
df.loc[:,["A","B"]]

In [None]:
df.loc["20130102":"20130104",["A","B"]]

In [None]:
df.loc["20130102":"20130104",["B","A"]]

In [None]:
df.loc[dates[0],"A"]

In [None]:
df.at[dates[0],"A"]

## Selection by position

In [None]:
df.iloc[3]

In [None]:
df.iloc[3:5, 0:2]

In [None]:
#비교 loc는 슬라이싱 할때 끝부분까지로 인식(끝부분 포함됨) iloc는 끝부분제외
#df.loc[3:5, 0:2] 아 맞다 이런 식으로 숫자 인덱스로 안됬다
df.loc["20130104":"20130105", "A":"B"]

In [None]:
df.iloc[[1,2,4],[0,2]]

In [None]:
df.iloc[1:3, :]

In [None]:
df.iloc[:, 1:3]

In [None]:
df.iloc[1,1]

In [None]:
df.iat[1,1]

## Boolean indexing (조건에 따른 컬럼 선택)

In [None]:
df[df["A"] > 0]

In [None]:
df[df>0]

In [None]:
df2=df.copy()
df2["E"]=["one", "one", "two", "three", "four", "three"]
df2

In [None]:
df2[df2["E"].isin(["two", "four"])]
#isin()안에 []로 넣어야하는 듯 (한 개의 경우에도)

## Setting

In [None]:
s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range("20130102", periods=6))
s1

In [None]:
df["F"]=s1

In [None]:
df.at[dates[0],"A"] = 0
df

In [None]:
df.iat[0, 1] = 0
df

In [None]:
len(df)

In [None]:
df.loc[:, "D"] = np.array([5]*len(df))
df

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

# Missing data (2024-01-29)

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+["E"])
df.loc[dates[0]:dates[1], "E"] = 1
df1

In [None]:
df1.dropna(how="any") #결측치 있으면 다 제거하는 옵션인듯?

In [None]:
df1.fillna(value=5) #결측치를 특정 값으로 다 바꿔서 채우는 방법

In [None]:
pd.isna(df1) #결측치가 있는가에 대한 T/F판단 있으면 T

# Operations (2024-01-30)

## Stats

In [None]:
df

In [None]:
df.mean() #NaN값있으면 합산, 갯수에서 제외하고 평균 내는 듯

In [None]:
print(df.mean(axis=1)) 
# 마찬가지로 NaN값있으면 합산, 갯수에서 제외하고 평균 내는 듯, 단 axis=1이면 행 별로 모든 컬럼의 값의 평균 내줌
# axis = 1말고 그냥 인자로 1만 줘도 동일한 결과가 나오는 듯 함

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates)
s

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s

>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series     
Series의 메소드인 shift가 뭐하는 녀석인지 몰라서 문서에 들어가보니 아래와 같이 서술되어있었다   
shift([periods, freq, axis, fill_value, suffix])    
Shift index by desired number of periods with an optional time freq.    
자세한 내용은 모르겠지만 대강 값들을 index를 기준으로 준 값만큼 이동시키는 듯하다   
1일과 2일의 경우 이전 인덱스에 해당하는 데이터가 없으니 NaN로 결측치가 된 것이고    
3,4,5일의 경우 인덱스상으로 2이전의 값들이 존재했으니 해당값들로 바뀌었고   
6일의 경우 인덱스상으로 2이전의 값이 NaN로 결측치 였기에 결측치로 되었는 듯하다.



In [None]:
df.sub(s, axis='index')

>https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame
이번엔 df의 메소드인 sub에 대하여 설명이 없어서 찾아보니 아래와 같이 메소드로 설명되어있었고 잘 이해가 되지 않아 좀더 자세한 독스에 들어갔다    
sub(other[, axis, level, fill_value])       
Get Subtraction of dataframe and other, element-wise (binary operator sub).     
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sub.html#pandas.DataFrame.sub   
DataFrame.sub(other, axis='columns', level=None, fill_value=None)   
대강 구조를 보니 df에 대하여 빼기를 해주는데 sub()안에 들어있는 값으로 빼주는 것으로 들어올 수 있는 other로는 scalar, sequence, Series, dict or DataFrame이 가능하다고 한다 이중 sequence는 정확히 뭔지 모르겠어서 찾아보니     
https://wikidocs.net/84391      
내용을 참고하였다 대강 리스트, 문자열, 튜플 이 세가지 자료형이라고 생각하면 될듯하다    
그리고 axis에 대하여 0 or index , 1 or columns의 옵션이 있는데 기본값은 colunms로 되어있다  
fill_value는 결측치를 만났을 때 특정값으로 바꿔넣어줄 것인지 선택하는 옵션으로 기본값은 none로 되어있다     
level 옵션에 대해서는 잘모르겠다 예제도 한문제 뿐인데 잘 이해가 되지 않는다 대강 멀티인덱스를 사용할 경우에 사용하는 느낌인데 예제를 아래 그대로 가져와서 해보고 이해해보도록 하겠다

### level 예제

In [None]:
level_example_df = pd.DataFrame({'angles': [0, 3, 4],
                   'degrees': [360, 180, 360]},
                  index=['circle', 'triangle', 'rectangle'])
level_example_df

In [None]:
level_example_df_multindex = pd.DataFrame({'angles': [0, 3, 4, 4, 5, 6],
                             'degrees': [360, 180, 360, 360, 540, 720]},
                            index=[['A', 'A', 'A', 'B', 'B', 'B'],
                                   ['circle', 'triangle', 'rectangle',
                                    'square', 'pentagon', 'hexagon']])
level_example_df_multindex

In [None]:
print(level_example_df.div(level_example_df_multindex, level=1))
#원래 예제에는 ,fill_value=0으로 결측치 0으로 바꿔주는 옵션이 추가되어있었다
#뭔가 알듯말듯한데 chatGPT를 통해 설명을 들으니 알 것 같았다
#https://chat.openai.com/share/73654015-96b4-4fb3-b6e3-243526afb670

## User defined functions

In [None]:
display(df)
print(df.mean(),'\n')
print(df.mean()*5.6)

In [None]:
df.agg(lambda x: np.mean(x)*5.6)

In [None]:
df*101.2

In [None]:
df.transform(lambda x: x*101.2)

agg는 대강은 알듯한데 transform은 agg와 뭐가 다른지 모르겠다    
추가로 유사한 것에 apply도 있던 것으로 기억하는데 여기는 왜 빠져있고 차이가 뭔지도 궁금하다     
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html#pandas.DataFrame.agg   
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html#pandas.DataFrame.transform   
https://pandas.pydata.org/pandas-docs/stable/user_guide/gotchas.html#gotchas-udf-mutation   
chatGPT에게 차이를 물어본 내용:
https://chat.openai.com/share/654feb01-8d50-481e-8c7a-ca160e1e74a4

## Value Counts

In [None]:
s = pd.Series(np.random.randint(0,7,size=10))
s

In [None]:
s.value_counts()

## String Methods

In [None]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
print(s)
s.str.lower()

pandas.Series:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series     
Vectorized String Methods:
https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods

# Merge (2024-01-31)

## Concat

In [None]:
df = pd.DataFrame(np.random.randn(10,4)) 
#np.random.randn(m,n) : 평균0, 표준편차1의 가우시안 표준정규분포 난수를 matrix array(m,n) 생성
df

np.random.randn(m,n) https://nittaku.tistory.com/443    
docs : https://numpy.org/doc/stable/reference/random/generated/numpy.random.randn.html

In [None]:
pieces = [df[:3], df[3:7], df[7:]]
pieces

In [None]:
pd.concat(pieces)

## Join

In [None]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})
left

In [None]:
right

In [None]:
pd.merge(left, right, on="key")

In [None]:
left = pd.DataFrame({"key": ["foo", "bar"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar"], "rval": [4, 5]})
left

In [None]:
right

In [None]:
pd.merge(left, right, on="key")

# Grouping (2024-02-01)

Splitting the data into groups based on some criteria

Applying a function to each group independently

Combining the results into a data structure

In [None]:
df = pd.DataFrame(
    {"A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"], 
     "B": ["one", "one", "two", "three", "two", "two", "one", "three"], 
     "C": np.random.randn(8),
     "D": np.random.randn(8),}
)
df

In [None]:
df.groupby("A")[["C", "D"]].sum()

In [None]:
df.groupby(["A", "B"]).sum()

# Reshaping (2024-02-02)

## Stack

In [None]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"], 
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
index = pd.MultiIndex.from_arrays(arrays, names = ["first", "second"])
df = pd.DataFrame(np.random.randn(8,2), index=index, columns=["A", "B"])
df2 = df[:4]
df2

In [None]:
stacked = df2.stack() #future_stack=True
stacked #왜인지는 모르겠지만 저 옵션 빼줘야 제대로 실행됨 결과는 그리 다르지 않은 것으로 보임 나중에 질문해보기

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html#pandas.DataFrame.stack   
부분을 보니 pandas2.0에서 pandas 3.0의 방식을 사용할 때 해주던 방식으로 유추되는데

In [None]:
pd.__version__

2.0버전 쓰고 있는 것이 맞는데 왜 안되는 거지..?

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1) # 행열 바꿔서 해제하는듯?

In [None]:
stacked.unstack(0) # 무슨 방식으로 바꾸는지는 모르겠지만 째든 바꿔서 해제하는듯

## Pivot tables

In [None]:
df = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 3,
        "B": ["A", "B", "C"] * 4,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 2,
        "D": np.random.randn(12),
        "E": np.random.randn(12),
    }
)
df

In [None]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"])

# Time series (2024-02-03)

시계열 데이터에서 1초 마다 측정된 데이터를 5분 마다 측정된 데이터의 형태로 바꾸고 싶을 때 어떻게 해야하는지     
그리고 그 시계열 단위인 주기(frequency)를 다시 샘플링 할 수 있음

In [None]:
rng = pd.date_range("1/1/2012", periods=100, freq ="s") #대강 시작기준날짜, 몇개, (데이터간 차이나는)단위 느낌인듯하다
ts = pd.Series(np.random.randint(0,500,len(rng)), index=rng)
ts.resample("5Min").sum()

#### resample에 대하여

In [None]:
idx = pd.date_range("2018-01-01", periods=5, freq="h")
ts2 = pd.Series(range(len(idx)), index=idx)
ts2

In [None]:
ts2.resample("2h").mean()

In [None]:
print(type(ts2))

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.resample.html#pandas.Series.resample   
우선 2.0.0버전 이후로는 사라지게 될 듯한 기능이며 후에는 frame.T.resample을 대신 사용하라고 한다    
(지금 내가 사용하는 pandas 버전이 2.0.3인데 아직 존재는 하는듯하다?)    
resample: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries-resampling     
흠 frame.T.resample이 뭔지 궁금해서 검색했는데 따로 나오지는 않은 것같다    
(Dataframe.T정도는 있긴한데 다른내용으로 행과 열을 바꿔주는 transpose를 의미하는 듯하다)   
그리고 그냥 series, df, df의 groupby했을때 series와 df 모두에 사용가능한 듯하다     
그런데 쓰이는 파라미터의 rule에 대해서 어떤 것을 쓸 수 있는 지 궁금해서 알고 싶은데 그냥 DataOffset, Timedelta or str로 적혀있다    
현재 예제들로 확인 된 것은 str으로 적을 때 숫자+ 시간은 'h', 초는 's', 분은 month의 m과 중복되서 그런지 'min'로 쓰이는 것을 확인하였다      
관련한 듯한 내용: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects   
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.tseries.offsets.DateOffset.html#pandas.tseries.offsets.DateOffset      
timedelta: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timedelta.html#pandas.Timedelta   
GPT한테 물어봐도 https://chat.openai.com/share/4e050491-79e0-44a5-bd1d-38a4f2d1e92f     
크게 다르진 않는 듯하다     
그냥 관련한 듯한 내용에 적힌 string부분을 참고하는 것만으로도 충분한듯 하다

In [None]:
rng = pd.date_range("3/6/2012 00:00", periods=5, freq="D")
ts = pd.Series(np.random.random(len(rng)),rng)
ts

In [None]:
ts_utc = ts.tz_localize("UTC")
ts_utc

In [None]:
ts_utc.tz_convert("US/Eastern")

In [None]:
rng

In [None]:
rng + pd.offsets.BusinessDay(5)

# Categoricals (2024-02-04)

In [None]:
df = pd.DataFrame(
    {"id": [1,2,3,4,5,6], "raw_grade": ["a", "b", "b", "a", "a", "e"]}
)
df

In [None]:
df["grade"] = df["raw_grade"].astype("category") # 타입을 category로 변경하여 새로운 컬럼으로써 추가
df["grade"]

In [None]:
new_categorics = ["very good", "good", "very bad"] # 변경해줄 새로운 카테고리들
df["grade"] = df["grade"].cat.rename_categories(new_categorics) # 기존 카테고리를 새로운 카테고리로 변경

In [None]:
df

In [None]:
df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"]
)
df["grade"]

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.cat.html#pandas.Series.cat 
.cat.rename_categories(new_categorics)는 기존 카테고리를 새로운 카테고리로 변경하는 것이고  
.cat.set_categories(new_categorics)는 기존 카테고리를 새로운 카테고리로 변경하면서 추가로 없던 카테고리도 추가해줄 수 있다(카테고리 갯수를 늘릴 수 있다)

In [None]:
df.sort_values(by="grade") # 대신 정렬의 기준은 어휘적 순서가 아닌 범주에서 매겨진 값의 순서대로 순서가 매겨짐

In [None]:
display(df.groupby("grade", observed=False).size()) 
# size로 크기를 구할 수 있기 때문에 이 방식을 통해 각 범주에 해당되는 값의 빈도수도 확인할 수 있다
# observed=False하면 카테고리에 대해 0인 것도 표시가 된다

# Plotting (2024-02-05)

In [None]:
import matplotlib.pyplot as plt
plt.close("all") # 왜 이것부터 시작한지는 모르겠지만 열려있는 모든 figure창을 닫아주는 메소드인듯하다

In [None]:
ts = pd.Series(np.random.randn(1000), index=pd.date_range("1/1/2000", periods=1000))
ts = ts.cumsum()
ts.plot()

cumsum은 누적합계를 해주는 메소드인듯하다   
https://pandas.pydata.org/docs/reference/api/pandas.Series.cumsum.html

In [None]:
df = pd.DataFrame(
    np.random.randn(1000,4), index=ts.index, columns=["A", "B", "C", "D" ]
)
df = df.cumsum()
plt.figure();
df.plot();
plt.legend(loc='best');

파이썬에서느 일반적으로 세미콜론 안 적는 듯한데 왜 적어준지 모르겠음    
https://chat.openai.com/share/4ae0e28e-30a6-4f04-bf75-6eb8dfc91ec1

# Importing and exporting data (2024-02-06)

## CSV

In [None]:
df = pd.DataFrame(np.random.randint(0,5,(10,5)))
df.to_csv("foo.csv")

In [None]:
pd.read_csv("foo.csv") 

주의 할점:  
CSV 형식으로 부터 읽어올 때 주의할 점은 기존 행 인덱스를 인식하지 못하고 행 인덱스를 가지는 새로운 열이 추가로 잡힌다는 것입니다.   
따라서 저장할 당시에는 4개였던 열의 개수가 5개가 되어있는 것을 확인할 수 있습니다.      
이를 해결하기 위해서 저장할 떄 index_rabel=False를 해주면 제외하고 저장할 수 있다
아니면 불러올 때 index_col=0를 통해 첫번째 열을 인덱스로 사용하여 저장된 인덱스를 그냥 바로 사용하도록 설정해줄 수도 있다

## Parquet

In [None]:
df.to_parquet("foo.parquet")

In [None]:
pd.read_parquet("foo.parquet")

## HDF5

In [None]:
# df.to_hdf('foo.h5', 'df') #모듈 추가 설치해야하는듯한데 쓸일없을듯하여 패스하였다

### 그냥 실행시 실패 추가로 모듈 설치해줘야하는 듯 
(그래서 pytalbes라는 것을 설치해야 쓸 수 있을 듯한데 당장 쓸일없을듯하여 패스하였다)

{
	"name": "ImportError",
	"message": "Missing optional dependency 'pytables'.  Use pip or conda to install pytables.",
	"stack": "---------------------------------------------------------------------------
ModuleNotFoundError                       Traceback (most recent call last)
File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\compat\\_optional.py:142, in import_optional_dependency(name, extra, errors, min_version)
    141 try:
--> 142     module = importlib.import_module(name)
    143 except ImportError:

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\importlib\\__init__.py:127, in import_module(name, package)
    126         level += 1
--> 127 return _bootstrap._gcd_import(name[level:], package, level)

File <frozen importlib._bootstrap>:1014, in _gcd_import(name, package, level)

File <frozen importlib._bootstrap>:991, in _find_and_load(name, import_)

File <frozen importlib._bootstrap>:973, in _find_and_load_unlocked(name, import_)

ModuleNotFoundError: No module named 'tables'

During handling of the above exception, another exception occurred:

ImportError                               Traceback (most recent call last)
Cell In[115], line 1
----> 1 df.to_hdf('foo.h5', 'df')

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\core\\generic.py:2682, in NDFrame.to_hdf(self, path_or_buf, key, mode, complevel, complib, append, format, index, min_itemsize, nan_rep, dropna, data_columns, errors, encoding)
   2678 from pandas.io import pytables
   2680 # Argument 3 to \"to_hdf\" has incompatible type \"NDFrame\"; expected
   2681 # \"Union[DataFrame, Series]\" [arg-type]
-> 2682 pytables.to_hdf(
   2683     path_or_buf,
   2684     key,
   2685     self,  # type: ignore[arg-type]
   2686     mode=mode,
   2687     complevel=complevel,
   2688     complib=complib,
   2689     append=append,
   2690     format=format,
   2691     index=index,
   2692     min_itemsize=min_itemsize,
   2693     nan_rep=nan_rep,
   2694     dropna=dropna,
   2695     data_columns=data_columns,
   2696     errors=errors,
   2697     encoding=encoding,
   2698 )

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\io\\pytables.py:302, in to_hdf(path_or_buf, key, value, mode, complevel, complib, append, format, index, min_itemsize, nan_rep, dropna, data_columns, errors, encoding)
    300 path_or_buf = stringify_path(path_or_buf)
    301 if isinstance(path_or_buf, str):
--> 302     with HDFStore(
    303         path_or_buf, mode=mode, complevel=complevel, complib=complib
    304     ) as store:
    305         f(store)
    306 else:

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\io\\pytables.py:560, in HDFStore.__init__(self, path, mode, complevel, complib, fletcher32, **kwargs)
    557 if \"format\" in kwargs:
    558     raise ValueError(\"format is not a defined argument for HDFStore\")
--> 560 tables = import_optional_dependency(\"tables\")
    562 if complib is not None and complib not in tables.filters.all_complibs:
    563     raise ValueError(
    564         f\"complib only supports {tables.filters.all_complibs} compression.\"
    565     )

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\compat\\_optional.py:145, in import_optional_dependency(name, extra, errors, min_version)
    143 except ImportError:
    144     if errors == \"raise\":
--> 145         raise ImportError(msg)
    146     return None
    148 # Handle submodules: if we have submodule, grab parent module from sys.modules

ImportError: Missing optional dependency 'pytables'.  Use pip or conda to install pytables."
}

## 생소한 파일 형식자들에 대한 gpt 답변 (+pickle)
https://chat.openai.com/share/ee9a3e69-bbd0-44c0-8e95-bf87a586f75c

## Excel

In [None]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

In [None]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

# Gotchas (2024-02-07)

In [None]:
# if pd.Series([False, True, False]):
#      print("I was true")

{
	"name": "ValueError",
	"message": "The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().",
	"stack": "---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[117], line 1
----> 1 if pd.Series([False, True, False]):
      2      print(\"I was true\")

File c:\\Users\\kssg1\\AppData\\Local\\Programs\\Python\\Python38\\lib\\site-packages\\pandas\\core\\generic.py:1466, in NDFrame.__nonzero__(self)
   1464 @final
   1465 def __nonzero__(self) -> NoReturn:
-> 1466     raise ValueError(
   1467         f\"The truth value of a {type(self).__name__} is ambiguous. \"
   1468         \"Use a.empty, a.bool(), a.item(), a.any() or a.all().\"
   1469     )

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()."
}

# 이로써 한번 완독?완타가 끝났다
    중간 import 다시

In [118]:
import pandas as pd

# View부분 (2024-02-08)

In [120]:

dates = pd.date_range("20130101", periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [121]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.084276,-0.990418,0.766975,-0.105054
2013-01-02,-0.060532,-1.116166,-0.190412,1.033047
2013-01-03,-2.707503,0.436719,0.545674,-0.76668
2013-01-04,0.006458,1.400895,-2.140044,-1.204554
2013-01-05,0.015899,0.27172,-0.563553,-0.286793
2013-01-06,-0.173206,-1.739706,1.409944,0.24919


In [122]:
df.to_numpy() #df풀고 어레이로 바꾸는 방식인듯했다

array([[ 0.0842757 , -0.99041755,  0.7669749 , -0.10505376],
       [-0.06053217, -1.1161663 , -0.19041221,  1.03304714],
       [-2.70750326,  0.43671926,  0.5456739 , -0.76667979],
       [ 0.0064583 ,  1.40089451, -2.14004445, -1.20455429],
       [ 0.0158991 ,  0.27171997, -0.56355304, -0.2867926 ],
       [-0.17320589, -1.73970626,  1.40994425,  0.24918956]])

In [128]:
df.info() #info는 자체에 print가 포함 된듯하다 항상 자동으로 출력이 되었다
display(df.describe())
display(df.describe(include='all'))
display(df.describe(include=['int','float64'])) 
# 'float64 자리에 'object' or 'O' , category 등 나오는 것을 바라는 형식을 입력하면 된다 
# 여러개 하고싶다면 ['',''] 이런 식으로 리스트 안에 문자열로 형식을 여러개 넣어주면 된다

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2013-01-01 to 2013-01-06
Freq: D
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       6 non-null      float64
 1   B       6 non-null      float64
 2   C       6 non-null      float64
 3   D       6 non-null      float64
dtypes: float64(4)
memory usage: 240.0 bytes


Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.472435,-0.289493,-0.028569,-0.180141
std,1.098405,1.181318,1.249215,0.783149
min,-2.707503,-1.739706,-2.140044,-1.204554
25%,-0.145037,-1.084729,-0.470268,-0.646708
50%,-0.027037,-0.359349,0.177631,-0.195923
75%,0.013539,0.395469,0.71165,0.160629
max,0.084276,1.400895,1.409944,1.033047


Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.472435,-0.289493,-0.028569,-0.180141
std,1.098405,1.181318,1.249215,0.783149
min,-2.707503,-1.739706,-2.140044,-1.204554
25%,-0.145037,-1.084729,-0.470268,-0.646708
50%,-0.027037,-0.359349,0.177631,-0.195923
75%,0.013539,0.395469,0.71165,0.160629
max,0.084276,1.400895,1.409944,1.033047


Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.472435,-0.289493,-0.028569,-0.180141
std,1.098405,1.181318,1.249215,0.783149
min,-2.707503,-1.739706,-2.140044,-1.204554
25%,-0.145037,-1.084729,-0.470268,-0.646708
50%,-0.027037,-0.359349,0.177631,-0.195923
75%,0.013539,0.395469,0.71165,0.160629
max,0.084276,1.400895,1.409944,1.033047


원래 조금 더 할려했는데 피곤하고 시간이 늦은 관계로 이정도에서 마무리 짓도록 하겠다