# **Metin Operasyonları**

In [93]:
import pandas as pd
import numpy as np

## Pandas String Metotları

In [47]:
isim = pd.Series(["99", "gandalf", "aragorn", "legolas", "frodo"])


In [48]:
isim
# String ifadelerdeki bütün komutlar geçerlidir.


0         99
1    gandalf
2    aragorn
3    legolas
4      frodo
dtype: object

In [49]:
# help(isim.str)


In [50]:
isim.str.upper()


0         99
1    GANDALF
2    ARAGORN
3    LEGOLAS
4      FRODO
dtype: object

In [51]:
isim.str.capitalize()


0         99
1    Gandalf
2    Aragorn
3    Legolas
4      Frodo
dtype: object

In [52]:
seri = ["Churchill,Hirohito,Roosevelt,Stalin","ENG,JP,USA,USSR"]

In [53]:
ww2 = pd.Series(seri)

In [54]:
seri

['Churchill,Hirohito,Roosevelt,Stalin', 'ENG,JP,USA,USSR']

In [55]:
ww2

0    Churchill,Hirohito,Roosevelt,Stalin
1                        ENG,JP,USA,USSR
dtype: object

In [56]:
len(ww2)

2

In [57]:
ww2.str.split(",")

0    [Churchill, Hirohito, Roosevelt, Stalin]
1                        [ENG, JP, USA, USSR]
dtype: object

In [62]:
ww2.str.split(",").iloc[1][3]

'USSR'

In [61]:
ww2.str.split(",", expand=True)
# expand= True, DF haline getirir

Unnamed: 0,0,1,2,3
0,Churchill,Hirohito,Roosevelt,Stalin
1,ENG,JP,USA,USSR


In [65]:
ww2 = ww2.str.split(",", expand=True)

In [66]:
type(ww2)

pandas.core.frame.DataFrame

___
___

## String Temizleme ve Düzenleme

In [83]:
temiz = pd.Series(["   gandalf the wizard", "aragorn son of arathorn   ", "lego#las sindarin", "   frodo baggins  "])

In [84]:
temiz

0            gandalf the wizard
1    aragorn son of arathorn   
2             lego#las sindarin
3               frodo baggins  
dtype: object

In [85]:
temiz.str.strip()

0         gandalf the wizard
1    aragorn son of arathorn
2          lego#las sindarin
3              frodo baggins
dtype: object

In [86]:
temiz.str.replace("#","")

0            gandalf the wizard
1    aragorn son of arathorn   
2              legolas sindarin
3               frodo baggins  
dtype: object

In [87]:
temiz.str.strip().str.replace("#","").str.title()

0         Gandalf The Wizard
1    Aragorn Son Of Arathorn
2           Legolas Sindarin
3              Frodo Baggins
dtype: object

In [89]:
def temizlik(temiz):

    temiz = temiz.strip()
    temiz = temiz.replace("#","")
    temiz = temiz.title()

    return temiz
    

In [90]:
temiz

0            gandalf the wizard
1    aragorn son of arathorn   
2             lego#las sindarin
3               frodo baggins  
dtype: object

In [92]:
temiz.apply(temizlik)

0         Gandalf The Wizard
1    Aragorn Son Of Arathorn
2           Legolas Sindarin
3              Frodo Baggins
dtype: object

In [94]:
np.vectorize(temizlik)(temiz)

array(['Gandalf The Wizard', 'Aragorn Son Of Arathorn',
       'Legolas Sindarin', 'Frodo Baggins'], dtype='<U23')

In [96]:
import timeit 
  
# code snippet to be executed only once 
setup = '''
import pandas as pd
import numpy as np
temiz = pd.Series(["   gandalf the wizard", "aragorn son of arathorn   ", "lego#las sindarin", "   frodo baggins  "]) 
def temizlik(temiz):

    temiz = temiz.strip()
    temiz = temiz.replace("#","")
    temiz = temiz.title()

    return temiz
'''
  
stmt_pandas_str = ''' 
temiz.str.replace(";","").str.strip().str.capitalize()
'''

stmt_pandas_apply = '''
temiz.apply(temizlik)
'''

stmt_pandas_vectorize='''
np.vectorize(temizlik)(temiz)
'''

In [99]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_str, 
                    number = 10000) 

5.24082449999969

In [100]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_apply, 
                    number = 10000) 

1.6416722000003574

In [101]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_vectorize, 
                    number = 10000)

0.41813189999993483

**SONUÇ:** .str.metot() kullanımı ve okuması kolay olsa da en hızlı yöntem olmadığı kesin. Çok fazla veri yoksa kullanılabilir. Ama yüksek sayıda veri içeren setlerde np.vectorize çok daha hızlı ve tasarruflu olur.

___
___

# Tarih ve Zaman Operasyonları

## Datetime

In [3]:
from datetime import datetime

In [4]:
year = 1920
month = 4
day = 23
hour = 14
minute = 15
second = 00

In [8]:
birinci_meclis = datetime(year,month,day)

In [9]:
birinci_meclis

datetime.datetime(1920, 4, 23, 0, 0)

In [10]:
TBMM = datetime(year,month,day,hour,minute,second)

In [11]:
TBMM

datetime.datetime(1920, 4, 23, 14, 15)

In [15]:
TBMM.year

1920

In [13]:
TBMM.hour

14

In [14]:
TBMM.second

0

In [16]:
TBMM.day

23

___
---

## Pandas Tarih Zaman Operasyonları

In [27]:
tarih = pd.Series(["23/04/1920","Oct 29, 1923","1924-03-03"])

In [28]:
tarih

0      23/04/1920
1    Oct 29, 1923
2      1924-03-03
dtype: object

In [None]:
# help(pd.to_datetime)

In [29]:
pd.to_datetime(tarih)

0   1920-04-23
1   1923-10-29
2   1924-03-03
dtype: datetime64[ns]

In [30]:
tarih = pd.Series(["23/04/1920","Oct 29, 1923","1924-03-03",None])

In [31]:
pd.to_datetime(tarih)

0   1920-04-23
1   1923-10-29
2   1924-03-03
3          NaT
dtype: datetime64[ns]

### Avrupa vs Amerika

* **Avrupa**

    * dd/mm/yyyy
    * 10/11/1938   
<br>
* **Amerika**

    * mm/dd/yyyy
    * 11/10/1938

In [34]:
eu_date = "01-11-1928"

In [35]:
pd.to_datetime(eu_date)
# amerikan formatında bastırdı.

Timestamp('1928-01-11 00:00:00')

In [36]:
pd.to_datetime(eu_date, dayfirst=True)

Timestamp('1928-01-11 00:00:00')

___
___

## Zaman Formatlarını Düzenlemek

###### Bu linkte bütün komutlar mevcut: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes

In [66]:
tarih_1 = "23rd of Aug 1921"

In [67]:
pd.to_datetime(tarih_1)

Timestamp('1921-08-23 00:00:00')

In [68]:
tarih_2 = "Aug 30th 1922"

In [69]:
pd.to_datetime(tarih_2)

Timestamp('1922-08-30 00:00:00')

In [70]:
tarih_2 = "9//Sep//1922"

In [71]:
pd.to_datetime(tarih_2, format='%d//%b//%Y')

Timestamp('1922-09-09 00:00:00')

___
___

## Gerçek Veri Seti Üzerinde Çalışmalar

In [72]:
df = pd.read_excel("müteahhit.xlsx")

In [73]:
df

Unnamed: 0,tarih,yeni müteahhit sayısı
0,2012-01-01,10
1,2012-01-02,1
2,2012-01-03,24
3,2012-01-04,3
4,2012-01-05,30
...,...,...
1456,2015-12-27,37
1457,2015-12-28,37
1458,2015-12-29,80
1459,2015-12-30,31


In [75]:
df = pd.read_excel("müteahhit.xlsx", parse_dates=[0])

parse_dates komunu hakkında daha detaylı bilgi için kontrol edebilirsin: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#:~:text=parse_datesbool%20or,by%205%2D10x.

In [76]:
df

Unnamed: 0,tarih,yeni müteahhit sayısı
0,2012-01-01,10
1,2012-01-02,1
2,2012-01-03,24
3,2012-01-04,3
4,2012-01-05,30
...,...,...
1456,2015-12-27,37
1457,2015-12-28,37
1458,2015-12-29,80
1459,2015-12-30,31


In [78]:
type(df["tarih"])

pandas.core.series.Series

In [79]:
type(df["tarih"].iloc[12])

pandas._libs.tslibs.timestamps.Timestamp

In [80]:
df.set_index("tarih")

Unnamed: 0_level_0,yeni müteahhit sayısı
tarih,Unnamed: 1_level_1
2012-01-01,10
2012-01-02,1
2012-01-03,24
2012-01-04,3
2012-01-05,30
...,...
2015-12-27,37
2015-12-28,37
2015-12-29,80
2015-12-30,31


### .dt

In [83]:
# help(df["tarih"].dt)

In [84]:
df["tarih"].dt.day

0        1
1        2
2        3
3        4
4        5
        ..
1456    27
1457    28
1458    29
1459    30
1460    31
Name: tarih, Length: 1461, dtype: int64

In [85]:
df["tarih"].dt.is_leap_year
# Şubat 29 olan yıllar, 366 gün

0        True
1        True
2        True
3        True
4        True
        ...  
1456    False
1457    False
1458    False
1459    False
1460    False
Name: tarih, Length: 1461, dtype: bool

### .resample()

resample metotları için bakabilirsin: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#:~:text=Alias,nanoseconds

 **Bu komutu kullanmak için index tarih olmalı**

In [87]:
df = df.set_index("tarih")

In [88]:
df.resample(rule="A").mean()

Unnamed: 0_level_0,yeni müteahhit sayısı
tarih,Unnamed: 1_level_1
2012-12-31,35.114754
2013-12-31,47.887671
2014-12-31,54.326027
2015-12-31,58.030137


In [92]:
df.resample(rule="B").max()

Unnamed: 0_level_0,yeni müteahhit sayısı
tarih,Unnamed: 1_level_1
2011-12-30,10
2012-01-02,1
2012-01-03,24
2012-01-04,3
2012-01-05,30
...,...
2015-12-25,68
2015-12-28,37
2015-12-29,80
2015-12-30,31


In [90]:
df.resample(rule="SM").mean()

Unnamed: 0_level_0,yeni müteahhit sayısı
tarih,Unnamed: 1_level_1
2011-12-31,17.357143
2012-01-15,28.000000
2012-01-31,19.266667
2012-02-15,25.500000
2012-02-29,30.866667
...,...
2015-10-31,68.000000
2015-11-15,55.933333
2015-11-30,50.800000
2015-12-15,55.625000


___
___

# **Eline Kalsın Müteahhit**