## Pandas IO
![alt text](Pandas_read_to.png)

In [1]:
import pandas as pd
import numpy as np #genelde pandas import edilirken ekleriz. Lazım oluyor.

In [2]:
# Yas basligindan önce boşluk var.
metin = """
Ad|Soyad| Yas|Tarih|Kilo
Ali|Uçan|33|2025-09-01|70,2
Veli|Kaçan|22|2024-02-02|

Ayşe|Çalışkan|45|Yok|Yok
"""

In [3]:
import io

#
metinBuffer = io.StringIO(metin)
metinBuffer.read() #bufferdakiler okur. snuna kadar okudu.

'\nAd|Soyad| Yas|Tarih|Kilo\nAli|Uçan|33|2025-09-01|70,2\nVeli|Kaçan|22|2024-02-02|\n\nAyşe|Çalışkan|45|Yok|Yok\n'

### Pandas ile CSV Okuma

In [4]:
pd.read_csv(io.StringIO(metin),
            delimiter="|",
            #sep="|"
            )

Unnamed: 0,Ad,Soyad,Yas,Tarih,Kilo
0,Ali,Uçan,33,2025-09-01,702
1,Veli,Kaçan,22,2024-02-02,
2,Ayşe,Çalışkan,45,Yok,Yok


In [5]:
df = pd.read_csv(io.StringIO(metin),
            delimiter="|"
            #sep="|"
            #-------
            #,usecols=["Ad","Soyad"]
            #,skipinitialspace=False #ise başlıktaki boşluğa dokunmaz. df[" Yas"] kolona ulaşılır.
            #---------
            #,skiprows=2 #üstten 2 satır atla
            #,skipfooter=2
            #engine="python"
            #---------------
            #
            #,skip_blank_lines=False #komple boş olan satırı getirir.
            ,na_values=["Yok"] #Yok yazan ifadeleri NaN olarak kabul eder.
            ,decimal="," #float sayılar için kullanılan ondalık ayraç
            #---------
            ,parse_dates=["Tarih"] #Farklı kolonlarda tarih parçaları olabilir. tümünü listeye veriyoruz.
            #---------
            #,dtype=str
            ,dtype={
                    "Ad":str,
                    " Yas":np.uint8,  #int 32 bit olur, np.uint8 8 bittir.
                    "Kilo":np.float32
                    }
            )

#df.info()
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   Ad      3 non-null      object        
 1   Soyad   3 non-null      object        
 2    Yas    3 non-null      uint8         
 3   Tarih   2 non-null      datetime64[ns]
 4   Kilo    1 non-null      float32       
dtypes: datetime64[ns](1), float32(1), object(2), uint8(1)
memory usage: 215.0+ bytes


In [6]:
import os
os.makedirs("databases",exist_ok=True)

In [7]:
df.to_csv("./databases/kisiler.csv",index=False) #index=False ile satır etiketleri yazdırmayız

### Converts ile Veri Temizliği Yapmak
* Belirtilen kolondaki değere belirtilen fonksiyonu uygular dönen değeri getirir.

In [8]:
pd.read_csv("./databases/kisiler.csv",
            converters={"Soyad":str.upper}
            )

Unnamed: 0,Ad,Soyad,Yas,Tarih,Kilo
0,Ali,UÇAN,33,2025-09-01,70.2
1,Veli,KAÇAN,22,2024-02-02,
2,Ayşe,ÇALIŞKAN,45,,


In [9]:
#regex ile çalışılabilir.
import re
re.findall("\w+@\w+.com","merhaba nasılsın abdullahkise@hotmail.com")

['abdullahkise@hotmail.com']

In [10]:
veriTemizligi = {
                    "Uçan":"Uçanlar",
                    "Kaçan":"Kaçanlar"
}

#
pd.read_csv("./databases/kisiler.csv",
            converters={"Soyad":lambda c:veriTemizligi.get(c, c)} #key yoksa kolon değeri aynen gelsin. default verdik.
            )

Unnamed: 0,Ad,Soyad,Yas,Tarih,Kilo
0,Ali,Uçanlar,33,2025-09-01,70.2
1,Veli,Kaçanlar,22,2024-02-02,
2,Ayşe,Çalışkan,45,,


## Excel Okuma

In [11]:
#openpyxl yüklü olması gerek.
df_dict = pd.read_excel("./databases/mykisiler.xlsx"
                        #,sheet_name="kisiler" #ilk sayfayı okudu.
                        ,sheet_name=None #tüm sayfaları okur ve dicte atar
                        ) 


#
df_dict.keys()

dict_keys(['kisiler', 'Boş'])

In [12]:
df_dict["kisiler"] #key:value şeklinde sayfa ve içeriği mevcut.

Unnamed: 0,Id,Ad,Soyad,Yas,Tarih,Kilo
0,1,Abdullah,Kise,15,2020-12-31,70.2
1,2,Ali,Uçan,22,2020-11-11,
2,3,Veli,Kaçan,55,NaT,


## RDBMS'e Bağlanmak ve Yazmak
![alt text](RDBMSe_Baglanti.png)

In [13]:
#Driver={ODBC Driver 17 for SQL Server};Server=myServerAddress;Database=myDataBase;Trusted_Connection=yes;
config = {
            "driver":"{ODBC Driver 17 for SQL Server}",
            "server":"localhost",
            "database":"AdventureWorks2012"
}

### DBAPI

In [14]:
con_str = "Driver={driver};Server={server};Database={database};Trusted_Connection=yes;".format_map(config)
con_str

'Driver={ODBC Driver 17 for SQL Server};Server=localhost;Database=AdventureWorks2012;Trusted_Connection=yes;'

In [15]:
import pyodbc

con=pyodbc.connect(con_str)
#dir(con)

In [16]:
import pandas as pd

pd.read_sql_query("""
SELECT TOP 2 
    Name,
    Color, 
    ListPrice 
FROM AdventureWorks2012.Production.Product""",con)

  pd.read_sql_query("""


Unnamed: 0,Name,Color,ListPrice
0,Adjustable Race,,0.0
1,Bearing Ball,,0.0


### SqlAlchemy

In [17]:
import sqlalchemy as sqla

#"mysql+mysqldb://scott:tiger@hostname/dbname"
engine = sqla.create_engine("mssql+pyodbc://localhost/AdventureWorks2012?driver=ODBC+Driver+17+for+SQL+Server")

#dir(engine)

In [18]:
#1
pd.read_sql("SELECT TOP 2 Name, ListPrice FROM Production.Product",engine)

#2
#pd.read_sql_table(schema="Production", table_name="Product",con=engine)

Unnamed: 0,Name,ListPrice
0,Adjustable Race,0.0
1,Bearing Ball,0.0


### HTML Tablo Okuma

In [19]:
#url = r"https://en.wikipedia.org/wiki/List_of_Lost_episodes"
url = "https://www.w3schools.com/html/html_tables.asp"

#
df_lst = pd.read_html(url)
#type(df_lst) #list

df_lst[0].__len__() #6 satırlık bir tablo
df_lst[0]

Unnamed: 0,Company,Contact,Country
0,Alfreds Futterkiste,Maria Anders,Germany
1,Centro comercial Moctezuma,Francisco Chang,Mexico
2,Ernst Handel,Roland Mendel,Austria
3,Island Trading,Helen Bennett,UK
4,Laughing Bacchus Winecellars,Yoshi Tannamuri,Canada
5,Magazzini Alimentari Riuniti,Giovanni Rovelli,Italy


### Parquet Formatında Tabloyu Kaydedelim

In [20]:
df = df_lst[0]

#
df.to_parquet("./databases/htmlTable.parquet")