# TUM KATEGORILERIN MERGE EDILMESI -FINAL CVS 

### Imports Libraries

In [9]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
import cufflinks as cf
%matplotlib inline 

from scipy import stats


pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)

import warnings
warnings.filterwarnings("ignore")

### Import Local `utils1` Modul

In [None]:
#  FONKSIYONLARIMIZI DERLEDIGIMIZ `UTILS` ADINDAKI MODULU BU NOTEBOOK ICINE IMPORT EDIYORUZ

import sys

# utils1.py dosyasının bulunduğu dizini ham dize olarak ekleyin
sys.path.append("C:/Users/duygu/Desktop/00-GitHub-Repo/00-1INTERNSHIP/INT1_PROJECT/UTILITIES/")

# 'utils1.py' dosyasında olusturulan Utils sınıfını import et
from utils1 import Utils, UtilsAnalysis

# utils1 icindeki tum class'lardan bir nesne oluştur
utils = Utils()
utils_analysis = UtilsAnalysis()

In [3]:
# utils nesnesindeki tüm fonksiyonları ve öznitelikleri listelemek için
dir(utils)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'df',
 'read_excel_page',
 'save_and_load_csv']

In [4]:
# utils nesnesindeki tüm fonksiyonları ve öznitelikleri listelemek için
dir(UtilsAnalysis)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'detect_anomalies',
 'duplicate_values',
 'find_non_numeric_values',
 'get_value_count',
 'missing_values',
 'na_ratio_plot',
 'numeric_summary',
 'object_summary',
 'rename_columns_by_position',
 'set_df']

### User Defined Funcs for Summary of Data

In [15]:
# =============== User-Defined-Function ==========================

def rename_columns_by_position(df, new_column_names):
    """
    DataFrame'deki sütun adlarını pozisyona göre yeniden adlandırır.

    Parameters:
        df (pd.DataFrame): Sütun adlarını değiştirmek istediğiniz DataFrame.
        new_column_names (list): Yeni sütun adlarının listesi.

    Returns:
        pd.DataFrame: Yeni sütun adlarıyla güncellenmiş DataFrame.
    """
    # Sütun sayısının uyumlu olup olmadığını kontrol et
    if len(new_column_names) != len(df.columns):
        raise ValueError("Sütun sayısı ile yeni adların sayısı eşleşmiyor.")
    
    # Yeni sütun adlarını atama
    df.columns = new_column_names   
    return df


#================ Categorical Features Summary ===================
def object_summary(df):
    obs = df.shape[0]
    duplicate_count = df.duplicated().sum()

    # Kategorik sütunlar için özetleme
    object_df = df.select_dtypes(include='object')
    
    # Yeni bir boş DataFrame oluşturma
    summary_df = pd.DataFrame(index=object_df.columns)

    summary_df['Dtype'] = object_df.dtypes
    summary_df['Counts'] = object_df.count()
    summary_df['Nulls'] = object_df.isnull().sum()
    summary_df['NullPercent'] = (object_df.isnull().sum() / obs) * 100
    summary_df['Top'] = object_df.apply(lambda x: x.mode().iloc[0] if not x.mode().empty else '-')
    summary_df['Frequency'] = object_df.apply(lambda x: x.value_counts().max() if not x.value_counts().empty else '-')
    summary_df['Uniques'] = object_df.nunique()

    # UniqueValues sütununu kontrol ederek ekleme (dize olarak)
    summary_df['UniqueValues'] = object_df.apply(
        lambda x: ', '.join(map(str, x.unique()[:10])) + '...' if x.nunique() > 10 else ', '.join(map(str, x.unique()))
    )

    # DataFrame şekli ve tekrar eden satır sayısını ekrana yazdırma
    print(f'1. Data shape (rows, columns): {df.shape}')
    print(f'2. Number of duplicate rows: {duplicate_count}')
    return summary_df


#================ Numerical Features Summary ===================
def numeric_summary(df):
    obs = df.shape[0]
    duplicate_count = df.duplicated().sum()

    # Numerik sütunlar için özetleme
    numeric_df = df.select_dtypes(include=['float64', 'int64'])

    # Yeni bir boş DataFrame oluşturma
    summary_df = pd.DataFrame(index=numeric_df.columns)

    summary_df['Dtype'] = numeric_df.dtypes
    summary_df['Counts'] = numeric_df.count()
    summary_df['Nulls'] = numeric_df.isnull().sum()
    summary_df['NullPercent'] = (numeric_df.isnull().sum() / obs) * 100
    summary_df['Mean'] = numeric_df.mean()
    summary_df['Std'] = numeric_df.std()
    summary_df['Min'] = numeric_df.min()
    summary_df['25%'] = numeric_df.quantile(0.25)
    summary_df['50% (Median)'] = numeric_df.median()
    summary_df['75%'] = numeric_df.quantile(0.75)
    summary_df['Max'] = numeric_df.max()

    # DataFrame şekli ve tekrar eden satır sayısını ekrana yazdırma
    print(f'1. Data shape (rows, columns): {df.shape}')
    print(f'2. Number of duplicate rows: {duplicate_count}')
    return summary_df
    

#========== Get count and percentage of values for each column =================
def get_value_count(df, column_name):
    """
    This function calculates and returns a DataFrame with the value counts and 
    their corresponding percentages for a specified column in the DataFrame.
    """
    
    vc = df[column_name].value_counts()
    vc_norm = df[column_name].value_counts(normalize=True)
    
    vc = vc.rename_axis(column_name).reset_index(name='counts')
    vc_norm = vc_norm.rename_axis(column_name).reset_index(name='percent')
    vc_norm['percent'] = (vc_norm['percent'] * 100).map('{:.2f}%'.format)
    
    df_result = pd.concat([vc[column_name], vc['counts'], vc_norm['percent']], axis=1)
    return df_result


#============== Checks duplicates and drops them ==========================

def duplicate_values(df):
    print("Duplicate check...")
    num_duplicates = df.duplicated(subset=None, keep='first').sum()
    if num_duplicates > 0:
        print("There are", num_duplicates, "duplicated observations in the dataset.")
        df.drop_duplicates(keep='first', inplace=True)
        print(num_duplicates, "duplicates were dropped!")
        print("No more duplicate rows!")
    else:
        print("There are no duplicated observations in the dataset.")



# ========== User-Defined-Function for Missing Values ============
def missing_values(df):
    """This function calculates the missing values count and their percentage in a DataFrame."""

    missing_count = df.isnull().sum()
    value_count = df.isnull().count()
    missing_percentage = round(missing_count / value_count * 100, 2)
    
    # Format the percentage as '0.00%' with % symbol
    missing_percentage_formatted = missing_percentage.map("{:.2f}%".format)
    # Create a DataFrame to store the results
    missing_df = pd.DataFrame({"count": missing_count, "percentage": missing_percentage_formatted}) 
    return missing_df


# ========== Plotting Missing Values  ===========================
def na_ratio_plot(df):
    """Plots the ratio of missing values for each feature and prints the count of missing values."""
    
    sns.displot(df.isna().melt(value_name='Missing_data',var_name='Features')\
                ,y='Features',hue='Missing_data',multiple='fill',aspect=9/8)

    print(df.isna().sum()[df.isna().sum()>0])

    
    
#========== Detecting Anomalies ================================

def detect_anomalies(df, column_name):
    """
    Detects values with unusual (non-alphanumeric) characters in a column.
    Returns: list: Detected unusual character values.
    """
    # Get the unique values in the column
    unique_values = df[column_name].unique()    
    # Detect values with unusual characters (non-alphanumeric)
    unusual_characters = [val for val in unique_values if isinstance(val, str) and not val.isalnum()]
    
    # Return the list as a single string with values separated by commas
    return ', '.join(unusual_characters)


#========== Detecting Non-Numerical Characters ===========================

import re

def find_non_numeric_values(df, column_name):
    """
    Finds unique non-numeric values in a specified column of the DataFrame.
    """
    pattern = r'\D+'  # Pattern to match non-numeric characters
    # Find and flatten non-numeric values, then ensure uniqueness with set
    return set(re.findall(pattern, ' '.join(df[column_name].astype(str))))


#===============Plot all Categoricals Bar Chart ===========================
def plot_categorical_bar_graphs(df):
    """
    DataFrame'deki tüm kategorik veriler için bar grafikleri oluşturur.
    
    Args:
    - df (DataFrame): Kategorik verileri içeren DataFrame.
    """
    # Kategorik sütunları seçme
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns

    # Her kategorik sütun için bar grafiği oluşturma
    for column in categorical_columns:
        plt.figure(figsize=(15, 5))
        ax = sns.countplot(
            x=column, 
            data=df, 
            order=df[column].value_counts().index, 
            palette='Set2'
        )
        ax.bar_label(ax.containers[0], rotation=45)
        plt.xlabel(column, fontsize=12)
        plt.ylabel('Count', fontsize=12)
        plt.title(f'Bar Graph of {column}', fontsize=20)
        plt.xticks(rotation=45, ha='right', fontsize=12)
        plt.show()
        
#======================================================================

def combine_dataframes(df_list):
    """
    Verilen DataFrame listesini alt alta birleştirir.
    
    :param df_list: Birleştirilecek DataFrame'lerin listesi
    :return: Birleştirilmiş DataFrame
    """
    # DataFrame'leri alt alta birleştir
    combined_df = pd.concat(df_list, ignore_index=True, sort=False)
    
    return combined_df

#====================================================================

def move_column(df, column_name, new_index):
    """
    Verilen bir sütun adını belirtilen yeni indekse taşır.
    
    :param df: DataFrame
    :param column_name: Taşınacak sütunun adı
    :param new_index: Yeni indeks numarası
    :return: Sütunları yeniden düzenlenmiş DataFrame
    """
    # Mevcut sütunları listeye al
    columns = list(df.columns)
    
    # Taşınacak sütunu kaldır
    columns.remove(column_name)
    
    # Sütunu istenilen yeni indekse ekle
    columns.insert(new_index, column_name)
    
    # DataFrame'i yeni sütun sırasına göre düzenle
    return df[columns]


## Ameliyat Masasi

In [None]:
df_ameliyat 
df_otoklav
df_hidrojen_peroktif
df_kartus
df_reverse
df_yikama
df_oksijen

In [1]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_ameliyat_masası.csv"

# CSV dosyasını okuyalım
try:
    df_ameliyat = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_ameliyat.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_ameliyat.head(2)


Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,Ameliyat_Masasi,ÖZEL,2018/006,2018-06-29,ÖZEL FSM TIP MERKEZİ,ÖZEL FSM TIP MERKEZİ,İSTANBUL,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-012,20 GÜN,2018-07-18,,
1,Ameliyat_Masasi,DEMO,2018/007,2018-02-14,DEMO,DERİNCE EĞİTİM VE ARAŞTIRMA HASTANESİ,KOCAELİ,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-003,21 GÜN,,,


### Kategori degerleri buyuk harfle duzenlendi

In [29]:
# Kategori drop et
df_ameliyat = df_ameliyat.drop('kategori', axis=1)

In [30]:
# 'kategori' sütununu birinci indekste degerleri buyuk harfle duzenle

df_ameliyat['kategori'] = 'AMELIYAT MASASI'

columns = ['kategori'] + list(df_ameliyat.columns[:-1])
df_ameliyat = df_ameliyat[columns]

df_ameliyat.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,AMELIYAT MASASI,ÖZEL,2018/006,2018-06-29,ÖZEL FSM TIP MERKEZİ,ÖZEL FSM TIP MERKEZİ,İSTANBUL,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-012,20 GÜN,2018-07-18,,
1,AMELIYAT MASASI,DEMO,2018/007,2018-02-14,DEMO,DERİNCE EĞİTİM VE ARAŞTIRMA HASTANESİ,KOCAELİ,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-003,21 GÜN,,,


In [25]:
df_ameliyat.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'siparis_durumu', 'irsaliye_tarihi'], dtype='object')

## Otoklav

In [3]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_otoklav.csv"

# CSV dosyasını okuyalım
try:
    df_otoklav = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_otoklav.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_otoklav.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,irsaliye_tarihi
0,OTOKLAV,ÖZEL,2018/001,2018-01-04,YENİ HAYAT TIP MERKEZİ-ORJİN SAĞLIK HİZM.,YENİ HAYAT TIP MERKEZİ-ORJİN SAĞLIK HİZM.,İSTANBUL,STR 6610 D,422 LT ÇİFT KAPILI OTOKLAV CİHAZI,422 LİTRE,2018/01-001,30,,
1,OTOKLAV,DMO,2018/072,2017-12-28,DMO GENEL MÜDÜRLÜK,T.C. GIDA TARIM VE HAYV. BAKANLIĞI GIDA VE KON...,ANKARA,7717 S,2000 LT ÇİFT KAPILI LABARATUVAR TİP BUHAR STER...,2000 LİTRE,2018/01-002,100 GÜN,2018-06-22,


In [24]:
df_otoklav.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'irsaliye_tarihi'], dtype='object')

## Hidrojen Peroksit

In [4]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_hidrojen_peroksit.csv"

# CSV dosyasını okuyalım
try:
    df_hidrojen_peroktif = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_hidrojen_peroktif.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_hidrojen_peroktif.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparisin_durumu,irsaliye_tarihi
0,Hidrojen Peroksit,YURTDIŞI,2018/036,2018-01-23 00:00:00,MERİVAN,MERİVAN,KUZEY IRAK,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-001,49 GÜN,2018-01-27,,
1,Hidrojen Peroksit,DMO,2018/037,DMO,DMO MERSİN BÖLGE MÜDÜRLÜĞÜ,BOR DEVLET HASTANESİ,NİĞDE,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-002,50 GÜN,2018-05-14,,


### Kategori degerleri buyuk harfle duzenlendi

In [21]:
# Kategori drop et
df_hidrojen_peroktif = df_hidrojen_peroktif.drop('kategori', axis=1)

In [22]:
# 'kategori' sütununu birinci indekste degerleri buyuk harfle duzenle

df_hidrojen_peroktif['kategori'] = 'HIDROJEN PEROKSIT'

columns = ['kategori'] + list(df_hidrojen_peroktif.columns[:-1])
df_hidrojen_peroktif = df_hidrojen_peroktif[columns]

df_hidrojen_peroktif.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,HIDROJEN PEROKSIT,YURTDIŞI,2018/036,2018-01-23 00:00:00,MERİVAN,MERİVAN,KUZEY IRAK,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-001,49 GÜN,2018-01-27,,
1,HIDROJEN PEROKSIT,DMO,2018/037,DMO,DMO MERSİN BÖLGE MÜDÜRLÜĞÜ,BOR DEVLET HASTANESİ,NİĞDE,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-002,50 GÜN,2018-05-14,,


In [23]:
df_hidrojen_peroktif.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'siparis_durumu', 'irsaliye_tarihi'], dtype='object')

### Rename Columns

In [20]:
new_column_names = [
    'kategori',
    'satis_turu', 
    'siparis_no', 
    'siparis_tarihi',
    'siparisi_veren',
    'kurulum_yeri',
    'il',
    'urun_modeli',
    'urun_adi',
    'litre',
    'seri_no',
    'teslim_suresi',
    'teslim_tarihi',
    'siparis_durumu',  # siparisin_tarihi isim degisti
    'irsaliye_tarihi',
    #'uts_no'
]

df_hidrojen_peroktif = rename_columns_by_position(df_hidrojen_peroktif, new_column_names)

df_hidrojen_peroktif.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,Hidrojen Peroksit,YURTDIŞI,2018/036,2018-01-23 00:00:00,MERİVAN,MERİVAN,KUZEY IRAK,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-001,49 GÜN,2018-01-27,,
1,Hidrojen Peroksit,DMO,2018/037,DMO,DMO MERSİN BÖLGE MÜDÜRLÜĞÜ,BOR DEVLET HASTANESİ,NİĞDE,GP 120,120 LT PLAZMA CİHAZI,120 LT,2018/04-002,50 GÜN,2018-05-14,,


## Kartus

In [5]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_kartus.csv"

# CSV dosyasını okuyalım
try:
    df_kartus = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_kartus.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_kartus.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,aciklama,solusyon_fatura,bidon_acilisi
0,KARTUS,,2018/001,,AKSARAY EĞİTİM VE ARAŞTIRMA HASTANESİ,,AKSARAY,,KARTUŞ,,2018/07-0001,,,,,
1,KARTUS,,2018/001,,AKSARAY EĞİTİM VE ARAŞTIRMA HASTANESİ,,AKSARAY,,KARTUŞ,,2018/07-0002,,,,,


In [18]:
df_kartus.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'aciklama', 'solusyon_fatura', 'bidon_acilisi'], dtype='object')

## Reverse Osmos

In [6]:
import pandas as pd

# Dosya yolu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_Reverse_osmos.csv"

# CSV dosyasını doğru ayırıcı ile okuyalım
try:
    # Veriyi okurken ayırıcı olarak noktalı virgül (;) kullanalım
    df_reverse = pd.read_csv(file_path, delimiter=';')
    # İlk birkaç satırı gösterelim
    df_reverse.head()
except FileNotFoundError:
    print("Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir.")

df_reverse.head(2)


Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi
0,REVERSE OSMOS,ÖZEL,,,BEZMİALEM VAKIF ÜNİVERSİTESİ,BEZMİALEM VAKIF ÜNİVERSİTESİ,İSTANBUL,PREMİUM 240,,500 LT,2018/08-001,,
1,REVERSE OSMOS,ÖZEL,,,BÜYÜKÇEKMECE DEVLET HASTANESİ,BÜYÜKÇEKMECE DEVLET HASTANESİ,İSTANBUL,PREMİUM 440,,1000 LT,2018/08-002,,


In [17]:
df_reverse.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi'], dtype='object')

## Yikama

In [7]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_yikama.csv"

# CSV dosyasını okuyalım
try:
    df_yikama = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_yikama.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_yikama.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparisin_durumu,irsaliye_tarihi
0,yikama,DMO,2018/041,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-005,28 GÜN,,,
1,yikama,DMO,2018/042,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-003,29 GÜN,,,


### Kategori degerleri buyuk harfle duzenlendi

In [10]:
# Kategori drop et
df_yikama = df_yikama.drop('kategori', axis=1)

In [11]:
# 'kategori' sütununu birinci indekste degerleri buyuk harfle duzenle
df_yikama['kategori'] = 'YIKAMA'
columns = ['kategori'] + list(df_yikama.columns[:-1])
df_yikama = df_yikama[columns]

In [12]:
df_yikama.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparisin_durumu,irsaliye_tarihi
0,YIKAMA,DMO,2018/041,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-005,28 GÜN,,,
1,YIKAMA,DMO,2018/042,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-003,29 GÜN,,,


### Rename Columns

In [13]:
df_yikama.columns

Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'siparisin_durumu', 'irsaliye_tarihi'], dtype='object')

In [16]:
new_column_names = [
    'kategori',
    'satis_turu', 
    'siparis_no', 
    'siparis_tarihi',
    'siparisi_veren',
    'kurulum_yeri',
    'il',
    'urun_modeli',
    'urun_adi',
    'litre',
    'seri_no',
    'teslim_suresi',
    'teslim_tarihi',
    'siparis_durumu',  # siparisin_tarihi isim degisti
    'irsaliye_tarihi',
    #'uts_no'
]

df_yikama = rename_columns_by_position(df_yikama, new_column_names)

df_yikama.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,YIKAMA,DMO,2018/041,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-005,28 GÜN,,,
1,YIKAMA,DMO,2018/042,2018-01-02,DMO İSTANBUL BÖLGE MÜDÜRLÜĞÜ,HUDUT VE SAHİLLER SAĞLIK MÜDÜRLÜĞÜ DESTEK MÜDÜ...,İSTANBUL,TSY 360,360 LT YIKAMA CİHAZI,360 LT,2018/05-003,29 GÜN,,,


## Oksijen

In [8]:
import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\combined_oksijen.csv"

# CSV dosyasını okuyalım
try:
    df_oksijen = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_oksijen.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_oksijen.head(2)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi,uts_no
0,OKSIJEN,YURTDIŞI,2018/040,2018-05-02,SIMAD UNİVERSİTESİ,UĞUR SAĞLIK HİZMETLERİ A.Ş.,SOMALİ,OXYGOLD-22,,220 LT,2018/06-005,30.0,2018-06-10,,,
1,OKSIJEN,YURTDIŞI,,,,,,,,,,,,,,


# **Tüm dosyaları kayıt etme** 

In [31]:
import os

# DataFrame isimlerini ve dosya isimlerini bir araya getirme
dfs = [
    (df_ameliyat, "combined_ameliyat.csv"),
    (df_hidrojen_peroktif, "combined_hidrojen.csv"),
    (df_otoklav, "combined_otoklav.csv"),
    (df_kartus, "combined_kartus.csv"),
    (df_reverse, "combined_reverse.csv"),
    (df_yikama, "combined_yikama.csv"),
    (df_oksijen, "combined_oksijen.csv")
]


# Belirtilen dosya yolunu tanımlama
save_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\final_kategori_csv"

# Dosya yolunu oluşturma (eğer yoksa)
os.makedirs(save_path, exist_ok=True)

# DataFrame'leri CSV olarak kaydetme
file_paths = []  # Kaydedilen dosya yollarını tutmak için
for df, filename in dfs:
    file_path = os.path.join(save_path, filename)
    df.to_csv(file_path, index=False, encoding='utf-8-sig')
    file_paths.append(file_path)

file_paths  # Kaydedilen dosya yollarını göstereceğiz

['C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_ameliyat.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_hidrojen.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_otoklav.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_kartus.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_reverse.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_csv\\combined_yikama.csv',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INT

In [32]:
# EXCEL FORMATTA SAVE
import os

# DataFrame isimlerini ve dosya isimlerini bir araya getirme
dfs = [
    (df_ameliyat, "combined_ameliyat.xlsx"),
    (df_hidrojen_peroktif, "combined_hidrojen.xlsx"),
    (df_otoklav, "combined_otoklav.xlsx"),
    (df_kartus, "combined_kartus.xlsx"),
    (df_reverse, "combined_reverse.xlsx"),
    (df_yikama, "combined_yikama.xlsx"),
    (df_oksijen, "combined_oksijen.xlsx")
]

# Belirtilen dosya yolunu tanımlama
save_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\final_kategori_excel"

# Dosya yolunu oluşturma (eğer yoksa)
os.makedirs(save_path, exist_ok=True)

# DataFrame'leri Excel olarak kaydetme
file_paths = []  # Kaydedilen dosya yollarını tutmak için
for df, filename in dfs:
    file_path = os.path.join(save_path, filename)
    df.to_excel(file_path, index=False)
    file_paths.append(file_path)

file_paths  # Kaydedilen dosya yollarını göstereceğiz


['C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_ameliyat.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_hidrojen.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_otoklav.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_kartus.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_reverse.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-GitHub-Repo\\00-1INTERNSHIP\\INT1_PROJECT\\00_Data\\02_Birlestirilmis_Kategoriler\\final_kategori_excel\\combined_yikama.xlsx',
 'C:\\Users\\duygu\\Desktop\\00-Gi

In [33]:
# Ornek df goster

import pandas as pd

# Dosya yolunu belirtelim
file_path = r"C:\Users\duygu\Desktop\00-GitHub-Repo\00-1INTERNSHIP\INT1_PROJECT\00_Data\02_Birlestirilmis_Kategoriler\final_kategori_csv\combined_ameliyat.csv"

# CSV dosyasını okuyalım
try:
    df_read = pd.read_csv(file_path)
    # İlk birkaç satırı göstereceğiz
    df_read.head()
except FileNotFoundError:
    "Dosya yolunda bir hata olabilir veya dosya mevcut olmayabilir."
    
df_read.head()


Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi
0,AMELIYAT MASASI,ÖZEL,2018/006,2018-06-29,ÖZEL FSM TIP MERKEZİ,ÖZEL FSM TIP MERKEZİ,İSTANBUL,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-012,20 GÜN,2018-07-18,,
1,AMELIYAT MASASI,DEMO,2018/007,2018-02-14,DEMO,DERİNCE EĞİTİM VE ARAŞTIRMA HASTANESİ,KOCAELİ,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-003,21 GÜN,,,
2,AMELIYAT MASASI,ÖZEL,2018/008,2018-10-23,İZMİR KATİP ÇELEBİ ÜNİVERSİTESİ,İZMİR KATİP ÇELEBİ ÜNİVERSİTESİ,İZMİR,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-029,DERHAL,,,
3,AMELIYAT MASASI,YURTDIŞI,2018/009,2018-09-03,COOL DEE PA ELEKTRIC CO LTD.,COOL DEE PA ELEKTRIC CO LTD.,TAYLAND,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-022,7 GÜN,2018-09-07,,
4,AMELIYAT MASASI,YURTDIŞI,2018/011,2018-02-28,YÜKSELİŞ,DR.ORUC IBADOV,AZERBEYCAN,GOLDBERG 5S,AMELİYAT MASASI,*,2018/02-004,8 GÜN,,,


# **Tüm Kategorileri CONCAT Etme** 

In [None]:
df_ameliyat 
df_otoklav
df_hidrojen_peroktif
df_kartus
df_reverse
df_yikama
df_oksijen

In [35]:
# Tüm DataFrame'leri alt alta birleştiriyoruz
dfs_list = [df_ameliyat, 
            df_otoklav,
            df_hidrojen_peroktif,
            df_kartus,
            df_reverse,
            df_yikama,
            df_oksijen,
           ]

combined_df = combine_dataframes(dfs_list)

# Sonuç DataFrame'i görüntülemek için
combined_df.sample(5)

Unnamed: 0,kategori,satis_turu,siparis_no,siparis_tarihi,siparisi_veren,kurulum_yeri,il,urun_modeli,urun_adi,litre,seri_no,teslim_suresi,teslim_tarihi,siparis_durumu,irsaliye_tarihi,aciklama,solusyon_fatura,bidon_acilisi,uts_no
6344,KARTUS,SATIŞ,2020/016,2020-01-28,METRONİKS MEDİKAL-AKSARAY EĞİTİM VE ARAŞTIRMA ...,,AKSARAY,,KARTUŞ,,2020/07-0109,,,,,SATIŞ BÜYÜK KARTUŞ,20.12.2019-GIB2019000016266,2020-01-05,
17291,KARTUS,İHALE,,2022-10-24,KARS HARAKANİ DEVLET HASTANESİ,,KARS,,KARTUŞ,,2022/07-3753,,,,,,,,
12289,KARTUS,SATIŞ,2021/105,2021-09-23,UKRAYNA,,UKRAYNA,,KARTUŞ,,2021/07-3268,,,,,SATIŞ,,,
7259,KARTUS,SATIŞ,2020/065,2020-05-06,ANKARA ÜNİVERSİTESİ,,ANKARA,,KARTUŞ,,2020/07-0998,,,,,KÜÇÜK KARTUŞLA BÜYÜK KARTUŞ DEĞİŞİMİ,20.12.2019-GIB2019000016266,2020-01-05,
16087,KARTUS,ÖZEL,,2022-09-01,MNR MEDİKAL TIBBİ CİHAZLAR SAN.TİC. A.Ş. URFA,,URFA,,KARTUŞ,,2022/07-2549,,,,,,,,


In [36]:
print(combined_df.shape)
combined_df.columns

(32646, 19)


Index(['kategori', 'satis_turu', 'siparis_no', 'siparis_tarihi', 'siparisi_veren', 'kurulum_yeri', 'il', 'urun_modeli', 'urun_adi', 'litre', 'seri_no', 'teslim_suresi', 'teslim_tarihi', 'siparis_durumu', 'irsaliye_tarihi', 'aciklama', 'solusyon_fatura', 'bidon_acilisi', 'uts_no'], dtype='object')

## FINAL SUTUN LISTESI

In [None]:
Index(['kategori', 
       'satis_turu', 
       'siparis_no', 
       'siparis_tarihi', 
       'siparisi_veren', 
       'kurulum_yeri', 
       'il', 
       'urun_modeli', 
       'urun_adi', 
       'litre', 
       'seri_no', 
       'teslim_suresi', 
       'teslim_tarihi', 
       'siparis_durumu', 
       'irsaliye_tarihi', 
       'aciklama', 
       'solusyon_fatura', 
       'bidon_acilisi', 
       'uts_no'
      ], dtype='object')

In [None]:
# # Move Colunms index Fonksiyonu cagir

# # combined_df üzerinde 'urun_adi' 'urun_modeli' nden sonra getirmek icin
# combined_df = move_column(combined_df, 'urun_adi', 8)

# combined_df.head()


## Save Final CSV 

In [38]:
combined_df.to_csv('merged_satis_uretim_data_26_10_2024.csv', index=False, encoding='utf-8-sig')

In [None]:
combined_df.to_excel('merged_satis_uretim_data_26_10_2024.xlsx', index=False, encoding='utf-8-sig')