# PANDAS DATA MANAGEMENT 

In [1]:
# Importing Libraries
import pandas as pd
from datasets import load_dataset
import matplotlib.pyplot as plt  

# Loading Data
dataset = load_dataset('lukebarousse/data_jobs')
df = dataset['train'].to_pandas()

# Data Cleanup
df['job_posted_date'] = pd.to_datetime(df['job_posted_date'])

# DataFrame Copy
df_original = df.copy()

  from .autonotebook import tqdm as notebook_tqdm


### Copy
Recall from the last lesson, when we filled in missing values for median salary.

Here let's make a new dataframe `df_altered` and only make changes to it.

In [2]:
#Create a new dataframe
df_altered = df_original
df_altered.loc[:5, "salary_year_avg"]

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
Name: salary_year_avg, dtype: float64

In [7]:
#Let's fill in missing values with the median value.
#calculating median salary
median_salary = df_altered["salary_year_avg"].median()

# filling the missing values with the median salary()
df_altered["salary_year_avg"] = df_altered.loc[:5, "salary_year_avg"].fillna(median_salary)
df_altered["salary_year_avg"] = df_altered["salary_year_avg"].fillna(median_salary)
df_altered.loc[:5, "salary_year_avg"]


0    115000.0
1    115000.0
2    115000.0
3    115000.0
4    115000.0
5    115000.0
Name: salary_year_avg, dtype: float64

Well both the variables of `df_original` and `df_altered` are referencing the same DataFrame.

* Burada df_altered, df_original ile aynı nesneye işaret ediyor.
* Yani bellekte sadece tek bir DataFrame var ve iki değişken de ona bakıyor.
* id(df_original) == id(df_altered) → ✅ True
#### ❗ Bu durumda biri değişirse diğeri de değişir!

In [8]:
print("ID of df_original: ", id(df_original))
print("ID of df_altered: ", id(df_altered))
print("Are the two dataframes the same?: ", id(df_original)==id(df_altered))

ID of df_original:  6286232592
ID of df_altered:  6286232592
Are the two dataframes the same?:  True


Instead we can use the .copy() method

- `copy()`: Copy a DataFrame.

* Burada .copy() sayesinde df_original ve df_altered farklı kopyalar oldu.
* Artık her biri bellekte farklı nesneler.
* id(df_original) == id(df_altered) → ❌ False
#### ✅ Bu durumda biri değişse bile diğeri etkilenmez!


In [9]:
df_original = df.copy()
df_altered = df_original.copy()

print("ID of df_original: ", id(df_original))
print("ID of df_altered: ", id(df_altered))
print("Are the two dataframes the same?: ", id(df_original)==id(df_altered))

ID of df_original:  4478265872
ID of df_altered:  13235523920
Are the two dataframes the same?:  False


### 📊 Veri Kopyalama Yöntemleri Karşılaştırması

| Atama Şekli                        | Bellekte Aynı Nesne mi? | `id()` Aynı mı? | Birinde Değişiklik Diğerini Etkiler mi? |
|-----------------------------------|--------------------------|------------------|------------------------------------------|
| `df_altered = df_original`        | ✅ Evet                  | ✅ Evet          | ✅ Evet                                   |
| `df_altered = df_original.copy()` | ❌ Hayır                 | ❌ Hayır         | ❌ Hayır                                  |


### 🔐 Özet:
1. df_altered = df_original → sadece referans kopyasıdır (ikisi de aynı yere bakar)
2. df_altered = df_original.copy() → tam anlamıyla yeni, bağımsız bir kopyadır

In [10]:
#Now when we do this median salary
#Calculating median salary 
median_salary = df_altered["salary_year_avg"].median()

#filling the missing values with the median salary
df_altered["salary_year_avg"] = df_altered["salary_year_avg"].fillna(median_salary)
df_altered.loc[:5, "salary_year_avg"]

0    115000.0
1    115000.0
2    115000.0
3    115000.0
4    115000.0
5    115000.0
Name: salary_year_avg, dtype: float64

In [11]:
#the original dataframe 
df_original.loc[:5, "salary_year_avg"]

0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
Name: salary_year_avg, dtype: float64

* Now that we've created a copy of our data, we want to start our analysis. But if we have a large set of data we only want to take a subset of data to make it more manageable. We can use `sample()` to get a random sample of the data.
* Artık verilerimizin bir kopyasını oluşturduğumuza göre, analizimize başlamak istiyoruz. Ancak büyük bir veri kümemiz varsa, daha yönetilebilir hale getirmek için yalnızca bir veri alt kümesi almak istiyoruz. Verilerden rastgele bir örnek almak için `sample()` kullanabiliriz.

## Sample

### Notes

* `sample()`: Random sample of items.

### Examples

Let's get a random sample of the data. You could get a sample with a fixed row number.

🎯 Python'da (özellikle Pandas içinde) sıkça kullanılan sample() fonksiyonu, bir veri kümesinden rastgele örnek (sample) almak için kullanılır. Özellikle veri analizi, modelleme ve test işlemlerinde çok işine yarar.

### 📌 `sample()` Fonksiyonunun Önemli Parametreleri

| Parametre      | Açıklama                                                                 |
|----------------|--------------------------------------------------------------------------|
| `n`            | Kaç tane rastgele satır alınacağı                                        |
| `frac`         | Oran olarak satır alma (örnek: `frac=0.2` → veri setinin %20’sini alır) |
| `replace=True` | Aynı satırın birden fazla kez seçilmesine izin verir (bootstrap için)   |
| `random_state` | Aynı rastgele sonucu tekrar elde etmek için sabit bir sayı verir        |

#### 🎯 Ne için kullanılır?
1. Modelleme için eğitim/test seti oluşturmak
2. Büyük veri kümesinden küçük bir örnek görmek
3. Veri keşfi (exploratory analysis) sırasında rastgele satırlara bakmak
4. Bootstrapping yöntemlerinde

In [14]:
df.sample(5)

Unnamed: 0,job_title_short,job_title,job_location,job_via,job_schedule_type,job_work_from_home,search_location,job_posted_date,job_no_degree_mention,job_health_insurance,job_country,salary_rate,salary_year_avg,salary_hour_avg,company_name,job_skills,job_type_skills
153868,Data Scientist,Insights Data Scientist,United Kingdom,via LinkedIn,Full-time,False,United Kingdom,2023-07-14 08:16:23,False,False,United Kingdom,,,,YouView TV Limited,"['sql', 'python', 'github']","{'other': ['github'], 'programming': ['sql', '..."
21805,Senior Data Scientist,Senior Data Scientist,"Ahmedabad, Gujarat, India",via Indeed,Full-time,False,India,2023-05-31 13:13:38,False,False,India,,,,Zymr,"['python', 'r', 'azure', 'databricks', 'aws', ...","{'analyst_tools': ['tableau'], 'cloud': ['azur..."
207769,Data Engineer,Big data engineer,"Missoula, MT",via Talent.com,Full-time,False,Sudan,2023-07-09 23:48:55,False,False,Sudan,,,,Acxiom,"['sql', 'python', 'java', 'snowflake', 'looker']","{'analyst_tools': ['looker'], 'cloud': ['snowf..."
458146,Data Scientist,Data Scientist Staff,"Ciudad Juárez, Chihuahua, Mexico",via BeBee,Full-time,False,Mexico,2023-12-22 14:09:58,False,False,Mexico,,,,Johnson & Johnson,"['r', 'python', 'java']","{'programming': ['r', 'python', 'java']}"
725642,Data Analyst,Manager IT Big Data,"Tienen, Belgium",via BeBee Belgique,Full-time,False,Belgium,2023-11-02 21:33:22,True,False,Belgium,,,,Colruyt Group,['chef'],{'other': ['chef']}


In [None]:
#or you can randomly select a fraction of the data (e.g 10% of the rows), with or without replacement.
df.sample(frac=0.1, replace=False)

Unnamed: 0,job_title_short,job_title,job_location,job_via,job_schedule_type,job_work_from_home,search_location,job_posted_date,job_no_degree_mention,job_health_insurance,job_country,salary_rate,salary_year_avg,salary_hour_avg,company_name,job_skills,job_type_skills
304089,Data Scientist,Data Scientist,"Kolkata, West Bengal, India",via Trabajo.org,Full-time,False,India,2023-08-01 17:19:54,False,False,India,,,,Agnik,,
727188,Data Scientist,Test my Python data science tool,Anywhere,via Upwork,Contractor and Temp work,True,"Texas, United States",2023-11-07 21:03:44,False,False,United States,hour,,31.0,Upwork,"['python', 'go', 'excel', 'spreadsheet', 'zoom']","{'analyst_tools': ['excel', 'spreadsheet'], 'p..."
135710,Business Analyst,Business Development Analyst,"Athlone, County Westmeath, Ireland",via Trabajo.org,Full-time,False,Ireland,2023-04-09 08:21:52,False,False,Ireland,,,,Pharmaforce Ireland Ltd,['excel'],{'analyst_tools': ['excel']}
451223,Senior Data Engineer,Senior Data Engineer Connectivity (f/m/x),"Wörth am Rhein, Germany",via WANE Jobs,Full-time,False,Germany,2023-05-29 14:15:13,True,False,Germany,,,,Daimler Truck AG,,
260889,Data Scientist,Ingénieur Big data - datascientist F/H,"Bruz, France",via Jobijoba,Full-time,False,France,2023-06-06 07:21:49,False,False,France,,,,Civils de la Défense,"['python', 'scala', 'spark']","{'libraries': ['spark'], 'programming': ['pyth..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
364675,Data Analyst,Data Analyst/ SQL Developer,"Bucharest, Romania",via Lucrezi.ro,Full-time,False,Romania,2023-01-28 00:10:03,True,False,Romania,,,,Altimetrik Poland,"['python', 'sql', 'sql server', 'oracle']","{'cloud': ['oracle'], 'databases': ['sql serve..."
739875,Data Scientist,Mid-Senior Data Scientist x 2,Anywhere,via LinkedIn,Full-time,True,"Texas, United States",2023-08-09 21:03:27,False,False,United States,,,,Mesmerise Group,"['python', 'azure', 'gcp', 'aws', 'pandas', 's...","{'cloud': ['azure', 'gcp', 'aws'], 'libraries'..."
369299,Data Analyst,HR Payroll and Data Analyst,Singapore,via Jobrapido.com,Full-time,False,Singapore,2023-11-08 23:49:08,False,False,Singapore,,,,GATES INDUSTRIAL SINGAPORE PTE. LTD.,,
343412,Senior Data Scientist,Senior Data Scientist,United States,via California Jobs - Tarta.ai🌴,Full-time,False,Sudan,2023-03-10 23:43:05,False,False,Sudan,,,,Activision,"['python', 'java', 'sql', 'aws', 'gcp', 'azure...","{'cloud': ['aws', 'gcp', 'azure'], 'libraries'..."


In [19]:
df.sample(n=5, random_state=42)

Unnamed: 0,job_title_short,job_title,job_location,job_via,job_schedule_type,job_work_from_home,search_location,job_posted_date,job_no_degree_mention,job_health_insurance,job_country,salary_rate,salary_year_avg,salary_hour_avg,company_name,job_skills,job_type_skills
502901,Senior Data Engineer,Senior Data Engineer,"St Paul, MN",via BeBee,Full-time,False,"Florida, United States",2023-12-17 11:09:06,False,False,United States,,,,ManpowerGroup,"['sql', 'azure', 'git']","{'cloud': ['azure'], 'other': ['git'], 'progra..."
406337,Senior Data Scientist,Senior Analytics Engineer,"London, UK",via LinkedIn,Full-time,False,United Kingdom,2023-10-06 16:09:56,False,False,United Kingdom,,,,Harnham,"['sql', 'python', 'bigquery', 'snowflake', 'lo...","{'analyst_tools': ['looker'], 'cloud': ['bigqu..."
659951,Data Engineer,Data Engineer,"Newcastle upon Tyne, UK",via Indeed,Full-time,False,United Kingdom,2023-09-06 10:11:25,True,False,United Kingdom,,,,Morgan King,,
541593,Data Analyst,Data Analyst,Malta,via Trabajo.org,Full-time,False,Malta,2023-02-14 21:14:18,True,False,Malta,,,,Konnekt,['jira'],{'async': ['jira']}
425158,Senior Data Engineer,Senior Data Engineer. Job in Amsterdam NBC4i Jobs,"Amsterdam, Netherlands",via NBC4i Jobs,Full-time,False,Netherlands,2023-06-19 16:34:30,True,False,Netherlands,,,,Independent Recruiters,['python'],{'programming': ['python']}


* Python’da (özellikle Pandas ile çalışırken) copy() fonksiyonu, bir DataFrame’in bağımsız bir kopyasını oluşturmak için kullanılır.

## Ne zaman copy() kullanmalısın?
1. Veri üzerinde değişiklik yapmadan önce orijinalini korumak istiyorsan
2. Eğitim ve test verisini ayırırken
3. Veri setini yeniden düzenlemeden önce yedek almak için

In [18]:
import pandas as pd

# Orijinal DataFrame
df_original = pd.DataFrame({
    'Name': ['Ali', 'Ayşe', 'Mehmet'],
    'Age': [25, 30, 22]
})

print("🔹 Orijinal DataFrame:")
print(df_original)

# 1. Durum: Sadece referans ataması
df_ref = df_original
df_ref['Age'] = df_ref['Age'] + 10

print("\n🔸 Referansla kopyalandıktan sonra df_ref değiştirildi:")
print("df_original:")
print(df_original)  # Etkilendi!

# 2. Durum: Gerçek kopya
df_original = pd.DataFrame({
    'Name': ['Ali', 'Ayşe', 'Mehmet'],
    'Age': [25, 30, 22]
})

df_copy = df_original.copy()
df_copy['Age'] = df_copy['Age'] + 10

print("\n✅ copy() ile kopyalandıktan sonra df_copy değiştirildi:")
print("df_original:")
print(df_original)  # Değişmedi!
print("df_copy:")
print(df_copy)      # Sadece df_copy değişti


🔹 Orijinal DataFrame:
     Name  Age
0     Ali   25
1    Ayşe   30
2  Mehmet   22

🔸 Referansla kopyalandıktan sonra df_ref değiştirildi:
df_original:
     Name  Age
0     Ali   35
1    Ayşe   40
2  Mehmet   32

✅ copy() ile kopyalandıktan sonra df_copy değiştirildi:
df_original:
     Name  Age
0     Ali   25
1    Ayşe   30
2  Mehmet   22
df_copy:
     Name  Age
0     Ali   35
1    Ayşe   40
2  Mehmet   32
