# Ćwiczenie 3: Odczyt danych z pliku Excel i podstawowa analiza danych

#### Przygotowanie pliku

In [3]:
# Przygotowanie pliku.

import xlsxwriter

# Tworzenie nowego pliku Excel
workbook = xlsxwriter.Workbook('large_data_example.xlsx')
worksheet = workbook.add_worksheet('DataSheet')

# Dodawanie nagłówków
worksheet.write('A1', 'ID')
worksheet.write('B1', 'Name')
worksheet.write('C1', 'Age')
worksheet.write('D1', 'Department')
worksheet.write('E1', 'Salary')

# Generowanie dużej ilości danych
import random
import string

departments = ['HR', 'Engineering', 'Marketing', 'Finance', 'IT']
names = ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hank', 'Ivy', 'Jack',
         'Kim', 'Leo', 'Mia', 'Nina', 'Oscar', 'Paul', 'Quinn', 'Rose', 'Sam', 'Tina']

# Funkcja generująca losowe dane
def generate_random_data(num_records):
    data = []
    for i in range(1, num_records + 1):
        name = random.choice(names)
        age = random.randint(20, 60)
        department = random.choice(departments)
        salary = random.randint(30000, 120000)
        data.append([i, name, age, department, salary])
    return data

# Generowanie 1000 wierszy danych
data = generate_random_data(1000)

# Dodawanie danych do arkusza
row = 1
for entry in data:
    worksheet.write_row(row, 0, entry)
    row += 1

# Zamknięcie pliku
workbook.close()


#### Odczyt danych z pliku Excel w formacie xlsx

In [15]:
import pandas as pd

# Otwieranie pliku Excel za pomocą pandas
df = pd.read_excel('large_data_example.xlsx', sheet_name='DataSheet')

# Wyświetlanie zawartości arkusza
print(df)

       ID   Name  Age   Department  Salary
0       1  Oscar   50           IT   31256
1       2    Sam   22  Engineering  107537
2       3  Alice   55    Marketing   31158
3       4   Paul   28      Finance   98345
4       5  Frank   52           HR   56963
..    ...    ...  ...          ...     ...
995   996   Paul   36    Marketing   58767
996   997  Alice   56  Engineering   34442
997   998    Ivy   20    Marketing   38686
998   999    Kim   28           HR   40667
999  1000  Frank   54           IT   99111

[1000 rows x 5 columns]


In [52]:
# Wyświetlanie pierwszych kilku wierszy danych
print(df.head())

   ID   Name  Age   Department  Salary       Tax
0   1  Oscar   50           IT   31256   7188.88
1   2    Sam   22  Engineering  107537  24733.51
2   3  Alice   55    Marketing   31158   7166.34
3   4   Paul   28      Finance   98345  22619.35
4   5  Frank   52           HR   56963  13101.49


In [25]:
# Podstawowe statystyki opisowe.

print(df.describe())

                ID          Age         Salary
count  1000.000000  1000.000000    1000.000000
mean    500.500000    39.861000   74269.605000
std     288.819436    12.038962   25367.157229
min       1.000000    20.000000   30012.000000
25%     250.750000    29.000000   52746.000000
50%     500.500000    40.000000   73050.000000
75%     750.250000    50.000000   95403.750000
max    1000.000000    60.000000  119787.000000


In [27]:
# Filtrowanie pracowników w dziale 'Engineering' z wynagrodzeniem powyżej 60000.

filtered_df = df[(df['Department'] == 'Engineering') & (df['Salary'] > 60000)]
print(filtered_df)


      ID   Name  Age   Department  Salary
1      2    Sam   22  Engineering  107537
9     10   Nina   35  Engineering   93463
12    13   Nina   42  Engineering   67414
13    14    Leo   55  Engineering   85534
15    16    Ivy   48  Engineering   93330
..   ...    ...  ...          ...     ...
961  962    Ivy   51  Engineering   66799
964  965   Paul   60  Engineering   91241
969  970  David   58  Engineering   63072
973  974   Hank   39  Engineering   62639
978  979  Oscar   21  Engineering   86485

[131 rows x 5 columns]


In [54]:
# Grupowanie danych według działu i obliczanie średniego wynagrodzenia.

grouped_df = df.groupby('Department')['Salary'].mean().reset_index()
print(round(grouped_df, 2))


    Department    Salary
0  Engineering  73448.42
1      Finance  74557.06
2           HR  73261.24
3           IT  74413.85
4    Marketing  75532.53


In [56]:
# Tworzenie nowej kolumny 'Tax' jako 23% wynagrodzenia.

df['Tax'] = df['Salary'] * 0.23
print(df.head())


   ID   Name  Age   Department  Salary       Tax
0   1  Oscar   50           IT   31256   7188.88
1   2    Sam   22  Engineering  107537  24733.51
2   3  Alice   55    Marketing   31158   7166.34
3   4   Paul   28      Finance   98345  22619.35
4   5  Frank   52           HR   56963  13101.49


In [37]:
# Zapisywanie przefiltrowanych danych do nowego pliku Excel.

filtered_df.to_excel('filtered_data.xlsx', index=False)

# Zapisywanie danych z nową kolumną 'Tax' do nowego pliku Excel.

df.to_excel('data_with_tax.xlsx', index=False)


#### Out of Topic

In [46]:
# Co robi reset_index

# Ten kod grupuje dane według kolumny Department i oblicza średnie wynagrodzenie (Salary) w każdej grupie.
# Wynik jest obiektem typu Series, gdzie indeks stanowią wartości z kolumny Department.

grouped_df = df.groupby('Department')['Salary'].mean()
print(f'Tutaj Department jest indeksem, a Salary wartościami w Series.\n\n{grouped_df}')

Tutaj Department jest indeksem, a Salary wartościami w Series.

Department
Engineering    73448.422886
Finance        74557.056872
HR             73261.243094
IT             74413.852217
Marketing      75532.529412
Name: Salary, dtype: float64


In [48]:
# reset_index() przekształca wynik z obiektu Series do obiektu DataFrame.

grouped_df = df.groupby('Department')['Salary'].mean().reset_index()
print(f'Kolumna Department, która była indeksem, zostaje przywrócona jako zwykła kolumna.\n\n{grouped_df}')

Kolumna Department, która była indeksem, zostaje przywrócona jako zwykła kolumna.

    Department        Salary
0  Engineering  73448.422886
1      Finance  74557.056872
2           HR  73261.243094
3           IT  74413.852217
4    Marketing  75532.529412


#### Korzyści z resetowania indeksu:

#### Podsumowanie: