# Analiza z NumPy i Pandas

## 1. Tablice Jedno i Dwuwymiarowe w NumPy oraz Podstawowe Operacje

#### Tworzenie Tablic w NumPy:

In [1]:
import numpy as np

# Jednowymiarowa tablica
tablica_1d = np.array([1, 2, 3, 4, 5])

# Dwuwymiarowa tablica
tablica_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [2]:
print(tablica_1d)

[1 2 3 4 5]


In [3]:
print(tablica_2d)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


#### Podstawowe Operacje na Tablicach NumPy:

In [4]:
# Podstawowe Operacje Matematyczne:
# Dodawanie
wynik_dodawania = tablica_1d + 10

# Mnożenie
wynik_mnożenia = tablica_2d * 2

In [5]:
print(wynik_dodawania)

[11 12 13 14 15]


In [6]:
print(wynik_mnożenia)

[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]


In [7]:
# Indeksowanie i Wycinanie:
# Indeksowanie
element = tablica_1d[2]  # Pobiera trzeci element tablicy

# Wycinanie
fragment_tablicy = tablica_2d[:, 1:3]  # Pobiera drugą i trzecią kolumnę

In [8]:
print(element)
print(fragment_tablicy)

3
[[2 3]
 [5 6]
 [8 9]]


In [9]:
# Operacje statystyczne
# Suma elementów
suma = np.sum(tablica_2d)

# Średnia
srednia = np.mean(tablica_1d)

# Maksimum i minimum
maksimum = np.max(tablica_2d)
minimum = np.min(tablica_1d)

In [10]:
print(suma)
print(srednia)
print(maksimum)
print(minimum)

45
3.0
9
1


In [11]:
# Operacje na wymiarach
# Transpozycja
transponowana_tablica = np.transpose(tablica_2d)

# Wyznacznik
wyznacznik = np.linalg.det(tablica_2d)

In [12]:
print(tablica_2d)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [13]:
print(transponowana_tablica)

[[1 4 7]
 [2 5 8]
 [3 6 9]]


In [14]:
print(wyznacznik)

6.66133814775094e-16


## 2. Series i DataFrame w Pandas

#### Tworzenie Series i DataFrame w Pandas:

In [15]:
import pandas as pd

# Tworzenie Series
seria = pd.Series([1, 3, 5, np.nan, 6, 8])

# Tworzenie DataFrame z tablicy NumPy
df_tablica = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))

# Tworzenie DataFrame z Dictionary
df_slownik = pd.DataFrame({'A': 1.0,
                            'B': pd.Timestamp('20220101'),
                            'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                            'D': np.array([3] * 4, dtype='int32'),
                            'E': pd.Categorical(["test", "train", "test", "train"]),
                            'F': 'foo'})

In [16]:
print(seria)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64


In [17]:
print(df_tablica)

          A         B         C         D
0 -0.145226  2.927792  0.233280 -0.167124
1 -1.849695  0.381697  0.088762 -0.904872
2 -1.130233  0.442396  0.546979  0.519358
3 -0.437288  1.039373  0.126466 -0.042667
4  0.157797 -0.088101  0.411264 -1.335605
5  1.136508 -0.286960 -0.605081 -1.240668


In [18]:
print(df_slownik)

     A          B    C  D      E    F
0  1.0 2022-01-01  1.0  3   test  foo
1  1.0 2022-01-01  1.0  3  train  foo
2  1.0 2022-01-01  1.0  3   test  foo
3  1.0 2022-01-01  1.0  3  train  foo


## 3. Wczytywanie i Zapis Danych w Różnych Formatach

#### Wczytywanie Danych w Pandas:

In [19]:
# Ścieżka względna
df = pd.read_csv('../DayTwo/top_100_world_university_2024_new.csv')
df

Unnamed: 0,sequence,rank,university,overall_score,academic_reputation,employer_reputation,faculty_student_ratio,citations_per_faculty,international_faculty_ratio,international_students_ratio,international_research_network,employment_outcomes,sustainability,Fundos (US$)
0,0,1,Massachusetts Institute of Technology (MIT),100.0,100.0,100.0,100.0,100.0,100.0,88.2,94.3,100.0,95.2,9.2
1,1,2,University of Cambridge,99.2,100.0,100.0,100.0,92.3,100.0,95.8,99.9,100.0,97.3,7.8
2,2,3,University of Oxford,98.9,100.0,100.0,100.0,90.6,98.2,98.2,100.0,100.0,97.8,6.7
3,3,4,Harvard University,98.3,100.0,100.0,98.3,100.0,84.6,66.8,100.0,100.0,96.7,6.3
4,4,5,Stanford University,98.1,100.0,100.0,100.0,99.9,99.9,51.2,95.8,100.0,94.4,6.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,100,100,University of Nottingham,60.4,60.7,72.1,32.2,46.5,90.0,75.2,98.4,24.4,80.0,0
101,101,102,University of Wisconsin-Madison,60.0,80.2,47.8,61.3,37.4,30.9,22.8,83.6,73.1,83.7,0
102,102,103,Pontificia Universidad CatÃ³lica de Chile (UC),59.9,92.9,99.5,20.6,11.6,16.4,3.5,56.8,76.3,91.3,0
103,103,104,The University of Sheffield,59.7,58.7,52.3,54.7,46.9,84.0,97.5,96.1,24.9,76.3,0


In [20]:
# Ścieżka bezwzględna
dfTwo = pd.read_csv(r'C:\Users\PabloPapito\PythonWAnalizieDanych\DayTwo\jobs_in_data.csv')
dfTwo.head()

Unnamed: 0,work_year,job_title,job_category,salary_currency,salary,salary_in_usd,employee_residence,experience_level,employment_type,work_setting,company_location,company_size
0,2023,Data DevOps Engineer,Data Engineering,EUR,88000,95012,Germany,Mid-level,Full-time,Hybrid,Germany,L
1,2023,Data Architect,Data Architecture and Modeling,USD,186000,186000,United States,Senior,Full-time,In-person,United States,M
2,2023,Data Architect,Data Architecture and Modeling,USD,81800,81800,United States,Senior,Full-time,In-person,United States,M
3,2023,Data Scientist,Data Science and Research,USD,212000,212000,United States,Senior,Full-time,In-person,United States,M
4,2023,Data Scientist,Data Science and Research,USD,93300,93300,United States,Senior,Full-time,In-person,United States,M


#### Zapis Danych w Pandas:

In [21]:
df_slownik.to_csv('NowyPlikSlownik.csv', index=False)
df_slownik.to_excel('NowyPlikExcel.xlsx', sheet_name='Slownik', index=False)

In [22]:
# Sprawdzenie Current Working Directory (CWD) w JupyterNotebook
# metoda 1
import os

notebook_path = os.getcwd()
print(notebook_path)

# metoda 2
from ipykernel import get_connection_file
# import os - to już zaimportowaliśmy więc nie ma potrzeby powielać, natomiast jest niezbędnę do wykorzystania metody 2

connection_file = get_connection_file()
notebook_path = os.path.dirname(connection_file)
print(notebook_path)

C:\Users\PabloPapito\PythonWAnalizieDanych\DayTwo
C:\Users\PabloPapito\AppData\Roaming\jupyter\runtime


## 4. Podstawowe Atrybuty DataFrame w Pandas

#### Atrybut shape:

In [23]:
import pandas as pd

# Przykładowe utworzenie DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# Sprawdzenie kształtu DataFrame
ksztalt = df.shape
print("Kształt DataFrame:", ksztalt)

Kształt DataFrame: (3, 2)


#### Atrybut index:

In [24]:
# Sprawdzenie indeksów wierszy DataFrame
indeksy = df.index
print("Indeksy wierszy DataFrame:", indeksy)

Indeksy wierszy DataFrame: RangeIndex(start=0, stop=3, step=1)


#### Atrybut columns:

In [25]:
# Sprawdzenie etykiet kolumn DataFrame
etykiety_kolumn = df.columns
print("Etykiety kolumn DataFrame:", etykiety_kolumn)

Etykiety kolumn DataFrame: Index(['A', 'B'], dtype='object')


#### Atrybut dtypes:

In [26]:
# Sprawdzenie typów danych kolumn DataFrame
typy_danych = df.dtypes
print("Typy danych kolumn DataFrame:\n", typy_danych)

Typy danych kolumn DataFrame:
 A    int64
B    int64
dtype: object


## 5. Przydatne funckje w Pandas

In [27]:
# Przykład użycia describe
opis_statystyczny = df.describe()
print("Opis statystyczny DataFrame:\n", opis_statystyczny)

Opis statystyczny DataFrame:
          A    B
count  3.0  3.0
mean   2.0  5.0
std    1.0  1.0
min    1.0  4.0
25%    1.5  4.5
50%    2.0  5.0
75%    2.5  5.5
max    3.0  6.0


In [28]:
# Przykład użycia info
informacje_o_danych = df.info()
print("Informacje o danych w DataFrame:\n", informacje_o_danych)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
dtypes: int64(2)
memory usage: 180.0 bytes
Informacje o danych w DataFrame:
 None


In [29]:
# Przykład użycia head
pierwsze_wiersze = df.head(3)  # Zwróci trzy pierwsze wiersze
print("Pierwsze trzy wiersze DataFrame:\n", pierwsze_wiersze)

Pierwsze trzy wiersze DataFrame:
    A  B
0  1  4
1  2  5
2  3  6


In [30]:
# Przykład użycia tail
ostatnie_wiersze = df.tail(3)  # Zwróci trzy ostatnie wiersze
print("Ostatnie trzy wiersze DataFrame:\n", ostatnie_wiersze)

Ostatnie trzy wiersze DataFrame:
    A  B
0  1  4
1  2  5
2  3  6


In [31]:
# Przykład użycia sample
losowe_wiersze = df.sample(3)  # Zwróci trzy losowe wiersze
print("Losowe trzy wiersze DataFrame:\n", losowe_wiersze)

Losowe trzy wiersze DataFrame:
    A  B
2  3  6
0  1  4
1  2  5


## 6. Czyszczenie Wartości Zduplikowanych w Pandas

In [32]:
import pandas as pd

# Przykładowe utworzenie DataFrame z zduplikowanymi danymi
data = {'A': [1, 2, 2, 3, 4],
        'B': ['a', 'b', 'b', 'c', 'd']}
df = pd.DataFrame(data)

# Sprawdzenie duplikatów w całych wierszach
duplikaty_wiersze = df.duplicated()

# Sprawdzenie duplikatów w kolumnie 'A'
duplikaty_kolumna_A = df['A'].duplicated()

print("Duplikaty wierszy:\n", duplikaty_wiersze)
print("Duplikaty w kolumnie 'A':\n", duplikaty_kolumna_A)

Duplikaty wierszy:
 0    False
1    False
2     True
3    False
4    False
dtype: bool
Duplikaty w kolumnie 'A':
 0    False
1    False
2     True
3    False
4    False
Name: A, dtype: bool


In [33]:
dfUniversities = pd.read_csv('../DayTwo/top_100_world_university_2024_new.csv')
dfUniversities

Unnamed: 0,sequence,rank,university,overall_score,academic_reputation,employer_reputation,faculty_student_ratio,citations_per_faculty,international_faculty_ratio,international_students_ratio,international_research_network,employment_outcomes,sustainability,Fundos (US$)
0,0,1,Massachusetts Institute of Technology (MIT),100.0,100.0,100.0,100.0,100.0,100.0,88.2,94.3,100.0,95.2,9.2
1,1,2,University of Cambridge,99.2,100.0,100.0,100.0,92.3,100.0,95.8,99.9,100.0,97.3,7.8
2,2,3,University of Oxford,98.9,100.0,100.0,100.0,90.6,98.2,98.2,100.0,100.0,97.8,6.7
3,3,4,Harvard University,98.3,100.0,100.0,98.3,100.0,84.6,66.8,100.0,100.0,96.7,6.3
4,4,5,Stanford University,98.1,100.0,100.0,100.0,99.9,99.9,51.2,95.8,100.0,94.4,6.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100,100,100,University of Nottingham,60.4,60.7,72.1,32.2,46.5,90.0,75.2,98.4,24.4,80.0,0
101,101,102,University of Wisconsin-Madison,60.0,80.2,47.8,61.3,37.4,30.9,22.8,83.6,73.1,83.7,0
102,102,103,Pontificia Universidad CatÃ³lica de Chile (UC),59.9,92.9,99.5,20.6,11.6,16.4,3.5,56.8,76.3,91.3,0
103,103,104,The University of Sheffield,59.7,58.7,52.3,54.7,46.9,84.0,97.5,96.1,24.9,76.3,0


In [34]:
duplikatyUniwersytetów = dfUniversities.duplicated()
duplikatyUniwersytetówKolumna = dfUniversities['university'].duplicated()

In [35]:
print("Duplikaty wierszy:\n", duplikatyUniwersytetów)
print("Duplikaty w kolumnie 'university':\n", duplikatyUniwersytetówKolumna)

Duplikaty wierszy:
 0      False
1      False
2      False
3      False
4      False
       ...  
100    False
101    False
102    False
103    False
104    False
Length: 105, dtype: bool
Duplikaty w kolumnie 'university':
 0      False
1      False
2      False
3      False
4      False
       ...  
100    False
101    False
102    False
103    False
104    False
Name: university, Length: 105, dtype: bool


In [36]:
# Usunięcie zduplikowanych wierszy (zostawiając pierwszy wystąpienie)
df_bez_duplikatow = df.drop_duplicates()

# Usunięcie zduplikowanych wierszy bazując na konkretnej kolumnie
df_bez_duplikatow_kolumna_A = df.drop_duplicates(subset='A')

print("DataFrame bez duplikatów:\n", df_bez_duplikatow)
print("DataFrame bez duplikatów w kolumnie 'A':\n", df_bez_duplikatow_kolumna_A)

DataFrame bez duplikatów:
    A  B
0  1  a
1  2  b
3  3  c
4  4  d
DataFrame bez duplikatów w kolumnie 'A':
    A  B
0  1  a
1  2  b
3  3  c
4  4  d


## 7. Wartości Brakujące - Różne Podejścia do Radzenia Sobie z Nimi w Pandas

#### Sprawdzenie Wartości Brakujących:

In [37]:
import pandas as pd

# Przykładowe utworzenie DataFrame z wartościami brakującymi
data = {'A': [1, 2, None, 4],
        'B': ['a', 'b', 'c', None]}
df = pd.DataFrame(data)

# Sprawdzenie, czy istnieją wartości brakujące w DataFrame
brakujace_wartosci = df.isnull()

print("Wartości brakujące w DataFrame:\n", brakujace_wartosci)

Wartości brakujące w DataFrame:
        A      B
0  False  False
1  False  False
2   True  False
3  False   True


#### Usuwanie Wartości Brakujących:

In [38]:
# Usunięcie wierszy zawierających przynajmniej jedną wartość brakującą
df_bez_brakujacych_wierszy = df.dropna()

# Usunięcie kolumn zawierających przynajmniej jedną wartość brakującą
df_bez_brakujacych_kolumn = df.dropna(axis=1)

print("DataFrame bez wierszy zawierających wartości brakujące:\n", df_bez_brakujacych_wierszy)
print("DataFrame bez kolumn zawierających wartości brakujące:\n", df_bez_brakujacych_kolumn)

DataFrame bez wierszy zawierających wartości brakujące:
      A  B
0  1.0  a
1  2.0  b
DataFrame bez kolumn zawierających wartości brakujące:
 Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]


#### Uzupełnianie Wartości Brakujących:

In [39]:
# Uzupełnienie wartości brakujących określoną wartością (np. średnią)
srednia_wartosc_A = df['A'].mean()
df_uzupelnione = df.fillna({'A': srednia_wartosc_A, 'B': 'brak_danych'})

print("DataFrame po uzupełnieniu wartości brakujących:\n", df_uzupelnione)

DataFrame po uzupełnieniu wartości brakujących:
           A            B
0  1.000000            a
1  2.000000            b
2  2.333333            c
3  4.000000  brak_danych


## 8. Wykrywanie Wartości Odstających w Pandas

#### Wykrywanie Wartości Odstających:

In [40]:
import pandas as pd

# Przykładowe utworzenie DataFrame z wartościami odstającymi
data = {'A': [1, 2, 3, 100],
        'B': [4, 5, 6, 200]}
df = pd.DataFrame(data)

# Wykrywanie wartości odstających na podstawie kwantyli
kwantyl_25 = df.quantile(0.25)
kwantyl_25 = df.quantile(0.75)
rozstep_miedzykwartylowy = kwantyl_75 - kwantyl_25

# Definiowanie zakresu wartości "normalnych"
dolny_limit = kwantyl_25 - 1.5 * rozstep_miedzykwartylowy
gorny_limit = kwantyl_75 + 1.5 * rozstep_miedzykwartylowy

# Wykrywanie wartości odstających
odstajace_wartosci = (df < dolny_limit) | (df > gorny_limit)

print("Wartości odstające w DataFrame:\n", odstajace_wartosci)

Wartości odstające w DataFrame:
        A      B
0  False  False
1  False  False
2  False  False
3   True   True


#### Zastępowanie Wartości Odstających:

In [41]:
# Zastępowanie wartości odstających wartością graniczną
df_bez_odstajacych = df.mask(odstajace_wartosci, gorny_limit, axis=1)

print("DataFrame po zastąpieniu wartości odstających:\n", df_bez_odstajacych)

DataFrame po zastąpieniu wartości odstających:
       A        B
0   1.0    4.000
1   2.0    5.000
2   3.0    6.000
3  65.5  129.125


## 9. Sortowanie Danych w Pandas

#### Sortowanie Wierszy:

In [42]:
import pandas as pd

# Przykładowe utworzenie DataFrame do sortowania wierszy
data = {'A': [3, 1, 4, 2],
        'B': ['c', 'a', 'd', 'b']}
df = pd.DataFrame(data)

# Sortowanie wierszy według kolumny 'A'
df_posortowany = df.sort_values(by='A')

print("DataFrame po posortowaniu wierszy według kolumny 'A':\n", df_posortowany)

DataFrame po posortowaniu wierszy według kolumny 'A':
    A  B
1  1  a
3  2  b
0  3  c
2  4  d


#### Sortowanie Kolumn:

In [43]:
# Sortowanie kolumn według etykiet kolumn
df_kolumny_posortowane = df.sort_index(axis=1)

print("DataFrame po posortowaniu kolumn według etykiet:\n", df_kolumny_posortowane)

DataFrame po posortowaniu kolumn według etykiet:
    A  B
0  3  c
1  1  a
2  4  d
3  2  b


#### Sortowanie Malejące:

In [44]:
# Sortowanie wierszy malejąco według kolumny 'A'
df_posortowany_malejaco = df.sort_values(by='A', ascending=False)

print("DataFrame po posortowaniu malejąco według kolumny 'A':\n", df_posortowany_malejaco)

DataFrame po posortowaniu malejąco według kolumny 'A':
    A  B
2  4  d
0  3  c
3  2  b
1  1  a


## 10. Filtrowanie Danych w Pandas

#### Filtrowanie za pomocą loc:

In [45]:
import pandas as pd

# Przykładowe utworzenie DataFrame do filtrowania
data = {'A': [1, 2, 3, 4],
        'B': ['a', 'b', 'c', 'd']}

dfBezIndeksow = pd.DataFrame(data)

dfBezIndeksow.index += 1 # by default indeksy są od 0 - tutaj możemy ustawić od 1

df = pd.DataFrame(data, index=['x', 'y', 'z', 'w'])

# Filtrowanie wierszy o indeksach 'x' i 'y' oraz kolumny 'A'
df_filtr_loc = df.loc[['x', 'y'], 'A']


print('Nasz zbiór danych:\n', data, '\n\n----------------------\n')

print('Nasz zbiór danych bez indeksów literowych tylko cyfrowe od 0:\n', dfBezIndeksow, '\n\n----------------------\n')



print('Dodanie indeksów wierszy do danych:\n', df, '\n\n----------------------\n')

print("Wynik filtrowania za pomocą loc:\n", df_filtr_loc)

Nasz zbiór danych:
 {'A': [1, 2, 3, 4], 'B': ['a', 'b', 'c', 'd']} 

----------------------

Nasz zbiór danych bez indeksów literowych tylko cyfrowe od 0:
    A  B
1  1  a
2  2  b
3  3  c
4  4  d 

----------------------

Dodanie indeksów wierszy do danych:
    A  B
x  1  a
y  2  b
z  3  c
w  4  d 

----------------------

Wynik filtrowania za pomocą loc:
 x    1
y    2
Name: A, dtype: int64


#### Filtrowanie za pomocą iloc:

In [46]:
# Filtrowanie pierwszych dwóch wierszy oraz pierwszej kolumny
df_filtr_iloc = df.iloc[:2, 0] # pierwszy argument to wiersz, a drugi to kolumna

print("Wynik filtrowania za pomocą iloc:\n", df_filtr_iloc)

Wynik filtrowania za pomocą iloc:
 x    1
y    2
Name: A, dtype: int64


#### Filtrowanie za pomocą query:

In [47]:
# Filtrowanie wierszy, gdzie wartość w kolumnie 'A' jest większa niż 2
df_filtr_query = df.query('A > 2')

print("Wynik filtrowania za pomocą query:\n", df_filtr_query)

Wynik filtrowania za pomocą query:
    A  B
z  3  c
w  4  d


#### Filtrowanie za pomocą where:

In [48]:
# Filtrowanie, zwracając nowy DataFrame z wartościami, które spełniają warunek, a reszta to NaN
df_filtr_where = df.where(df['A'] > 2)

print("Wynik filtrowania za pomocą where:\n", df_filtr_where)

Wynik filtrowania za pomocą where:
      A    B
x  NaN  NaN
y  NaN  NaN
z  3.0    c
w  4.0    d


#### Filtrowanie za pomocą isin:

In [49]:
# Filtrowanie wierszy, gdzie wartość w kolumnie 'B' jest jedną z określonych wartości
df_filtr_isin = df[df['B'].isin(['a', 'c'])]

print("Wynik filtrowania za pomocą isin:\n", df_filtr_isin)

Wynik filtrowania za pomocą isin:
    A  B
x  1  a
z  3  c


#### Filtrowanie za pomocą isnull i notnull:

In [50]:
# Filtrowanie wierszy, gdzie wartość w kolumnie 'A' jest NaN
df_filtr_isnull = df[df['A'].isnull()]

# Filtrowanie wierszy, gdzie wartość w kolumnie 'A' nie jest NaN
df_filtr_notnull = df[df['A'].notnull()]

print("Wynik filtrowania za pomocą isnull:\n", df_filtr_isnull)
print("Wynik filtrowania za pomocą notnull:\n", df_filtr_notnull)

Wynik filtrowania za pomocą isnull:
 Empty DataFrame
Columns: [A, B]
Index: []
Wynik filtrowania za pomocą notnull:
    A  B
x  1  a
y  2  b
z  3  c
w  4  d


## 11. Tabele Przestawne w Pandas

#### Tworzenie Tabeli Przestawnej:

In [51]:
import pandas as pd

# Przykładowe utworzenie DataFrame do tabeli przestawnej
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [10, 20, 30, 40, 50, 60]}
df = pd.DataFrame(data)

# Tworzenie tabeli przestawnej
table_przestawna = pd.pivot_table(df, values='Value', columns='Category', aggfunc='sum')

print("Tabela przestawna:\n", table_przestawna)

Tabela przestawna:
 Category   A    B
Value     90  120


#### Określanie Indeksów i Kolumn Tabeli Przestawnej:

In [52]:
# Określanie indeksów i kolumn dla tabeli przestawnej
table_przestawna_indeks_kolumny = pd.pivot_table(df, values='Value', index='Category', columns='Category', aggfunc='sum')

print("Tabela przestawna z określonymi indeksami i kolumnami:\n", table_przestawna_indeks_kolumny)

Tabela przestawna z określonymi indeksami i kolumnami:
 Category     A      B
Category             
A         90.0    NaN
B          NaN  120.0


#### Określanie Funkcji Agregującej:

In [53]:
# Określanie funkcji agregującej dla tabeli przestawnej (np. średnia)
table_przestawna_srednia = pd.pivot_table(df, values='Value', index='Category', aggfunc='mean')

print("Tabela przestawna z określoną funkcją agregującą (średnia):\n", table_przestawna_srednia)

Tabela przestawna z określoną funkcją agregującą (średnia):
           Value
Category       
A            30
B            40


#### Uzupełnianie Wartości Brakujących:

In [54]:
# Uzupełnianie wartości brakujących w tabeli przestawnej (np. wartością 0)
table_przestawna_uzupelniona = pd.pivot_table(df, values='Value', index='Category', fill_value=0, aggfunc='sum')

print("Tabela przestawna z uzupełnionymi wartościami brakującymi:\n", table_przestawna_uzupelniona)

Tabela przestawna z uzupełnionymi wartościami brakującymi:
           Value
Category       
A            90
B           120


## 12. Grupowanie Danych w Pandas

#### Grupowanie na Podstawie Jednej Kolumny:

In [55]:
import pandas as pd

# Przykładowe utworzenie DataFrame do grupowania
data = {'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
        'Value': [10, 20, 30, 40, 50, 60]}
df = pd.DataFrame(data)

# Grupowanie na podstawie kolumny 'Category' i obliczanie sumy dla każdej grupy
grupowanie_jedna_kolumna = df.groupby('Category').sum()

print("Wynik grupowania na podstawie jednej kolumny:\n", grupowanie_jedna_kolumna)

Wynik grupowania na podstawie jednej kolumny:
           Value
Category       
A            90
B           120


#### Grupowanie na Podstawie Wielu Kolumn:

In [56]:
# Grupowanie na podstawie wielu kolumn i obliczanie sumy dla każdej grupy
grupowanie_wiele_kolumn = df.groupby(['Category', 'Value']).size().reset_index(name='Count')

print("Wynik grupowania na podstawie wielu kolumn:\n", grupowanie_wiele_kolumn)

Wynik grupowania na podstawie wielu kolumn:
   Category  Value  Count
0        A     10      1
1        A     30      1
2        A     50      1
3        B     20      1
4        B     40      1
5        B     60      1


#### Wykonywanie Różnych Operacji dla Każdej Grupy:

In [57]:
# Grupowanie i obliczanie różnych statystyk dla każdej grupy
grupowanie_statystyki = df.groupby('Category').agg({'Value': ['sum', 'mean', 'count']})

print("Wynik grupowania z różnymi operacjami dla każdej grupy:\n", grupowanie_statystyki)

Wynik grupowania z różnymi operacjami dla każdej grupy:
          Value            
           sum  mean count
Category                  
A           90  30.0     3
B          120  40.0     3


## 13. Łączenie Danych w Pandas

#### Łączenie na Podstawie Wspólnej Kolumny:

In [58]:
import pandas as pd

# Przykładowe utworzenie dwóch DataFrame'ów do łączenia
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Value1': ['A', 'B', 'C']})

df2 = pd.DataFrame({'ID': [2, 3, 4],
                    'Value2': ['X', 'Y', 'Z']})

# Łączenie na podstawie wspólnej kolumny 'ID'
laczenie_kolumna = pd.merge(df1, df2, on='ID')

print("Wynik łączenia na podstawie wspólnej kolumny:\n", laczenie_kolumna)

Wynik łączenia na podstawie wspólnej kolumny:
    ID Value1 Value2
0   2      B      X
1   3      C      Y


#### Łączenie na Podstawie Wspólnego Indeksu:

In [59]:
# Przykładowe utworzenie dwóch DataFrame'ów do łączenia na podstawie indeksu
df3 = pd.DataFrame({'Value3': ['M', 'N', 'O']}, index=[1, 2, 3])

# Łączenie na podstawie wspólnego indeksu
laczenie_indeks = pd.concat([df1, df3], axis=1)

print("Wynik łączenia na podstawie wspólnego indeksu:\n", laczenie_indeks)

Wynik łączenia na podstawie wspólnego indeksu:
     ID Value1 Value3
0  1.0      A    NaN
1  2.0      B      M
2  3.0      C      N
3  NaN    NaN      O


#### Łączenie na Podstawie Wspólnego Indeksu w Kierunku Pionowym:

In [60]:
# Łączenie na podstawie wspólnego indeksu w kierunku pionowym
laczenie_pionowe = pd.concat([df1, df3], axis=0)

print("Wynik łączenia na podstawie wspólnego indeksu w kierunku pionowym:\n", laczenie_pionowe)

Wynik łączenia na podstawie wspólnego indeksu w kierunku pionowym:
     ID Value1 Value3
0  1.0      A    NaN
1  2.0      B    NaN
2  3.0      C    NaN
1  NaN    NaN      M
2  NaN    NaN      N
3  NaN    NaN      O


## 14. Tworzenie Nowych Atrybutów w Pandas

#### Dodawanie Nowego Atrybutu na Podstawie Istniejących Kolumn:

In [61]:
import pandas as pd

# Przykładowe utworzenie DataFrame
df = pd.DataFrame({'Value1': [10, 20, 30],
                   'Value2': [5, 15, 25]})

# Dodawanie nowego atrybutu 'Sum' na podstawie istniejących kolumn
df['Sum'] = df['Value1'] + df['Value2']

print("DataFrame z dodanym atrybutem 'Sum':\n", df)

DataFrame z dodanym atrybutem 'Sum':
    Value1  Value2  Sum
0      10       5   15
1      20      15   35
2      30      25   55


#### Dodawanie Nowego Atrybutu na Podstawie Warunków Logicznych:

In [62]:
# Dodawanie nowego atrybutu 'Category' na podstawie warunków logicznych
df['Category'] = ['High' if x > 15 else 'Low' for x in df['Sum']]

print("DataFrame z dodanym atrybutem 'Category':\n", df)

DataFrame z dodanym atrybutem 'Category':
    Value1  Value2  Sum Category
0      10       5   15      Low
1      20      15   35     High
2      30      25   55     High


#### Utworzenie Nowego Atrybutu przy Użyciu Funkcji:

In [63]:
# Utworzenie nowego atrybutu 'Product' przy użyciu funkcji
def categorize_product(sum_value):
    if sum_value > 30:
        return 'Premium'
    elif sum_value > 20:
        return 'Standard'
    else:
        return 'Basic'

df['Product'] = df['Sum'].apply(categorize_product)

print("DataFrame z dodanym atrybutem 'Product':\n", df)

DataFrame z dodanym atrybutem 'Product':
    Value1  Value2  Sum Category  Product
0      10       5   15      Low    Basic
1      20      15   35     High  Premium
2      30      25   55     High  Premium
