### Struktury Danych i Indeksowanie

#### Series i DataFrame

In [42]:
# Series
import pandas as pd

dane = [10, 20, 30, 40]
s = pd.Series(dane, index=['10:00:01', '10:00:02', '10:00:03', '10:00:04'])
print(s)

print(f'Wybrany punkt serii: {s['10:00:03'].item()}')

10:00:01    10
10:00:02    20
10:00:03    30
10:00:04    40
dtype: int64
Wybrany punkt serii: 30


In [30]:
import pandas as pd

# DataFrame

dane = {
    'Imię': ['Anna', 'Bartosz', 'Celina', 'Robert', 'Klaudia', 'Pawel', 'Wojtek'],
    'Wiek': [25, 30, 22, 34, 35, 36, 44],
    'Miasto': ['Warszawa', 'Kraków', 'Poznań', 'Szczecin', 'Warszawa', 'Gdańsk', 'Warszawa']
}
df = pd.DataFrame(dane)
print(df)

      Imię  Wiek    Miasto
0     Anna    25  Warszawa
1  Bartosz    30    Kraków
2   Celina    22    Poznań
3   Robert    34  Szczecin
4  Klaudia    35  Warszawa
5    Pawel    36    Gdańsk
6   Wojtek    44  Warszawa


In [31]:
# Wybór wiersza o etykiecie 1 i kolumny 'Imię'
print(df.loc[1, 'Imię'])

Bartosz


In [32]:
# Wybór pierwszego wiersza i drugiej kolumny (indeks 1)
print(df.iloc[0, 1])

25


#### Filtrowanie

In [33]:
# Wybór osób starszych niż 30 lat
powyzej_30_lat = df[df['Wiek'] > 30]
print(powyzej_30_lat)

      Imię  Wiek    Miasto
3   Robert    34  Szczecin
4  Klaudia    35  Warszawa
5    Pawel    36    Gdańsk
6   Wojtek    44  Warszawa


In [34]:
# Sortowanie po wieku
print(powyzej_30_lat.sort_values('Wiek'))

      Imię  Wiek    Miasto
3   Robert    34  Szczecin
4  Klaudia    35  Warszawa
5    Pawel    36    Gdańsk
6   Wojtek    44  Warszawa


In [35]:
# Wybór osób starszych niż 25 lat i mieszkających w Warszawie
powyzej_25_Warszawa = df[(df['Wiek'] > 25) & (df['Miasto'] == 'Warszawa')]
print(powyzej_25_Warszawa)

      Imię  Wiek    Miasto
4  Klaudia    35  Warszawa
6   Wojtek    44  Warszawa


In [36]:
wybrane_kolumny = df[['Imię', 'Wiek']]
print(wybrane_kolumny)

      Imię  Wiek
0     Anna    25
1  Bartosz    30
2   Celina    22
3   Robert    34
4  Klaudia    35
5    Pawel    36
6   Wojtek    44


### Łączenie DataFrame'ów

In [37]:
import pandas as pd

# Łączenie dwóch zbiorów na po wybranym polu 'Id'

df1 = pd.DataFrame({
    'Id': [1, 2, 3],
    'Imię': ['Anna', 'Bartosz', 'Celina']
})

df2 = pd.DataFrame({
    'Id': [1, 2, 3],
    'Wiek': [25, 30, 22]
})
df_polaczone = pd.merge(df1, df2, on='Id')
print(df_polaczone)

   Id     Imię  Wiek
0   1     Anna    25
1   2  Bartosz    30
2   3   Celina    22


In [38]:
import pandas as pd

# Konkatenacja dwóch zbiorów

df1 = pd.DataFrame({
    'Imię': ['Anna', 'Bartosz', 'Celina'],
    'Wiek': [23, 33, 32]
})

df2 = pd.DataFrame({
    'Imię': ['Robert', 'Klaudia', 'Maciej'],
    'Wiek': [30, 27, 34]
})

df_polaczone_join = pd.concat([df1, df2], axis=0)
print(df_polaczone_join)

      Imię  Wiek
0     Anna    23
1  Bartosz    33
2   Celina    32
0   Robert    30
1  Klaudia    27
2   Maciej    34


### Jak załadować dane z plików CSV / xlsx?

In [3]:
import pandas as pd

# Odczyt danych z pliku CSV (ang. Comma-Separated Values)
df = pd.read_csv('dane.csv')

# Odczyt danych z pliku Excel (xlsx)
# df_excel = pd.read_excel('dane.xlsx')

### Podstawowe metryki

In [4]:
# Wyświetlenie podstawowych informacji o DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      12 non-null     int64  
 1   Imię    12 non-null     object 
 2   Wiek    10 non-null     float64
 3   Miasto  9 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 516.0+ bytes
None


In [5]:
print(df.describe())

              ID       Wiek
count  12.000000  10.000000
mean    6.500000  30.400000
std     3.605551   7.089899
min     1.000000  22.000000
25%     3.750000  25.500000
50%     6.500000  29.000000
75%     9.250000  34.000000
max    12.000000  44.000000


In [None]:
# Obliczenie macierzy korelacji
print(df.corr())

### Obsługa brakujących danych

In [7]:
# Sprawdzanie braków
print(df.isnull().sum())

ID        0
Imię      0
Wiek      2
Miasto    3
dtype: int64


In [8]:
# Wypełnianie braków

df_filled = df.fillna({'Wiek': -1, 'Miasto': 'Nieznane'})
print(df_filled)

    ID      Imię  Wiek    Miasto
0    1      Anna  25.0  Warszawa
1    2   Bartosz  -1.0    Kraków
2    3    Celina  22.0  Nieznane
3    4     Darek  28.0    Poznań
4    5       Ewa  30.0    Gdańsk
5    6     Filip  -1.0  Nieznane
6    7   Grażyna  27.0      Łódź
7    8    Hubert  35.0   Wrocław
8    9     Iwona  23.0  Nieznane
9   10     Józef  31.0    Lublin
10  11     Marek  44.0  Warszawa
11  12  Wojciech  39.0  Warszawa


In [9]:
# Wyświetlenie częstości występowania poszczególnych miast
print(df['Miasto'].value_counts())

Miasto
Warszawa    3
Kraków      1
Poznań      1
Gdańsk      1
Łódź        1
Wrocław     1
Lublin      1
Name: count, dtype: int64


In [None]:
# Funkcja interpolacji wymaga moduły scipy
# %pip install scipy

interpolated = df['Wiek'].interpolate(method='polynomial', order=3)
print(interpolated)

0     25.000000
1     18.677975
2     22.000000
3     28.000000
4     30.000000
5     25.826203
6     27.000000
7     35.000000
8     23.000000
9     31.000000
10    44.000000
11    39.000000
Name: Wiek, dtype: float64


In [11]:
# Wybór osób starszych niż 25 lat i mieszkających w Warszawie
powyzej_25_Warszawa = df[(df['Wiek'] > 25) & (df['Miasto'] == 'Warszawa')]
print(powyzej_25_Warszawa[['ID', 'Imię', 'Wiek']])

    ID      Imię  Wiek
10  11     Marek  44.0
11  12  Wojciech  39.0
