# Cheat sheet Pandas

Importowanie Pandas

In [1]:
import pandas as pd

## DataFrame i Series

### Utworzenie DataFrame

In [9]:
df = pd.DataFrame({'kolumna_imie': ['Piotr', 'Adam', 'Maria','Michal'],
                   'kolumna_nazwisko': ['Kowalski', 'Słon', 'Kowalska', 'Micha']},
                  index=['male', 'male', 'female', 'male']
                 )
print(df)

       kolumna_imie kolumna_nazwisko
male          Piotr         Kowalski
male           Adam             Słon
female        Maria         Kowalska
male         Michal            Micha


#### lub

In [5]:
df1 = pd.DataFrame(data=[
    ['Piotr', 'Kowalski'],
    ['Adam', 'Slon'],
    ['Maria', 'Kowalska'],
    ['Michał', 'Micha'],
], columns=['kolumna_name', 'kolumna_surname']) # parametr columns opcjonalnie, bez niego utworzy kolumny od 0 do 1
print(df1)

  kolumna_name kolumna_surname
0        Piotr        Kowalski
1         Adam            Slon
2        Maria        Kowalska
3       Michał           Micha


#### Wyświetlenie dwóch pierwszych wierszy.

In [8]:
print(df1.head(2)) # domyślnie head() wyświetli 5 pierwszych wierszy

  kolumna_name kolumna_surname
0        Piotr        Kowalski
1         Adam            Slon
2        Maria        Kowalska
3       Michał           Micha


#### Wyświetlenie nazw kolumn lub zakresu indeksów wierszy


In [11]:
print(df1.columns)
print(df1.index)

Index(['kolumna_name', 'kolumna_surname'], dtype='object')
RangeIndex(start=0, stop=4, step=1)


#### Konwersja do słownika

In [14]:
my_dict = {'kolumna_imie2': {'male': 'Michal', 'female': 'Maria'},
           'kolumna_nazwisko': {'male': 'Mihal', 'female': 'Kowalska'}}
df_from_dict = pd.DataFrame.from_dict(my_dict)
print(df_from_dict)

       kolumna_imie2 kolumna_nazwisko
male          Michal            Mihal
female         Maria         Kowalska


#### Tworzenie niezależnej kopii DataFrame

In [15]:
df_second = df.copy()
df_second['kolumna_imie'] = 'Maria'
print(df_second)

       kolumna_imie kolumna_nazwisko
male          Maria         Kowalski
male          Maria             Słon
female        Maria         Kowalska
male          Maria            Micha


### Utworzenie Series

In [16]:
series = pd.Series(data=['Piotr', 'Adam', 'Maria', 'Aga'])

#### Sprawdzanie typu danych w Series

In [20]:
print('type(series)')
print(type(series))
print('series.dtypes')
print(series.dtypes)

type(series)
<class 'pandas.core.series.Series'>
series.dtypes
object


#### Tworzenie Series z listy

In [23]:
my_list = ['Piotr', 'Adam', 'Maria', 'Agata']
series_from_my_list = pd.Series(my_list)
print(series_from_my_list)

0    Piotr
1     Adam
2    Maria
3    Agata
dtype: object


#### Zapis do listy

In [25]:
print(series_from_my_list.tolist())

['Piotr', 'Adam', 'Maria', 'Agata']


#### Konwersja pd.Series do pd.DataFrame

In [30]:
df_from_series_2 = pd.DataFrame(series_from_my_list)
print(df_from_series_2)

       0
0  Piotr
1   Adam
2  Maria
3  Agata


## Ustawienia wyświetlania

In [31]:
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 100)

### Wczytywanie danych

In [38]:
read_settings = {'name': str, 'prep_time': int}
indian_food = pd.read_csv('C:\\Users\\piotr\\Desktop\\big_data_learning\\pandas_learning\\data\\indian_food.csv',
                         dtype=read_settings)  # w przypadku konwersji na niedozwolony typ danych, pojawi się error
print(indian_food.head(2))

         name                      ingredients        diet  prep_time  cook_time flavor_profile   course        state region
0  Balu shahi  Maida flour, yogurt, oil, sugar  vegetarian         45         25          sweet  dessert  West Bengal   East
1      Boondi          Gram flour, ghee, sugar  vegetarian         80         30          sweet  dessert    Rajasthan   West


#### Wczytywanie wybranych kolumn

In [None]:
indian_food = pd.read_csv('../data/indian_food.csv',
                          usecols=['name', 'ingredients', 'diet', 'prep_time',
                                   'cook_time']) # wczytywanie wybranych kolumn z pliku

#### Sprawdzenie "kształtu" DataFrame

In [39]:
print(indian_food.shape)

(255, 9)


#### Dwie metody wczytywania danych z Excela

In [None]:
indian_food_excel = pd.read_excel('../data/data.xlsx',
                                  sheet_name=0)
# lub

xlsx = pd.ExcelFile('../data/data.xlsx')
df_xlsx = pd.read_excel(xlsx)
print(df_xlsx)

#### Zapisywanie danych do pliku

In [None]:
my_df = pd.read_csv('path')
# lub
my_df = df.to_csv('path')

#### Zapisywanie wybranych kolumn do pliku

In [None]:
indian_food[['diet', 'ingredients']].to_excel('..data/indian_food_my_excel_list.xlsx',
                                              sheet_name='wybrane jedzenie',    # nadaje nazwę arkuszowi
                                              index=False)                      # nie zapisuje indeksów w pierwszej kolumnie

## Podstawowe działania matematyczne

In [None]:
gov_county = pd.read_csv('../data/governors_county.csv')

#### Przypisywania wartośc z innej kolumny do nowej

In [None]:
gov_county['prev_vots'] = gov_county['current_votes'] # 'prev_votes' to nazwa nowej kolumny

#### Odejmowanie wybranej wartości

In [3]:
gov_county['prev_votes'] = gov_county['prev_votes'].sub(100)

#### Suma dwóch kolumn

In [None]:
gov_county['prev_votes'] =  gov_county['prev_votes'] + gov_county['total_votes']

#### Mnożenie o wybraną wartość

In [None]:
gov_county['prev_votes'] = gov_county['prev_votes'].mul(100)

#### Dzielenie o wybraną wartość

In [None]:
gov_county['prev_votes'] = gov_county['prev_votes'].div(100)

#### Suma wszystkich wartości w jednej kolumnie

In [None]:
print(sum(gov_county['total_votes']))

#### Średnia wszystkich wartości w jednej kolumnie

In [None]:
print(gov_county['total_votes'].mean())
# lub
print(gov_county['total_votes'].median())