<a href="https://colab.research.google.com/github/tomeklegierski/R-workshops-with-UBS/blob/main/Wprowadzenie_do_R.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wprowadzenie do R
08/05/2023

## Cel warsztatu

Celem jest przedstawienie podstawowych elementów programowania w R, co pomoże wam w przyszłości wykonywać i automatyzować transofrmację danych oraz ich wizualizację.

## Agenda zajęć

1. Proste struktury danych w R.
2. Podstawowe operacje.
3. Wprowadzenie do pakietu dplyr
4. Wprowadzenie do pakietu ggplot2

Ważna kwestia, na zajęciach będziemy operowali na małych zbiorach danych, do których pakiet dplyr wydaje się być najlepszym rozwiązaniem. Jednak nie będzie sprawdzał się tak dobrze na **big data**. Do tego dużo lepszy będzie pakiet data.table, o którym możecie poczytać tu: https://cran.r-project.org/web/packages/data.table/vignettes/.

## Struktury danych

Na warsztatach poznamy 4 podstawowe struktury danych w R:


*   Vector
*   List
*   Matrix
*   Data Frame

### Vector 

Wektor jest strukturą homogeniczną, co znaczy, że wszystkie jego elementy muszą mieć ten sam typ.

Wyróżniamy 4 podstawowe typy wektorów:

*   character
*   numeric
*   integer
*   logical



In [None]:
# Zmienna to wektor z jednym elementem
x_1 <- 2
x_2 = 'R jest super!'

In [None]:
vector_character <- c("R jest super!")
vector_numeric <- c(exp(1), pi, 2.5)
vector_intiger <- c(-2L, -1L, 0L, 1L, 2L)
vector_logic <- c(FALSE, TRUE, F, T)

### List
Lista jest strukturą heterogeniczną, czyli jej elementy mogą mieć różne typy.

In [None]:
list_1 <- list("R jest super!", exp(1), -2L, TRUE)

list_2 <- list(vector_character, 
               vector_numeric, 
               vector_intiger, 
               vector_logic)

### Matrix
Macierz jest dwu-wymiarową strukturą, która tak samo jak wektor mysu być homogeniczna.

In [None]:
matrix_1 <- matrix(1:32, nrow = 8, ncol = 4)

### Data frame
Data frame jest listą składającą się z jednawych co do wielkości wektorów. Wektory te nie muszą być tego samego typu.

In [None]:
# Tworzenie ramki danych
df_movies <- data.frame(
  title = c("Incepcja", "Avengers: Koniec gry", "Gladiator", "Ojciec chrzestny", "Matrix"),
  year = c(2010, 2019, 2000, 1972, 1999),
  rating = c(8.8, 8.4, 8.5, 9.2, 8.7),
  genre = c("sci-fi", "akcja", "dramat", "gangsterski", "sci-fi"),
  director = c("Christopher Nolan", "Anthony Russo", "Ridley Scott", "Francis Ford Coppola", "Lana i Lilly Wachowski"),
  is_21st_century  = c(T, T, F, F, F),
  stringsAsFactors = FALSE
)

# Wyświetlanie ramki danych
df_movies

title,year,rating,genre,director,is_21st_century
<chr>,<dbl>,<dbl>,<chr>,<chr>,<lgl>
Incepcja,2010,8.8,sci-fi,Christopher Nolan,True
Avengers: Koniec gry,2019,8.4,akcja,Anthony Russo,True
Gladiator,2000,8.5,dramat,Ridley Scott,False
Ojciec chrzestny,1972,9.2,gangsterski,Francis Ford Coppola,False
Matrix,1999,8.7,sci-fi,Lana i Lilly Wachowski,False


In [None]:
print(df_movies)

In [None]:
# nazwy kolumn
colnames(df_movies) # names(df_movies)

In [None]:
# liczba wierszy
nrow(df_movies)

In [None]:
# liczba kolumn 
ncol(df_movies)

In [None]:
# wymiar data frame
dim(df_movies)

In [None]:
# odwołania do obiektów
df_movies[1]

## Podstawowe operacje

Na warsztatach poznamy:

*   Instrukcje warunkowe (if)
*   Pętle (for)
*   Budowanie funkcji (function)

### If


In [None]:
x = 3
if (x > 3) {
  print(x)
}

[1] 4


In [None]:
x = 3
if (x > 3) 
  print(x)


[1] 4


In [None]:
x = 'lol'
if (x > 3) {
  print('x jest większe od 3')
} else if (x <= 3) {
  print('x jest mniejsze bądź równe 3')
} else {
  print('x to nie liczba')
}


[1] "x jest większe od 3"


### For

In [None]:
for (i in 1:10) {
  print(i)
}

In [None]:
range <- 1:5 # deklarowanie zasięgu funkcji (wektor 1, 2, 3, 4, 5)
for (i in range) {
  if(i == 4) # warunek i jest równe 4
    next     # przejdź dalej w pętli

  print(i)   # wypisz i
}

### Funkcje

In [None]:
# deklarowanie funkcji
oblicz_pole_kola <- function(promien) {
  pole = pi * promien^2
  return(pole)
}

In [None]:
oblicz_pole_kola(2)

## Wprowadzenie do pakietu dplyr

**dplyr** to jeden z najpopularniejszych, jak nie najpopularniejszy prakiet do preprocesingu danych jaki istnieje w R. Jest częścią grupy pakietów o nazwie Tidyverse: https://www.tidyverse.org/

W dplyr można znaleźć wielką piątkę niesamowicie użytecznych funkcji:
1. select()
2. filter()
3. mutate()
4. summarise()
5. arrange()

Wszystkie działają razem z funkcją group_by(), która funkcjonalnością przewyższa nawet pięć wymienionych wyżej. Taka **nad**-funkcja.

In [None]:
# instalowanie i ładowanie pakietów
# install.packages(c('dplyr', 'data.table'))
library(dplyr)
library(data.table) # będzie nam potrzebna do ściągnięcia danych (fukncja fread())

In [96]:
df_data_science_salary <- fread("https://raw.githubusercontent.com/tomeklegierski/R-workshops-with-UBS/main/_data/ds-salaries.csv")

In [None]:
head(df_data_science_salary)

### %>% (pipe operator)

In [None]:
df_data_science_salary %>% head()

In [None]:
df_data_science_salary %>% 
  head() %>% 
  dim()

In [None]:
df_data_science_salary$experience_level %>% unique

In [None]:
df_data_science_salary$employment_type %>% unique

### select()
Wybieranie kolumn

In [None]:
df_data_science_salary %>% 
  select(experience_level, job_title, salary_in_usd, company_size) %>% 
  head() # wybiera tylko potrzebne kolumny

In [None]:
df_data_science_salary %>% 
  select(!c(work_year, company_size)) %>% # ! przed wektorem wyrzuca kolumny które nie są potrzebne
  head() 

### filter()
Filtrowanie datasetu

In [None]:
df_data_science_salary %>% 
  filter(experience_level == 'EN') %>%
  head()

In [None]:
df_data_science_salary %>% 
  filter(salary_in_usd > 100000) %>% # filter numeryczny
  head()

In [None]:
df_data_science_salary %>% 
  filter(employment_type %in% c('CT', 'FL')) %>% 
  head()

In [None]:
df_data_science_salary %>% 
  filter(employee_residence != company_location) %>% 
  head()

### mutate()
Dodawanie kolumn

In [None]:
df_data_science_salary %>% 
  mutate(FX_XYZUSD = salary / salary_in_usd) %>% 
  head()

### arrange()
Sortowanie

In [None]:
df_data_science_salary %>% 
  arrange(salary_in_usd) %>% 
  head()

In [None]:
df_data_science_salary %>% 
  arrange(desc(salary_in_usd)) %>% # desc sortuje od największej do najmniejszej
  head()

### summarise()
Podsumowywanie

In [None]:
df_data_science_salary %>% 
  summarise(mean_salary_ds = mean(salary_in_usd),
            median_salary_ds = median(salary_in_usd))

### group_by()

In [None]:
df_data_science_salary %>% 
  group_by(experience_level) %>%  # dzieli dataframe na grupy
  summarise(mean_salary_ds = mean(salary_in_usd),
            median_salary_ds = median(salary_in_usd)) %>% # podsumowuje te grupy
  arrange(desc(mean_salary_ds))

In [None]:
df_data_science_salary %>% 
  group_by(work_year, salary_currency) %>%
  summarise(mean_FX = mean(salary/salary_in_usd)) %>%
  arrange(salary_currency)

In [None]:
df_data_science_salary %>% 
  group_by(work_year, salary_currency) %>%
  mutate(mean_FX = mean(salary/salary_in_usd)) %>%
  arrange(salary_currency)

In [None]:
df_data_science_salary %>% 
  group_by(work_year, salary_currency) %>%
  mutate(mean_FX = mean(salary/salary_in_usd)) %>%
  arrange(salary_currency)

## Joins
Łączenie tabel za pomocą klucza

In [145]:
df_country_mapping <- fread("https://raw.githubusercontent.com/tomeklegierski/R-workshops-with-UBS/main/_data/country-code-map.csv")

In [149]:
df_country_mapping_clean <- df_country_mapping %>%
  select(name, `alpha-2`) %>%
  rename(country_code = `alpha-2`)

In [155]:
df_data_science_salary_country_name <- df_data_science_salary %>% 
  left_join(df_country_mapping_clean, by = c("employee_residence" = "country_code"))

In [None]:
df_data_science_country_salary <- df_data_science_salary_country_name %>%
  group_by(name) %>%
  summarise(mean_salary_in_usd = mean(salary_in_usd)) %>%
  arrange(desc(mean_salary_in_usd))


df_data_science_country_salary

## ggplot2

Tu już nie mam żadnych wątpliwości, **ggplot** jest najczęściej używanym pakietem do wizualizacji danych. Można w nim zrobić niemal wszystko, jest intuicyjny, a wykresy przez niego generowane są bardzo ładne.

Więcej o tym pakiecie można poczytać tu: https://ggplot2.tidyverse.org/

In [158]:
df_tourism_recipts <- fread("https://raw.githubusercontent.com/tomeklegierski/R-workshops-with-UBS/main/_data/tourism-recipts.csv")

In [None]:
df_tourism_recipts %>%
  filter(is.na(`value_$`))

In [164]:
df_tourism_recipts_clean <- df_tourism_recipts %>%
  filter(!is.na(`value_$`)) %>%
  mutate(`value_$` = `value_$` / 1e6)

In [173]:
df_tourism_recipts_clean_USA <- df_tourism_recipts_clean %>% 
  filter(code == 'USA')

In [None]:
ggplot(data = df_tourism_recipts_clean_USA, aes(x = year, y = `value_$`)) + geom_line()

In [197]:
best_6 <- df_tourism_recipts_clean %>%
  group_by(name) %>%
  summarise(mean_value = mean(`value_$`)) %>%
  arrange(desc(mean_value)) %>%
  filter(row_number() <= 6) %>% # bierze pierwsze 6 wierszy
  pull(name) # transformuje kolumne name na wektor

In [None]:
best_6

In [None]:
ggplot(data = df_tourism_recipts_clean %>% filter(name %in% best_6), aes(x = year, y = `value_$`, colour = name)) + geom_line()

In [None]:
ggplot(df_tourism_recipts_clean %>% filter(name %in% best_6), 
  aes(x = year, y = `value_$`))+
  geom_line() +
  facet_wrap(~name,  ncol=3, nrow = 2)

In [None]:
ggplot(df_data_science_salary %>% 
          group_by( employment_type) %>%
          summarise(value = mean(salary_in_usd)), 
aes(x = employment_type, y = value))+
  geom_bar(stat = 'identity', fill = 'forest green') +
  ggtitle('Salary for employment types')


Document created by Tomasz Legierski