# Języki skryptowe w analizie danych - język R: ramki danych i biblioteka `dplyr` 
###### dr inż. Marcin Lawnik

### Wczytywanie danych

**metoda `read.csv`**

[http://www.sthda.com/english/wiki/reading-data-from-txt-csv-files-r-base-functions](http://www.sthda.com/english/wiki/reading-data-from-txt-csv-files-r-base-functions)

In [1]:
read.csv("plik_csv.csv", header = TRUE, sep = ",")

x,y,z
1,2,3
2,3,4
3,4,5
4,5,6
5,6,7
6,7,8


**metoda `read.table`**

[https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.table](https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.table)

In [2]:
tabela = read.table("plik_csv.csv", header = TRUE, sep = ",")
tabela

x,y,z
1,2,3
2,3,4
3,4,5
4,5,6
5,6,7
6,7,8


**metoda `read.delim`**

In [3]:
dane = read.delim("http://www.sthda.com/upload/boxplot_format.txt")

head(dane) 

Nom,variable,Group
IND1,10,A
IND2,7,A
IND3,20,A
IND4,14,A
IND5,14,A
IND6,12,A


**Wczytywanie plików excella**

[http://www.sthda.com/english/wiki/reading-data-from-excel-files-xls-xlsx-into-r](http://www.sthda.com/english/wiki/reading-data-from-excel-files-xls-xlsx-into-r)

### Zapis do pliku

[http://www.sthda.com/english/wiki/writing-data-from-r-to-txt-csv-files-r-base-functions](http://www.sthda.com/english/wiki/writing-data-from-r-to-txt-csv-files-r-base-functions)


**metoda `write.table`**

In [4]:
write.table(tabela, "dane.txt", append = FALSE, sep = " ", col.names = TRUE, row.names = FALSE)

**metoda `write.csv`**

In [5]:
write.csv(tabela, file = "tabela.csv")

### Ramki danych

[https://www.datamentor.io/r-programming/data-frame/](https://www.datamentor.io/r-programming/data-frame/)


In [6]:
dane = data.frame("Imię" = c("Jan","Maria","Stefan"), "Wiek" = c(20,21,19), 
                  "Kierunek"=c("matematyka", "matematyka", "informatyka"), stringsAsFactors=F )

dane

Imię,Wiek,Kierunek
Jan,20,matematyka
Maria,21,matematyka
Stefan,19,informatyka


In [7]:
str(dane)

'data.frame':	3 obs. of  3 variables:
 $ Imię    : chr  "Jan" "Maria" "Stefan"
 $ Wiek    : num  20 21 19
 $ Kierunek: chr  "matematyka" "matematyka" "informatyka"


In [8]:
names(dane)

In [9]:
colnames(dane)

In [10]:
rownames(dane)

**Odczyt kolumn**

In [11]:
dane$Imię

In [12]:
dane["Imię"]

Imię
Jan
Maria
Stefan


In [13]:
dane[,1]

**Odczyt wierszy**

In [14]:
dane[1,]

Imię,Wiek,Kierunek
Jan,20,matematyka


**Odczyt fragmentu ramki danych**

In [15]:
dane[1,1]

In [16]:
dane[1,1:2]

Imię,Wiek
Jan,20


**Dodanie wiersza**

In [17]:
dane_1 = rbind(dane, c("Zofia", 22, "informatyka"))

dane_1

Imię,Wiek,Kierunek
Jan,20,matematyka
Maria,21,matematyka
Stefan,19,informatyka
Zofia,22,informatyka


**Dodanie kolumny**

In [4]:
dane_1 = cbind(dane, "Stypendium" = c("tak", "nie", "nie"))
dane_1               

Imię,Wiek,Kierunek,Stypendium
Jan,20,matematyka,tak
Maria,21,matematyka,nie
Stefan,19,informatyka,nie


**Usuwanie danych**

In [5]:
dane_1$Stypendium = NULL

dane_1

Imię,Wiek,Kierunek
Jan,20,matematyka
Maria,21,matematyka
Stefan,19,informatyka


In [20]:
dane_1 <- dane_1[-3,]

dane_1

Imię,Wiek,Kierunek
Jan,20,matematyka
Maria,21,matematyka


**Modyfikowanie danych**

In [21]:
dane_1[1,1] = "Jakub"

dane_1

Imię,Wiek,Kierunek
Jakub,20,matematyka
Maria,21,matematyka


In [7]:
dane[dane == "informatyka"] = "fizyka"

dane

Imię,Wiek,Kierunek
Jan,20,matematyka
Maria,21,matematyka
Stefan,19,fizyka


In [23]:
transform(dane, Wiek = Wiek * 1.5)

Imię,Wiek,Kierunek
Jan,30.0,matematyka
Maria,31.5,matematyka
Stefan,28.5,informatyka


In [24]:
dane_1 = transform(dane, Wiek = as.character(Wiek))

str(dane_1)

'data.frame':	3 obs. of  3 variables:
 $ Imię    : chr  "Jan" "Maria" "Stefan"
 $ Wiek    : chr  "20" "21" "19"
 $ Kierunek: chr  "matematyka" "matematyka" "informatyka"


**Podstawowe statystyki opisowe**

In [25]:
summary(dane)

     Imię                Wiek        Kierunek        
 Length:3           Min.   :19.0   Length:3          
 Class :character   1st Qu.:19.5   Class :character  
 Mode  :character   Median :20.0   Mode  :character  
                    Mean   :20.0                     
                    3rd Qu.:20.5                     
                    Max.   :21.0                     

**NaN-y**

In [26]:
dane_1 = cbind(dane, "NaN" = c("tak",NA,NA), stringsAsFactors = FALSE)
dane_1

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak
Maria,21,matematyka,
Stefan,19,informatyka,


In [27]:
is.na(dane_1)

Imię,Wiek,Kierunek,NaN
False,False,False,False
False,False,False,True
False,False,False,True


In [28]:
na.omit(dane_1)

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak


In [29]:
dane_1[is.na(dane_1)] = c("nie", "tak")
dane_1

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak
Maria,21,matematyka,nie
Stefan,19,informatyka,tak


**Rzutowanie danych**

[https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/numeric](https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/numeric)

In [30]:
dane = data.frame("Imię" = c("Jan","Maria","Stefan"), "Wiek" = c("20.1","21.2","19.3"),stringsAsFactors=F)

is.numeric(dane$Wiek)

In [31]:
dane$Wiek = as.numeric(dane$Wiek)

is.numeric(dane$Wiek)

**Zmiana wartości**

In [32]:
dane = data.frame("Imię" = c("Jan","Maria","Stefan"), "Wiek" = c("20,1","21,2","19,3")
                  ,stringsAsFactors=F)

dane

Imię,Wiek
Jan,201
Maria,212
Stefan,193


In [33]:
dane = data.frame(lapply(dane, function(x) {gsub(",", ".", x)}))

dane

Imię,Wiek
Jan,20.1
Maria,21.2
Stefan,19.3


### Biblioteka `dplyr`

[https://dplyr.tidyverse.org/](https://dplyr.tidyverse.org/)

In [34]:
library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



**Filtrowanie danych: `filter()`**

[https://dplyr.tidyverse.org/reference/filter.html](https://dplyr.tidyverse.org/reference/filter.html)

In [35]:
dane_1 %>%
filter(Kierunek=="matematyka")

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak
Maria,21,matematyka,nie


In [36]:
dane_1 %>% 
filter(Wiek >= mean(Wiek))

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak
Maria,21,matematyka,nie


In [37]:
filter(dane_1, Wiek >= 20)

Imię,Wiek,Kierunek,NaN
Jan,20,matematyka,tak
Maria,21,matematyka,nie


**Metoda `select()`**

[https://dplyr.tidyverse.org/reference/select.html](https://dplyr.tidyverse.org/reference/select.html)

In [38]:
select(dane_1, ends_with("unek"))

Kierunek
matematyka
matematyka
informatyka


In [39]:
select(dane_1, Wiek, everything())

Wiek,Imię,Kierunek,NaN
20,Jan,matematyka,tak
21,Maria,matematyka,nie
19,Stefan,informatyka,tak


**Metoda `mutate()`**

[https://dplyr.tidyverse.org/reference/mutate.html](https://dplyr.tidyverse.org/reference/mutate.html)

In [40]:
dane_1 %>% 
mutate(Wiek_mc = Wiek * 12)

Imię,Wiek,Kierunek,NaN,Wiek_mc
Jan,20,matematyka,tak,240
Maria,21,matematyka,nie,252
Stefan,19,informatyka,tak,228


**Dziękuję za uwagę**