# **IHM - Prediktiv analys**
# **Digital Marketing & Sales Analytics**

**-Lektion 4: Dataframes (pandas) i R**

I Python är det standard att använda bibloteket Pandas när man vill arbeta med dataframes. I R är det i stället en datatyp som är inbyggd i grundspråket och behöver således inte importeras från ett externt bibliotek.

För att kunna köra R i Jupyter Notebooks (som detta verktyg heter) behöver Rs runtime laddas in och innan varje exekverbart kodblock används "%%R" för att markera att det är R som körs.

In [139]:
%load_ext rpy2.ipython

The rpy2.ipython extension is already loaded. To reload it, use:
  %reload_ext rpy2.ipython


In [140]:
%%R

city_names <- c('San Francisco', 'San Jose', 'Sacramento')
population <- c(852469, 1015785, 485199)

cities_df <- data.frame(city_names, population)
colnames(cities_df) <- c('City name', 'Population')

cities_df

      City name Population
1 San Francisco     852469
2      San Jose    1015785
3    Sacramento     485199


In [141]:
%%R

cities_df['City name']

      City name
1 San Francisco
2      San Jose
3    Sacramento


In [142]:
%%R

cities_df[2, 'City name']

[1] "San Jose"


In [143]:
%%R

cities_df[0:2, ]

      City name Population
1 San Francisco     852469
2      San Jose    1015785


Det är enkelt att lägga till nya kolumner:

In [144]:
%%R

cities_df['Area square miles'] <- c(46.87, 176.53, 97.92)

In [146]:
%%R

cities_df['Population density'] <- cities_df['Population'] / cities_df['Area square miles']

In [147]:
%%R

cities_df

      City name Population Area square miles Population density
1 San Francisco     852469             46.87          18187.945
2      San Jose    1015785            176.53           5754.178
3    Sacramento     485199             97.92           4955.055


Även i R går det att läsa in data via externa färdiga dataset. Notera att i python skriver man "import libraryname" för att importa ett externt bibliotek medan man i R skriver "library(libraryname)". I båda språken måste biblioteket först installeras och i R görs det genom "install.packages(libraryname)".

Notera att nedstående kod måste köras i Rstudio då minnet i Google Colab inte räcker till. 

In [148]:
%%R

#install.packages("altair")

# library("altair")

# vega_data <- import_vega_data()

# cars <- vega_data$cars()

NULL


I Python och Pandas används .shape för att får ut hur många rader och kolumner en dataframe har. I R kan i stället funktionen dim() användas. Andra alternativ för att få ut antal rader är nrow() och antal kolumner ncol().

In [149]:
%%R

print(dim(cities_df)) # Både rader och kolumner

print(nrow(cities_df)) # Bara rader

print(ncol(cities_df)) # Bara kolumner

[1] 3 4
[1] 3
[1] 4


Dataframes kan sammanfattas i R på följande sätt:

In [150]:
%%R

summary(cities_df)

  City name           Population      Area square miles Population density
 Length:3           Min.   : 485199   Min.   : 46.87    Min.   : 4955     
 Class :character   1st Qu.: 668834   1st Qu.: 72.39    1st Qu.: 5355     
 Mode  :character   Median : 852469   Median : 97.92    Median : 5754     
                    Mean   : 784484   Mean   :107.11    Mean   : 9632     
                    3rd Qu.: 934127   3rd Qu.:137.22    3rd Qu.:11971     
                    Max.   :1015785   Max.   :176.53    Max.   :18188     


Vidare går det att undersöka en delmängd av en dataframe genom att titta på de översta eller understa raderna:

In [151]:
%%R

head(cities_df) 

head(cities_df, 1) # Endast den översta raden

      City name Population Area square miles Population density
1 San Francisco     852469             46.87           18187.95


In [152]:
%%R

tail(cities_df, 1) # Endast den sista raden

   City name Population Area square miles Population density
3 Sacramento     485199             97.92           4955.055


Det går att ta ut en kolumn och köra aggregeringsfunktioner

In [153]:
%%R

# install.packages("plyr")
library(plyr)

print('Antal förekomster per City name')
print(count(cities_df['City name'])) # count använder biblioteket plyr

print('Antal rader: ')
print(nrow(cities_df)) 

[1] "Antal förekomster per City name"
  n
1 3
[1] "Antal rader: "
[1] 3


In [154]:
%%R

unique(cities_df['City name'])

      City name
1 San Francisco
2      San Jose
3    Sacramento


In [155]:
%%R

unique_values <- unique(cities_df['City name'])

num_unique_values <- nrow(unique_values)

print(num_unique_values)

[1] 3


Det går att ta bort duplikatvärden och tomma värden i R på följande vis:

In [156]:
%%R

city_name <- c('Stockholm', 'Gothenburg', 'Malmo', 'Uppsala', 'Uppsala', 'Skovde')
region <- c('East', 'West', 'South', 'East', 'East', 'West')
city_population <- c(975551, 579281, NaN, 177074, 177074, 34466)

cities_df <- data.frame(region, city_name, city_population)
summary(cities_df)

    region           city_name         city_population 
 Length:6           Length:6           Min.   : 34466  
 Class :character   Class :character   1st Qu.:177074  
 Mode  :character   Mode  :character   Median :177074  
                                       Mean   :388689  
                                       3rd Qu.:579281  
                                       Max.   :975551  
                                       NA's   :1       


In [157]:
%%R

library(tidyr)

# Ta bort Na-värden (saknade värden) - två olika sätt

drop_na(cities_df) # med tidyr

cities_df[!is.na(cities_df$city_population), ] # inbyggd i R

cities_df <- drop_na(cities_df)

cities_df

  region  city_name city_population
1   East  Stockholm          975551
2   West Gothenburg          579281
3   East    Uppsala          177074
4   East    Uppsala          177074
5   West     Skovde           34466


In [158]:
%%R

library(dplyr)

# Ta bort duplikat
cities_df <- distinct(cities_df)

cities_df

  region  city_name city_population
1   East  Stockholm          975551
2   West Gothenburg          579281
3   East    Uppsala          177074
4   West     Skovde           34466


Det går även att filtrera datamängden baserat på de värden som finns:

In [159]:
%%R

city_mask <- cities_df['city_name'] == 'Stockholm' | cities_df['city_name'] == 'Gothenburg'

city_mask

     city_name
[1,]      TRUE
[2,]      TRUE
[3,]     FALSE
[4,]     FALSE


In [160]:
%%R

cities_df[city_mask, ]

  region  city_name city_population
1   East  Stockholm          975551
2   West Gothenburg          579281


In [161]:
%%R

mean(cities_df[city_mask, 'city_population'])

[1] 777416


In [162]:
%%R

mean(cities_df[, 'city_population'])

[1] 441593


Det går att sortera en dataframe baserat på de värden som finns i en kolumn

In [163]:
%%R

cities_df[order(cities_df$city_population), ]

  region  city_name city_population
4   West     Skovde           34466
3   East    Uppsala          177074
2   West Gothenburg          579281
1   East  Stockholm          975551


In [164]:
%%R

cities_df[order(-cities_df$city_population), ]

  region  city_name city_population
1   East  Stockholm          975551
2   West Gothenburg          579281
3   East    Uppsala          177074
4   West     Skovde           34466


Det går även att gruppera på en kolumn:

In [165]:
%%R

require(dplyr)

grouping <- group_by(cities_df, region)

summarise(grouping, mean_population = mean(city_population))

# A tibble: 2 × 2
  region mean_population
  <chr>            <dbl>
1 East           576312.
2 West           306874.


Fler exempel kan hittas här: https://www.w3resource.com/r-programming-exercises/dataframe/index.php