In [11]:
library(Rmpfr)
library(float)

genomes=read.csv("genomes.csv")
genomes$temperature[is.na(genomes$temperature)] = 0

d = lm(genomes$GC ~ genomes$size + genomes$temperature)

y1 = log(genomes$GC)
x = genomes$size
x2 = genomes$temperature

estim = function(x1,x2,y){
    Y = as.matrix(y);
    X = as.matrix(cbind(1,x1,x2));
    beta = solve(t(X) %*% X) %*% (t(X) %*% Y)
    return (beta)
}

convert = function(z){
    c = z*(10**2)
    return(c)
}
y = convert(y1)
x = convert(x)
x1 = convert(x2)

estim = estim(x,x1,y)
print(estim)

print('round:')
round(as.numeric(estim))
print('z użyciem biblioteki Rmpfr:')
mpfr(estim, 128)
mpfr(estim, 180)
print('przyrównanie do wbudowanej funkcji lm:')
estim == d$coeff
print('float:')
fl(estim)

           [,1]
   3.462658e+02
x1 9.373550e-02
x2 1.497034e-03
[1] "round:"


[1] "z użyciem biblioteki Rmpfr:"


'mpfrMatrix' of dim(.) =  (3, 1) of precision  128   bits 
   [,1]                                        
      346.2658200129554302293399814516305923462
x1  0.09373549674477449356047031869820784777403
x2 0.001497034213840897631797588474000804126263

'mpfrMatrix' of dim(.) =  (3, 1) of precision  180   bits 
   [,1]                                                        
      346.26582001295543022933998145163059234619140625000000000
x1  0.093735496744774493560470318698207847774028778076171875000
x2 0.0014970342138408976317975884740008041262626647949218750000

[1] "przyrównanie do wbudowanej funkcji lm:"


0,1
,False
x1,False
x2,False


[1] "float:"


# A float32 matrix: 3x1
         [,1]
   346.265808
x1   0.093735
x2   0.001497

Wartość estymatora największa jest dla biblioteki Rmpfr z funkcji mpfr z precyzją 180.

Wartość estymatora najmniejsza jest dla kodu bez użycia wbudowanych funkcji.

Różnice pomiędzy wartościami: różnice spowodowane są zaokrąglaniem liczb zmiennoprzecinkowych,użycie funkcji wbudowanych(takich jak mpfr)daje nam bardziej precyzyjne wyniki,dlatego wyniki się różnią.

Wieloczynnikowa regresja liniowa z 4 zmiennymi:

In [60]:
library(Rmpfr)
library(float)

reg=read.csv("seyreg.csv")

y1 = log(reg$vlm)
x1 = reg$at
x2 = reg$sst
x3 = reg$sl
x4 = reg$pt

estim = function(x1,x2,x3,x4,y){
    Y = as.matrix(y);
    X = as.matrix(cbind(1,x1,x2,x3,x4));
    beta = solve(t(X) %*% X) %*% (t(X) %*% Y)
    return (beta)
}
convert = function(c){
    z=c*(10**12)
    return(z)
}

estim = estim(x1,x2,x3,x4,y)
print(convert(estim))

print('round:')
round(as.numeric(estim))
print('z użyciem biblioteki Rmpfr:')
mpfr(estim, 120)
mpfr(estim, 150)
print('float:')
fl(estim)





            [,1]
    8.943380e+14
x1  8.565262e+10
x2  1.430070e+11
x3 -2.199507e+09
x4  1.110461e+08
[1] "round:"


[1] "z użyciem biblioteki Rmpfr:"


'mpfrMatrix' of dim(.) =  (5, 1) of precision  120   bits 
   [,1]                                       
       894.33795836761419195681810379028320312
x1   0.085652621981125776073895394802093505859
x2    0.14300699763407465070486068725585937500
x3 -0.0021995065908697597478749230504035949707
x4 0.00011104609979994961577176582068204879761

'mpfrMatrix' of dim(.) =  (5, 1) of precision  150   bits 
   [,1]                                                
       894.33795836761419195681810379028320312500000000
x1   0.085652621981125776073895394802093505859375000000
x2    0.14300699763407465070486068725585937500000000000
x3 -0.0021995065908697597478749230504035949707031250000
x4 0.00011104609979994961577176582068204879760742187500

[1] "float:"


# A float32 matrix: 5x1
          [,1]
    8.9434e+02
x1  8.5653e-02
x2  1.4301e-01
x3 -2.1995e-03
x4  1.1105e-04

Wartość estymatora największa jest dla funkcji mpfr o prezcyzji 150.  

Wartość estymatora najmniejsza jest dla napisanego kodu bez funkcji wbudowanych oraz dla funkcji float.

Różnice pomiędzy wartościami: polegają na zaokrąglaniu liczb,użyte funkcje(mpfr) są bardziej precyzyjne.

Wieloczynnikowa liniowa regresja z użyciem funkcji lm:

In [1]:
dt=read.csv("genomes.csv")

dt$temperature[is.na(dt$temperature)] = 0
head(dt)


d = lm(dt$GC ~ dt$size + dt$temperature)
summary(d)


organism,group,size,GC,habitat,temp.group,temperature
Acaryochloris marina MBIC11017,Cyanobacteria,8.36,47.0,Aquatic,Mesophilic,0
Acholeplasma laidlawii PG-8A,Firmicutes,1.5,31.9,Specialized,Mesophilic,37
Acidiphilium cryptum JF-5,Alphaproteobacteria,3.97,67.1,Multiple,Mesophilic,35
Acidithiobacillus ferrooxidans ATCC 53993,Other Bacteria,2.9,58.9,Specialized,Mesophilic,0
Acidothermus cellulolyticus 11B,Actinobacteria,2.4,66.9,Aquatic,Thermophilic,58
Acidovorax avenae subsp. citrulli AAC00-1,Betaproteobacteria,5.4,68.5,Multiple,Mesophilic,0



Call:
lm(formula = dt$GC ~ dt$size + dt$temperature)

Residuals:
    Min      1Q  Median      3Q     Max 
-27.229  -7.422  -1.016   8.267  29.543 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)    30.91213    0.94561  32.690  < 2e-16 ***
dt$size         4.36945    0.20477  21.338  < 2e-16 ***
dt$temperature  0.06361    0.01715   3.709 0.000224 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 10.29 on 721 degrees of freedom
Multiple R-squared:  0.3872,	Adjusted R-squared:  0.3855 
F-statistic: 227.8 on 2 and 721 DF,  p-value: < 2.2e-16
