In [4]:
###########
#PUNTO  1 #: Importa il dataset “neonati.csv” e controlla che sia stato letto correttamente dal software
###########

dati=read.csv("neonati.csv",sep=",",stringsAsFactors = T)
attach(dati)
#___________________________________________________________________________________________________________________

###########
#PUNTO  2 #: Descrivi il dataset, la sua composizione, il tipo di variabili e l’obbiettivo dello  studio
########### 

View(dati)
#il dataset è costituito dai dati relativi a 2500 neonati. Sono presenti 10 variaibili:
#alcune relative alla madre (Anni.madre, N.gravidanze, Fumatrici, Gestazione)
#alcune al neonato (Peso, Lunghezza, Cranio, Sesso)

#Anni.madre,N.gravidanze,Gestazione,Peso,Lunghezza e Cranio sono variabili quantitative.
#Tipo.Parto, Ospedale e Sesso sono variabili qualitative, 
#la prima con due livelli "cesareo" o "naturale", la seconda con tre livelli "ops1" "ops2" e "ops3", la terza con due livelli "M" e "F"
#Fumatrici è una variabile categoriale (0:non fumatrice, 1:fumatrice)

#l'obiettivo dello studio è quello di trovare un buon modello per provare a prevedere il peso del neonato a partire dalle variabili del dataset.
#Tra queste si vuole in particolare capire se esiste un legame significativo tra la variabile risposta (peso) e i dati relativi alla madre
#le varibili relative al neonato si usano come varibiali di controllo, allo stesso modo delle variabili sesso ed età viste nelle esercitazioni
#___________________________________________________________________________________________________________________

###########
#PUNTO  3 #: Indaga le variabili effettuando una breve analisi descrittiva, utilizzando indici e strumenti grafici che conosci
###########

summary(dati)
n=nrow(dati)
cv=function(x){
  sd(x)/mean(x)*100
}

install.packages("moments")
library(moments)

#con summary posso visualizzare tutti gli indici di posizione per ogni variabile, ma facciamo analisi più puntuale
#analizziamo inoltre gli indici di forma, che ci danno un'idea della distribuzione della variabile

summary(Anni.madre)
dati$Anni.madre_cl=cut(Anni.madre,breaks=c(min(Anni.madre),34,max(Anni.madre)+1),right=F)
attach(dati)
ni=table(Anni.madre_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(Anni.madre)
skewness(Anni.madre)
kurtosis(Anni.madre)-3
install.packages("ggplot2")
library(ggplot2)
ggplot()+
  geom_bar(aes(x=Anni.madre_cl),fill="lightblue")+
  labs(title="Distribuzione della variabile Anni.madre in classi",
       x="Età della madre in classi (discriminante: gravidanze geriatriche)",
       y="Frequenza relativa")
#noto che il minimo valore per l'età della madre è 0 (forse errore di annotazione nel database? 
#(Potrebbe rappresentare un punto molto lontano dalla nuvola totale dei punti). 
#ad ogni modo la mediana, che è parametro robusto, quindi meno influenzato dai valori anomali rispetto alla media, riporta valore verosimile di 28.
#ho suddiviso in classi Anni.madre per vedere la distribuzione delle frequenze tra gravidanze geriatriche (>35 anni) e non geriatriche (<35 anni).
#presente un calo netto dopo i 35 anni (gravidanze geriatriche, più rischiose e con maggiore probabilità di aborti spontanei).
#l'indice di asimmetria di Fisher è leggermente positivo, quasi 0: distribuzione livemente asimmetrica positiva (più madri "giovani").
#l'indice di curtosi è leggermente positivo:distribuzione leptocurtica

summary(N.gravidanze)
dati$N.gravidanze_cl=cut(N.gravidanze,breaks=c(0,1,2,4,max(N.gravidanze)+1),right=F)
attach(dati)
ni=table(N.gravidanze_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(N.gravidanze)
skewness(N.gravidanze)
kurtosis(N.gravidanze)-3
ggplot()+
  geom_bar(aes(x=N.gravidanze_cl),fill="lightblue")+
  labs(title="Istogramma della variabile N.gravidanze in classi",
       x="N° di gravidanze in classi",
       y="Frequenza relativa")
#anche qui, come prevedibile, la stragrande maggioranza del campione ha meno di 1 figlio e via via la frequenza diminuisce.
#l'indice di asimmetria di Fisher è >>0: distribuzione fortemente asimmetrica positiva, in accordo a quanto detto sopra.
#l'indice di curtosi è >>0: distribuzione fortemente leptocurtica.


dati=transform(dati,Fumatrici=as.factor(Fumatrici))
table(Fumatrici)
#ho trasformato la variabile Fumatrici in factor all'interno del dataframe iniziale e visto che nel campione la stragrande maggioranza delle madri non fuma.


summary(Gestazione)
dati$Gestazione_cl=cut(Gestazione,breaks=c(0,28,36,max(Gestazione)))
attach(dati)
ni=table(Gestazione_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(Gestazione)
skewness(Gestazione)
kurtosis(Gestazione)-3
ggplot()+
  geom_bar(aes(x=Gestazione_cl),fill="lightblue")+
  labs(title="Istogramma della variabile Gestazione",
       x="Settimane di gestazione",
       y="Frequenza relativa")
#la quasi totalità dei neonati non sorprende sia nata dopo una gestazione superiore a 36 settimane (9+ mesi).
#mi soprende che, di questi, 387 siano nati tra 40 e 43 settimane (praticamente più di 10 mesi!).
#pochissimi (0.3%) sono nati prima entro i 7 mesi.
#come prevedibile l'indice di asimmetria di Fisher è <0: distribuzione asimmetrica negativa, infatti la maggiore frequenza la si ha corriposndente ad un n° alto di settimane
#l'indice di curtosi è >0, ad indicare una distribuzione leptocurtica

summary(Peso)
dati$Peso_cl=cut(Peso,breaks=c(min(Peso),2500,3500,max(Peso)+1),right=F)
attach(dati)
ni=table(Peso_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(Peso)
skewness(Peso)
kurtosis(Peso)-3
ggplot()+
  geom_density(aes(x=Peso),fill="lightblue")+
  labs(title="Distribuzione della variabile Peso",
       x="Peso del neonato",
       y="Frequenza relativa")+
  stat_function(fun = ~ dnorm(.x, mean(Peso), sd(Peso)), geom = "area",
                fill = "pink", alpha = 0.5, color = "black")
ggplot()+
  geom_bar(aes(x=Peso_cl),fill="lightblue")+
  labs(title="Istogramma della variabile Peso in classi",
       x="Peso del neonato",
       y="Frequenza relativa")
#la maggior parte dei neonati pesa oltre i 2.5 kg, con concentrazione massima tra i 2.5 e i 3.5kg
#l'indice di asimemtria di Fisher è <0: distribuzione asimmetrica negativa
#l'indice di curtosi è >0: distribuzione leptocurtica

summary(Lunghezza)
dati$Lunghezza_cl=cut(Lunghezza,breaks=c(min(Lunghezza),400,500,max(Lunghezza)+1),right=F)
attach(dati)
ni=table(Lunghezza_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(Lunghezza)
skewness(Lunghezza)
kurtosis(Lunghezza)-3
ggplot()+
  geom_density(aes(x=Lunghezza),fill="lightblue")+
  labs(title="Distribuzione della variabile Lunghezza",
       x="Lunghezza del neonato",
       y="Frequenza relativa")+
  stat_function(fun = ~ dnorm(.x, mean(Lunghezza), sd(Lunghezza)), geom = "area",
                fill = "pink", alpha = 0.5, color = "black")
ggplot()+
  geom_bar(aes(x=Lunghezza_cl),fill="lightblue")+
  labs(title="Istogramma della variabile Lunghezza in classi",
       x="Lunghezza del neonato",
       y="Frequenza relativa")
#la maggior parte dei neonati è più lungo di 400mm
#l'indice di asimemtria di Fisher è <0: distribuzione asimmetrica negativa
#l'indice di curtosi è >0: distribuzione leptocurtica

summary(Cranio)
dati$Cranio_cl=cut(Cranio,breaks=c(min(Cranio),300,max(Cranio)+1),right=F)
attach(dati)
ni=table(Cranio_cl)
fi=ni/n
Ni=cumsum(ni)
Fi=Ni/n
cbind(ni,fi,Ni,Fi)
cv(Cranio)
skewness(Cranio)
kurtosis(Cranio)-3
ggplot()+
  geom_density(aes(x=Cranio),fill="lightblue")+
  labs(title="Distribuzione della variabile Cranio",
       x="Dimensioni del cranio del neonato",
       y="Frequenza relativa")+
  stat_function(fun = ~ dnorm(.x, mean(Cranio), sd(Cranio)), geom = "area",
                fill = "pink", alpha = 0.5, color = "black")
ggplot()+
  geom_bar(aes(x=Cranio_cl),fill="lightblue")+
  labs(title="Istogramma della variabile Cranio in classi",
       x="Diametro del cranio del neonato",
       y="Frequenza relativa")
#la quasi totalità dei neonati ha un cranio di diametro >300mm
#l'indice di asimemtria di Fisher è <0: distribuzione asimmetrica negativa
#l'indice di curtosi è >0: distribuzione leptocurtica



#___________________________________________________________________________________________________________________


###########
#PUNTO  4 #: Saggia l’ipotesi che la media del peso e della lunghezza di questo campione di neonati siano significativamente uguali a quelle della popolazione
###########

#la richiesta implica la conoscenza delle medie di peso e lunghezza della popolazione di neonati
#leggendo su articoli scientifici rilevo in molti che peso medio è 3.300g e lunghezza media è 500mm
#non conoscendo la dev std della popolazione procedo con un t test

mu0=3300
n=length(Peso)
alpha=0.05
val_soglia=qt(alpha/2,n-1)
t.test(Peso,
       mu=mu0,
       conf.level=1-alpha,
       alternative="two.sided")
t_test=(mean(Peso)-mu0)/(sd(Peso)/sqrt(n))

#riporto tutti i parametri nel grafico per avere anche visione della posizione della statistica test
plot(density(rt(1000000,n-1)),xlim=c(-5,5))
abline(v=qt(alpha/2,n-1),col=2)
abline(v=qt(1-alpha/2,n-1),col=2)
points(t_test,y=0,cex=2,pch=20,col=4)
#la variabile t test risulta fuori dalla zona di rifiuto
#il p-value risulta > del livello di significatività
#la media si trova all'interno dell'intervallo di confidenza
#l'ipotesi nulla non viene rifiutata: la media del campione è significativamente uguale alla media della popolazione

mu0=500
n=length(Lunghezza)
alpha=0.05
val_soglia=qt(alpha/2,n-1)
t.test(Lunghezza,
       mu=mu0,
       conf.level=1-alpha,
       alternative="two.sided")
t_test=(mean(Lunghezza)-mu0)/(sd(Lunghezza)/sqrt(n))

#riporto tutti i parametri nel grafico per avere anche visione della posizione della statistica test
plot(density(rt(1000000,n-1)),xlim=c(-11,11))
abline(v=qt(alpha/2,n-1),col=2)
abline(v=qt(1-alpha/2,n-1),col=2)
points(t_test,y=0,cex=2,pch=20,col=4)
#la variabile t test risulta all'interno della zona di rifiuto
#il p-value risulta < del livello di significatività
#la media si trova al di fuori  dell'intervallo di confidenza
#l'ipotesi nulla viene rifiutata: la media del campione è significativamente diversa dalla media della popolazione

#___________________________________________________________________________________________________________________


###########
#PUNTO  5 #: Per le stesse variabili, o per altre per le quali ha senso farlo, verifica differenze significative tra i due sessi
###########

#Premessa: per verificare l'eventuale differenza significativa tra i due sessi saggiamo l'ipotesi di uguaglianza tra le medie dei due gruppi M e F
#H0: mu_M - mu_F  = 0
#H1: mu_M - mu_F != 0

boxplot(Peso~Sesso)
ggplot()+
  geom_density(aes(x=Peso,fill=Sesso),alpha=0.3)+
  labs(title="Distribuzione della variabile Peso in funzione del sesso del neonato",
       x="Peso del neonato",
       y="Frequenza relativa")+
  geom_vline(xintercept = mean(Peso[Sesso=="M"]),col="darkturquoise",lwd=1)+
  geom_vline(xintercept = mean(Peso[Sesso=="F"]),col="pink2",lwd=1)
 
install.packages("gghalves")
library(gghalves)
ggplot(data=dati)+
  geom_half_boxplot(aes(x=Sesso,y=Peso),
                    side="l",fill="pink")+
  geom_half_violin(aes(x=Sesso,y=Peso),
                   side="r",fill="lightblue")
summary(Peso[Sesso=="M"])
summary(Peso[Sesso=="F"])
t.test(data=dati,
       Peso~Sesso,
       paired=F)
#per t test relativo a differenza tra medie di due gruppi è necessario che le variabili misurate siano distribuite normalmente.
#l'ipotesi di normalità viene saggiata tramite uno shapiro test.
shapiro.test(Peso)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
            Peso~Sesso,
            paired=F)
#p-value risultante è basso: si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile Peso tra i due sessi:
#le medie sono significativamente diverse

boxplot(Lunghezza~Sesso)
ggplot()+
  geom_density(aes(x=Lunghezza,fill=Sesso),alpha=0.3)+
  labs(title="Distribuzione della variabile Lunghezza in funzione del sesso del neonato",
       x="Lunghezza del neonato",
       y="Frequenza relativa")+
  geom_vline(xintercept = mean(Lunghezza[Sesso=="M"]),col="darkturquoise",lwd=1)+
  geom_vline(xintercept = mean(Lunghezza[Sesso=="F"]),col="pink2",lwd=1)

ggplot(data=dati)+
  geom_half_boxplot(aes(x=Sesso,y=Lunghezza),
                    side="l",fill="pink")+
  geom_half_violin(aes(x=Sesso,y=Lunghezza),
                   side="r",fill="lightblue")
summary(Lunghezza[Sesso=="M"])
summary(Lunghezza[Sesso=="F"])
t.test(data=dati,
       Lunghezza~Sesso,
       paired=F)
shapiro.test(Lunghezza)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
            Lunghezza~Sesso,
            paired=F)
#p-value risultante è basso: si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile Lunghezza tra i due sessi: 
#le medie sono significativamente diverse.

boxplot(Cranio~Sesso)
ggplot()+
  geom_density(aes(x=Cranio,fill=Sesso),alpha=0.3)+
  labs(title="Distribuzione della variabile Cranio in funzione del sesso del neonato",
       x="Diametro del cranio del neonato",
       y="Frequenza relativa")+
  geom_vline(xintercept = mean(Cranio[Sesso=="M"]),col="darkturquoise",lwd=1)+
  geom_vline(xintercept = mean(Cranio[Sesso=="F"]),col="pink2",lwd=1)

ggplot(data=dati)+
  geom_half_boxplot(aes(x=Sesso,y=Cranio),
                    side="l",fill="pink")+
  geom_half_violin(aes(x=Sesso,y=Cranio),
                   side="r",fill="lightblue")
summary(Cranio[Sesso=="M"])
summary(Cranio[Sesso=="F"])
t.test(data=dati,
       Cranio~Sesso,
       paired=F)
shapiro.test(Cranio)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
            Cranio~Sesso,
            paired=F)
#p-value risultante è basso: si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile Cranio tra i due sessi: 
#le medie sono significativamente diverse.

boxplot(Anni.madre~Sesso)
summary(Anni.madre[Sesso=="M"])
summary(Anni.madre[Sesso=="F"])
t.test(data=dati,
       Anni.madre~Sesso,
       paired=F)
shapiro.test(Anni.madre)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
       Anni.madre~Sesso,
       paired=F)
#p-value risultante è alto: non si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile Anni.madre tra i due sessi: 
#le medie non sono significativamente diverse (come prevedibile)

boxplot(N.gravidanze~Sesso)
summary(N.gravidanze[Sesso=="M"])
summary(N.gravidanze[Sesso=="F"])
t.test(data=dati,
       N.gravidanze~Sesso,
       paired=F)
shapiro.test(N.gravidanze)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
            N.gravidanze~Sesso,
            paired=F)
#p-value risultante è alto: non si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile N.gravidanze tra i due sessi:
#le medie non sono significativamente diverse (come prevedibile)

boxplot(Gestazione~Sesso)
summary(Gestazione[Sesso=="M"])
summary(Gestazione[Sesso=="F"])
t.test(data=dati,
       Gestazione~Sesso,
       paired=F)
shapiro.test(Gestazione)
#dal test risulta un p-value molto basso, quindi si rifiuta l'ipotesi nulla di normalità: 
#il modello t test diventa debole, meglio wilcox test.
wilcox.test(data=dati,
       Gestazione~Sesso,
       paired=F)
#p-value risultante è basso: si rifiuta l'ipotesi nulla di uguaglianza tra le medie della variabile Gestazione tra i due sessi: 
#le medie sono significativamente diverse (risultato sicuramente particolare). 
#potrebbe essere dovuto al particolare dataset preso, ma il test indica con un intervallo di confidenza del 95% che le bambine nascono significativamente prima dei bambini. 

#___________________________________________________________________________________________________________________


###########
#PUNTO  6 #:	Si vocifera che in alcuni ospedali si facciano più parti cesarei, sai verificare questa ipotesi?
###########

#per saggiare questa ipotesi di primo acchito ho fatto un test chi quadrato, perchè particolarmente adatto per variabili qualitative.
#ho creato una tabella con le frequenza assolute del tipo di parto in funzione dell'ospedale e svolto il test.
#ho pensato che, poichè questo test studia l'associazione/indipendenza tra due variabili qualitative, 
#posso verificare se ci sia dipendenza tra il tipo di parto e l'ospedale.
tabella=table(Tipo.parto,Ospedale)
install.packages("ggpubr")
ggpubr::ggballoonplot((as.data.frame((tabella))),
                      fill="blue")
chisq.test(tabella)
#il test mostra un p-value molto alto, quindi non c'è una significativa dipendenza tra le due variabili.
#i parti di tipo cesareo non dipendono significativamente dall'ospedale.

#ho poi pensato alla possibilità di fare un test con confronti multipli sulla percentuale di cesarei in funzione della variabile ospedale
#(un po' come fatto a lezione per i lanci della moneta).
#H0: P_osp_i  = P_osp_j
#H1: P_osp_i != P_osp_j
#per farlo ho creato variabile dummy di Tipo.parto.
Tipo.parto_d=ifelse(Tipo.parto=="Ces",1,0)
table(Tipo.parto,Ospedale)
table(Tipo.parto,Ospedale)/n
pairwise.wilcox.test(Tipo.parto_d,Ospedale,
                paired=F,
                pool.sd=T,
                p.adjust.method = "bonferroni")
#il test mostra p-value tutti = 1, quindi non c'è significativa differenza tra le percentuali di parti cesarei tra gli ospedali.

##################################################################################################################
################################### ------ ANALISI MULTIDIMENSIONALE ------ ######################################
##################################################################################################################

###########
#PUNTO  1 #: Ricordati qual è l’obbiettivo dello studio e indaga le relazioni a due a due, soprattutto con la variabile risposta
###########

#confronti tra medie del peso dei neonati in base alle altre variabili.
#poichè la variabile Peso non si distribuisce normalmente ho eseguito dei wilcox test.

boxplot(Peso~Fumatrici)
wilcox.test(data=dati,
            Peso~Fumatrici,
            paired=F)
#il wilcox test riporta un p-value appena superiore al livello di significatività del 5%. 
#Siamo al limite: non si rifiuta l'ipotesi nulla, ma non è così netta la situazione, potrebbe esserci un'influenza negativa su peso se la madre è fumatrice

plot(Peso,Anni.madre)
cor(Peso,Anni.madre)
boxplot(Peso~Anni.madre_cl)
wilcox.test(data=dati,
            Peso~Anni.madre_cl,
            paired=F)
#l'indice di correlazione lineare è praticamente 0, non c'è correlazione tra peso del neonato e gli anni della madre.
#fatto anche wilcox test sul peso medio in funzione delle classi di età e non ci sono differenze significative tra le medie dei pesi dei neonati.

plot(Peso,N.gravidanze)
cor(Peso,N.gravidanze)
boxplot(Peso~N.gravidanze_cl)
pairwise.wilcox.test(Peso,N.gravidanze_cl,
                     paired=F,
                     pool.sd=T,
                     p.adjust.method = "bonferroni")
#l'indice di correlazione lineare è praticamente 0, non c'è correlazione tra peso del neonato e il numero di gravidanze precedenti della madre.
#fatto anche wilcox test con confronti multipli sul peso medio in funzione del n°di gravidanze suddivise in classi e non c'è significativa differenza tra le medie dei pesi dei neonati.

plot(Peso,Gestazione)
cor(Peso,Gestazione)
boxplot(Peso~Gestazione_cl)
pairwise.wilcox.test(Peso,Gestazione_cl,
                     paired=F,
                     pool.sd=T,
                     p.adjust.method = "bonferroni")
#l'indice di correlazione lineare è > 0, c'è correlazione positiva tra peso del neonato e il tempo di gestazione.
#fatto anche wilcox test con confronti multipli sul peso medio in funzione del tempo di gestazione suddiviso in classi e c'è significativa differenza tra le medie dei pesi dei neonati.

plot(Peso,Lunghezza)
cor(Peso,Lunghezza)
boxplot(Peso~Lunghezza_cl)
pairwise.wilcox.test(Peso,Lunghezza_cl,
                     paired=F,
                     pool.sd=T,
                     p.adjust.method = "bonferroni")
#l'indice di correlazione lineare è > 0, c'è correlazione positiva tra peso e lunghezza del nenoato.
#fatto anche wilcox test con confronti multipli sul peso medio in funzione della lunghezza suddivisa in classi e c'è significativa differenza tra le medie dei pesi dei neonati.

plot(Peso,Cranio)
cor(Peso,Cranio)
boxplot(Peso~Cranio_cl)
wilcox.test(data=dati,
            Peso~Cranio_cl,
            paired=F)
#l'indice di correlazione lineare è > 0, c'è correlazione positiva tra peso e dimensioni del cranio del nenoato.
#fatto anche wilcox test sul peso medio in funzione della dimensione del cranio suddivisa in classi e c'è significativa differenza tra le medie dei pesi dei neonati.

boxplot(Peso~Tipo.parto)
wilcox.test(data=dati,
            Peso~Tipo.parto,
            paired=F)
#il wilcox test riporta un p-value alto. Non si rifiuta l'ipotesi nulla:
#il peso medio dei bambini nati da parto cesareo non è significativamente diverso dal peso medio dei bambini nati da parto naturale.

boxplot(Peso~Ospedale)
pairwise.wilcox.test(Peso,Ospedale,
                     paired=F,
                     pool.sd=T,
                     p.adjust.method = "bonferroni")
#il wilcox test per confronti multipli riporta p-value alti. Non si rifiuta l'ipotesi nulla per nessun confronto tra ospedali:
#i pesi medi non sono significativamente dicersi da un ospedale all'altro.


#ho fatto test anche su correlazioni con la variabili Fumatrici, per indagare: 
#1) se il fumo può influire sullo sviluppo del bambino;
#2) se il fumo può essere correlato ad un aumento di parti prematuri o su complicazioni del parto naturale.

boxplot(Cranio~Fumatrici)
wilcox.test(data=dati,
            Cranio~Fumatrici,
            paired=F)
#il test riporta un p-value alto. Non si rifiuta l'ipotesi nulla:
#le dimensioni medie del cranio dei neonati da madri non fumatrici non è significativamente diverso dalle dimensioni medie del cranio dei neonati da madri fumatrici.

boxplot(Lunghezza~Fumatrici)
wilcox.test(data=dati,
            Lunghezza~Fumatrici,
            paired=F)
#il test riporta un p-value basso. Si rifiuta l'ipotesi nulla:
#la lunghezza media dei neonati da madri non fumatrici è significativamente diversa dalla lunghezza media dei neonati da madri fumatrici.

boxplot(Gestazione~Fumatrici)
summary(Gestazione[Fumatrici=="0"])
summary(Gestazione[Fumatrici=="1"])
t.test(data=dati,
       Gestazione~Fumatrici,
       paired=F)
shapiro.test(Gestazione)
wilcox.test(data=dati,
            Gestazione~Fumatrici,
            paired=F)
#dal t test sembra esserci una significativa differenza, ma poichè la variabile Gestazione non si distribuisce normalmente ho eseguito un wilcox test.
#il wilcox test riporta un p-value alto. Non si rifiuta l'ipotesi nulla:
#il tempo di gestazione medio delle madri non fumatrici non è significativamente diverso dal tempo di gestazione medio delle madri fumatrici.
#è un risultato interessante: non sembra esserci un significativo pericolo di nascite premature per madri fumatrici
#(o meglio, dall'analisi del campione preso in esame non si può rifiutare l'ipotesi nulla di uguaglianza tra le i tempi di gestaazione medi dei due gruppi madri fumatrici e non fumatrici).
tabella=table(Gestazione_cl,Fumatrici)
ggpubr::ggballoonplot((as.data.frame((tabella))),
                      fill="blue")
chisq.test(tabella)
#ho  provato anche a fare un test chi quadrato tra i tempi di gestazione suddivisi in classi e i gruppi della variabili fumatrici per saggiare indipendenza o associazione.
#nella lezione si diceva che il test è adatto anche per variabili quantitative in classi, per cui volevo provare a vederne il funzionamento... può avere senso?).
#il risultato del test è che non si rifiuta l'ipotesi nulla di indipendenza, ma qui esce un messaggio che dice che il test potrebbe essere inesatto...é perchè alcune classi hanno frequenza pari a 0?

tabella=table(Tipo.parto,Fumatrici)
ggpubr::ggballoonplot((as.data.frame((tabella))),
                      fill="blue")
chisq.test(tabella)
#non si rifiuta l'ipotesi nulla di indipendenza, la tipologia di parto non sembra associata al fatto che la madre sia o meno fumatrice.


#ho indagato anche su correlazioni con la variabili Anni.madre per indagare:
#1) se può essere correlata al tempo di gestazione;
#2) se può essere correlata alla tipologia di parto.

plot(Gestazione,Anni.madre)
#dallo scatterplot non sembra esserci una forte correlazione.
cor(Gestazione,Anni.madre)
#la correlazione lineare tra le due variabili quantitative è leggera e negativa: all'aumentare dell'età il tempo di gestazione si riduce.
boxplot(Gestazione~Anni.madre_cl)
#boxplot con suddivisione in classi di età: sembrerebbe esserci una leggera riduzione del tempo di gestazione per l'ultima classe di età.
wilcox.test(data=dati,
            Gestazione~Anni.madre_cl,
            paired=F)
#faccio un wilcox test multiplo sulle classi di età per vedere se può esistere una tendenza: 
#sembra esserci una significativa differenza tra i tempi di gestazione tra le classi di età [0,34) e [34,47).
#risultato interessante: rimanere incinta dopo i 35 anni sembra portare a tempi di gestazione inferiori (maggior rischio di parti prematuri?).

boxplot(Anni.madre~Tipo.parto)
wilcox.test(data=dati,
            Anni.madre~Tipo.parto,
            paired=F)
#p-value molto alto, non c'è differenza tra età media delle madri che hanno partorito in modo naturale e madri che hanno partorito con cesareo.


###########
#PUNTO  2 #: Crea un modello di regressione lineare multipla con tutte le variabili e commenta i coefficienti e il risultato ottenuto
###########

dati_mod=dati[,1:10]
#nei punti precedenti ho creato diverse variabili quantitative in classi, creo nuovo dataframe pari all'originale.
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
  par(usr = c(0, 1, 0, 1))
  r <- (cor(x, y))
  txt <- format(c(r, 0.123456789), digits = digits)[1]
  txt <- paste0(prefix, txt)
  if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
  text(0.5, 0.5, txt, cex = 1)
}

pairs(dati_mod,upper.panel=panel.smooth,lower.panel = panel.cor)
#visualizzo con il codice usato a lezione tutti gli indici di correlazione.
#si confermano più o meno tutte le analisi dei punti precedenti:
#-forte correlazione positiva delle variabili Peso, Cranio e Lunghezza tra di loro, per ovvi motivi;
#-forte correlazione positiva tra le precedenti e le variabili Gestazione;
#-gli scatterplot e i coefficienti di correlazione perdono un po' di senso con variabili qualitative (Sesso, Fumatrici,Tipo.parto,Ospedale),
# i coeff possono dare un'idea, ma è sicuramente meglio utilizzare i boxplot e test t/test wilcox/test chi quadrato (per testare indipendenza tra le stesse variabili qualitative).
#per questi si rimanda ai punti precendenti.

mod1=lm(Peso~.,data=dati_mod)
summary(mod1)
#c'è una correlazione positiva molto significativa con le variabili Gestazione, Lunghezza e Cranio (p-value quasi 0).
#c'è una correlazione molto significativa con la variabile Sesso (p-value quasi 0) - a parità delle altre variabili si rileva un incremento di 77 g tra neonati femmine e maschi.
#c'è una leggera correlazione con le variabili  N.Gravidanze, Tipo.parto e Ospedale, ma ritengo che puntualizzerei che:
#per quanto riguarda N.gravidanze, la correlaiozne potrebbe avere senso: il corpo, man mano che ha affrontato un certo numero di gravidanze, potrebbe rispondere in maniera diversa ripercuotendosi sul peso del bambino.
#le ultime due invece sono variabili che non hanno alcun modo di agire sul peso del nascituro.
#R2adj di 0.73 circa (è come dire che la devianza spiegata è percentualmente del 73%, molto buona, ma vediamo se essere migliorata).


###########
#PUNTO  3 #: Cerca il modello “migliore”, utilizzando tutti i criteri di selezione che conosci e spiegali.
###########

#inizio togliendo una ad una le variabili che non hanno una correlazione significativa con Peso.
mod2=update(mod1, ~.-Ospedale)
summary(mod2)
anova(mod2,mod1)
BIC(mod2,mod1)
car::vif(mod2)
#R2adj non è praticamente cambiato rispetto a mod1: ottimo, significa che la variabile non dava alcun apporto utile al modello di regressione.
#dal test f (anova), con cui si analizza la differenza di varianza spiegata tra i due modelli, risulta un p-value relativamente basso, ma è comunuqe accettabile la sua rimozione anche sulla base di quanto detto prima.
#confrontando i BIC dei due modelli vediamo che mod2 è migliore.
#da vif risulta che non è presente multicollinearità.

mod3=update(mod2, ~.-Tipo.parto)
summary(mod3)
anova(mod3,mod2)
BIC(mod3,mod2)
car::vif(mod3)
#R2adj non è praticamente cambiato rispetto a mod1: ottimo, significa che la variabile non dava alcun apporto utile al modello di regressione.
#dal test f (anova), con cui si analizza la differenza di varianza spiegata tra i due modelli, risulta un p-value relativamente basso, ma è comunuqe accettabile la sua rimozione anche sulla base di quanto detto prima.
#confrontando i BIC dei due modelli vediamo che mod3 è migliore.
#da vif risulta che non è presente multicollinearità.

mod4=update(mod3, ~.-Anni.madre)
summary(mod4)
anova(mod4,mod3)
BIC(mod4,mod3)
car::vif(mod4)
#R2adj non è praticamente cambiato rispetto a mod1: ottimo, significa che la variabile non dava alcun apporto utile al modello di regressione.
#dal test f (anova), con cui si analizza la differenza di varianza spiegata tra i due modelli, risulta un p-value alto, quindi sicuramente la presenza o meno della variabile non contribuisce significativamente a spiegare la varianza.
#confrontando i BIC dei due modelli vediamo che mod4 è migliore.
#da vif risulta che non è presente multicollinearità.

mod5=update(mod4, ~.-Fumatrici)
summary(mod5)
anova(mod5,mod4)
BIC(mod5,mod4)
car::vif(mod5)
#R2adj non è praticamente cambiato rispetto a mod1: ottimo, significa che la variabile non dava alcun apporto utile al modello di regressione.
#dal test f (anova), con cui si analizza la differenza di varianza spiegata tra i due modelli, risulta un p-value alto, quindi sicuramente la presenza o meno della variabile non contribuisce significativamente a spiegare la varianza.
#confrontando i BIC dei due modelli vediamo che mod5 è migliore.
#da vif risulta che non è presente multicollinearità.
BIC(mod5,mod4,mod3,mod2,mod1)

stepwise.mod=MASS::stepAIC(mod1,
                           direction="both",
                           k=log(n))
summary(stepwise.mod)
BIC(mod5,stepwise.mod)
#utilizzando la funzione stepAIC dal pacchetto MASS posso compiere in automatico la procedura sopra:
#risulta che il modello ottenuto è proprio mod5.


###########
#PUNTO  4 #: Si potrebbero considerare interazioni o effetti non lineari?
###########

#dal grafico del punto 2 secondo me potrebbe esistere una interazione quadratica tra Peso e Gestazione

mod6=update(mod5, ~.+I(Gestazione^2))
summary(mod6)
anova(mod6,mod5)
BIC(mod6,mod5)
car::vif(mod6)
#aggiungendo la relazione non lineare il modello è peggiorato perchè la correlazioni con la variabile risposta sono diventate meno significative sia per Gestaizone che per I(Gestazione^2).
#anche il test f dice che non c'è significativo vantaggio ad aggiungere la relazione non lineare.
#BIC dice che mod6 spiega meno bene i dati di mod5.
#è presente moulticollinearità.

mod7=update(mod6, ~.-Gestazione)
summary(mod7)
anova(mod7,mod6)
BIC(mod7,mod6)
car::vif(mod7)
#provando a togliere la correlazione lineare con Gestazione il modello migliora, c'è una correlazione molto più significativa tra I(Gestazione^2) e Peso
#R2adj resta praticamente identico sia a mod5 che mod6.
#da test f risulta che non c'è significativa maggiore spoegazione della varianza.
#da BIC risulta che mod7 è meglio di mod6.
#non c'è più multicollinearità.

mod8=update(mod7, ~.+Anni.madre*Fumatrici-Anni.madre-Fumatrici)
summary(mod8)
anova(mod8,mod7)
BIC(mod8,mod7)
car::vif(mod8)
#ho provato a indagare su un apporto congiunto dell'età della madre e delle sue abitudini da fumatrice:
#ho pensato potesse eventualmente spiegare meglio i dati, con un effetto negativo sul peso molto significativo.
#il modello in realtà peggiora: R2adj resta identico, ma perde significatività la relazione con variabile Gestazione.
#test f conferma che l'aggiunta della correlazione congiunta non dà significativo apporto alla spiegazione della varianza.

BIC(mod7,mod5)
#tra mod 5 e mod7 le correlazioni non cambiano molto di significatività e non sembra esserci un significativo vantaggio nel passare da Gestazione a I(Gestazione^2) .
#BIC è leggermente minore per mod7, ma se si vuole tenere un modello più semplice possibile, forse la scelta dovrebbe ricadere comunque su mod5.
#scelta gisutificata da R2adj: Radj_mod7=0.7267; Radj_mod5=0.7265, miglioramento direi trascurabile.


###########
#PUNTO  5 #: Effettua una diagnostica approfondita dei residui del modello e di potenziali valori influenti. Se ne trovi prova a verificare la loro effettiva influenza
###########

par(mfrow=c(2,2))
plot(mod5)
#essendo partiti da una variabile risposta che non si distribuisce normalmente mi aspetto dei residui che non rispettano:
#1-l'ipotesi di normalità: si vede che non seguono perfettamente la bisettrice (coda in alto con valori anomali, uno su tutti l'osservazione 1551;
#2-l'ipotesi di omoschedasticità: si vede che i residui non formano una nuvola intorno a 0;
#3-l'ipotesi di non autocorrelazione: la nuvola ha una coda strana sulla sinistra.
#inoltre, è presente un'osservazione in particolare, la 1551, che è oltre la distanza di Cook di 0.5 e paurosamente vicina a 1. Sarà probabilmente un outlier altamente significativo.

shapiro.test(residuals(mod5))
#come previsto, si rifiuta l'ipotesi di normalità dei residui.
plot(density(residuals(mod5)))
#i residui si distribuiscono con una forma che ricorda molto una normale ma ci saranno diversi residui sulle code, molto lontani da 0.
install.packages("lmtest")
library(lmtest)
lmtest::bptest(mod5)
#come previsto, si rifiuta l'ipotesi di omoschedasticità dei residui.
lmtest::dwtest(mod5)
#p-value > livello di significatività: non si rifiuta l'ipotesi di non autocorrelazione dei residui.

#analisi dei residui leverage e outlier
par(mfrow=c(1,1))
lev=hatvalues(mod5)
plot(lev)
p=sum(lev)
soglia=2*p/n
abline(h=soglia, col=2)
lev[lev>soglia]
#si nota che diversi sono i residui leverage oltre la soglia (in particolare osservazione 1551).
plot(rstudent(mod5))
abline(h=c(-2,2),col=2)
car::outlierTest((mod5))
#da test sugli otulier risultano 3 osservazioni significativamente lontane dalla nuvola di punti.
cook=cooks.distance((mod5))
plot(cook)
max(cook)
#la massima distanza di cook è relativa all'osservazione 1551 molto vicina a 1: osservazione sicuramente molto influente sul modello di regressione.


###########
#PUNTO  6 #: Quanto ti sembra buono il modello per fare previsioni?
###########

#proprio per tutte le ragioni finora descritte il modello di regressione non può essere considerato buono:
#pur avendo raggiunto con in mod5 un R2adj di 0.72 (non ottimo, am comunque decente), siamo partiti da una variabile risposta che non si distribuisce normalmente.
#questo va a ripercuotersi per forza di cose sulla parte erratica e quindi sui residui, infatti questi non superano i test sopra descritti.
#inoltre sono presenti dei valori outlier, di cui uno sicuramente molto influente sul modello stesso.

#ho provato a cercare un po' di informazioni sulle trasformazioni da applicare alle variabili per cercare di migliorare il modello:

#la prima è la trasformazione di boxcox.
install.packages("MASS")
library(MASS)

bc=boxcox(Peso~.,data=dati_mod)
lambda=bc$x[which.max(bc$y)]
bc_mod=lm(((Peso^lambda-1)/lambda)~.,data=dati_mod)
summary(bc_mod)
bc_stepwise.mod=MASS::stepAIC(bc_mod,
                           direction="both",
                           k=log(n))
summary(bc_stepwise.mod)
#R2adj è migliorato significativamente rispetto al mod5.
BIC(bc_stepwise.mod,mod5)
#il BIC lo dimostra, il modello boxcox è migliore.
par(mfrow=c(2,2))
plot(bc_stepwise.mod)
shapiro.test(residuals(bc_stepwise.mod))
plot(density(residuals(bc_stepwise.mod)))
#ciò nonostante i residui non si distribuiscono normalmente.
lmtest::bptest(bc_stepwise.mod)
#i residui non sono omoschedastici.
lmtest::dwtest(bc_stepwise.mod)
#anche in questo caso non si rifiuta l'ipotesi di non autocorrelazione dei residui.
par(mfrow=c(1,1))
lev=hatvalues(bc_stepwise.mod)
plot(lev)
p=sum(lev)
soglia=2*p/n
abline(h=soglia, col=2)
lev[lev>soglia]
plot(rstudent(bc_stepwise.mod))
abline(h=c(-2,2),col=2)
car::outlierTest((bc_stepwise.mod))
#rrispetto al modello di regressione lineare si è aggiunto un outlier significativo in più.
cook=cooks.distance((bc_stepwise.mod))
plot(cook)
max(cook)

#la seconda è la trasformazione di Cobb-Douglas. Ho provato a farla io perchè non ho trovato funzioni a riguardo, quindi probabilmente è sbagliata...
log_mod=lm(log(Peso)~Anni.madre+N.gravidanze+log(Gestazione)+log(Lunghezza)+log(Cranio)
           +Sesso+Ospedale+Fumatrici,data=dati_mod)
summary(log_mod)
log_stepwise.mod=MASS::stepAIC(log_mod,
                              direction="both",
                              k=log(n))
summary(log_stepwise.mod)
#R2adj è migliorato significativamente rispetto al bc_mod.
BIC(log_stepwise.mod,bc_stepwise.mod,mod5)
#BIC è negativo, non saprei come interpretarlo e su internet ho trovato pareri contrastanti...
par(mfrow=c(2,2))
plot(log_stepwise.mod)
shapiro.test(residuals(log_stepwise.mod))
plot(density(residuals(log_stepwise.mod)))
#ciò nonostante i residui non si distribuiscono normalmente.
lmtest::bptest(log_stepwise.mod)
#i residui non sono omoschedastici.
lmtest::dwtest(log_stepwise.mod)
#anche in questo caso non si rifiuta l'ipotesi di non autocorrelazione dei residui.


###########
#PUNTO  7 #: Fai la tua migliore previsione per il peso di una neonata, considerato che la madre è alla terza gravidanza e partorirà alla 39esima settimana. Niente misure dall’ecografia.
###########

mod_predict=lm(Peso~Gestazione+Sesso+N.gravidanze,data=dati_mod)
predict(mod_predict,newdata = data.frame(Gestazione=39,Sesso="F",N.gravidanze=3))
summary(mod_predict)
BIC(mod_predict,mod5)
#ho prima pensato di creare un modello in cui il peso dipende solo dalle variabili note, ma è un modello che spiega male i dati:
#r2adj infatti risulta molto basso.

predict(mod5,newdata = data.frame(Gestazione=39,Sesso="F",N.gravidanze=3,Anni.madre=mean(Anni.madre),Lunghezza=mean(Lunghezza),Cranio=mean(Cranio)))
#ho quindi pensato di utilizzare il mod5 utilizzando i valori medi delle variabili di cui non ho il dato puntuale.
#ritengo sia una predizione più precisa.

###########
#PUNTO  8 #: Cerca di creare qualche rappresentazione grafica che aiuti a visualizzare il modello. Se è il caso semplifica quest’ultimo!
###########

#voglio rappresentare un piano di regressione lineare in 3d.
install.packages("rgl")
library(rgl)
install.packages("car")
library(car)
scatter3d(Peso~Gestazione+N.gravidanze, groups=Sesso)
#mod5 ha Peso che dipende da 5 variabili, il massimo che possiamo rappresentare graficamente è Peso dipendente da due variabili (3d) + una variabile qualitativa per suddividere la rappresentazione in funzione dei gruppi.
#utilizzo uno scatterplot 3d per il modello che fa dipendere Peso da Gestazione e Cranio, in funzione della variabile di controllo Sesso.
#ho scelto di legare Peso alle uniche 2 variabili direttamente collegate alla madre Gestazione e N.gravidanze, scartando Lunghezza e Cranio e lasciando la variabile Sesso come variabile di controllo per osservare le differenze tra maschi e femmine.

scatter3d(Peso~Gestazione+Cranio, groups=Sesso)
#ho fatto anche una prova togliendo, tra le due variabili della madre, quella correlata in modo meno significativo
#e inserendo la variabile Cranio (scelta in modo casuale tra le due variabili di controllo Lunghezza e Cranio, in quanto correlate a Peso in modo del tutto equiparabile).

Output hidden; open in https://colab.research.google.com to view.