### LINEARNA REGRESIJA dlan <- c(18.3, 18.9, 19, 19.7, 18.5, 20.3, 18.7) stopalo <- c(26.9, 27, 27.3, 28, 27, 28.5, 27) baza <- data.frame(stopalo, dlan) # konstrukcija baze write.csv(baza, "stopalo-dlan.csv") # na web cu postaviti bazu # promotrimo podatke koji opisuju duljinu # dlana i duljinu stopala 6 odraslih muskaraca # Podatci se nalaze u file-u stopalo-dlan.csv # Ucitajmo podatke # prvo si nacrtamo plot(baza$dlan, baza$stopalo, col = "light blue", lwd = 5) # sto nam sugerira graf? # mozemo li na neki nacin izracunati koliko # je jaka linearna veza izmedju dviju varijabli? cor(baza$dlan, baza$stopalo) # obicno je tesko donijeti odluku na temelju koef. korelacije # iako je u ovom slucaju situacija prilicno jasna # ali praksa je testirati jednakost koef korelacije nuli # na razini znacajnosti 0.05 provodimo test # H0: koef. korelacije rho(dlan, stopalo) = 0 # H1: koef. korelacije rho(dlan, stopalo) != 0 cor.test(baza$dlan, baza$stopalo) # dakle, ima smisla promatrati vezu izmedju # ovih dviju varijabli kao linearnu vezu # zelimo odrediti tu linearnu funkciju u obliku # y = a + bx # tj u ovom slucaju npr stopalo = a + b * dlan # cilj je odrediti a i b te 95% p.i. za a i b # kako to radimo? (model <- lm(stopalo~dlan, data = baza)) model$coefficients # kako onda izgleda nasa linearna veza? # stopalo = _______ + ______* dlan # nacrtajmo pravac na nas stari plot plot(baza$dlan, baza$stopalo) abline(a = model$coefficients[[1]], b = model$coefficients[[2]]) # OPREZ! pazite sto je x a sto y (osi i varijable u modelu) # nismo jos gotovi # pitanje je jesu li koeficijenti modela # uopce statisticki znacajni (nenul) # a najvise nas to zanima za koef b # jer on mnozi varijablu x # U slucaju da je b = 0, nas je model # zapravo BESKORISTAN. razmisli! # provodimo test # H0: b = 0 # H1: b != 0 summary(model) # vidimo kako su obje varijable statisticki znacajne # pa je nas model zapravo koristan # ali koliko koristan? # to nam kaze R-squared. sto blize broju 1, to bolje! # npr da nismo odbacili H0: b=0 # onda nemamo razloga misliti uopce da jedna varijabla # linearno ovisi o drugoj. model bi bio stopalo = a # a npr da nismo odbacili H0: a=0 # onda mozemo odabrati model stopalo = b*dlan # ako nam to teorijski ima smisla. # interpretacija? # 14. zadatak # ucitaj naseljenost.csv file summary(naseljenost) plot(naseljenost$udaljenost, naseljenost$gustoca) attach(naseljenost) cor(udaljenost, gustoca) cor.test(udaljenost, gustoca) # sto znaci negativan koef korelacije? # napisi hipoteze za cor.test # zakljucak? model <- lm(gustoca~udaljenost, data = naseljenost) summary(model) # jesu li koef modela stat. znacajni? abline(a = 14.99099, b = -2.24178, col = "red", lwd = 3) # ako je kvart udaljen 2.4km od centra, kolika je # procijenjena gustoca? (procjena <- 14.99099 + (-2.24178) * 2.4) points(2.4, procjena, col = "yellow", lwd = 3)