### LINEARNA REGRESIJA

dlan <- c(18.3, 18.9, 19, 19.7, 18.5, 20.3, 18.7)
stopalo <- c(26.9, 27, 27.3, 28, 27, 28.5, 27)
baza <- data.frame(stopalo, dlan)
# konstrukcija baze
write.csv(baza, "stopalo-dlan.csv")
# na web cu postaviti bazu


# promotrimo podatke koji opisuju duljinu
# dlana i duljinu stopala 6 odraslih muskaraca

# Podatci se nalaze u file-u stopalo-dlan.csv
# Ucitajmo podatke


# prvo si nacrtamo

plot(baza$dlan, baza$stopalo, col = "light blue", lwd = 5)

# sto nam sugerira graf?


# mozemo li na neki nacin izracunati koliko
# je jaka linearna veza izmedju dviju varijabli?

cor(baza$dlan, baza$stopalo)

# obicno je tesko donijeti odluku na temelju koef. korelacije
# iako je u ovom slucaju situacija prilicno jasna
# ali praksa je testirati jednakost koef korelacije nuli

# na razini znacajnosti 0.05 provodimo test
# H0: koef. korelacije rho(dlan, stopalo) = 0
# H1: koef. korelacije rho(dlan, stopalo) != 0


cor.test(baza$dlan, baza$stopalo)


# dakle, ima smisla promatrati vezu izmedju 
# ovih dviju varijabli kao linearnu vezu

# zelimo odrediti tu linearnu funkciju u obliku
# y = a + bx
# tj u ovom slucaju npr stopalo = a + b * dlan

# cilj je odrediti a i b te 95% p.i. za a i b
# kako to radimo?

(model <- lm(stopalo~dlan, data = baza))
model$coefficients

# kako onda izgleda nasa linearna veza?
# stopalo =  _______ + ______* dlan


# nacrtajmo pravac na nas stari plot
plot(baza$dlan, baza$stopalo)
abline(a = model$coefficients[[1]], b = model$coefficients[[2]])

# OPREZ! pazite sto je x a sto y (osi i varijable u modelu)

# nismo jos gotovi

# pitanje je jesu li koeficijenti modela
# uopce statisticki znacajni (nenul)
# a najvise nas to zanima za koef b
# jer on mnozi varijablu x
# U slucaju da je b = 0, nas je model
# zapravo BESKORISTAN. razmisli!

# provodimo test
# H0: b = 0
# H1: b != 0

summary(model)

# vidimo kako su obje varijable statisticki znacajne
# pa je nas model zapravo koristan 
# ali koliko koristan?
# to nam kaze R-squared. sto blize broju 1, to bolje!
# npr da nismo odbacili H0: b=0
# onda nemamo razloga misliti uopce da jedna varijabla
# linearno ovisi o drugoj. model bi bio stopalo = a
# a npr da nismo odbacili H0: a=0
# onda mozemo odabrati model stopalo = b*dlan
# ako nam to teorijski ima smisla.


# interpretacija?


# 14. zadatak

# ucitaj naseljenost.csv file

summary(naseljenost)
plot(naseljenost$udaljenost, naseljenost$gustoca)
attach(naseljenost)


cor(udaljenost, gustoca)
cor.test(udaljenost, gustoca)

# sto znaci negativan koef korelacije?
# napisi hipoteze za cor.test
# zakljucak?

model <- lm(gustoca~udaljenost, data = naseljenost)
summary(model)

# jesu li koef modela stat. znacajni?

abline(a = 14.99099, b = -2.24178, col = "red", lwd = 3)


# ako je kvart udaljen 2.4km od centra, kolika je 
# procijenjena gustoca?


(procjena <- 14.99099 + (-2.24178) * 2.4)
points(2.4, procjena, col = "yellow", lwd = 3)