Was ist was: Varianz: Berechne die Differenz des Wertes zum Durchschnitt im Quadrat, summiere für alle Werte. Bilde dann den Durchschnitt. Hm. für unbiased wird nicht der Durchschnitt sondern geteilt durch n-1 genommen, man nennt das Bessel’s correction Standardabweichung: Quadratwurzel der Varianz, meist Sigma. Korrelations-Koeffizienten: Mass für den Linearen Zusammenhang zwischen 2 Variablen Wert zwischen -1 und 1. 1=> Beide Variabelen hängen linear zusammen -1=> Beide Variablen hängen negativ linear zusammen (d.h eine Steigerung der einen führt zu einer Minderung der anderen 0 => kein Zusammenhang zwischen den Variablen Multipliziere die Abweichung von X vom mean(X) mit der Abweichung von Y von mean(Y) am gleichen Punkt. Bilde dann die Summe dieser Produkte aller Variablen . Teile das ganze durch das Produkt der Standardabweichungen. Überlegung hierzu: Wir versuchen einen Zusammenhang zwischen der Länge und der Breite eines Schiffes zu finden. Wenn das Schiff nun eine grosse Abweichung vom Durchschnitt in der Länge hat, sollte es, so diese mit der Breite korreliert auch eine grosse Abweichung vom Durchschnitt in der Länge haben. (Wenn ein Schiff “besonders” gross ist, ist es auch “besonders” breit. “besonders” gross ist die Abweichung vom Durchschnitt von gross) Beispielrechnung mit dem Schiffedatensatz aus der Wiki 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 # Datensatz einlesen: schiffe <- read.csv('/home/stephan/schiffe.csv' , header= TRUE , sep=';' , dec=',' ) > summary(schiffe$Breite) Min. 1st Qu. Median Mean 3rd Qu. Max. 8.60 13.00 17.50 19.57 27.75 39.00 > summary(schiffe$Länge) Min. 1st Qu. Median Mean 3rd Qu. Max. 85.0 128.5 174.0 164.9 190.0 271.0 # Wir sind faul und sehen uns nur die ersten 10 Schiffe an > faul <- head(schiffe , 10 ) > summary(faul$Breite) Min. 1st Qu. Median Mean 3rd Qu. Max. 13.00 20.25 31.00 26.00 31.75 32.00 > summary(faul$Länge) Min. 1st Qu. Median Mean 3rd Qu. Max. 137.0 188.2 194.0 202.6 224.2 262.0 ...