içinde , ,

REGRESYON ANALİZİ VE KORELASYON ANALİZİ TEMEL KAVRAMLARINA GİRİŞ

regression

Bu yazımda birçok alanda veri analizi için başvurulan önemli bir istatistiksel teknik olan Regresyon analizi ve Korelasyon analizinin temel kavramları hakkında bilgi vereceğim. Şimdiden herkese keyifli okumalar dilerim.

regression

 

Regresyon ilk olarak 1805 yılında Adrien Marie Legendre tarafından ortaya konulmuş olup iki veya daha çok değişken arasındaki ilişkiyi tanımlamak için kullanılan istatistiksel bir analiz yöntemidir.

Bu analizde bağımlı ve bağımsız değişken arasında bir ilişki var mıdır? Bu ilişkide değişkenlerden birisi bir birim değiştiğinde bağımlı değişken nasıl bir değişim gösterir? gibi sorulara cevap bulmaya çalışılır.

Diğer taraftan değişkenler arasında ilişki olup olmadığı eğer varsa bu ilişkinin gücü ve yönü nedir? gibi sorulara cevap bulmaya çalışan korelasyon analizi de sıklıkla kullanılan istatistiksel yöntemlerden biridir.

Şimdi her 2 analizde de sıklıkla karşımıza çıkan temel kavramları açıklamaya çalışalım:

Bağımlı Değişken Nedir? (Y)

Bağımlı değişken, regresyon modelinde açıklanan ya da tahmin edilen değişkendir. Bu değişkenin bağımsız değişken ile ilişkili olduğu varsayılır.

Bağımsız Değişken Nedir? (X)

Bağımsız değişken, regresyon modelinde açıklayıcı değişken olup; bağımlı değişkenin değerini tahmin etmek için kullanılır.

Şimdi korelasyon ve regresyon analizindeki temel farkları açıklamaya çalışalım.

Regresyon ve Korelasyon Analizi Arasındaki Temel Farklar

Regresyon analizi, değişkenler arasındaki neden-sonuç ilişkisini bulmamızı sağlarken, korelasyon analizinde ise iki değişken arasındaki ilişkinin yönü ve şiddeti hakkında bilgi verir ancak neden-sonuç ilişkisini göstermez. Yani regresyonda bağımsız değişkendeki bir birim değişikliğin bağımlı değişken üzerindeki etkisi yansıtılmaktadır.

Bir diğer önemli fark ise korelasyonda bağımlı ve bağımsız değişkenler arasında fark yoktur. Yani X ve Y arasındaki korelasyon ile Y ve X arasındaki korelasyon aynı şeyi ifade eder ancak regresyonda bu durum aynı şeyi ifade etmez.

Tek Değişkenli ve Çok Değişkenli Regresyon Nedir?

Bir tek bağımsız değişkenin kullanıldığı regresyon analizine tek değişkenli regresyon analizi, birden fazla bağımsız değişkenin kullanıldığı regresyon analizine de çok değişkenli regresyon analizi denir. Ayrıca bağımlı ve bağımsız iki değişken arasında eğrisel bir ilişki var ise değişkenler arasındaki ilişki eğrisel regresyon modeli ile açıklanır.

Tek değişkenli regresyon analizinde araştırmacı bağımsız değişken olarak temsil edilen X hakkında sahip olduğu bilgilerden hareketle bağımlı değişken olan Y’yi tahmin etmeye çalışır.

Çok değişkenli regresyonda ise tek değişkenli regresyondan farklı olarak bağımlı değişken üzerinde birden fazla bağımsız değişkenin toplu etkisi araştırılmaktadır.

Tek Değişkenli Regresyon Modeli

İki ya da daha fazla değişken arasında bir ilişkinin bulunup bulunmadığını test eden ve bunu doğrusal veya eğrisel olarak ifade eden denklemlere regresyon modeli denir.  İçerisinde yalnızca bir tane bağımsız değişken ile buna bağlı tahmin edilen tek bağımlı değişken bulunduran denklemlere tek değişkenli regresyon modeli denir.

Yi = a + bXi + ei  (i = 1,2,3,….n)

Y = Bağımlı (Açıklanan) değişkenin değerini

a = Regresyon doğrusunun y ekseninin kestiği sabit değeri

b = Regresyon doğrusunun eğimini

X = Bağımsız (Açıklayıcı) değişkenin değerini

ei= Hata payı

n : Gözlem sayısını ifade etmektedir.

EN KÜÇÜK KARELER YÖNTEMİ NEDİR ?

Regresyon analizi yaparken en çok kullanılan yöntemlerden biri en küçük kareler
yöntemidir.

Yukarıdaki görselde mavi noktalar gerçek gözlem değerlerini (Observed value )temsil etmektedir.

Gerçek gözlem değerleri ile regresyon doğrusu üzerinde bulunan tahmin edilen değerler (Ýi) arasındaki farkların her birine bir artık (residual) denir.

En küçük kareler yönteminde aranan fonksiyon, ya da onun parametreleri, tüm artıkların kareleri toplamı olan ∑ (Yi – Ýi)² = ∑(ei)²  ifadesinin minimum yapacak şekilde belirlenmesidir.

Sözü edilen kareler toplamının minimum olması için her bir hatanın olabildiğince küçük olması gerekir. Bu hataları minimize ederek veri kümesine en iyi uyan doğrusal fonksiyonun grafiği olan doğruya regresyon doğrusu veya en küçük kareler doğrusu denir.

En küçük kareler yöntemindeki amaç hatayı minimum yapan tahmin doğrusu olan regresyon doğrusunu bulmaktır. Bu yöntemin en büyük avantajından biri hata kareleri toplamı alındığı için hata toplamlarının minimize edilmesinde kullanılan işaret problemi de ortadan kalkmış olacaktır.

BASİT (TEK DEĞİŞKENLİ) DOĞRUSAL REGRESYON VARSAYIMLARI NELERDİR?

  1. Bağımlı (tahmin edilen) ve bağımsız (açıklayıcı) değişkenin her ikisi de süreklidir.
  2. Bağımlı ve bağımsız değişken arasında doğrusal bir ilişki mevcuttur.
  3. Veri setinde önemli derecede aşırı sapan değerler (outlier) yoktur.
  4. Kalıntı değerler (residual) ile bağımsız değişken arasında bir ilişki yoktur. (tesadüfi hata)
  5. Bağımlı değişken bağımsız değişkenin tüm değerlerinde eşit varyans göstermektedir. (varyansların homojenliği varsayımı).
  6. Kalıntı (residual) değişken yaklaşık olarak normal dağılım göstermektedir.

ÇOK DEĞİŞKENLİ DOĞRUSAL REGRESYON VARSAYIMLARI NELERDİR?

  1. Modele dahil edilen tüm değişkenler süreklidir.
  2. Bağımlı değişken ve bağımsız değişkenler arasında doğrusal bir ilişki vardır.
  3. Veri setinde önemli derecede aşırı sapan değerler (outlier) yoktur.
  4. Kalıntı değerler (residual) ile bağımsız değişken arasında bir ilişki yoktur. (tesadüfi hata)
  5. Bağımlı değişken bağımsız değişkenlerin tüm değerlerinde eşit varyans göstermektedir (varyansların eşitliği varsayımı).
  6. Kalıntı (residual) değişken yaklaşık olarak normal dağılım göstermektedir.
  7. Bağımsız değişkenler arasında güçlü bir korelasyon yoktur (önemli derecede bir çoklu doğrusallık (multicollinearity) yoktur.

Konuya ilgi duyan arkadaşlar için aşağıdaki linkler faydalı olacaktır.

  • https://www.jmp.com/en_us/statistics-knowledge-portal/what-is-regression/the-method-of-least-squares.html
  • http://mustafaakca.com

SONUÇ

Bu yazımda korelasyon ve regresyon nedir?  Bu iki analiz arasındaki temel farklar nelerdir? gibi sorulara yanıt bulmaya çalıştım. Regresyon modelini kurarken sıklıkla yararlanılan bir yöntem olan en küçük kareler yöntemini ve temel amacının ne olduğunu açıklamaya çalıştım.  Kurulan modelin istatistiksel olarak anlamlı olması için gerekli varsayımların neler olduğu çok değişkenli ve basit (tek değişkenli) regresyonda ifade edildi. Bir sonraki yazımda görüşmek üzere.

Rapor Et

Ne düşünüyorsun?

Yazan ayseduman

Merhaba Değerli Okuyucular,
Yıldız Teknik Üniversitesi Matematik Mühendisliği ve İstatistik Bölümünde eğitimime devam etmekteyim. Matematik, Yazılım, İstatistik, Yapay Zeka, Büyük Veri, Algoritma Analizi gibi konulara oldukça ilgiliyim. Hem bu alanlarda araştırmalarımı devam ettirerek kendimi geliştirmek hem de siz değerli okuyuculara bilgi ve tecrübelerimi paylaşmak beni çok mutlu edecektir. Bilginin gücüne ve paylaşımcı olmanın gerekliliğine olan inancım sonsuz.

Bir Yorum

Bir Cevap bırakın

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

PANDEMİ ve INSTAGRAMMABLE HAYATLAR

biomaterials

Biyomalzemeler nelerdir? işlevi nedir?