Apa itu Homoskedastic?
Homoskedastic (juga dieja “homoscedastic”) merujuk pada kondisi di mana varians dari residual, atau istilah kesalahan, dalam model regresi adalah konstan. Artinya, istilah kesalahan tidak banyak bervariasi seiring perubahan nilai dari variabel prediktor. Cara lain untuk mengatakan ini adalah bahwa varians dari titik data kira-kira sama untuk semua titik data.
Hal ini menunjukkan tingkat konsistensi dan memudahkan pemodelan serta pengolahan data melalui regresi. Ketidakhadiran homoskedasticitas dapat menunjukkan bahwa model regresi mungkin perlu memasukkan variabel prediktor tambahan untuk menjelaskan kinerja dari variabel dependen.
Cara Kerja Homoskedasticity
Homoskedasticity adalah salah satu asumsi dalam pemodelan regresi linear, dan data jenis ini bekerja dengan baik menggunakan metode kuadrat terkecil. Jika varians error di sekitar garis regresi bervariasi cukup banyak, model regresi mungkin akan kurang terdefinisi dengan baik.
Lawannya dari homoskedasticity adalah heteroskedasticity (seperti halnya lawan dari “homogen” adalah “heterogen”). Heteroskedasticity (juga dieja “heteroscedasticity”) merujuk pada kondisi di mana varians dari error term dalam persamaan regresi tidak konstan.
Pertimbangan Khusus
Model regresi sederhana, atau persamaan, terdiri dari empat istilah. Di sisi kiri adalah variabel dependen. Ini mewakili fenomena yang ingin dijelaskan oleh model. Di sisi kanan terdapat konstanta, variabel prediktor, dan istilah residual, yang juga dikenal sebagai istilah kesalahan. Istilah kesalahan menunjukkan jumlah variabilitas dalam variabel dependen yang tidak dijelaskan oleh variabel prediktor.
Contoh Homoskedastic
Misalkan Anda ingin menjelaskan nilai ujian siswa berdasarkan jumlah waktu yang dihabiskan setiap siswa untuk belajar.
Dalam hal ini, nilai ujian akan menjadi variabel dependen dan waktu yang dihabiskan untuk belajar akan menjadi variabel prediktor. Istilah error akan menunjukkan jumlah varians dalam nilai ujian yang tidak dijelaskan oleh jumlah waktu belajar.
Jika varians tersebut seragam, atau homoskedastic, maka hal itu akan menunjukkan bahwa model mungkin merupakan penjelasan yang memadai untuk kinerja ujian—yaitu, bahwa jumlah waktu yang dihabiskan untuk belajar menjelaskan nilai ujian.
Namun, varians mungkin bersifat heteroskedastic. Sebuah plot data istilah error dapat menunjukkan bahwa waktu belajar yang besar sangat berkorelasi dengan nilai ujian yang tinggi, tetapi nilai ujian dengan waktu belajar rendah bervariasi secara luas dan bahkan mencakup beberapa nilai yang sangat tinggi.
Hal ini akan menunjukkan bahwa varians nilai ujian tidak dijelaskan dengan baik hanya dengan satu variabel prediktor yaitu jumlah waktu yang dihabiskan untuk belajar.
Dalam hal ini, faktor lain kemungkinan berperan. Model kemungkinan perlu ditingkatkan untuk mengidentifikasinya atau faktor-faktor tersebut.
Penyelidikan lebih lanjut dapat mengungkapkan faktor-faktor lain yang mempengaruhi nilai ujian, seperti:
- Beberapa siswa telah melihat jawaban ujian sebelumnya.
- Siswa yang sebelumnya telah mengikuti ujian serupa tidak perlu belajar untuk ujian ini.
- Siswa memiliki tingkat keterampilan ujian yang independen dari waktu belajar mereka.
Untuk meningkatkan model regresi, peneliti harus mencoba variabel penjelas lain yang dapat memberikan kecocokan yang lebih akurat dengan data. Jika, misalnya, beberapa siswa telah melihat jawaban sebelumnya, model regresi akan memiliki dua variabel penjelas: waktu belajar dan apakah siswa memiliki pengetahuan sebelumnya tentang jawaban tersebut.
Dengan kedua variabel ini, lebih banyak varians dari skor tes yang dapat dijelaskan dan varians dari istilah kesalahan mungkin menjadi homoskedastic, yang menunjukkan bahwa model tersebut sudah didefinisikan dengan baik.