BAB I
PENDAHULUAN
1.1
Latar Belakang
Banyak guru yang sudah mengumpulkan
data hasil tes dari peserta didiknya, tetapi tidak atau belum tahu bagaimana
mengolahnya sehingga data tersebut menjadi mubadzir, data tanpa makna.
Sebaliknya, jika hanya ada data yang relative sedikit, tetapi sudah tahu cara
pengolahannya, maka data tersebut akan mempunyai makna. Misalnya, seorang
peserta didik memperoleh skor 60 dari ulangan hariannya. Jika hanya skor ini
saja yang diperhatikan, tanpa melihat lebih jauh sikap dan keterampilannya,
maka skor itu kurang bermakna. Jika ada faktor-faktor lain di samping skor itu,
baik tentang sikap maupun tentang keterampilannya, maka skor tersebut akan
memberikan makna sehingga guru dapat membuat keputusan dan
mempertanggungjawabkan hasil belajar peserta didik tersebut dengan
sebaik-baiknya. Oleh sebab itu, seorang evaluator harus betul-beul menguasai
bagaimana cara memberikan skor yang baik dan benar serta adil sehingga tidak
merugikan berbagai pihak.
Oleh sebab itu makalah ini di buat
untuk membahas tentang bagaimana cara untuk menganalisis hasil tes, apa saja
yang menjadi acuan evaluasi, dan juga bagaimana cara pemberian skor hasil tes
yang baik sehingga tidak merugikan berbagai pihak.
1.2
Rumusan Masalah
1. Apakah
yang dimaksud dengan validitas, reliabilitas, objektivitas dan kepraktisan
dalam menganalisis hasil tes ?
2.
Apa
saja yang menjadi acuan evaluasi ?
3.
Bagaimana
cara pemberian skor ?
1.3
Tujuan Penulisan
1. Untuk menjelaskan tentang pengertian
validitas,reliabilitas, objektivitas dan kepraktisan.
2.
Agar
mengetahui acuan yang di gunakan dalam evaluasi.
3.
Agar
mengetahui cara dalam pemberian skor.
BAB II
PEMBAHASAN
2.1 Validitas,
Reliabilitas, Objektivitas dan Kepraktisan Dalam Menganalisis Hasil Tes
Analisis
kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat
kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi
bagian tes tersebut.Tes yang digunakan guru harus memilki kualitas yang lebih
baik dilihat dari segala sisi. Tes hendaknya disusun sesuai dengan prinsip dan
prosedur penyusunan tes.
Analisis
kualitas tes berkaitan dengan pertanyaan yang menunjukkan dua hal pokok, yaitu validitas
dan reliabilitas. Namun dalam kesempatan ini, akan dibahas empat karakteristik,
yang juga digunakan untuk mengukur kesesuaian, efisiensi, dan kemantapan suatu
alat penilaian atau suatu tes dipergunakan macam – macam kualitas, seperti
validitas, reliabilitas, objektivitas dan kepraktisan.
a. Validitas
Validitas adalah kualitas yang menunjukkan
hubungan antara suatu pengukuran dengan arti atau tujuan kriteria belajar atau
tingkah laku. Validitas merupakan syarat terpenting dalam suatu
alat evaluasi. Suatu teknik evaluasi dikatakan
mempunyai tingkat validitas yang tinggi apabila teknik evaluasi tersebut dapat
mengukur apa sebenarnya akan diukur. Validitas bukanlah suatu ciri atau
sifat yang mutlak dari suatu teknik evaluasi, ia merupakan suatu ciri relatif
terhadap tujuan yang hendak dicapai oleh pembuat tes.[1]
Ada
dua unsur penting dalam validitas ini, yaitu:
a. Validitas
menunjukkan suatu derajat, ada yang sempurna, sedang, dan rendah.
b. Validitas
selalu di hubungkan dengan suatu putusan atau tujuan yang spesifik.
Gronlund mengemukakan, bahwa ada tiga faktor yang
mempengaruhi validitas hasil tes, yaitu:
1. Faktor
Instrumen Evaluasi
Mengembangkan instrument evaluasi memang tidaklah
mudah, karena dalam mengembangkannya, seorang evaluator harus memperhatikan hal
– hal yang mempengaruhi validitas instrumen dan berkaitan dengan prosedur
penyusunan instrumen , seperti silabus, kisi – kisi soal, petunjuk mengerjakan
soal dan pengisian lembar jawaban, kunci jawaban, penggunaan kalimat efektif,
bentuk alternatif jawaban, tingkat kesukaran, daya pembeda,dan sebagainya.
2. Faktor
administrasi evaluasi dan penskoran
Untuk faktor ini seringkali terjadi kesalahan,
seperti alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan
bantuan kepada peserta didik dengan berbagai cara, peserta didik saling
menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis
peserta didik yang kurang menguntungkan.
3. Faktor
jawaban peserta didik
Dalam praktiknya, faktor jawaban peserta didik
justru lebih banyak berpengaruh dari pada dua faktor yang telah dijelaskan
diatas. Faktor ini meliputi, kecenderungan peserta didik untuk menjawab secara
cepat, tetapi tidak tepat, keinginan untuk melakukan coba – coba, dan
penggunaan gaya bahasa tertentu dalam menjawab bentuk soal uraian tersebut.
Kerlinger mengemukakan, “validitas instrument tidak
cukup ditentukan oleh derajat ketepatan instrument untuk mengukur apa yang
seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria, antara lain: Appropritness
yang menunjukkan kelayakan dari tes sebagai suatu instrumen, yaitu seberapa
jauh instrument dapat menjangkau keragaman aspek perilaku peserta didik; Meaningfullness
yang menunjukkan kemampuan instrument dalam memberikan keseimbangan soal – soal
pengukurannya berdasar tingkat kepentingan dari setiap fenomena; Usefullness
to inferences yang menunjukan sensitif tidaknya suatu instrument dalam
menangkap fenomena perilaku dan tingkat ketelitian yang ditunjukkan dalam
membuat kesimpulan.”
Teknik yang sama dapat digunakan untuk beberapa
tujuan yang berbeda, dan validitasnya dapat berbeda – beda dari yang tinggi
kepada yang rendah, bergantung pada tujuan.
Jenis
– jenis validitas, antara lain:
1. Validitas
Isi
Yaitu validitas yang dimana suatu tes dikatakan
memiliki content validity jika scope dan isi kurikulum yang sudah diajarkan.
Isi tes sesuai dengan atau mewakili sampel hasil – hasil belajar yang
seharusnya dicapai menurut tujuan kurikulum.
2. Validitas
Konstruk
Yaitu validitas yang dimana suatu tes dikorelasikan
dengan ciri – ciri yang disebutkan dalam konsepsi tadi, yaitu konsepsi tentang
objek yang akan di tes.
3. Validitas
Konkuren
Jika hasil tes mempunyai korelasi yang tinggi dengan
hasil suatu alat ukur lain terhadap bidang yang sama pada waktu yang sama pula,
maka dikatakan tes itu memiliki konkurent validity.
4. Validitas
Predictive
Validasi yang dimana jika hasil korelasi tes itu dapat
meramalkan dengan tepat keberhasilan seseorang pada masa mendatang di dalam
lapangan tertentu atau jika kriteria standar yang digunakan adalah untuk
meramalkan prestasi belajar murid di
masa mendatang. Validitas ini bermaksud melihat hingga mana suatu tes
dapat memprakirakan perilaku peserta didik pada masa yang akan datang.
5. Validitas
Permukaan
Validitas ini menggunakan kriteria yang sangat
sederhana, karena hanya melihat dari sisi muka atau tampang dari instrument itu
sendiri.
6. Validitas
Empiris
Validitas ini biasanya menggunakan teknik statistik,
yaitu analisis korelasi. Hal ini disebabkan karena validitas ini mencari
hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu
tolak ukur di luar tes yang bersangkutan. Namun, kriteria itu harus relevan
dengan apa yang akan diukur.
Anastasi dalam Conny Semiawan Stamboel mengemukakan
ada delapan kriteria sebagai bahan bandingan untuk merumuskan apa yang hendak
diselidiki oleh suatu tes, yaitu:
a. Diferensiasi
umur
Kriteria
yang paling utama dalam validitas tes inteligensi adalah umur, selain itu
adapula hal lain yang juga perlu dicermati adalah corak kondisi lingkungan
tempat tes itu dibakukan.
b. Kemajuan
akademis
Pada
umumnya tes inteligensi divalidkan dengan kemajuan akademis, dengan kata lain,
berhasil tidaknya pendidikan seseorang tidak hanya dilihat dari faktor intelektual,
tetapi juga dapat dilihat dari faktor non-intelektual.
c. Kriteria
dalam pelaksanaan latihan khusus
Corak
kriteria dalam pengembangan tes bakat khusus didasarkan pada prestasi dalam
pelatihan tertentu secara khusus. Beberapa tes bakat profesi telah divalidkan
dengan tes hasil belajar dalam bidang – bidang tersebut.
d. Kriteria
dalam pelaksanaan kerja
Dalam
validitas tes kepribadian dan validitas tes bakat khusus banyak digunakan
kriteria yang didasarkan atas kinerja dalam pelaksanaan kerja.
e. Penilaian
Yaitu
teknik untuk memperoleh informasi tentang kemajuan belajar peserta didik di
sekolah. Selain itu, juga mencakup pekerjaan yang memerlukan latihan khusus
ataupun sukses dalam penilaian pribadi oleh seorang pengamat terhadap berbagai
fungsi psikologis.
f. Kelompok
yang dipertentangkan
Konsep
validitas melalui kelompok yang dipertentangkan menyelidiki pengaruh kehidupan
sehari – hari yang tak disengaja. Kriteria ini didasarkan atas kelebihan suatu
kelompok tertentu dihadapkan pada kelompok yang lain dalam menjalankan suatu
tes tertentu.
g. Korelasi
dengan tes lain
Korelasi
antara tes baru dengan tes lama merupakan perbandingan kriteria dalam
menyelidiki perilaku yang sama.
h. Konsistensi
internal
Adalah
skor total yang diperoleh peserta didik dalam suatu tes. Kriteria ini terutama
digunakan dalam bidang tes kepribadian. Kadang – kadang untuk keperluan ini
juga digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok yang
berhasil dan kurang berhasil. Kriteria konsistensi internal ini menghasilkan
indeks homoginitas soal, tetapi tidak dapat dianggap sepenuhnya sebagai
pengganti validitas.
7. Validitas
Faktor
Dalam penilaian hasil belajar, sering digunakan
skala pengukuran tentang suatu variabel yang terdiri atas beberapa faktor yang
diperoleh berdasarkan indikator dari variabel yang diukur sesuai dengan apa
yang terungkap dalam konstruksi teoretisnya.[2]
b. Reliabilitas
Keandalan atau reliabilitas adalah kualitas yang
menunjukkan kemantapan ekuivalensi atau stabilitas suatu pengukuran yang
dilakukan atau tingkat atau derajat konsistensi dari suatu instrumen.[3]
Suatu alat evaluasi dikatakan andal jika ia dapat dipercaya, konsisten atau
stabil dan produktif, jadi yang dipentingkan disini ialah ketelitiannya.
Keandalan suatu tes dinyatakan dengan koefisien reliability, yaitu dengan
mencari korelasi, seperti :
1. Dengan
metode dua tes
2. Dengan
metode satu tes
3. Metode
split-half
4. Split-half
dengan cara lain
5. Metode
Kuder-Richardson
Selain
itu, adapun faktor- faktor yang mempengaruhi keandalan suatu tes, antara lain:
1. Luas
tidaknya sampling yang diambil.
2. Perbedaan
bakat dan kemampuan murid yang di tes.
3. Suasana
dan kondisi testing.[4]
Reliabilitas tes berkenaan dengan pertanyaan, apakah
suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yang telah
ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu memberikan hasil
yang sama bila diteskan pada kelompok yang sama pada waktu waktu atau
kesempatanyang berbeda.
Sementara itu, Kerlinger mengemukakan bahwa
reliabilitas dapat diukur dari tiga kriteria, yaitu: Stability yang menunjukkan
keajegan suatu tes dalam mengukur gejala yang sama dalam waktu yang berbeda; Dependability
yang menunjukkan kemantapan suatu tes atau seberapa jauh tes dapat diandalkan; Predictability
yang menunjukkan kemampuan tes untuk meramalkan hasil pada pengukuran gejala
selanjutnya.
Gronlund mengemukakan ada empat faktor yang dapat
memengaruhi reliabilitas, yaitu:
1. Panjang
tes
2. Sebaran
skor
3. Tingkat
kesukaran
4. Objektivitas
Konsep reliabilitas mendasari kesalahan pengukuran
yang mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal
tertentu, sehingga menimbulkan perubahan pada susunan kelompoknya. Tes yang
reliabel adalah apabila koefisien reliabilitasnya tinggi dan kesalahan baku
pengukurannya rendah. Menurut perhitungan product momentdari Pearson, ada tiga
macam reliabilitas, yaitu:
1. Koefisien
stabilitas
Adalah
jenis reliabilitas yang menggunakan teknik test dan retest, yaitu memberikan
tes kepada sekelompok individu, kemudian diadakan pengulangan tes pada kelompok
yang sama dengan waktu yang berbeda.
Kesalahan
teknis ini dapat bersumber dari berbagai faktor, sehingga menyebabkan peserta
didik mempunyai skor yang berbeda pada saat dua kali mengerjakan tes yang sama.
2. Koefisien
Ekuvalen
Adalah
jika mengkorelasikan dua buah tes yang paralel pada kelompok dan waktu yang
sama. Metode yang digunakan untuk memperoleh koefisien ekuivalen adalah metode
dengan menggunakan dua buah bentuk tes yang paralel.
Kemungkinan
kesalahan pada teknik ini bersumber pada derajat keseimbangan antara dua tes
tersebut, serta kondisi tempat yang mungkin berbeda pada kelompok tes pertama
dengan kelompok tes kedua, meskipun dilakukan pada waktu yang sama.
3. Koefisien
konsistensi internal
Adalah
reliabilitas yang didapat dengan jalan mengkorelasikan dua buah tes dari
kelompok yang sama, tetapi diambil dari butir – butir yang bernomor genap untuk
tes yang pertama dan butir – butir bernomor ganjil untuk tes yang kedua.[5]
c. Objektivitas
Objektivitas suatu tes dapat ditentukan oleh tingkat
atau kualitas kesamaan skor – skor yang diperoleh dengan tes tersebut meskipun
hasil tes itu dinilai oleh beberapa orang penilai.
Objektivitas
adalah kualitas yang menunjukkan identitas atau kesamaan dari skor – skor atau
diagnosis – diagnosis yang diperoleh dari data yang sama dan dari penskor
–penskor kompeten yang sama. Kualitas suatu objektivitas dapat dibedakan
menjadi tiga tingkatan, yaitu :
a. Objektivitas
tinggi, yaitu jika hasil tes itu menunjukkan tingkat kesamaan yang tinggi.
b. Objektivitas
sedang, yaitu sama seperti tes yang sudah
di standarisasi, tetapi pandangan subjektif skor masih mungkin muncul dalam
penilaian dan interpretasinya.
c. Objektivitas
fleksibel, yaitu seperti beberapa tes yang digunakan olen Lembaga Bimbingan dan
Penyuluhan untuk keperluan counseling.
d. Kepraktisan
Kepraktisan adalah suatu kualitas yang menunjukkan
kemungkinan dapat dijalankannya suatu kegunaan umum dari suatu teknik
penilaian, dengan mendasarkannya pada biaya, waktu yang diperlukan untuk
menyusun, kemudahan penyusunan, mudahnya penskoran, dan mudahnya
penginterprestasian hasil – hasilnya.[6]
Kepraktisan suatu tes penting juga diperhatikan.
Suatu tes dikatakan mempunyai kepraktisan yang baik jika kemungkinan untuk
menggunakan tes itu besar. Adapun kriteria untuk mengukur praktis tidaknya
suatu tes dapat dilihat dari :
a. Biaya
yang diperlukan untuk menyelenggarakan tes itu,
b. Waktu
yang diperlukan untuk menyusun tes itu,
c. Sukar
mudahnya menyusun tes itu,
d. Sukar
mudahnya menilai hasil tes itu,
e. Sulit
tidaknya menginterpretasikan hasil tes itu,
f. Lamanya
waktu yang diperlukan untuk melaksanakan tes itu.[7]
Kepraktisan merupakan syarat suatu
tes standar. Kepraktisan bukan hanya dipertimbangkan ketika memilih tes yang
sudah dipublikasikan, tetapi siapapun yang mengembangkan tes harus memenuhi
syarat ini. Kepraktisan mengandung arti kemudahan suatu tes, baik dalam
mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun
meng-administrasikan-nya.
Dimyati dan Mudjiono mengemukakan
faktor – faktor yang mempengaruhi kepraktisan instrument evaluasi, antara lain:
1. Kemudahan
mengadministrasi
Jika instrument evaluasi diadministrasikan oleh guru
atau orang lain yang memiliki kemampuan yang terbatas, kemudahan
pengadministrasian adalah suatu kualitas penting yang diminta dalam instrument
evaluasi. Untuk memberikan kemudahan pengadministrasian instrument evaluasi
dapat dilakukan dengan jalan memberikan petunjuk yang sederhana dan jelas,
subtes sebaiknya relatif sedikit, dan pengaturan tempo tes sebaiknya tidak menimbulkan kesulitan. Kesalahan – kesalahan
dalam mengadministrasikan instrument evaluasi akan menurunkan kepraktisannya,
sehingga dapat menyebabkan berkurangnya validitas dan reliabilitas suatu alat
ukur.
2. Waktu
yang disediakan untuk melancarkan evaluasi
Kepraktisan juga dipengaruhi pula oleh faktor waktu
yang disediakanuntuk melancarkan evaluasi, dan waktu yang cukup untuk
melancarkan evaluasi dalam memberikan kepraktisan berkisar antara 20 – 60
menit.
3. Kemudahan menskor
Untuk mencapai kemudahan dalam penskoran diperlukan
upaya berupa perbaikan petunjuk penskoran dan lebih memudahkan kunci penskoran,
pemisahan lembar jawaban dari lembar soal, dan penskoran menggunakan mesin.
4. Kemudahan
interpretasi dan aplikasi
Dalam analisis terakhir, keberhasilan atau kegagalan
evaluasi ditentukan oleh penggunaan hasil evaluasi. Untuk memudahkan
interpretasi dan aplikasi hasil evaluasi diperlukan petunjuk yang jelas, karena
semakin mudah interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan
kepraktisan evaluasi.
5. Tersedianya
bentuk instrument evaluasi yang ekuivalen atau sebanding
Untuk berbagai kegunaan pendidikan, bentuk – bentuk
ekuivalen untuk tes yang sama seringkali diperlukan. Bentuk – bentuk ekuivalen
dari sebuah tes mengukur aspek – aspek perilaku melalui butir – butir tes yang
memiliki kesamaan dalam isi, tingkat kesulitan, dan karateristik lainnya.
Dengan demikian, satu bentuk tes dapatmenggantikan yang lain, sedangkan
instrument evaluasi yang sebanding adalah instrument evaluasi yang memiliki
kemungkinan dibandingkan makna dari skor umum yang dimiliki, sehingga untuk tes
berseri cukup menggunakan satu skala skor. Adanya bentuk – bentuk yang
ekuivalen atau sebanding dari instrument evaluasi akan mempraktiskan kegiatan
evaluasi.[8]
2.2 Acuan Evaluasi
Acuan evaluasi merupakan
suatu poros atau patokan dalam mengevaluasi hasil sesuatu, terutama hasil
belajar yang berupa derajat kualitas hasil tes, baik tes secara keseluruhan
maupun butir soal yang menjadi bagian dari tes tersebut. Dalam penilaian hasil
belajar, tes atau evaluasi dapat menggambarkan sampel perilaku dan menghasilkan
nilai yang objektif serta akurat. Jika tes atau evaluasi yang digunakan guru
kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat
merugikan peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta
didik menjadi tidak objektif dan tidak adil. Oleh sebab itu, tes atau evaluasi
yang digunakan guru harus memiliki kualitas yang lebih baik dilihat dari
berbagai segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur
penyusunan tes yang digunakan termasuk baik atau kurang baik, maka perlu
diadakannya acuan dalam evaluasi.
Tes atau
evaluasi berkaitan dengan pertanyaan apakah tes sebagai suatu alat ukur
benar-benar mengukur apa yang hendak dan seharusnya di ukur ? sampai mana tes
tersebut dapat dapat diandalkan dan berguna ? keedua pertanyaan ini sebenarnya
menunjukkan pada dua hal pokok, yaitu validitas dan realibilitas. Kedua hal ini
sekaligus merupakan karakteristik alat ukur yang baik.
Dalam praktik
evaluasi di sekolah, sering kali guru acuh tak acuh dengan kualitas suatu tes.
Artinya, apakah suatu tes termasuk baik atau tidak, guru tidak mau tahu, yang
penting bagi guru adalah tersedianya perangkat tes untuk melaksanakan
penilaian. Adapun yang harus di perhatikan oleh guru dalam melakukan tes atau
evaluasi ialah sebagai berikut :
A.
Validitas
Sebelum guru menggunakan suatu tes, hendaknya guru mengukur
terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata
lain, untuk melihat apakah tes tersebut valid (sahih), kita harus membndingkan
skor peserta didik yang didapat dalam tes dengan skor yang dianggap sebagai
nilai baku. Misalnya, nilai ujian akhir semester peserta didik dalam salah satu
mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata
pelajaran yang lain. Makin mendekati kedua skor tersebut, maka semakin soal
ujian akhir tidak dapat dikatakan valid. Validitas suatu tes erat kaitannya
dengan tujuan penggunaan tes tersebut. Namun, tidak ada validitas yang berlaku
secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan
dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan
tersebut.
Ada dua unsur penting dalam validitas ini. Pertama,
validitas menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada
pula yang rendah. Kedua, validitas selalu dihubungkan dengan suatu
putusan atau tujuan yang spesifik.[9]
Dalam literature modern tentang evaluasi, banyak dikemukakan
tentang jenis-jenis validitas, antara lain :
a.
Validitas
Permukaan (face validity)
Validitas ini menggunakan kriteria yang sangat sederhana, karena
hanya melihat dari sisi muka atau tampang dari instrument itu sendiri.
b.
Validitas
Isi (content validity)
Tujuan utama dari validitas ini ialah untuk mengetahui sejauh mana
peserta didik menguasai materi pelajaran yang telah disampaikan, dan
perubahan-perubahan psikologis apa yang timbul pada diri peserta didik tersebut
setelah mengalami proses pembelajaran tertentu. Jika dilihat dari segi
kegunaannya dalam penilaian hasil belajar, validitas ini sering disebut juga
validitas kurikuler dan validitas perumusan.
Validitas kurikuler berkenaan dengan pertanyaan apakah materi tes
relevan dengan kurikulum yang sudah ditentukan atau belum. Sedangkan validitas
perumusan berkenaan dengan pertanyaan apakaah aspek-aspek dalam soal-soal itu
beul-betul tercakup dalam perumusan tentang apa yang hendak di ukur.
c.
Validitas
Empiris (empirical validity)
Validitas ini biasanya menggunakan teknik satistik, yaitu analisis
korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara skor tes
dengan suatu kriteria tertenu yang merupakan suatu tolok ukur di luar tes yang
bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan di ukur.
Dalam mengukur validitas suatu tes hendaknya yang menjadi kriteria
sudah betul-betul valid sehingga dapat diandalkan kemampuannya dan dapat
dianggap sebagai tes standar. Sebaliknya, bila kriterianya tidak valid, maka
tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. suatu
tes akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul
dapa mengukur apa yang hendak di ukur dari peserta didik tertentu.
d.
Validitas
Konstruk (construct validity)
Konstruk adalah konsep yang dapat diobservasi (observable) dan
dapat diukur (measurable). Validitas konstruk juga sering disebu validitas
logis (logical validity). Validitas konstruk berkenaan dengan pertanyaan hingga
mana suatu tes betul-beul dapa mengobservasi dan mengukur fungsi psikologis
yang merupakan deskripsi perilaku peserta didik yang akan diukur oleh tes
tersebut. Validitas konstruk banyak dikenal dan digunakan dalam tes-tes
psikologis untuk mengukur gejala perilaku yang abstrak, seperi keseiakawanan,
kematangan emosi, sikap, motivasi, minat, dan sebagainya.
e.
Validitas
Faktor (factorial validity)
Dalam penilaian hasil belajar sering digunakan skala pengukuran
tentang suau variabel yang terdiri atas beberapa factor. Factor-faktor tersebut
diperoleh berdasarkan dimensi/indicator dari variabel yang diukur sesuai dengan
apa yang terungkap dalam konstruksi teoriisnya. Meskipun variabel terdiri atas
beberapa factor, tetapi prinsip homogenitas untuk keseluruhan factor harus
tetap dipertahankan, sehingga tidak terjadi tumpang tindih antara satu factor
dengan factor yang lain. Dengan demian, kriterium yang digunakan dalam
validitas fakor ini dapat diketahui dengan menghitung homogenitas skor setiap
factor dengan total skor, dan antara skor dari factor yang satu dengan factor
skor dari fakor yang lain.
B.
Reliabilitas.
Reliabilitas adlah tingkat atau derajat konsistensi dari suatu
instrument. Reliabilitas tes berkenaan dengan pertanyaan, apaka suatu tes
teliti dan dapat dipercaya sesuai dengan kriteria yang telah diterapkan. Suau
tes dikatakan reliable apabila beberapa kali pengujian menunujukan hasil yang
relatif sama.[10]
Pengujian suatu tes bisa dilakukan terhadap objek yang sama pada waktu yang
berlainan dengan selang waktu yang tidak terlalu lama dan juga terlalu singkat,
bisa juga dilakukan dengan membandingkan hasil pengujian dari tes yang setara.
Konsep realibilitas mendasari kesalahan pengukuran yang mungkin
erjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, sehingga
menimbulakn perubahan pada susunan kelompoknya (error of measurement).
Misalnya, guru mengetes peserta didik dengan instrument tertentu dan mendapat
nilai 70. Kemudian pada kesempaan yang berbeda dengan instrument yang sama,
guru melakukan tes kembali, terbyata peserta didik tersebut mendapat nilai 75.
Artinya, es tersebut idak reliable, karena terjadi kesalahan pengukuran. Tes
yang reliable adalah apabila koefisien reliabilitasnya tinggi dan kesalahan
baku pengukurannya (standard error of measurement) rendah.
C.
Kepraktisan.
Dalam kenyataan, banyak tes yang dibuat orang tidak menunjukkan
kepraktisan. Padahal kepraktisan merupakan syarat suatu tes standar. Kebanyakan
orang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berpikir untuk
orang lain. Akibatnya, ketika tes tersebut digunakan orang lain, maka orang
tersebut merasakan kesulitan. Kepraktisan bukan hanya dipertimbangkan ketika
memilih tes yang sudah dipublisasikan, tetapi siapapun yang mengembangkan tes
harus memenuhi syarat ini. Kepraktisan mengandung arti kemudahan suatu tes, baik dalam
mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun
mengadministrasikannya. Dimayati dan Mudjiono mengemukakan factor-fakor yang
memengaruhi keprakisan instrumrn evaluasi meliputi “kemudahan mengadministrasi,
waktu yang disediakan untuk melancarkan evaluasi, kemudahan menskor, kemudahan
interpreasi dan aplikasi, tersedianya bentuk instrument evaluasi yang ekuivalen
atau sebanding”.[11]
1.
Kemudahan
mengadministrasi
Jika
instrument evaluasi diadministrasikan oleh guru atau orang lain dengan kemampuan
yang terbatas, kemudahan pengadministrasian adalah suatu kualitas penting yang
diminta dalam innstrumen evaluasi. Untuk memberikan kemudahan
pengadministrasian instrument evaluasi dapat dilakukan dengan jalan member
petunjuk yang sederhana dan jelas, subtes seaiknya relative sediki, dan
pengauran tempo tes sebaiknya tdak menimbulkan kesulitan. Kesalahan-kesalahan
dalam megadministrasikan alat ukur atau instrument evaluasi akan menurunkan
kepraktisannya, sehingga dapat menyebabkan berkurangnya validitas dan
reliailitas suatu alat ukur.
2.
Waktu
yang disediakan untuk melancarkan evaluasi.
Kepraktisan
dipengaruhi juga oleh factor waktu yang disediakan utuk melancarkan evaluasi.
Waktu antara 20 menit sampai 60 menit
yang disediakan untuk melancarkan evaluasi merupakan waktu yang cukup untuk
memberikan kepraktisan.
3.
Kemudahan
menskor.
Unuk
memberikan kemudahan penskoran diperlukan upaya berupa perbaikan peunjuk
penskoran dan lebih memudahkan kunci penskoran, pemisahan lembar jawaban dari
lembar soal, dan penskoran menggunakan mesin.
4.
Kemudahan
interpretasi dan aplikasi
Dalam
analisis terakhir, keberhasilan atau kegagalan evaluasi ditentukan oleh
penggunaan hasil evaluasi. Jika hasil evaluasi ditafsirkan secara tepat dn
diterapkan secara efektif, maka hasil evaluasi akan mendukung terhadap
keputusan-leputusan pembelajaran yang lebih tepat. Untuk memudahkan
interpretasi dan aplikasi hasil evaluasi diperlukan peunjuk yang jelas. Semakin
mudah interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan kepraktisan
evaluasi.
5.
Tersedianya
bentuk instrument evaluasi yang ekuivalen atau sebanding
Untuk
berbagai kegunan pendidikan, bentuk-bentuk ekuivalen untuk es yang sama sering
kali diperlukan. Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek-aspek
perilaku melalui butir-butir tes yang memiliki kesamaan dalam isi, tingkat
kesulitan, dan karakteristik lainnya. Dengan demikian, suatu benuk tes dapat
menggantikan yang lain, sedangkan alat ukur atau instrument evaluasi yang
sebanding adalah instrument evaluasi yang memiliki kemungkinan dibandingkan
makna dari skala skor umum yang dimiliki, sehingga untuk tes berseri cukup
menggunakan sau skala skor. Adanya bentuk-bentuk yang ekuivalen atau sebanding
dari instrument evaluasi akan mempraktiskan kegiatan evaluasi.
2.3 Cara Pemberian Skor
Setelah semua
data dikumpulkan, baik secara langsung maupun tidak langsung, maka langkah
selanjutnya adalah melakukan pengolahan data. Mengolah data berarti ingin
memberikan nilai dan makna terhadap data yang sudah dikumpulkan. Jika dilihat
di dalam dunia pendidikan banyak guru yang sudah mengumpulkan data hasil tes
dari peserta didiknya, tetapi tidak atau belum tahu bagaimana mengolahnya
sehingga data tersebut menjadi mubadzir, data tanpa makna. Sebaliknya, jika
hanya ada data yang relative sedikit, tetapi sudah mengetahui cara
pengolahannya, maka data tersebut akan mempunyai makna.
Pada umumnya,
pengolahan data hasil tes menggunakan bantuan statistic. Analisis statistic
digunakan jika ada data kuantitatif, yaitu data-data yang berbentuk
angka-angka, sedangkan data untuk kualitatif, yaitu data yang berbentuk
kata-kata, tidak dapat diolah dengan statistic. Jika data kualitatif itu akan
diolah dengan statistic, maka tersebut harus diubah terlebih dahulu menjadi
data kuantitatif (kuantitatif data). Meskipun demikian, tidak semua data
kualitatif dapat diubah menjadi data kuatitatif sehingga tidak mungkin diolah
dengan statistic.
Jika data sudah
diolah dengan aturan-aturan tertentu, langkah selanjutnya adalah menafsirkan
data sehingga dapat memberikan makna. Langkah penafsiran data sebenarnya tidak
dapat dilepaskan dari pengolahan data itu sendiri. Karena setelah mengolah data
dengan sendirinya akan mentafsirkan hasil pengolahan tersebut. Memberikan
interpretasi maksudnya adalah membuat pernyataan (statement) mengenai hasil
pengolahan data. Interpretasi terhadap suatu hasil evaluasi didasarkan atas
kriteria tertentu yang disebut norma. Norma dapat ditetapkan terleih dahulu
secara rasional dan sistematis sebelum kegiatan evaluasi dilaksanakan, tetapi
dapat pula dibuat berdasarkan hasil-hasil yang diperoleh dalam melaksanakan
evaluasi. Sebaliknya, jika penafsiran data itu tidak berdasarkan kriteria atau
norma tertenu, maka ini termasuk kesalahan besar. Misalnya, seorang peserta
didik naik kelas. Kenaikan kelas itu kadang-kadang tidak berdasarkan
kriteria-kriteria yag disepakati, tetapi hanya berdasarkan pertimbangan pribadi
dan kemanusiaan, maka keputusan ini termasuk keputusan yang tidak objektif dan
merugikan semua pihak.
Dalam penilaian
hasil belajar, guru dapat menggunakan kriteria yang bersumber pada tujuan setiap
mata pelajaran (standar kompetensi, keompetensi dasar). Kompetensi ini
tentu masih bersifat umum, karena itu masih harus dijabarkan menjadi indicator
yang dapat diukur dan dapat diamati. Jika kriteria ini sudah dirumuskan dengan
jelas, maka baru menafsirkan angka-angka yang sudah diolah itu berupa kata-kata
atau pernyataan. Dalam menyusun kata-kata ini guru sering mengalami kesulitan.
Kesulitan itu antara lain penyusunan kata-kata sering melampaui batas-batas
kriteria yang telah ditentukan, bahkan tidak didukung oleh data-data yang ada.
Hal ini disebabkan oleh adanya kecenderungan pada guru untuk menonjolkan
kelebihan suatu sekolah dibandingkan dengan sekolah lain. Kesulitan yang juga
sering terjadi adalah penyusuna rumusan tafsiran atau pernyataan yang
berlebihan (overstatement) di luar batas-batas kebenaran. Kesalahan
semacam ini sebenarnya tidak hanya terjadi karena kekurang telitian dalam
menafsirkan data saja, tetapi mungkin pula sudah muncul pada langkah-langkah
sebelumnya.
Untuk
menafsirkan data, dapat digunakan dua jenis penafsiran data, yaiu penafsiran
kelompok dan penafsiran individual. Penafsiran kelompok adalah penafsiran yang
dilakukan untuk mengetahui karakteristik kelompok berdasarkan data hasil
evaluasi, seperti prestasi kelompok, rata-rata kelompok, sikap kelompok
terhadap guru dan materi pelajaran yang diberikan, dan distribusi nilai
kelompok. Tuujuan utamanya adalah sebagai persiapan untuk melakukan penafsiran
kelompok, untuk mengetahui sifat-sifat tertentu pada suatu kelompok, dan untuk
mengadakan perbandingan antar kelompok. Penafsiran individual adalah penafsiran
yang tertuju pada individu saja. Misalnya, dalam kegiatan bimbingan dan
penyuluhan atau situasi klinis lainnya. Tujuan utamanya adalah untuk melihat
tingkat kesiapan peserta didik (readiness), pertumbuhan fisik, kemajuan
belajar, dan kesulian-kesulitan yang dihadapinya.
Sebelum
melakukan tes, guru harus menyusun pedoman pemberian skor, bahkan sebaiknya guru
sudah berpikir tentang srategi pemberian skor sejak merumuskan kalimat pada setiap
butir sol. Hal ini dimaksud untuk meminimalisasi subjektivitas penilai. Rumus
penskoran yang digunakan bergantung pada bentuk soalnya, sedangkan bobot (weight)
bergantung pada tingkat kesukaran soal (difficulty index), misalnya
sukar, sedang, dan mudah.
Kemudian adapun
cara pemberian skor mentah untuk tes uraian biasanya skor dicari dengan
menggunakan system bobot. System bobot ada dua macam, yaitu :
Pertama, bobot dinyatakan dalam skor maksimum sesuai dengan tingkat
kesukarannya. Misalnya untuk soal yang mudah sokor maksimumnya adalah 6, untuk
soal sedang skor maksimumnya adalah 7, dan untuk soal sukar skor maksimumnya
adalah 10. Cara ini tidak memungkinkan peserta didik mendapat skor maksimum 10.
Kedua, bobot dinyatakan dalam bilangan-bilangan tertentu sesuai dengan
tingkat kesukaran soal, misalnya, soal yang mudah diberi bobot 3, soal sedang
diberi bobot 4, dan soal sukar diberi bobot 5. Cara ini memungkinkan peserta
didik mendapat skor sepuluh.
Unuk memudahkan
pemberian skor uraian, ada baikya digunakan system yang kedua. Sisem bobot
diberikan kepada soal bentuk uraian dengan maksud untuk memberikan skor secara
adil kepada peserta didik berdasarkan kemampuannya masing-masing dalam menjawab
soal-soal yang berbeda tingkat kesukarannya. Agaknya kurang adil apabila
peserta didik yang sanggup menjawab soal yang sukar itu diberi skor yang sama
dengan pesera didik yang hanya sanggup menjawab soal yang mudah saja.
Pedoman uraian
diatas hanya dapat digunakan untuk bentuk uraian biasa, yaitu uraian bebas dan
uraian terbatas.
Kemudian ada
dua cara untuk memberikan skor pada soal tes bentuk objektif, anara lain ialah
:
a.
Tanpa
Rumus Tebakan (Non-Guessing Formula)
Biasanya
digunakan apabila soal belum diketahui tingkat kebaikannya. Caranya adalah
menghitung jumlah jawaban yang betul saja. Setiap jawaban yang betul diberi
skor 1, dan jawaban yanag salah diberi skor 0.
Jadi,
skor = jumlah jawaban yang betul.
b.
Menggunakan
Rumus Tebakan (Guessing Formula)
Biasanya
rumus ini digunakan apabila soal-soal tes itu sudah pernah diujicobakan dan
dilaksanakan sehingga dapat diketahui tingkat kebenarannya. Penggunaan rumus
tebakan ini bukan karena guru sudah mengetahui bahwa peserta didik itu menebak,
tetapi tes bentuk objektif ini memang sangat memungkinkan peserta didik untuk
menebak. Adapun rumus-rumus tebakan tersebut sebagai berikut :
1)
Untuk
item bentuk benar-salah (true-false)
Rumus
: S = ƩB – ƩS
Keterangan:
S =
skor yang dicari
ƩB =
jumlah jawaban yang benar
ƩS =
jumlah jawaban yang salah
2)
Untuk
item bentuk pilihan ganda (multiple choise)
Rumus
: S = ƩB – ƩS/n-1
Keterangan
:
S =
skor yang dicari
ƩB =
jumlah jawaban yang benar
ƩS =
jumlah jawaban yang salah
n =
jumlah alternative jawaban yag disediakan
1 =
bilangan tetap
Kemudian adapun skor total adalah jumlah skor yang diperoleh dari
seluruh bentuk soal setelah diolah dengan rumus tebakan (guessing formula).
Jika kita mengambil contoh-contoh di atas, maka skor total siswa adalah 20 + 6
+ 5 + 7 = 38. Skor ini selanjutnya disebut skor mentah (raw score).
Setelah dihitung skor mentah setiap peserta didik, langkah selanjutnya adalah
mengolah skor mentah tersebut menjadi nilai-nilai jadi. Pengolahan skor
dimaksudkan untuk menetapkan batas lulus (passing grade) dan unuk
mengubah skor mentah menjadi skor terjabar (drived score) atau skor
standar. Untuk menentukan batas lulus, terlebih dahulu harus dihitung rata-rata
(mean) dan simpangan baku (standard deviation), kemudian mengubah
skor mentah menjadi skor terjabar atau skor satndar berdasarkan kriteria atau
norma tertentu.
Kemudian ada lagi isilah konversi skor, yaitu proses tarnsformasi
skor mentah yang dicapai peserta didik ke dalam skor terjabar atau skor standar
untuk menetapkan nilai hasil belajar yang diperoleh.
[1] Drs. M. Ngalim Purwanto, MP,
1992, Prinsip – Prinsip dan Teknik Evaluasi Pengajaran, Bandung:
Rosdakarya, hlm 137
[2] Drs. Zainal Arifin, M.Pd, 2012, Evaluasi
Pembelajaran Prinsip, Teknik dan Prosedur, Bandung: Rosdakarya, hlm 249
[3] Ibid 2, hlm 258
[4] Ibid 1, hlm 139
[5] Ibid 2, hlm 258
[6] Ibid 1, hlm 137
[7] Ibid 1, hlm 141
[8] Ibid 2,hlm 264
[9]
Drs. Zainal Arifin, M.Pd, Evaluasi pembelajaran, PT remaja Rosdakarya, Bandung, 2009,
hlm 247
[10]
Dr. Nana Sudjana, Penilaian Hasil Proses Belajar Mengajar, PT remaja
Rosdakarya, Bandung, 2005, hlm 148
[11]
Drs. Zainal Arifin, M.Pd, Evaluasi pembelajaran, PT remaja Rosdakarya, Bandung, 2009,
hlm 264
Tidak ada komentar:
Posting Komentar