Selasa, 12 November 2013

MENGANALISIS HASIL TES



BAB I
PENDAHULUAN

1.1             Latar Belakang

Banyak guru yang sudah mengumpulkan data hasil tes dari peserta didiknya, tetapi tidak atau belum tahu bagaimana mengolahnya sehingga data tersebut menjadi mubadzir, data tanpa makna. Sebaliknya, jika hanya ada data yang relative sedikit, tetapi sudah tahu cara pengolahannya, maka data tersebut akan mempunyai makna. Misalnya, seorang peserta didik memperoleh skor 60 dari ulangan hariannya. Jika hanya skor ini saja yang diperhatikan, tanpa melihat lebih jauh sikap dan keterampilannya, maka skor itu kurang bermakna. Jika ada faktor-faktor lain di samping skor itu, baik tentang sikap maupun tentang keterampilannya, maka skor tersebut akan memberikan makna sehingga guru dapat membuat keputusan dan mempertanggungjawabkan hasil belajar peserta didik tersebut dengan sebaik-baiknya. Oleh sebab itu, seorang evaluator harus betul-beul menguasai bagaimana cara memberikan skor yang baik dan benar serta adil sehingga tidak merugikan berbagai pihak.
Oleh sebab itu makalah ini di buat untuk membahas tentang bagaimana cara untuk menganalisis hasil tes, apa saja yang menjadi acuan evaluasi, dan juga bagaimana cara pemberian skor hasil tes yang baik sehingga tidak merugikan berbagai pihak.

1.2             Rumusan Masalah
1.      Apakah yang dimaksud dengan validitas, reliabilitas, objektivitas dan kepraktisan dalam menganalisis hasil tes ?
2.      Apa saja yang menjadi acuan evaluasi ?
3.      Bagaimana cara pemberian skor ?
1.3             Tujuan Penulisan
1.      Untuk  menjelaskan tentang pengertian validitas,reliabilitas, objektivitas dan kepraktisan.
2.      Agar mengetahui acuan yang di gunakan dalam evaluasi.
3.      Agar mengetahui cara dalam pemberian skor.


BAB II
PEMBAHASAN
2.1      Validitas, Reliabilitas, Objektivitas dan Kepraktisan Dalam Menganalisis Hasil Tes
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian tes tersebut.Tes yang digunakan guru harus memilki kualitas yang lebih baik dilihat dari segala sisi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur penyusunan tes.
Analisis kualitas tes berkaitan dengan pertanyaan yang menunjukkan dua hal pokok, yaitu validitas dan reliabilitas. Namun dalam kesempatan ini, akan dibahas empat karakteristik, yang juga digunakan untuk mengukur kesesuaian, efisiensi, dan kemantapan suatu alat penilaian atau suatu tes dipergunakan macam – macam kualitas, seperti validitas, reliabilitas, objektivitas dan kepraktisan.
a.    Validitas
Validitas adalah kualitas yang menunjukkan hubungan antara suatu pengukuran dengan arti atau tujuan kriteria belajar atau tingkah laku. Validitas merupakan syarat terpenting dalam suatu alat evaluasi. Suatu teknik evaluasi dikatakan mempunyai tingkat validitas yang tinggi apabila teknik evaluasi tersebut dapat mengukur apa sebenarnya akan diukur. Validitas bukanlah suatu ciri atau sifat yang mutlak dari suatu teknik evaluasi, ia merupakan suatu ciri relatif terhadap tujuan yang hendak dicapai oleh pembuat tes.[1]
Ada dua unsur penting dalam validitas ini, yaitu:
a.    Validitas menunjukkan suatu derajat, ada yang sempurna, sedang, dan rendah.
b.    Validitas selalu di hubungkan dengan suatu putusan atau tujuan yang spesifik.
Gronlund mengemukakan, bahwa ada tiga faktor yang mempengaruhi validitas hasil tes, yaitu:
1.  Faktor Instrumen Evaluasi
Mengembangkan instrument evaluasi memang tidaklah mudah, karena dalam mengembangkannya, seorang evaluator harus memperhatikan hal – hal yang mempengaruhi validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen , seperti silabus, kisi – kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran, daya pembeda,dan sebagainya.
2.    Faktor administrasi evaluasi dan penskoran
Untuk faktor ini seringkali terjadi kesalahan, seperti alokasi waktu untuk pengerjaan soal yang tidak proporsional, memberikan bantuan kepada peserta didik dengan berbagai cara, peserta didik saling menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta didik yang kurang menguntungkan.
3.    Faktor jawaban peserta didik
Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh dari pada dua faktor yang telah dijelaskan diatas. Faktor ini meliputi, kecenderungan peserta didik untuk menjawab secara cepat, tetapi tidak tepat, keinginan untuk melakukan coba – coba, dan penggunaan gaya bahasa tertentu dalam menjawab bentuk soal uraian tersebut.
Kerlinger mengemukakan, “validitas instrument tidak cukup ditentukan oleh derajat ketepatan instrument untuk mengukur apa yang seharusnya diukur, tetapi perlu juga dilihat dari tiga kriteria, antara lain: Appropritness yang menunjukkan kelayakan dari tes sebagai suatu instrumen, yaitu seberapa jauh instrument dapat menjangkau keragaman aspek perilaku peserta didik; Meaningfullness yang menunjukkan kemampuan instrument dalam memberikan keseimbangan soal – soal pengukurannya berdasar tingkat kepentingan dari setiap fenomena; Usefullness to inferences yang menunjukan sensitif tidaknya suatu instrument dalam menangkap fenomena perilaku dan tingkat ketelitian yang ditunjukkan dalam membuat kesimpulan.”
Teknik yang sama dapat digunakan untuk beberapa tujuan yang berbeda, dan validitasnya dapat berbeda – beda dari yang tinggi kepada yang rendah, bergantung pada tujuan.
Jenis – jenis validitas, antara lain:
1.    Validitas Isi
Yaitu validitas yang dimana suatu tes dikatakan memiliki content validity jika scope dan isi kurikulum yang sudah diajarkan. Isi tes sesuai dengan atau mewakili sampel hasil – hasil belajar yang seharusnya dicapai menurut tujuan kurikulum.
2.    Validitas Konstruk
Yaitu validitas yang dimana suatu tes dikorelasikan dengan ciri – ciri yang disebutkan dalam konsepsi tadi, yaitu konsepsi tentang objek yang akan di tes.
3.    Validitas Konkuren
Jika hasil tes mempunyai korelasi yang tinggi dengan hasil suatu alat ukur lain terhadap bidang yang sama pada waktu yang sama pula, maka dikatakan tes itu memiliki konkurent validity.
4.    Validitas Predictive
Validasi yang dimana jika hasil korelasi tes itu dapat meramalkan dengan tepat keberhasilan seseorang pada masa mendatang di dalam lapangan tertentu atau jika kriteria standar yang digunakan adalah untuk meramalkan prestasi belajar murid di  masa mendatang. Validitas ini bermaksud melihat hingga mana suatu tes dapat memprakirakan perilaku peserta didik pada masa yang akan datang.
5.    Validitas Permukaan
Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau tampang dari instrument itu sendiri.
6.    Validitas Empiris
Validitas ini biasanya menggunakan teknik statistik, yaitu analisis korelasi. Hal ini disebabkan karena validitas ini mencari hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolak ukur di luar tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan diukur.
Anastasi dalam Conny Semiawan Stamboel mengemukakan ada delapan kriteria sebagai bahan bandingan untuk merumuskan apa yang hendak diselidiki oleh suatu tes, yaitu:
a.    Diferensiasi umur
Kriteria yang paling utama dalam validitas tes inteligensi adalah umur, selain itu adapula hal lain yang juga perlu dicermati adalah corak kondisi lingkungan tempat tes itu dibakukan.
b.    Kemajuan akademis
Pada umumnya tes inteligensi divalidkan dengan kemajuan akademis, dengan kata lain, berhasil tidaknya pendidikan seseorang tidak hanya dilihat dari faktor intelektual, tetapi juga dapat dilihat dari faktor non-intelektual.
c.    Kriteria dalam pelaksanaan latihan khusus
Corak kriteria dalam pengembangan tes bakat khusus didasarkan pada prestasi dalam pelatihan tertentu secara khusus. Beberapa tes bakat profesi telah divalidkan dengan tes hasil belajar dalam bidang – bidang tersebut.
d.   Kriteria dalam pelaksanaan kerja
Dalam validitas tes kepribadian dan validitas tes bakat khusus banyak digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan kerja.
e.    Penilaian
Yaitu teknik untuk memperoleh informasi tentang kemajuan belajar peserta didik di sekolah. Selain itu, juga mencakup pekerjaan yang memerlukan latihan khusus ataupun sukses dalam penilaian pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis.
f.     Kelompok yang dipertentangkan
Konsep validitas melalui kelompok yang dipertentangkan menyelidiki pengaruh kehidupan sehari – hari yang tak disengaja. Kriteria ini didasarkan atas kelebihan suatu kelompok tertentu dihadapkan pada kelompok yang lain dalam menjalankan suatu tes tertentu.
g.    Korelasi dengan tes lain
Korelasi antara tes baru dengan tes lama merupakan perbandingan kriteria dalam menyelidiki perilaku yang sama.
h.    Konsistensi internal
Adalah skor total yang diperoleh peserta didik dalam suatu tes. Kriteria ini terutama digunakan dalam bidang tes kepribadian. Kadang – kadang untuk keperluan ini juga digunakan percobaan tes dengan dua kelompok, yaitu antara kelompok yang berhasil dan kurang berhasil. Kriteria konsistensi internal ini menghasilkan indeks homoginitas soal, tetapi tidak dapat dianggap sepenuhnya sebagai pengganti validitas.
7.    Validitas Faktor
Dalam penilaian hasil belajar, sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas beberapa faktor yang diperoleh berdasarkan indikator dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoretisnya.[2]
b.   Reliabilitas
Keandalan atau reliabilitas adalah kualitas yang menunjukkan kemantapan ekuivalensi atau stabilitas suatu pengukuran yang dilakukan atau tingkat atau derajat konsistensi dari suatu instrumen.[3] Suatu alat evaluasi dikatakan andal jika ia dapat dipercaya, konsisten atau stabil dan produktif, jadi yang dipentingkan disini ialah ketelitiannya. Keandalan suatu tes dinyatakan dengan koefisien reliability, yaitu dengan mencari korelasi, seperti :
1.      Dengan metode dua tes
2.      Dengan metode satu tes
3.      Metode split-half
4.      Split-half dengan cara lain
5.      Metode Kuder-Richardson
Selain itu, adapun faktor- faktor yang mempengaruhi keandalan suatu tes, antara lain:
1.      Luas tidaknya sampling yang diambil.
2.      Perbedaan bakat dan kemampuan murid yang di tes.
3.      Suasana dan kondisi testing.[4]
Reliabilitas tes berkenaan dengan pertanyaan, apakah suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yang telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu memberikan hasil yang sama bila diteskan pada kelompok yang sama pada waktu waktu atau kesempatanyang berbeda.
Sementara itu, Kerlinger mengemukakan bahwa reliabilitas dapat diukur dari tiga kriteria, yaitu: Stability yang menunjukkan keajegan suatu tes dalam mengukur gejala yang sama dalam waktu yang berbeda; Dependability yang menunjukkan kemantapan suatu tes atau seberapa jauh tes dapat diandalkan; Predictability yang menunjukkan kemampuan tes untuk meramalkan hasil pada pengukuran gejala selanjutnya.
Gronlund mengemukakan ada empat faktor yang dapat memengaruhi reliabilitas, yaitu:
1.  Panjang tes
2.  Sebaran skor
3.  Tingkat kesukaran
4.  Objektivitas
Konsep reliabilitas mendasari kesalahan pengukuran yang mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, sehingga menimbulkan perubahan pada susunan kelompoknya. Tes yang reliabel adalah apabila koefisien reliabilitasnya tinggi dan kesalahan baku pengukurannya rendah. Menurut perhitungan product momentdari Pearson, ada tiga macam reliabilitas, yaitu:
1.    Koefisien stabilitas
Adalah jenis reliabilitas yang menggunakan teknik test dan retest, yaitu memberikan tes kepada sekelompok individu, kemudian diadakan pengulangan tes pada kelompok yang sama dengan waktu yang berbeda.
Kesalahan teknis ini dapat bersumber dari berbagai faktor, sehingga menyebabkan peserta didik mempunyai skor yang berbeda pada saat dua kali mengerjakan tes yang sama.
2.    Koefisien Ekuvalen
Adalah jika mengkorelasikan dua buah tes yang paralel pada kelompok dan waktu yang sama. Metode yang digunakan untuk memperoleh koefisien ekuivalen adalah metode dengan menggunakan dua buah bentuk tes yang paralel.
Kemungkinan kesalahan pada teknik ini bersumber pada derajat keseimbangan antara dua tes tersebut, serta kondisi tempat yang mungkin berbeda pada kelompok tes pertama dengan kelompok tes kedua, meskipun dilakukan pada waktu yang sama.
3.    Koefisien konsistensi internal
Adalah reliabilitas yang didapat dengan jalan mengkorelasikan dua buah tes dari kelompok yang sama, tetapi diambil dari butir – butir yang bernomor genap untuk tes yang pertama dan butir – butir bernomor ganjil untuk tes yang kedua.[5]
c.    Objektivitas
Objektivitas suatu tes dapat ditentukan oleh tingkat atau kualitas kesamaan skor – skor yang diperoleh dengan tes tersebut meskipun hasil tes itu dinilai oleh beberapa orang penilai.
Objektivitas adalah kualitas yang menunjukkan identitas atau kesamaan dari skor – skor atau diagnosis – diagnosis yang diperoleh dari data yang sama dan dari penskor –penskor kompeten yang sama. Kualitas suatu objektivitas dapat dibedakan menjadi tiga tingkatan, yaitu :
a.       Objektivitas tinggi, yaitu jika hasil tes itu menunjukkan tingkat kesamaan yang tinggi.
b.      Objektivitas sedang,  yaitu sama seperti tes yang sudah di standarisasi, tetapi pandangan subjektif skor masih mungkin muncul dalam penilaian dan interpretasinya.
c.       Objektivitas fleksibel, yaitu seperti beberapa tes yang digunakan olen Lembaga Bimbingan dan Penyuluhan untuk keperluan counseling.
d.   Kepraktisan
Kepraktisan adalah suatu kualitas yang menunjukkan kemungkinan dapat dijalankannya suatu kegunaan umum dari suatu teknik penilaian, dengan mendasarkannya pada biaya, waktu yang diperlukan untuk menyusun, kemudahan penyusunan, mudahnya penskoran, dan mudahnya penginterprestasian hasil – hasilnya.[6]
Kepraktisan suatu tes penting juga diperhatikan. Suatu tes dikatakan mempunyai kepraktisan yang baik jika kemungkinan untuk menggunakan tes itu besar. Adapun kriteria untuk mengukur praktis tidaknya suatu tes dapat dilihat dari :
a.    Biaya yang diperlukan untuk menyelenggarakan tes itu,
b.    Waktu yang diperlukan untuk menyusun tes itu,
c.    Sukar mudahnya menyusun tes itu,
d.   Sukar mudahnya menilai hasil tes itu,
e.    Sulit tidaknya menginterpretasikan hasil tes itu,
f.     Lamanya waktu yang diperlukan untuk melaksanakan tes itu.[7]
Kepraktisan merupakan syarat suatu tes standar. Kepraktisan bukan hanya dipertimbangkan ketika memilih tes yang sudah dipublikasikan, tetapi siapapun yang mengembangkan tes harus memenuhi syarat ini. Kepraktisan mengandung arti kemudahan suatu tes, baik dalam mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun meng-administrasikan-nya.
Dimyati dan Mudjiono mengemukakan faktor – faktor yang mempengaruhi kepraktisan instrument evaluasi, antara lain:
1.    Kemudahan mengadministrasi
Jika instrument evaluasi diadministrasikan oleh guru atau orang lain yang memiliki kemampuan yang terbatas, kemudahan pengadministrasian adalah suatu kualitas penting yang diminta dalam instrument evaluasi. Untuk memberikan kemudahan pengadministrasian instrument evaluasi dapat dilakukan dengan jalan memberikan petunjuk yang sederhana dan jelas, subtes sebaiknya relatif sedikit, dan pengaturan tempo tes sebaiknya tidak  menimbulkan kesulitan. Kesalahan – kesalahan dalam mengadministrasikan instrument evaluasi akan menurunkan kepraktisannya, sehingga dapat menyebabkan berkurangnya validitas dan reliabilitas suatu alat ukur.
2.    Waktu yang disediakan untuk melancarkan evaluasi
Kepraktisan juga dipengaruhi pula oleh faktor waktu yang disediakanuntuk melancarkan evaluasi, dan waktu yang cukup untuk melancarkan evaluasi dalam memberikan kepraktisan berkisar antara 20 – 60 menit.
3.     Kemudahan menskor
Untuk mencapai kemudahan dalam penskoran diperlukan upaya berupa perbaikan petunjuk penskoran dan lebih memudahkan kunci penskoran, pemisahan lembar jawaban dari lembar soal, dan penskoran menggunakan mesin.
4.    Kemudahan interpretasi dan aplikasi
Dalam analisis terakhir, keberhasilan atau kegagalan evaluasi ditentukan oleh penggunaan hasil evaluasi. Untuk memudahkan interpretasi dan aplikasi hasil evaluasi diperlukan petunjuk yang jelas, karena semakin mudah interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan kepraktisan evaluasi.
5.    Tersedianya bentuk instrument evaluasi yang ekuivalen atau sebanding
Untuk berbagai kegunaan pendidikan, bentuk – bentuk ekuivalen untuk tes yang sama seringkali diperlukan. Bentuk – bentuk ekuivalen dari sebuah tes mengukur aspek – aspek perilaku melalui butir – butir tes yang memiliki kesamaan dalam isi, tingkat kesulitan, dan karateristik lainnya. Dengan demikian, satu bentuk tes dapatmenggantikan yang lain, sedangkan instrument evaluasi yang sebanding adalah instrument evaluasi yang memiliki kemungkinan dibandingkan makna dari skor umum yang dimiliki, sehingga untuk tes berseri cukup menggunakan satu skala skor. Adanya bentuk – bentuk yang ekuivalen atau sebanding dari instrument evaluasi akan mempraktiskan kegiatan evaluasi.[8]

2.2       Acuan Evaluasi
Acuan evaluasi merupakan suatu poros atau patokan dalam mengevaluasi hasil sesuatu, terutama hasil belajar yang berupa derajat kualitas hasil tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Dalam penilaian hasil belajar, tes atau evaluasi dapat menggambarkan sampel perilaku dan menghasilkan nilai yang objektif serta akurat. Jika tes atau evaluasi yang digunakan guru kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak objektif dan tidak adil. Oleh sebab itu, tes atau evaluasi yang digunakan guru harus memiliki kualitas yang lebih baik dilihat dari berbagai segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur penyusunan tes yang digunakan termasuk baik atau kurang baik, maka perlu diadakannya acuan dalam evaluasi.
Tes atau evaluasi berkaitan dengan pertanyaan apakah tes sebagai suatu alat ukur benar-benar mengukur apa yang hendak dan seharusnya di ukur ? sampai mana tes tersebut dapat dapat diandalkan dan berguna ? keedua pertanyaan ini sebenarnya menunjukkan pada dua hal pokok, yaitu validitas dan realibilitas. Kedua hal ini sekaligus merupakan karakteristik alat ukur yang baik.
Dalam praktik evaluasi di sekolah, sering kali guru acuh tak acuh dengan kualitas suatu tes. Artinya, apakah suatu tes termasuk baik atau tidak, guru tidak mau tahu, yang penting bagi guru adalah tersedianya perangkat tes untuk melaksanakan penilaian. Adapun yang harus di perhatikan oleh guru dalam melakukan tes atau evaluasi ialah sebagai berikut :
A.    Validitas
Sebelum guru menggunakan suatu tes, hendaknya guru mengukur terlebih dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata lain, untuk melihat apakah tes tersebut valid (sahih), kita harus membndingkan skor peserta didik yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata pelajaran yang lain. Makin mendekati kedua skor tersebut, maka semakin soal ujian akhir tidak dapat dikatakan valid. Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.
Ada dua unsur penting dalam validitas ini. Pertama, validitas menunjukkan suatu derajat, ada yang sempurna, ada yang sedang, dan ada pula yang rendah. Kedua, validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik.[9]
Dalam literature modern tentang evaluasi, banyak dikemukakan tentang jenis-jenis validitas, antara lain :
a.       Validitas Permukaan (face validity)
Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat dari sisi muka atau tampang dari instrument itu sendiri.
b.      Validitas Isi (content validity)
Tujuan utama dari validitas ini ialah untuk mengetahui sejauh mana peserta didik menguasai materi pelajaran yang telah disampaikan, dan perubahan-perubahan psikologis apa yang timbul pada diri peserta didik tersebut setelah mengalami proses pembelajaran tertentu. Jika dilihat dari segi kegunaannya dalam penilaian hasil belajar, validitas ini sering disebut juga validitas kurikuler dan validitas perumusan.
Validitas kurikuler berkenaan dengan pertanyaan apakah materi tes relevan dengan kurikulum yang sudah ditentukan atau belum. Sedangkan validitas perumusan berkenaan dengan pertanyaan apakaah aspek-aspek dalam soal-soal itu beul-betul tercakup dalam perumusan tentang apa yang hendak di ukur.
c.       Validitas Empiris (empirical validity)
Validitas ini biasanya menggunakan teknik satistik, yaitu analisis korelasi. Hal ini disebabkan validitas empiris mencari hubungan antara skor tes dengan suatu kriteria tertenu yang merupakan suatu tolok ukur di luar tes yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan di ukur.
Dalam mengukur validitas suatu tes hendaknya yang menjadi kriteria sudah betul-betul valid sehingga dapat diandalkan kemampuannya dan dapat dianggap sebagai tes standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. suatu tes akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul dapa mengukur apa yang hendak di ukur dari peserta didik tertentu.
d.      Validitas Konstruk (construct validity)
Konstruk adalah konsep yang dapat diobservasi (observable) dan dapat diukur (measurable). Validitas konstruk juga sering disebu validitas logis (logical validity). Validitas konstruk berkenaan dengan pertanyaan hingga mana suatu tes betul-beul dapa mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku peserta didik yang akan diukur oleh tes tersebut. Validitas konstruk banyak dikenal dan digunakan dalam tes-tes psikologis untuk mengukur gejala perilaku yang abstrak, seperi keseiakawanan, kematangan emosi, sikap, motivasi, minat, dan sebagainya.
e.       Validitas Faktor (factorial validity)
Dalam penilaian hasil belajar sering digunakan skala pengukuran tentang suau variabel yang terdiri atas beberapa factor. Factor-faktor tersebut diperoleh berdasarkan dimensi/indicator dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoriisnya. Meskipun variabel terdiri atas beberapa factor, tetapi prinsip homogenitas untuk keseluruhan factor harus tetap dipertahankan, sehingga tidak terjadi tumpang tindih antara satu factor dengan factor yang lain. Dengan demian, kriterium yang digunakan dalam validitas fakor ini dapat diketahui dengan menghitung homogenitas skor setiap factor dengan total skor, dan antara skor dari factor yang satu dengan factor skor dari fakor yang lain.
B.     Reliabilitas.
Reliabilitas adlah tingkat atau derajat konsistensi dari suatu instrument. Reliabilitas tes berkenaan dengan pertanyaan, apaka suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yang telah diterapkan. Suau tes dikatakan reliable apabila beberapa kali pengujian menunujukan hasil yang relatif sama.[10] Pengujian suatu tes bisa dilakukan terhadap objek yang sama pada waktu yang berlainan dengan selang waktu yang tidak terlalu lama dan juga terlalu singkat, bisa juga dilakukan dengan membandingkan hasil pengujian dari tes yang setara.
Konsep realibilitas mendasari kesalahan pengukuran yang mungkin erjadi pada suatu proses pengukuran atau pada nilai tunggal tertentu, sehingga menimbulakn perubahan pada susunan kelompoknya (error of measurement). Misalnya, guru mengetes peserta didik dengan instrument tertentu dan mendapat nilai 70. Kemudian pada kesempaan yang berbeda dengan instrument yang sama, guru melakukan tes kembali, terbyata peserta didik tersebut mendapat nilai 75. Artinya, es tersebut idak reliable, karena terjadi kesalahan pengukuran. Tes yang reliable adalah apabila koefisien reliabilitasnya tinggi dan kesalahan baku pengukurannya (standard error of measurement) rendah.
C.     Kepraktisan.
Dalam kenyataan, banyak tes yang dibuat orang tidak menunjukkan kepraktisan. Padahal kepraktisan merupakan syarat suatu tes standar. Kebanyakan orang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berpikir untuk orang lain. Akibatnya, ketika tes tersebut digunakan orang lain, maka orang tersebut merasakan kesulitan. Kepraktisan bukan hanya dipertimbangkan ketika memilih tes yang sudah dipublisasikan, tetapi siapapun yang mengembangkan tes harus memenuhi syarat ini. Kepraktisan mengandung arti  kemudahan suatu tes, baik dalam mempersiapkan, menggunakan, mengolah dan menafsirkan, maupun mengadministrasikannya. Dimayati dan Mudjiono mengemukakan factor-fakor yang memengaruhi keprakisan instrumrn evaluasi meliputi “kemudahan mengadministrasi, waktu yang disediakan untuk melancarkan evaluasi, kemudahan menskor, kemudahan interpreasi dan aplikasi, tersedianya bentuk instrument evaluasi yang ekuivalen atau sebanding”.[11]
1.      Kemudahan mengadministrasi
Jika instrument evaluasi diadministrasikan oleh guru atau orang lain dengan kemampuan yang terbatas, kemudahan pengadministrasian adalah suatu kualitas penting yang diminta dalam innstrumen evaluasi. Untuk memberikan kemudahan pengadministrasian instrument evaluasi dapat dilakukan dengan jalan member petunjuk yang sederhana dan jelas, subtes seaiknya relative sediki, dan pengauran tempo tes sebaiknya tdak menimbulkan kesulitan. Kesalahan-kesalahan dalam megadministrasikan alat ukur atau instrument evaluasi akan menurunkan kepraktisannya, sehingga dapat menyebabkan berkurangnya validitas dan reliailitas suatu alat ukur.
2.      Waktu yang disediakan untuk melancarkan evaluasi.
Kepraktisan dipengaruhi juga oleh factor waktu yang disediakan utuk melancarkan evaluasi. Waktu antara 20  menit sampai 60 menit yang disediakan untuk melancarkan evaluasi merupakan waktu yang cukup untuk memberikan kepraktisan.
3.      Kemudahan menskor.
Unuk memberikan kemudahan penskoran diperlukan upaya berupa perbaikan peunjuk penskoran dan lebih memudahkan kunci penskoran, pemisahan lembar jawaban dari lembar soal, dan penskoran menggunakan mesin.
4.      Kemudahan interpretasi dan aplikasi
Dalam analisis terakhir, keberhasilan atau kegagalan evaluasi ditentukan oleh penggunaan hasil evaluasi. Jika hasil evaluasi ditafsirkan secara tepat dn diterapkan secara efektif, maka hasil evaluasi akan mendukung terhadap keputusan-leputusan pembelajaran yang lebih tepat. Untuk memudahkan interpretasi dan aplikasi hasil evaluasi diperlukan peunjuk yang jelas. Semakin mudah interpretasi dan aplikasi hasil evaluasi, semakin meningkatkan kepraktisan evaluasi.
5.      Tersedianya bentuk instrument evaluasi yang ekuivalen atau sebanding
Untuk berbagai kegunan pendidikan, bentuk-bentuk ekuivalen untuk es yang sama sering kali diperlukan. Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek-aspek perilaku melalui butir-butir tes yang memiliki kesamaan dalam isi, tingkat kesulitan, dan karakteristik lainnya. Dengan demikian, suatu benuk tes dapat menggantikan yang lain, sedangkan alat ukur atau instrument evaluasi yang sebanding adalah instrument evaluasi yang memiliki kemungkinan dibandingkan makna dari skala skor umum yang dimiliki, sehingga untuk tes berseri cukup menggunakan sau skala skor. Adanya bentuk-bentuk yang ekuivalen atau sebanding dari instrument evaluasi akan mempraktiskan kegiatan evaluasi.
2.3       Cara Pemberian Skor  
Setelah semua data dikumpulkan, baik secara langsung maupun tidak langsung, maka langkah selanjutnya adalah melakukan pengolahan data. Mengolah data berarti ingin memberikan nilai dan makna terhadap data yang sudah dikumpulkan. Jika dilihat di dalam dunia pendidikan banyak guru yang sudah mengumpulkan data hasil tes dari peserta didiknya, tetapi tidak atau belum tahu bagaimana mengolahnya sehingga data tersebut menjadi mubadzir, data tanpa makna. Sebaliknya, jika hanya ada data yang relative sedikit, tetapi sudah mengetahui cara pengolahannya, maka data tersebut akan mempunyai makna.
Pada umumnya, pengolahan data hasil tes menggunakan bantuan statistic. Analisis statistic digunakan jika ada data kuantitatif, yaitu data-data yang berbentuk angka-angka, sedangkan data untuk kualitatif, yaitu data yang berbentuk kata-kata, tidak dapat diolah dengan statistic. Jika data kualitatif itu akan diolah dengan statistic, maka tersebut harus diubah terlebih dahulu menjadi data kuantitatif (kuantitatif data). Meskipun demikian, tidak semua data kualitatif dapat diubah menjadi data kuatitatif sehingga tidak mungkin diolah dengan statistic.
Jika data sudah diolah dengan aturan-aturan tertentu, langkah selanjutnya adalah menafsirkan data sehingga dapat memberikan makna. Langkah penafsiran data sebenarnya tidak dapat dilepaskan dari pengolahan data itu sendiri. Karena setelah mengolah data dengan sendirinya akan mentafsirkan hasil pengolahan tersebut. Memberikan interpretasi maksudnya adalah membuat pernyataan (statement) mengenai hasil pengolahan data. Interpretasi terhadap suatu hasil evaluasi didasarkan atas kriteria tertentu yang disebut norma. Norma dapat ditetapkan terleih dahulu secara rasional dan sistematis sebelum kegiatan evaluasi dilaksanakan, tetapi dapat pula dibuat berdasarkan hasil-hasil yang diperoleh dalam melaksanakan evaluasi. Sebaliknya, jika penafsiran data itu tidak berdasarkan kriteria atau norma tertenu, maka ini termasuk kesalahan besar. Misalnya, seorang peserta didik naik kelas. Kenaikan kelas itu kadang-kadang tidak berdasarkan kriteria-kriteria yag disepakati, tetapi hanya berdasarkan pertimbangan pribadi dan kemanusiaan, maka keputusan ini termasuk keputusan yang tidak objektif dan merugikan semua pihak.
Dalam penilaian hasil belajar, guru dapat menggunakan kriteria yang bersumber pada tujuan setiap mata pelajaran (standar kompetensi, keompetensi dasar). Kompetensi ini tentu masih bersifat umum, karena itu masih harus dijabarkan menjadi indicator yang dapat diukur dan dapat diamati. Jika kriteria ini sudah dirumuskan dengan jelas, maka baru menafsirkan angka-angka yang sudah diolah itu berupa kata-kata atau pernyataan. Dalam menyusun kata-kata ini guru sering mengalami kesulitan. Kesulitan itu antara lain penyusunan kata-kata sering melampaui batas-batas kriteria yang telah ditentukan, bahkan tidak didukung oleh data-data yang ada. Hal ini disebabkan oleh adanya kecenderungan pada guru untuk menonjolkan kelebihan suatu sekolah dibandingkan dengan sekolah lain. Kesulitan yang juga sering terjadi adalah penyusuna rumusan tafsiran atau pernyataan yang berlebihan (overstatement) di luar batas-batas kebenaran. Kesalahan semacam ini sebenarnya tidak hanya terjadi karena kekurang telitian dalam menafsirkan data saja, tetapi mungkin pula sudah muncul pada langkah-langkah sebelumnya.
Untuk menafsirkan data, dapat digunakan dua jenis penafsiran data, yaiu penafsiran kelompok dan penafsiran individual. Penafsiran kelompok adalah penafsiran yang dilakukan untuk mengetahui karakteristik kelompok berdasarkan data hasil evaluasi, seperti prestasi kelompok, rata-rata kelompok, sikap kelompok terhadap guru dan materi pelajaran yang diberikan, dan distribusi nilai kelompok. Tuujuan utamanya adalah sebagai persiapan untuk melakukan penafsiran kelompok, untuk mengetahui sifat-sifat tertentu pada suatu kelompok, dan untuk mengadakan perbandingan antar kelompok. Penafsiran individual adalah penafsiran yang tertuju pada individu saja. Misalnya, dalam kegiatan bimbingan dan penyuluhan atau situasi klinis lainnya. Tujuan utamanya adalah untuk melihat tingkat kesiapan peserta didik (readiness), pertumbuhan fisik, kemajuan belajar, dan kesulian-kesulitan yang dihadapinya.
Sebelum melakukan tes, guru harus menyusun pedoman pemberian skor, bahkan sebaiknya guru sudah berpikir tentang srategi pemberian skor sejak merumuskan kalimat pada setiap butir sol. Hal ini dimaksud untuk meminimalisasi subjektivitas penilai. Rumus penskoran yang digunakan bergantung pada bentuk soalnya, sedangkan bobot (weight) bergantung pada tingkat kesukaran soal (difficulty index), misalnya sukar, sedang, dan mudah.
Kemudian adapun cara pemberian skor mentah untuk tes uraian biasanya skor dicari dengan menggunakan system bobot. System bobot ada dua macam, yaitu :
Pertama, bobot dinyatakan dalam skor maksimum sesuai dengan tingkat kesukarannya. Misalnya untuk soal yang mudah sokor maksimumnya adalah 6, untuk soal sedang skor maksimumnya adalah 7, dan untuk soal sukar skor maksimumnya adalah 10. Cara ini tidak memungkinkan peserta didik mendapat skor maksimum 10.
Kedua, bobot dinyatakan dalam bilangan-bilangan tertentu sesuai dengan tingkat kesukaran soal, misalnya, soal yang mudah diberi bobot 3, soal sedang diberi bobot 4, dan soal sukar diberi bobot 5. Cara ini memungkinkan peserta didik mendapat skor sepuluh.
Unuk memudahkan pemberian skor uraian, ada baikya digunakan system yang kedua. Sisem bobot diberikan kepada soal bentuk uraian dengan maksud untuk memberikan skor secara adil kepada peserta didik berdasarkan kemampuannya masing-masing dalam menjawab soal-soal yang berbeda tingkat kesukarannya. Agaknya kurang adil apabila peserta didik yang sanggup menjawab soal yang sukar itu diberi skor yang sama dengan pesera didik yang hanya sanggup menjawab soal yang mudah saja.
Pedoman uraian diatas hanya dapat digunakan untuk bentuk uraian biasa, yaitu uraian bebas dan uraian terbatas.
Kemudian ada dua cara untuk memberikan skor pada soal tes bentuk objektif, anara lain ialah :
a.       Tanpa Rumus Tebakan (Non-Guessing Formula)
Biasanya digunakan apabila soal belum diketahui tingkat kebaikannya. Caranya adalah menghitung jumlah jawaban yang betul saja. Setiap jawaban yang betul diberi skor 1, dan jawaban yanag salah diberi skor 0.
Jadi, skor = jumlah jawaban yang betul.
b.      Menggunakan Rumus Tebakan (Guessing Formula)
Biasanya rumus ini digunakan apabila soal-soal tes itu sudah pernah diujicobakan dan dilaksanakan sehingga dapat diketahui tingkat kebenarannya. Penggunaan rumus tebakan ini bukan karena guru sudah mengetahui bahwa peserta didik itu menebak, tetapi tes bentuk objektif ini memang sangat memungkinkan peserta didik untuk menebak. Adapun rumus-rumus tebakan tersebut sebagai berikut :
1)      Untuk item bentuk benar-salah (true-false)
Rumus : S = ƩB – ƩS
Keterangan:
S = skor yang dicari
ƩB = jumlah jawaban yang benar
ƩS = jumlah jawaban yang salah
2)      Untuk item bentuk pilihan ganda (multiple choise)
Rumus : S = ƩB – ƩS/n-1
Keterangan :
S = skor yang dicari
ƩB = jumlah jawaban yang benar
ƩS = jumlah jawaban yang salah
n = jumlah alternative jawaban yag disediakan
1 = bilangan tetap

Kemudian adapun skor total adalah jumlah skor yang diperoleh dari seluruh bentuk soal setelah diolah dengan rumus tebakan (guessing formula). Jika kita mengambil contoh-contoh di atas, maka skor total siswa adalah 20 + 6 + 5 + 7 = 38. Skor ini selanjutnya disebut skor mentah (raw score). Setelah dihitung skor mentah setiap peserta didik, langkah selanjutnya adalah mengolah skor mentah tersebut menjadi nilai-nilai jadi. Pengolahan skor dimaksudkan untuk menetapkan batas lulus (passing grade) dan unuk mengubah skor mentah menjadi skor terjabar (drived score) atau skor standar. Untuk menentukan batas lulus, terlebih dahulu harus dihitung rata-rata (mean) dan simpangan baku (standard deviation), kemudian mengubah skor mentah menjadi skor terjabar atau skor satndar berdasarkan kriteria atau norma tertentu.
Kemudian ada lagi isilah konversi skor, yaitu proses tarnsformasi skor mentah yang dicapai peserta didik ke dalam skor terjabar atau skor standar untuk menetapkan nilai hasil belajar yang diperoleh.







[1] Drs. M. Ngalim Purwanto, MP, 1992, Prinsip – Prinsip dan Teknik Evaluasi Pengajaran, Bandung: Rosdakarya, hlm 137
[2] Drs. Zainal Arifin, M.Pd, 2012, Evaluasi Pembelajaran Prinsip, Teknik dan Prosedur, Bandung: Rosdakarya, hlm 249
[3] Ibid 2, hlm 258
[4] Ibid 1, hlm 139
[5] Ibid 2, hlm 258
[6] Ibid 1, hlm 137
[7] Ibid 1, hlm 141
[8] Ibid 2,hlm 264
[9] Drs. Zainal Arifin, M.Pd, Evaluasi pembelajaran, PT remaja Rosdakarya, Bandung, 2009, hlm 247

[10] Dr. Nana Sudjana, Penilaian Hasil Proses Belajar Mengajar, PT remaja Rosdakarya, Bandung, 2005, hlm 148

[11] Drs. Zainal Arifin, M.Pd, Evaluasi pembelajaran, PT remaja Rosdakarya, Bandung, 2009, hlm 264
 

Tidak ada komentar:

Posting Komentar