PENDIDIKAN UNIVERSAL: Sistem Evaluasi PAI (Valisitas & Reabilitas)

BAB II

KAJIAN TEORI

1. VALIDASI

Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan oleh penyusun atau pengguna instrumen untuk mengumpulkan data secara empiris guna mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.

Suatu alat ukur disebut memiliki validitas apabila alat ukur tersebut isinya layak mengukur objek yang seharusnya diukur dan sesuai dengan kreteria tertentu, artinya adanya kesesuaian antara alat ukur dengan fungsi pengukuran dan sasaran pengukuran. Ini sesuai dengan Encyclopedia of Educational Evaluation yang ditulis oleh Scarvia B Anderson dan disadur oleh Prof. Dr. Suharsimi Arikunto (2007, 65) bahwa A test is valid if it measures what it purpose to measure bila diartikan sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Bilamana alat ukur tidak memiliki validitas yang dapat dipertanggung jawabkan, maka data yang masuk juga sis dan kesimpulan yang ditarik juga menjadi salah.

I. Validitas Tes Hasil Belajar

Menurut Suharsimi Arikunto 2007, validitas sebuah tes dapat diketahui dari hasil pemikiran dan dari hasil pengalaman. Hal yang pertama akan diperoleh validitas logis dan hal yang kedua akan diperoleh validitas empiris. Dua hal inilah yang menjadi dasar pengelompokan validitas tes.

1. Validasi logis

Mengandung arti penalaran, sehingga validitas logis untuk suatu instrumen evaluasi menunjuk pada kondisi bagi sebuah instrumen yang memenuhi persyaratan valid berdasarkan hasil penalaran. Kondisi valid itu dipandang terpenuhi karena instrument itu telah dirancang sebaik mungkin menurut ketentuan yang ada.

Dengan keadaan itu validitas logis dapat dicapai apabila instrument disusun mengikuti ketentuan yang ada. Validitas logis yang dapat dicapai oleh sebuah instrumen terdiri dari dua yaitu :

a. Validitas Isi

Validitas isi bagi sebuah instrumen menunjuk suatu kondisi sebuah instrument yang disusun berdasarkan isi materi pelajaran yang dievaluasi. Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang di berikan. Oleh karena materi yang diajarkan tertera dalam kurikulum maka validitas ini sering disebut juga dengan validitas kurikuler.

Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara merinci materi kurikulum atau materi buku pelajaran.

b. Validitas Konstruk

Validitas konstruk sebuah instrumen menunjukkan suatu kondisi sebuah instrumen yang disusun berdasarkan konstruk-konstruk aspek kejiwaan yang seharusnya dievaluasi. Sebuah tes dikatakan memiliki validitas konstruk apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berfikir seperti yang disebutkan dalam tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.

2. Validitas Empiris

Mengandung arti kata pengalaman. Sebuah instrument dikatakan memiliki validitas empiris apabila sudah di uji dengan pengalaman. Sebagai contoh, seseorang dapat diakui jujur oleh masyarakat lain apabila dalam pengalaman dia diakui memang jujur.
Pada Validitas empiris terdiri dari dua cara yang dilakukan untuk mengujinya sehingga dia menjadi valid. Pengujian itu dilakuakn dengan membandingkan kondisi instrumen yang bersangkutan dengan suatu ukuran. Kriteria yang digunakan adalah :

a) Validitas Konkuren

Disebut juga dengan validitas “yang ada sekarang ‘tetapi lebih dikenal dengan validitas empiris. Sebuah instrument dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika ada istilah :sesuai” tentu ada dua hal yang dipasangkan, dimana dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada.

Dalam membandingkan hasil sebuah tes maka diperlukan suatu alat pembanding. Maka hasil tes merupakan sesuatu yang dibandingkan. Contoh : seorang guru ingin mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk ini perlu sebuah kreteria masa lalu yang datanya sekarang dimiliki. Misalnya nilai ulangan harian atau nilai semester yang lalu.

b) Validitas prediksi

Prediksi artinya meramal. Dengan meramal selalu mengenai hal yang akan datang jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan untuk meramalkan apa yang terjadi pada masa yang akan datang. Misalnya tes masuk perguruan tinggi adalah sebuah tes yang diperkirakan dapat meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi rendahnya kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu menjamin keberhasilan kelak. Sebaliknya seorang calon dikatakan tidak lulus tes karena memiliki nilai tes yang rendah jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang akan datang. a. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes mengikuti pelajaran diperguruan tinggi. Jika ternyata siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki validitas.

II. Validitas Item Tes Hasil Belajar

Tinggi rendahnya validitas suatu tes secara keseluruhan sangat dipengaruhi oleh validitas yang dimiliki oleh masing-masing butir item yang membangun tes tersebut. Semakin besar dukungan yang diberikan oleh butir-butir item terhadap tes hasil belajar maka tes tersebut akan semakin dapat menunjukkan kemantapannya. Item tes hasil belajar dapat dikatakan valid apabila skor-skor pada butir item yang bersangkutan memiliki kesesuaian arah dengan skor totalnya. Atau dengan kata lain memilki korelasi positif yang signifikan antara skor item dengan skor totalnya.

Suatu butir item dikatakan valid jika skor item yang bersangkutan berkorelasi positif yang signifikan dengan skor total. Untuk menentukan valid tidaknya suatu butir item dapat digunakan teknik korelasi product moment dan korelasi point biserial.

Penyebab Invaliditas

Ancaman utama terhadap validitas instrumen adalah:

1) Ketakterwakilan konstruk

Menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur oleh instrumen;

2) Penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi konstruk.

Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran konstruk (Construct irrelevant difficulty).

Penyimpangan kemudahan konstruk terjadi ketika faktor-faktor luar seperti kata-kata kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab benar dengan cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas tidak sejalan terhadap sebagian atau keseluruhan anggota kelompok.

Sementara bila terjadi penyimpangan keragaman konstruk yang pertama menyebabkan seseorang memperoleh skor yang lebih tinggi dibanding dengan kemampuan yang sebenarnya, dan terjadinya penyimpangan keragaman konstruk yang kedua menyebabkan seseorang memperoleh skor yang lebih rendah dibanding dengan kemampuan yang sebenarnya

B. KESUKARAN BUTIR (P).

Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha pemecahannya. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena diluar jangkauannya.

Seorang akan menjadi hafal akan kebiasaan gurunya dalam pembuatan soal. Dengan kebiasaaan ini maka siswa akan belajar giat untuk menghadapi ulangan dengan guru yang terbiasa memberikan soal sukar, sedangkan siswa akan malas belajar bila akan ujian dengan guru yang terbiasa dengan soal ulangan yang mudah-mudah.

Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut dengan indeks kesukaran. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,00 menunjukkan kalau soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling baik pada 0,5.

Dalam istilah evaluasi, indeks kesukaran ini diberi simbol P singkatan ari proporsi. Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan dengan P = 0,20. sebaliknya soal dengan P = 0,30 lebih sukar daripada soal dengan P = 0,80.

Rumusan mencari indeks kesukaran menurut Daryanto (2005,180) adalah :

Dimana :

P = indeks kesukaran

B = banyaknya siswa yang menjawab soal itu dengan betul

JS = jumlah seluruh siswa peserta tes.

Misalkan :

Jumlah siswa peserta tes dalam suatu kelas ada 40 orang.dari 40 orang siswa tersebut 12 orang dapat mengerjakan soal no 1 dengan betul. Maka indeks kesukarannya adalah:

Berarti soal ini berada dalam kategori sedang

Berdasarkan ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut :

- soal dengan P 0,00 sampai 0,30 adalah soal sukar

- soal dengan P 0,30 sampai 0,70 adalah soal sedang

- soal dengan P 0,70 sampai 1,00 adalah soal mudah

Walaupun demikian, ada yang berpendapat bahwa soal-soal yang dianggap baik yaitu soal-soal dengan tingkat kesukaran sedang yaitu 0,30-0,70. tapi perlu diketahui bahwa soal-soal yang terlalu mudah atau terlalu sukar, lalu tidak berarti tidak boleh digunakan. Hal ini tergantung penggunaannya. Jika dari pengikut banyak, kita menghendaki yang lulus hanya sedikit, kita ingin siswa yang top, maka lebih baik mengambil butir-butir tes yang sukar.

Sebaliknya jika kekurangan pengikut ujian, kita pilihkan soal-sola ujian yang mudah. Tambahan lagi, soal yang mudah akan membangkitkan semangat siswa yang lemah dan soal yang sukar akan menambah gairah belajar bagi siswa yang pandai.

DAYA PEMBEDA (D)

Daya pembeda soal yaitu kemampuan sesuatu soal untuk membedakan antara siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah. Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi ( D), dan nilainya berkisar antara 0,00 sampai 1,00. Pada daya pembeda ini berlaku tanda negatif yang digunakan jika sesuatu soal “terbalik” menunjukkan kualitas testee yaitu anak pandai disebut bodoh dan anak bodoh disebut pandai.

Dengan demikian ada tiga titik pada daya pembeda yaitu:

Bagi suatu soal yang dapat dijawab benar oleh siswa kemampuan tinggi dan siswa kemampuan rendah, maka soal itu tidak baik karena tidak punya daya pembeda. Demikian juga jika semua kelompok bawah menjawab salah dan siswa berkemampuan tinggi juga sama-sama menjawab salah, maka soal itu tidak mempunyai daya beda sama sekali. Cara menentukan daya pembeda ( nilai D )

Cara menentukan daya pembeda ( nilai D )yaitu perlu dibedakan antara kelompok kecil ( kurang dari 100 ) dan kelompok besar ( 100 orang ke atas ).

a. Untuk kelompok besar

Mengingat biaya dan waktu menganalisis, maka untuk kelompok besar biasanya hanya diambil dua kutub saja yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27 % skor terbawahsebagai kelompok bawah ( JB)

b. Untuk kelompok kecil

Seluruh kelompok tes di bagi dua sama besar, 50% kelompok atas dan 50% kelompok bawah

Contoh :

Seluruh pengikut tes dideretkan mulai dari skor teratas sampai kepada skor terendah, lalu di bagi dua.

Rumus Mencari Daya Pembeda menurut Daryanto ( 2005, 186) yaitu :

Dimana :

D = Daya pembeda

J = jumlah peserta tes

JA = banyak peserta kelompok atas

JB = banyak peserta kelompok bawah

BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar

BB = banyak peserta kelompok bawah yang menjawab soal dengan benar

PA = proporsi peserta kelompok atas yang menjawab benar ( ingat P sebagai indeks kesukaran )

PB = Proporsi peserta kelompok bawah yang menjawab benar

Contoh :

Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang siswa, didapat skor sebagai berikut:

A = 5 F = 6 K = 7 P = 3

B = 7 G = 6 L = 5 Q = 8

C = 8 H = 6 M = 3 R = 8

D = 5 I = 8 N = 7 S = 6

E = 10 J = 7 O = 9 T = 6

Dari angka yang belum teratur tersebut kemudian dibuat urutan penyebaran, dari skor yang paling tinggi ke skor yang paling rendah.

Uraian ini menunjukkan adanya kelompok atas ( JA) dan kelompok bawah ( JB).
Pada uraian di atas dapat ditunjukkan kelompok A dan B. Dan hal ini mempermudah menentukan BA dan BB.

Dimana

BA = Banyaknya siswa yang menjawab benar pada kelompok atas A dan

BB = banyaknya siswa yang menjawab benar pada kelompok bawah B

Seperti yang diketahui, soal yang baik adalah soal yang dapat membedakan antara anak berkemampuan tinggi dengan anak berkemampuan rendah, dilihat dari dapat atau tidaknya ia mengerjakan soal tes.

Bila diperhatikan tabel diatas, dilihat khusus untuk butir soal no satu, dari kelompok atas yang menjawab benar adalah 8 orang, dari kelompok bawah yang menjawab betul adalah 3 orang. Dan diterapkan rumus daya pembeda maka :

JA = 10

JB = 10

PA = 0,8

PB = 0,9

BA = 8

BB = 9

Maka D = PA – P B

= 0,8 – 0,9

D = 0,1

Dengan demikian maka daya pembeda untuk soal no 1 adalah 0,1 dan ini berarti butir soal no satu ini jelek.

Klasifikasi daya pembeda yaitu ;

D = 0,00 – 0,20 : jelek

D = 0,20 – 0,40 : cukup

D = 0,40 – 0,70 : baik

D = 0,70 – 1,00 : baik sekali

D = negatif, semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D negatif sebaiknya dibuang saja.

D. FUNGSI DISTRAKTOR

Disebut juga dengan pola jawaban atau fungsi pengecoh, yaitu distribusi siswa dalam hal menentukan pilihan pada soal bentuk pilihan ganda. Fungsi distraktor ini diperoleh dengan menghitung banyaknya siswa yang memilih pilihan jawaban a, b, c, d dan e yang tidak memiliki pilihan manapun. Dalam istilah evaluasi disebut omit disingkat O.

Dari pola jawaban soal dapat ditentukan apakah pengecoh berfungsi sebagai pengecoh dengan baik atau tidak. Pengecoh yang tidak dipilih sama sekali oleh siswa berarti pengecoh itu jelek, dan terlalu menyolok menyesatkan. Sebaliknya sebuah distraktor dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep atau kurang menguasai bahan. Dengan melihat pola jawaban soal, dapat diketahui :

a. taraf kesukaran soal

b. taraf pembeda soal

c. baik tidaknya distraktor.

Sesuatu distraktor dapat diperlakukan dengan 3 cara yaitu :

a. diterima karena sudah baik

b. ditolak karena tidak baik

c. ditulis kembali karena kurang baik.

Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga hanya perlu ditulis kembali, dengan perubahan seperlunya.

Menulis soal adalah suatu kesukaran yang sulit, sehingga apabila masih dapat distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5 % pengikut tes.

Contoh perhitungan :

Dari analisis sebuah item, pola diketahui sebagai berikut ;

Dari pola jawaban soal ini dapat dicari :

1. P = 21/60 = 0,35

2. D = PA – PB = 15/30 – 6/30 = 0,30

3. distraktor : semua distraktornya sudah berfungsi dengan baik karena sudah dipilih oleh lebih dari 5% pengikut tes.

4. dilihat dari segi omit 9 kolom pilihan paling kanan) adalah baik. Sebuah item dikatakan baik jika omitnya tidak lebih dari 10% pengikut tes.

( 5% dari pengikut tes = 5% x 60 orang = 3 orang). Sebenarnya ketentuan ini hanya berlaku untuk tes pilihan ganda dengan 5 alternatif dan p = 0,80. tetapi demi kepraktisan diberlakukan untuk semua.

E. RELIABILITAS

Reliabilitas instrumen adalah keadaan instrumen yang menunjukkan hasil pengukuran yang reliable (tidak berubah-ubah, konsisten). Instrumen yang reliable adalah instrumen yang apabila digunakan untuk mengukur subyek atau objek yang sama pada waktu yang berbeda dan pengukuran dilakukan oleh orang yang berbeda hasilnya tetap sama.

Beberapa faktor penting yang mempengaruhi reliabilitas suatu tes yaitu:

Kemampuan peserta tes atau subjek uji coba. Makin heterogen atau makin berbeda kemampuan peserta tes makin tinggi reliabilitas tes.
Semakin besar jumlah peserta tes semakin besar reliabilitas, karena semakin banyak peserta tes maka semakin beragam kemampuannya.
Panjang pendeknya tes. Jumlah item tes yang banyak dengan mengkaji beberapa tujuan akan lebih reliable dibandingkan dengan jumlah item yang sedikit, karena akan lebih representatif. Namun jumlah item tes yang terlalu banyak akan melelahkan dan mengganggu konsentrasi sehingga hasil yang diperoleh tidak tepat lagi.
Evaluasi yang subjektif juga akan menurunkan reliabilitas.
Hal yang berhubungan dengan penyelenggaraan tes.

Adanya hal-hal yang mempengaruhi hasil tes ini semua, secara tidak langsung akan mempengaruhi reliabilitas soal tes.

Reliabilitas instrumen dinyatakan dengan koefisien reliabilitas. Instrumen yang reliable adalah instrumen yang memiliki koefisien reliabilitas minimal 0,70. Sebaiknya koefisien reliabilitas instrumen 0,80 atau lebih. Koefisien reliabilitas instrumen dihitung dengan menggunakan rumus tertentu.

A. Pengujian Reliabilitas Tes Bentuk Objektif

Pada tes belajar bentuk objektif, ada tiga macam metode yang dapat digunakan untuk menentukan taraf reliabilitas.

Metode atau teknik ulangan (test-retest method) atau single test-double trial method.

Instrumen penelitian test-retest dilakukan dengan cara mencobakan instrumen dua kali pada responden. Jadi dalam hal ini instrumennya sama, respondennya sama, dan waktunya yang berbeda. Reliabilitas diukur dari koefisien korelasi antara percobaan pertama dengan yang berikutnya. Bila koefisien korelasi positif dan signifikan maka instrumen tersebut reliable. Pengujian cara ini sering juga disebut stability, yaitu seberapa stabil skor yang diperoleh individu apabila dilakuakn pengujian dalam waktu yang berbeda. Rumus yang dapat digunakan untuk menentukan reliabiltas test dengan metode test-retest antara lain adalah Product Momen Correlation. Yaitu sebagai berikut:

Dimana:

X = skor test pertama

Y = skor test kedua

N = jumlah peserta tes

Cara lain yang dapat digunakan dengan teknik tes retes ini adalah tekinik korelasi rank- order dari Spearmen menggunakn rumus:

Dimana:

ρ = koefisien korelasi

D = difference (beda antara rank skor hasil tes I dengan rank skor hasil tes II)

= R_I – R_II

N = banyaknya peserta tes.

Metode Belah Dua (split-half method) atau Single Test Single Trial Method

Dalam menggunakan metode ini pendidik atau evaluator hanya menggunnakan sebuah tes dan dicobakan satu kali. Oleh sebab itu disebut juga singel-test-singel-trial method. Pada metode ini tes yang diberikan dibagi/dibelah menjadi dua bagian. Jumlah item yang diberikan harus genap sehingga dapat dibagi dua dan tiap kelompok memiliki jumlah item/butir soal yang sama jumlahnya.

Untuk menentukan reliabilitas seluruh tes dapat digunakan rumus Spearman-Brown sebagai berikut:

Rumus Spearman Brown:

Dimana:

korelasi antara skor-skor setiap belahan tes.

koefisien reliabilitas tes.

Cara lain yang juga dapat digunakan pada metode singel-test-singel-trial adalah formula Rulon, Flanagan, Kuder-Richardson, Hoyt.

Metode Bentuk Paralel atau Metode Double Test Double Trial

Pada metode ini dipergunakan dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soal berbeda. Pengujian reliabilitas dengan cara ini cukup dilakukan sekali, tetapi instrumennya dua, pada responden yang sama, waktu yang sama, instrumen berbeda. Reliabiltas instrumen dihitung dengan cara mengkorelasikan antara data instrumen yang satu dengan data instrumen yang dijadikan equivalen. Bila koefisien korelasi positif dan signifikan maka instrumen tersebut reliable.

Kelemahan dari metode ini adalah kesukaran dalam penyusunan item yang parallel dengan item pada tes pertama, selain itu juga membutuhkan biaya yang lebih mahal dan memakan waktu yang lebih lama.

Rumus yang dapat digunakan untuk menentukan reliabilitas dengan metode parallel ini adalah Product Moment Correlation dan Rank Order Correlation.

B. Pengujian Reliabilitas Tes Bentuk Uraian

Pengujian reliabilitas tes bentuk uraian tidak dapat dilakukan seperti contoh di atas. Butir soal uraian menghendaki gradualisasi penilaian. Barangkali butir soal nomor 1 penilaian terendah adalah 0 dan penilaian tertinggi adlah 10, tetapi soal nomor 2 mungkin diberi nilai tertinggi hanya 5 dan butir soal nomor 3 penilaian tertinggi misalnya 5 dan sebagainya.

Untuk keperluan mencari reliabilitas tes perlu juga dilakukan analisa item seperti halnya tes bentuk Obkektif. Skor untuk masing-masing item dicantumkan pada kolom item menurut apa adanya. Rumus yang digunakan adlah rumus alpha sebagai berikut.

Keterangan:

∑σ²_i = jumlah varians skor tiap-tiap item

σ²_t = varians total

Laman

Sabtu, 10 Januari 2015

Sistem Evaluasi PAI (Valisitas & Reabilitas)