de_lange_framework


KERANGKA
UNTUK RUANG KELAS PENILAIAN
MATEMATIKA





ISI
1.      PENGANTAR
2.      AIMS
3.      PRINSIP
4.      MELEK MATEMATIKA
5.      KOMPETENSI MATEMATIKA
6.      TINGKAT KOMPETENSI
7.      MATEMATIKA: helai & IDE BESAR
8.      METODE UNTUK RUANG KELAS PENILAIAN
9.      PELAPORAN: KRITIK & SKOR
10.  DARI ASAS UNTUK PRAKTEK: PROSES


Jan de Lange

Freudenthal Institute
&
Pusat Nasional untuk Meningkatkan Mahasiswa Learningand Prestasi Matematika dan Ilmu


September 1999
Kerangka Penilaian Kelas di Matematika
Dokumen ini bukan kerangka untuk penilaian kelas dalam matematika. Satu bahkan mungkin berpendapat bahwa ini bukan kerangka. Ada beberapa upaya untuk merancang dan menggambarkan kerangka kerja dalam penilaian atau, lebih khusus, dalam penilaian matematika. Kami menyebutkan beberapa “kerangka” publikasi:
·        Ketiga Matematika Internasional dan (TIMSS) monografi Science Study ini, Kerangka Kurikulum Matematika dan Ilmu Pengetahuan (Robitaille et al., 1993).
·        Mengukur Pengetahuan Mahasiswa dan Keterampilan: Sebuah Kerangka Baru untuk Penilaian (Organisasi untuk Kerjasama Ekonomi dan Pembangunan [OECD], 1999).
·        “Sebuah Kerangka Merefleksikan Penilaian dan Evaluasi” (Aikenhead, 1997).
·        “Sebuah Kerangka Pengembangan kognitif Diagnostic Assessment” (Nichols, 1994).
·        “Sebuah Kerangka Penilaian Otentik dalam Matematika” (Lajoie, 1991).
·        “Menuju Kerangka Penilaian untuk Matematika Sekolah” (Goldin, 1992).
judul Goldin ini berlaku untuk semua kerangka dalam arti bahwa kita terus-menerus dalam perjalanan menuju kerangka. Secara khusus, itu berlaku untuk yang sekarang. Kerangka ini adalah hasil dari beberapa 20 tahun penelitian perkembangan pada praktek penilaian kelas. Pengalaman ini membuat jelas betapa penting dan penilaian kelas diabaikan adalah-di AS bahkan lebih daripada di sebagian besar negara-negara lain karena penekanan di AS pada tes standar. Sebuah gambaran paling tepat waktu dari literatur penelitian dalam penilaian kelas oleh Black dan Wiliam (1998) membuat tugas kita dalam beberapa hal lebih kompleks tetapi juga lebih mudah.
Kami telah sengaja dipilih untuk menghubungkan kerangka kerja kami dengan OECD (1999) kerangka kerja, yang dirancang untuk Program International Student Assessment (PISA) -tidak hanya karena itu mencerminkan filosofi kami cukup baik, tetapi juga karena kita perlu untuk menghubungkan kerangka penilaian internal dan eksternal sebanyak yang kita bisa. Kerangka yang disajikan di sini adalah dalam pembangunan berkelanjutan. Sebagai produk dari Pusat Nasional untuk Meningkatkan Belajar Mahasiswa dan Prestasi Matematika dan Sains (NCISLA), ia mencoba untuk menggabungkan contoh dan praktik yang berhubungan dengan tema yang dipilih oleh Center: Belajar untuk Memahami. Tema ini tentu berlaku untuk para peneliti di Pusat: Seperti yang kita membuat kemajuan, kita akan belajar, pemahaman kita tentang penilaian kelas akan meningkatkan dari waktu ke waktu, dan sehingga akan kerangka ini.
Struktur kerangka jelas: Kita bahas dulu filosofi kami, sehingga prinsip. Lalu kita membahas apa yang kita anggap penting dalam pendidikan matematika: melek matematika dan organisasi konten matematika. Kompetensi matematika yang diperlukan dapat dikategorikan ke dalam tiga “tingkat” dan konsep-konsep matematika ke dalam helai atau “ide-ide besar.” Kami kemudian membahas seluruh array format dan alat-alat yang tersedia untuk penilaian kelas. Umpan balik dan mencetak gol dibahas sebelum akhirnya membahas realisasi lebih praktis dari kerangka tersebut ke dalam kelas. Penilaian Besar Picture Book untuk matematika (Matematika GAP Book; Dekker & Querelle, di tekan) mendukung kerangka kerja ini, menggambarkan banyak dari ide-ide dan konsep.

tujuan

Tujuan dari penilaian kelas adalah untuk menghasilkan informasi yang memberikan kontribusi untuk proses belajar mengajar dan membantu dalam pengambilan keputusan pendidikan, di mana para pengambil keputusan termasuk siswa, guru, orang tua, dan administrator.
Tujuan pendidikan matematika adalah untuk membantu siswa menjadi matematis melek. Ini berarti bahwa individu dapat menangani matematika terlibat dalam masalah dunia nyata (yaitu alam, masyarakat, budaya-termasuk matematika) yang diperlukan untuk kehidupan pribadi individu saat ini dan masa depan (sebagai warga negara yang cerdas) dan kehidupan kerja (studi di masa depan atau bekerja ) dan bahwa individu memahami dan menghargai matematika sebagai suatu disiplin ilmu.
Tujuan dari kerangka kerja untuk penilaian kelas dalam matematika adalah untuk membawa tujuan penilaian kelas bersama-sama dengan tujuan pendidikan matematika dengan cara mulus dan koheren, dengan hasil yang optimal untuk proses belajar mengajar, dan dengan saran konkret tentang bagaimana melaksanakan penilaian kelas di situasi kelas.

prinsip

Pada pergantian abad, jumlah yang luar biasa dari perubahan yang terjadi dalam pendidikan matematika, meskipun tidak selalu dalam arah yang sama. Sebagai Black dan Wiliam (1998) benar mengamati, jumlah dari semua reformasi ini belum menambahkan hingga satu kebijakan yang efektif karena ada sesuatu yang hilang: bantuan langsung dengan tugas guru mengelola rumit dan menuntut situasi dan menyalurkan pribadi, emosional, dan sosial tekanan dari kelompok 30 atau lebih muda untuk membantu mereka belajar dan membuat mereka peserta didik lebih baik di masa depan.
Guru perlu tahu tentang masalah sambil belajar, kemajuan mereka, dan tingkat formalitas mereka beroperasi di sehingga mereka dapat menyesuaikan strategi pengajaran mereka untuk memenuhi murid didiknya kebutuhan. Seorang guru dapat menemukan informasi ini dalam berbagai cara yang berkisar dari pengamatan dan diskusi untuk tugas-tugas multi-langkah dan proyek, dari penilaian diri dan pekerjaan rumah untuk presentasi lisan.
Bila hasil kegiatan tersebut digunakan dalam cara-untuk beradaptasi pengajaran dan pembelajaran praktik-kita berbicara tentang penilaian kelas formatif.
Sebuah komponen dasar proses umpan balik ini menyampaikan informasi kepada siswa, menilai dan mengevaluasi pemahaman siswa dari informasi ini, dan kemudian mencocokkan ajaran berikutnya dan tindakan belajar dengan pemahaman sekarang dari siswa (Hattie & Jaeger, 1998).
Beberapa mengidentifikasi penilaian kelas dengan penilaian formatif. Kami setuju dengan Biggs (1998) bahwa penilaian formatif dan penilaian sumatif tidak saling eksklusif, seperti yang disarankan oleh Black dan Wiliam (1998). Argumen mereka adalah bahwa umpan balik mengenai kesenjangan antara apa dan apa yang harus dianggap sebagai formatif hanya ketika perbandingan tingkat aktual dan referensi menghasilkan informasi yang kemudian digunakan untuk mengubah kesenjangan. Namun jika informasi tersebut tidak dapat menyebabkan tindakan yang tepat, maka tidak formatif. .
penilaian sumatif dalam bentuk akhir-of-tahun tes memberikan guru bukti seberapa baik mereka menangani penilaian formatif, dengan asumsi bahwa filosofi yang mendasari koheren dan konsekuen. Perbedaan dalam penilaian formatif dan sumatif dalam kelas lebih terkait dengan waktu dan jumlah kumulasi dari apa pun. Dibutuhkan untuk keduanya, tentu saja, adalah bahwa penilaian adalah kriteria-referenced, menggabungkan kurikulum dan mengakibatkan penilaian selaras.
Prinsip bahwa tujuan pertama dan utama pengujian adalah untuk meningkatkan belajar (Gronlund, 1968; de Lange 1987) secara luas dan mudah meremehkan dalam proses belajar mengajar. Alasannya beberapa (misalnya, desain tugas yang adil, kaya, terbuka dan kreatif sangat sulit, cara mekanisme umpan balik beroperasi; organisasi dan logistik dari kelas-peluang kaya). Tapi Hitam dan Wiliam Ulasan 1998 literatur tentang ruang kelas, Pengkajian dan Kelas Belajar, menyatakan sangat jelas bahwa perbaikan dalam penilaian kelas akan membuat kontribusi yang kuat untuk perbaikan pembelajaran. Jadi ada kebutuhan yang kuat untuk kerangka yang mengambil prinsip ini sebagai titik awal.
Tapi prinsip dan standar lain perlu dipertimbangkan juga. Standar yang diterbitkan oleh Dewan Nasional Guru Matematika (NCTM, 1989) memiliki pengaruh yang besar dalam diskusi tentang reformasi di AS, dan NCTM mengakui bahwa “standar penilaian” yang diperlukan juga (NCTM, 1995). Tapi Standar tidak akan cukup: “Fokus pada Standar dan akuntabilitas yang mengabaikan proses belajar mengajar di kelas tidak akan memberikan arah bahwa guru perlu dalam pencarian mereka untuk meningkatkan” (Schmidt, McKnight, & Raizen, 1996). Namun demikian Standar Penilaian NCTM menawarkan titik awal yang sangat baik untuk diskusi tentang prinsip-prinsip dan standar dalam penilaian kelas. Standar sekitar (a) matematika, (b) pembelajaran matematika, (c) ekuitas dan kesempatan, (d) keterbukaan, (e) kesimpulan, dan (f) koherensi.

Standar 1. Matematika

Beberapa akan berdebat dengan pernyataan bahwa penilaian matematika berguna harus fokus pada matematika penting. Namun kecenderungan menuju konsepsi yang lebih luas dari matematika dan kemampuan matematika menimbulkan pertanyaan serius tentang kelayakan matematika tercermin dalam sebagian besar tes tradisional karena matematika yang umumnya jauh dari matematika benar-benar digunakan dalam pemecahan masalah dunia nyata. Namun demikian, masih banyak perdebatan tentang bagaimana untuk mendefinisikan matematika yang penting dan yang harus bertanggung jawab untuk melakukannya.
Ini, tentu saja, merupakan isu kunci. matematika sekolah didefinisikan oleh tradisi panjang mengakibatkan satu set sub-wilayah yang terpisah dan sering terputus yang memiliki sedikit hubungan dengan fenomenologi matematika. Tidak hanya itu subdivisi di helai agak sewenang-wenang, tapi waktu masing-masing dalam proses pembelajaran juga tanpa argumen yang masuk akal. Selain itu, kami tidak mencoba untuk memberikan gambaran lengkap matematika dengan standar apapun, tetapi tidak ada diskusi tentang mana subjek dalam matematika sekolah harus ditutup: misalnya, mengambil diskusi panjang dan kemajuan lambat pada pengenalan matematika diskrit dalam kurikulum sekolah. praktek penilaian tradisional telah menekankan kompartementalisasi ini matematika sekolah. fitur umum dari penilaian formatif guru berfokus pada pembelajaran dangkal dan hafalan, berkonsentrasi pada mengingat rincian terisolasi, biasanya item pengetahuan bahwa siswa segera melupakan (Crooks, 1988, dan Black, 1993, seperti yang dirangkum oleh Black dan Wiliam, 1998). Hal ini untuk alasan ini bahwa kita telah memilih untuk fokus pada “ide-ide besar” dalam matematika (cluster terkait konsep-konsep matematika dasar mengabaikan sekolah kurikulum kompartementalisasi) dan bahwa kita mencoba untuk menilai ide-ide matematika yang lebih luas dan proses.

Standar 2. Belajar

pandangan baru dari panggilan penilaian untuk tugas-tugas yang tertanam dalam kurikulum, gagasan menjadi penilaian yang harus menjadi bagian integral dari proses pembelajaran dan bukan gangguan itu. Hal ini menimbulkan masalah yang harus bertanggung jawab untuk pengembangan, implementasi, dan interpretasi dari penilaian siswa. Secara tradisional tes kedua standar dan kelas dirancang menggunakan model psikometri untuk seobjektif mungkin. Sebaliknya, gerakan penilaian alternatif affords guru jauh lebih tanggung jawab dan subjektivitas dalam proses penilaian. Ini mengasumsikan bahwa guru mengetahui siswa mereka terbaik karena guru memiliki beberapa, peluang yang beragam untuk menguji pekerjaan siswa dilakukan dalam berbagai kondisi dan disajikan dalam berbagai mode. Ketika guru memiliki tanggung jawab lebih untuk penilaian,
Ini akan menjadi jelas dari pengantar kami yang kita lihat penilaian kelas sebagai bagian integral dari proses belajar mengajar, harus ada pengaruh timbal balik. Hal ini sebenarnya sangat sepele yang satu ini terkejut melihat bahwa praktek yang sebenarnya sangat berbeda. Penyebab utama untuk situasi ini adalah sistem tes standar. Hasil ironis dan disayangkan dari sistem ini adalah bahwa guru menolak evaluasi formal segala macam, mengingat kemandulan intelektual dan kekakuan yang paling umum, tidak langsung, dan eksternal sistem pengujian. Tetapi karena perlawanan itu, praktek penilaian lokal semakin tidak dapat menahan pemeriksaan teknis: tes Guru jarang valid dan reliabel, dan “penilaian” dikurangi menjadi rata-rata skor keluar (Wiggins, 1993). Biggs (1998) menyalahkan psychometricians yang, meskipun bukan karena kesalahan mereka sendiri, telah melakukan kerusakan cukup untuk penilaian pendidikan. Hasilnya adalah bahwa di sebagian besar ruang kelas penilaian tidak lagi menjadi bagian dari proses belajar mengajar.
Kita harus dan akan mencoba, dengan cara Kerangka ini, untuk menawarkan guru beragam instrumen dan peluang untuk menguji pekerjaan yang dilakukan dalam berbagai kondisi. Guru perlu menyadari tentang hubungan antara alat-alat tes dan tujuan kurikuler dan bagaimana untuk menghasilkan umpan balik yang relevan dari hasil tes.

Standar 3. Ekuitas dan Peluang

Idealnya, pengkajian harus memberikan setiap siswa kesempatan yang optimal untuk menunjukkan kekuatan matematika. Dalam prakteknya, bagaimanapun, tes standar tradisional terkadang telah bias terhadap siswa dari latar belakang tertentu, kelas sosial ekonomi, kelompok etnis, atau jenis kelamin (Pullin, 1993). Ekuitas menjadi lebih dari sebuah isu ketika hasil penilaian digunakan untuk label siswa atau menolak akses ke kursus, program, atau pekerjaan. Lebih banyak tanggung jawab guru berarti lebih banyak tekanan pada guru untuk evenhanded dan berisi dalam penilaian mereka. Ironisnya, kecenderungan menuju tugas penilaian yang lebih kompleks dan realistis dan tanggapan tertulis lebih diuraikan dapat meningkatkan kekhawatiran ekuitas serius karena pemahaman membaca, kemampuan menulis, dan keakraban dengan konteks dapat mengacaukan hasil untuk kelompok tertentu (Lane, 1993).
Jelas, guru memiliki tugas yang sangat kompleks di sini. Sebagai Cobb et al. (1991) berpendapat, kita tidak menilai seseorang secara objektif, tapi kami menilai bagaimana seseorang bertindak dalam pengaturan tertentu. format tertentu mendukung anak laki-laki lebih dari perempuan, yang lain lebih sama; anak laki-laki berbuat lebih baik di bawah tekanan waktu dibandingkan anak perempuan (de Lange, 1987); gadis tampaknya tarif lebih baik bila ada bahasa yang lebih terlibat; konteks tertentu lebih cocok untuk anak laki-laki, yang lain untuk anak perempuan (van den Heuvel-Panhuizen & Vermeer, 1999); dan perbedaan budaya harus diperhitungkan. Untuk alasan ini, kita membahas peran konteks dalam beberapa detail, efek dan kebutuhan untuk menggunakan format yang berbeda, dan kebutuhan untuk berbagai representasi. Untuk alasan yang sama, kami menganjurkan penugasan kerja baik individu dan kelompok serta penggunaan kedua penilaian waktu-terbatas dan tak terbatas.

Standard 4. Keterbukaan

Pengujian secara tradisional cukup proses rahasia, bahwa pertanyaan tes dan jawaban hati-hati dijaga, dan kriteria untuk menilai kinerja umumnya ditetapkan di balik layar oleh otoritas tak dikenal. Sebaliknya, banyak hari ini percaya bahwa siswa terbaik dilayani dengan terbuka dan dinamis penilaian-penilaian di mana harapan dan prosedur scoring secara terbuka dibahas dan dinegosiasikan bersama.
Siswa perlu tahu apa guru harapkan dari mereka, bagaimana pekerjaan mereka akan mencetak gol dan dinilai, apa 'penjelasan yang baik' terlihat seperti, dan sebagainya. Guru harus memiliki contoh semua tes yang berbeda yang mungkin atau yang diharapkan, dengan rubrik penilaian dan mungkin pekerjaan siswa. Mereka perlu tahu mengapa tes ini diberikan, dan apa yang akan dilakukan dengan hasilnya. Tradisi lagi dan praktek yang ada telah melakukan banyak kerusakan. Kerahasiaan adalah isu utama saat pengujian-kerahasiaan untuk pertanyaan-pertanyaan yang ditanyakan, bagaimana pertanyaan akan dipilih, bagaimana hasilnya akan mencetak gol, apa skor berarti, dan bagaimana hasilnya akan digunakan (Wiggins, 1993). Menurut Schwarz (1992), tes standar dapat diberikan pada skala luas hanya jika kerahasiaan dapat dipertahankan karena teknologi pengujian ini memerlukan jumlah yang sangat besar pertanyaan yang mahal dan sulit untuk menghasilkan. Namun menurut Schwarz, ini adalah situasi yang tidak diinginkan. Dia mengusulkan pendekatan baru untuk pengajuan, pengindeksan, dan retrieving masalah yang sebelumnya digunakan. Tersedia untuk publik, kaya diindeks database dari masalah dan proyek memberikan kesempatan untuk pengawasan, diskusi, dan debat tentang kualitas dan ketepatan pertanyaan dan jawaban. Tampaknya kita memiliki jalan panjang untuk pergi, tapi keterbukaan dan kejelasan merupakan prasyarat bagi setiap sistem penilaian kelas yang tepat. Tersedia untuk publik, kaya diindeks database dari masalah dan proyek memberikan kesempatan untuk pengawasan, diskusi, dan debat tentang kualitas dan ketepatan pertanyaan dan jawaban. Tampaknya kita memiliki jalan panjang untuk pergi, tapi keterbukaan dan kejelasan merupakan prasyarat bagi setiap sistem penilaian kelas yang tepat. Tersedia untuk publik, kaya diindeks database dari masalah dan proyek memberikan kesempatan untuk pengawasan, diskusi, dan debat tentang kualitas dan ketepatan pertanyaan dan jawaban. Tampaknya kita memiliki jalan panjang untuk pergi, tapi keterbukaan dan kejelasan merupakan prasyarat bagi setiap sistem penilaian kelas yang tepat.

Standar 5. Kesimpulan

Perubahan dalam penilaian telah menghasilkan cara-cara baru berpikir tentang reliabilitas dan validitas yang berlaku untuk matematika penilaian. Misalnya, ketika penilaian tertanam dalam instruksi, menjadi masuk akal untuk mengharapkan gagasan standar keandalan untuk menerapkan (bahwa prestasi siswa pada tugas-tugas serupa di berbagai titik dalam waktu harus serupa) karena sebenarnya diharapkan siswa akan belajar di seluruh penilaian. Demikian pula, bentuk-bentuk baru dari penilaian meminta pemeriksaan ulang dari pemikiran tradisional tentang validitas. Banyak yang berpendapat bahwa itu adalah lebih tepat untuk menilai validitas dengan memeriksa kesimpulan yang dibuat dari penilaian daripada melihatnya sebagai ciri khas yang melekat pada penilaian itu sendiri. Namun demikian, sulit untuk mengetahui jenis bagaimana baru penilaian (misalnya,
Reliabilitas dan validitas adalah konsep dari era ketika psychometricians membuat aturan. Istilah-istilah ini telah diambil pada arti khusus dan sempit, telah menyebabkan banyak kerusakan kepada siswa dan masyarakat, dan lebih khusus telah miring persepsi tentang apa yang merupakan matematika sekolah yang baik. Lebih penting, terutama dalam penilaian kelas, adalah keaslian tugas (yaitu, kinerja setia kriteria situasi). “Authentic” berarti bahwa masalah yang “layak” dan berhubungan dengan dunia nyata, yang non-rutin, memiliki “konstruksi” kemungkinan siswa, berhubungan dengan jelas kriteria, meminta penjelasan dari strategi, dan menawarkan kemungkinan untuk membahas grading.
Dalam rangka untuk melakukan keadilan untuk siswa (yang memerlukan kebebasan dari distorsi dan membiarkan objek berbicara [Smaling, 1992]) dan menambahkan validitas dalam arti tradisional, kita membutuhkan sampel tugas otentik untuk mendapatkan gambaran yang valid. Dan, memang, kehandalan dalam arti tradisional adalah sesuatu yang harus dihindari setiap saat jika kita benar-benar ingin penilaian sebagai bagian dari proses belajar mengajar. Jika kami menawarkan siswa tes yang sama pada saat-saat yang berbeda, kita harus mencatat perbedaan tingkat formalitas, strategi yang berbeda, bahkan jawaban yang berbeda dalam beberapa kasus. Jika tes menghasilkan hasil yang sama (dan dengan demikian dapat diandalkan), kemudian ajaran kita telah gagal.
Smaling (1992) mendefinisikan “keandalan” dengan cara yang lebih ekologis: Keandalan mengacu pada tidak adanya kesalahan disengaja dan sering didefinisikan sebagai reproducibility. Tapi di sini berarti peniruan virtual. Penekanannya adalah pada “virtual,” karena penting bahwa hasilnya akan dilaporkan dalam sedemikian rupa sehingga orang lain dapat merekonstruksi itu. Makna ini tepat diungkapkan dengan istilah “kemampuan pelacakan” yang menurut Gravemeijer (1994), sangat kompatibel dengan konsepsi Freudenthal tentang penelitian perkembangan karena “kemampuan pelacakan” dapat dibentuk dengan melaporkan “kegagalan dan keberhasilan,” prosedur diikuti , kerangka konseptual, dan alasan untuk pilihan yang dibuat.

Standar 6. Coherence

Standar koherensi menekankan pentingnya memastikan bahwa setiap penilaian sesuai untuk tujuan yang digunakan. Seperti disebutkan sebelumnya, data penilaian dapat digunakan untuk memantau kemajuan siswa, membuat keputusan instruksional, mengevaluasi prestasi, atau evaluasi program. Jenis-jenis yang sesuai data untuk setiap tujuan, bagaimanapun, mungkin sangat berbeda. Pembuat kebijakan dan para ahli penilaian sering tidak setuju tentang masalah ini. Para pembuat kebijakan mungkin memiliki beberapa agenda dalam pikiran dan berharap bahwa mereka semua dapat dicapai dengan menggunakan penilaian tunggal sementara ahli penilaian memperingatkan terhadap menggunakan penilaian untuk tujuan yang tidak pernah dimaksudkan.
Koherensi dalam penilaian kelas dapat dicapai cukup sederhana jika proses belajar mengajar adalah koheren dan penilaian merupakan bagian integral dari itu. Guru memiliki berbagai macam teknik dan alat-alat yang mereka miliki untuk “merancang” sistem penilaian kelas mereka sendiri yang sesuai dengan kontrak didactical yang mereka miliki dengan kelas. Tergantung pada praktek mengajar dan belajar mereka dan gaya, mereka akan menyajikan siswa dengan “keseimbangan” mereka dalam sistem penilaian kelas. Koherensi dengan rekan-rekan akan dicapai dengan berbagi kriteria yang sama dan mungkin dengan merancang dan membahas tugas dan tes umum. Bersama dengan merancang dan menggunakan yang sama “akhir-of-tahun test” untuk siswa di kelas yang sama,
Koherensi dalam kaitannya dengan penilaian eksternal juga penting. Untuk alasan ini kerangka ini agak berkaitan dengan kerangka baru-baru ini diterbitkan untuk matematika (OECD, 1999) yang sedang digunakan dalam studi Assessment internasional komparatif. Beberapa komponen kunci dari kerangka kerja ini dan kerangka OECD selaras untuk memastikan lebih koherensi antara penilaian kelas dan bentuk yang sangat terlihat dari penilaian eksternal.
Berkaca pada standar dan literatur yang ada, kita membuat daftar berikut prinsip-prinsip untuk penilaian kelas.

Prinsip untuk Classroom Assessment

1.      Tujuan utama dari penilaian kelas adalah untuk meningkatkan belajar (Gronlund, 1968; de Lange, 1987; Black & Wiliam, 1998; dan banyak lainnya).
2.      matematika yang tertanam dalam berharga (menarik, edukatif, otentik) masalah yang merupakan bagian dari dunia nyata siswa.
3.      Metode penilaian harus sedemikian rupa sehingga mereka memungkinkan siswa untuk mengungkapkan apa yang mereka ketahui, bukan apa yang mereka tidak tahu (Cockroft, 1982).
4.      Sebuah rencana penilaian yang seimbang harus mencakup beberapa dan beragam peluang (format) untuk siswa untuk menampilkan dan mendokumentasikan prestasi mereka (Wiggins, 1992).
5.      Tugas harus mengoperasionalkan semua tujuan kurikulum (bukan hanya “lebih rendah” yang). Membantu alat untuk mencapai ini adalah standar kinerja, termasuk indikasi dari berbagai tingkat pemikiran matematis (de Lange, 1987).
6.      Kriteria Grading harus publik dan diterapkan secara konsisten; dan harus mencakup contoh gradasi sebelumnya menunjukkan kerja teladan dan pekerjaan yang kurang dari teladan.
7.      Proses penilaian, termasuk mencetak gol dan dan grading, harus terbuka untuk siswa.
8.      Siswa harus memiliki kesempatan untuk menerima umpan balik yang tulus pada pekerjaan mereka.
9.      Kualitas tugas tidak didefinisikan oleh aksesibilitas untuk mencetak gol objektif, keandalan, atau validitas dalam arti tradisional tetapi dengan keaslian, keadilan, dan sejauh untuk yang memenuhi prinsip-prinsip di atas (de Lange, 1987).
Prinsip-prinsip ini membentuk “checklist” untuk guru yang mengambil penilaian kelas mereka secara serius. Tapi perjalanan dari prinsip-prinsip untuk berlatih bisa panjang. Jadi sekarang kita akan beralih ke diskusi tentang beberapa isu kunci dalam merancang dan menerapkan sistem penilaian kelas.
Dalam daftar prinsip-prinsip, konten itu disebutkan dengan cara yang berbeda (relevan, matematika dunia nyata) dan pada beberapa tingkat pemikiran matematika dan penalaran karena tujuan kami untuk pendidikan matematika adalah untuk memungkinkan individu untuk berhubungan dengan matematika terlibat dalam dunia nyata masalah. Hal ini diperlukan untuk kehidupan setiap individu saat ini dan masa depan pribadi, kehidupan kerja (kerja atau pendidikan), dan pemahaman dan apresiasi matematika sebagai suatu disiplin ilmu. Dengan kata lain: Kami ingin siswa kami untuk menjadi matematis melek. Jadi pertama, kita akan menguraikan melek matematika. Definisi ini didasarkan pada yang digunakan dalam rangka OECD untuk matematika (OECD, 1999), yang sangat menarik pada karya Niss dan lain-lain dari matematika kelompok ahli fungsional untuk study.1 yang sama

Literasi Matematika

“Melek Matematika” adalah kemampuan individu untuk mengidentifikasi, memahami, mengerahkan penghakiman cukup beralasan tentang, dan bertindak terhadap peran bahwa matematika bermain dalam berurusan dengan dunia (yaitu alam, masyarakat, dan budaya) -tidak hanya sebagai diperlukan untuk itu individu kehidupan saat ini dan masa depan pribadi, kehidupan kerja, dan kehidupan sosial dengan teman sebaya dan keluarga tetapi juga untuk kehidupan yang individu sebagai konstruktif, yang bersangkutan, dan warga reflektif.
Beberapa komentar jelas adalah dalam rangka untuk definisi ini untuk menjadi transparan.
1.      Dalam menggunakan istilah “melek,” kami ingin menekankan bahwa pengetahuan matematika dan keterampilan yang sudah ditetapkan dan didefinisikan dalam konteks kurikulum matematika tidak merupakan fokus utama kami di sini. Sebaliknya, apa yang kita miliki dalam pikiran adalah pengetahuan matematika mulai digunakan fungsional dalam banyak konteks dengan berbagai cara, reflektif, dan wawasan berbasis. Tentu saja untuk penggunaan tersebut menjadi mungkin dan layak, banyak pengetahuan dan keterampilan intra kurikuler yang diperlukan. Literasi dalam arti linguistik tidak dapat direduksi menjadi-tetapi tentu mengandaikan-kosakata yang kaya dan pengetahuan substansial aturan tata bahasa, fonetik, ortografi, dan sebagainya. Dengan cara yang sama, melek huruf matematika tidak bisa direduksi ke-tetapi tentu mengandaikan pengetahuan terminologi matematika, fakta, dan prosedur serta berbagai keterampilan dalam melakukan operasi tertentu, melaksanakan metode tertentu, dan sebagainya. Juga, kami ingin menekankan bahwa istilah “melek” tidak terbatas menunjukkan dasar, tingkat minimum fungsi saja. Sebaliknya, kita berpikir tentang keaksaraan sebagai kontinyu, spektrum multidimensional mulai dari aspek fungsi dasar untuk tingkat tinggi penguasaan. Dalam nada yang sama ketika kita menggunakan kata “dibutuhkan” kita tidak membatasi diri untuk apa yang mungkin dianggap sebagai persyaratan minimum untuk menghadapi kehidupan di bidang yang menjadi pokok permasalahan. Kami juga termasuk apa yang “membantu,” “berharga,” atau “diinginkan” untuk usaha itu. Sebaliknya, kita berpikir tentang keaksaraan sebagai kontinyu, spektrum multidimensional mulai dari aspek fungsi dasar untuk tingkat tinggi penguasaan. Dalam nada yang sama ketika kita menggunakan kata “dibutuhkan” kita tidak membatasi diri untuk apa yang mungkin dianggap sebagai persyaratan minimum untuk menghadapi kehidupan di bidang yang menjadi pokok permasalahan. Kami juga termasuk apa yang “membantu,” “berharga,” atau “diinginkan” untuk usaha itu. Sebaliknya, kita berpikir tentang keaksaraan sebagai kontinyu, spektrum multidimensional mulai dari aspek fungsi dasar untuk tingkat tinggi penguasaan. Dalam nada yang sama ketika kita menggunakan kata “dibutuhkan” kita tidak membatasi diri untuk apa yang mungkin dianggap sebagai persyaratan minimum untuk menghadapi kehidupan di bidang yang menjadi pokok permasalahan. Kami juga termasuk apa yang “membantu,” “berharga,” atau “diinginkan” untuk usaha itu.
2.      Istilah “tindakan” tidak dimaksudkan untuk menutupi hanya tindakan fisik atau sosial dalam arti sempit. Dengan demikian istilah tersebut termasuk juga “berkomunikasi”, “mengambil posisi ke arah,” “yang berkaitan dengan,” dan bahkan “menghargai” atau “menilai.”
3.      Sebuah kapasitas krusial tersirat oleh gagasan kita melek huruf matematika adalah kemampuan untuk berpose, merumuskan dan memecahkan masalah intra dan ekstra-matematis dalam berbagai domain dan pengaturan. Ini berkisar dari yang murni matematis untuk orang-orang di mana tidak ada struktur matematika hadir dari awal tapi dapat berhasil diperkenalkan oleh poser masalah, pemecah masalah, atau keduanya.
4.      Sikap dan emosi (misalnya, rasa percaya diri, rasa ingin tahu, perasaan bunga dan relevansi, keinginan untuk melakukan atau memahami hal-hal) yang tidak komponen dari definisi literasi matematika. Namun demikian mereka merupakan prasyarat penting untuk itu. Pada prinsipnya adalah mungkin untuk memiliki literasi matematika tanpa memiliki sikap dan emosi seperti pada saat yang sama. Dalam prakteknya, bagaimanapun, adalah tidak mungkin bahwa keaksaraan tersebut akan diberikan dan dipraktikkan oleh seseorang yang tidak memiliki beberapa tingkat kepercayaan diri, rasa ingin tahu, perasaan bunga dan relevansi, dan keinginan untuk melakukan atau memahami hal-hal yang mengandung matematika komponen.

Kompetensi Matematika

Sekali lagi, dalam mendefinisikan Kompetensi Matematika kita mengikuti kerangka Matematika Literasi diterbitkan oleh Program OECD for International Student Assessment (PISA). Berikut adalah daftar nonhierarchical kompetensi matematika umum yang dimaksudkan untuk menjadi relevan dan berkaitan dengan semua tingkat pendidikan.
·         pemikiran matematis
¨        Mengajukan pertanyaan karakteristik matematika-Apakah di sana ada ...? Jika demikian, berapa banyak? Bagaimana kita menemukan ...?
¨        Mengetahui jenis jawaban bahwa matematika menawarkan untuk pertanyaan-pertanyaan tersebut.
¨        Membedakan antara berbagai jenis pernyataan (misalnya, definisi, teorema, dugaan, hipotesis, contoh, pernyataan dikondisikan).
¨        Memahami dan menangani tingkat dan batas-batas konsep-konsep matematika yang diberikan.
·         argumentasi matematika
¨        Mengetahui apa bukti matematis dan bagaimana hal itu berbeda dari jenis lain dari penalaran matematika.
¨        Berikut ini dan menilai rantai argumen matematika dari berbagai jenis.
¨        Memiliki merasakan heuristik (apa yang bisa terjadi, apa yang tidak bisa terjadi, dan mengapa).
¨        Menciptakan argumen matematika.
·         modeling
¨        Penataan lapangan atau situasi yang akan dimodelkan
¨        Mathematizing (yaitu, menerjemahkan dari “realitas” untuk “matematika”).
¨        De-mathematizing (yaitu, menafsirkan model matematika dalam hal “realitas”).
¨        Menangani model (bekerja di dalam domain matematika).
¨        Memvalidasi model.
¨        Mencerminkan, menganalisis, menawarkan kritik dari model dan hasil model.
¨        Berkomunikasi tentang model dan hasil nya (termasuk keterbatasan hasil tersebut).
¨        Pemantauan dan pengendalian proses pemodelan.
·         Problem posing dan memecahkan
¨        Berpose, merumuskan, dan membuat berbagai jenis yang tepat dari masalah matematika (misalnya, murni, diterapkan, terbuka, tertutup).
¨        Pemecahan berbagai jenis masalah matematika dalam berbagai cara.
·         Perwakilan
¨        Decoding, menafsirkan, dan membedakan antara berbagai bentuk presentasi dari objek matematika dan situasi, dan keterkaitan antara berbagai representasi.
¨        Memilih dan beralih di antara berbagai bentuk representasi sesuai dengan situasi dan tujuan.
·         Simbol dan bahasa formal
¨        Decoding dan menafsirkan bahasa simbolik dan formal dan memahami hubungan untuk bahasa alami.
¨        Menerjemahkan dari bahasa alami ke bahasa simbolis atau formal.
¨        Penanganan pernyataan dan ekspresi yang mengandung simbol-simbol dan rumus.
¨        Menggunakan variabel, memecahkan persamaan, dan melakukan perhitungan.
·         Komunikasi
¨        Mengekspresikan diri dalam berbagai cara pada hal-hal dengan komponen matematis, dalam lisan maupun dalam bentuk tertulis.
¨        Memahami tertulis atau lisan pernyataan orang lain tentang hal-hal seperti itu.
·         Bantu dan alat-alat
¨        Mengetahui tentang dan mampu menggunakan berbagai alat bantu dan alat (termasuk alat-alat teknologi informasi) yang dapat membantu aktivitas matematika.
¨        Mengetahui tentang keterbatasan alat bantu dan alat-alat tersebut.

Tingkat kompetensi

Kami tidak mengusulkan pengembangan item tes yang menilai kemampuan di atas secara individual. Ketika melakukan matematika nyata, perlu untuk menarik secara bersamaan pada banyak keterampilan mereka. Dalam rangka untuk mengoperasionalkan ini kompetensi matematika, akan sangat membantu untuk mengatur keterampilan menjadi tiga tingkatan. Mereka berhasil dioperasionalkan dalam pilihan Nasional Belanda dari TIMSS (Boertien & de Lange, 1994; Kuiper, Bos, & Plomp, 1997) dan studi longitudinal yang sedang berlangsung tentang efek kurikulum sekolah menengah dan juga telah diadaptasi untuk OECD belajar.
Tiga tingkat adalah-
1.      Reproduksi, definisi, komputasi.
2.      Koneksi dan integrasi untuk pemecahan masalah.
3.      Mathematization, pemikiran matematika, generalisasi, dan wawasan.
Kami akan menguraikan tingkat ini berikutnya.

Tingkat 1. Reproduksi, prosedur, konsep-konsep, dan definisi

Pada tingkat pertama ini, kita berurusan dengan masalah dibahas dalam banyak tes standar, serta dalam studi internasional komparatif, dan dioperasionalkan terutama dalam format pilihan ganda. Dalam TIMSS, aspek ekspektasi kinerja mengetahui dan menggunakan prosedur rutin akan cocok level ini. Ini berkaitan dengan pengetahuan tentang fakta-fakta, yang mewakili, mengakui setara, mengingat objek matematika dan sifat, melakukan prosedur rutin, menerapkan algoritma standar, dan mengembangkan keterampilan teknis. Berurusan dan beroperasi dengan pernyataan dan ekspresi yang mengandung simbol-simbol dan rumus dalam bentuk “standar” juga berhubungan dengan tingkat ini.
Item di Level 1 sering di pilihan ganda, mengisi-in-the-kosong, pencocokan, atau (dibatasi) terbuka Format pertanyaan.

Level 2. Koneksi dan integrasi untuk pemecahan masalah

Pada tingkat ini kita mulai membuat koneksi antara helai dan domain yang berbeda dalam matematika dan mengintegrasikan informasi dalam rangka untuk memecahkan masalah sederhana di mana siswa memiliki pilihan strategi dan pilihan dalam penggunaan alat matematika. Meskipun masalah yang seharusnya tidak rutin, mereka membutuhkan mathematization relatif kecil. Siswa pada tingkat ini juga diharapkan untuk menangani berbagai bentuk representasi sesuai dengan situasi dan tujuan. Aspek koneksi menuntut siswa untuk dapat membedakan dan berhubungan pernyataan berbeda seperti definisi, klaim, contoh, pernyataan dikondisikan, dan bukti.
Dari sudut pandang bahasa matematika, aspek lain pada tingkat ini adalah decoding dan menafsirkan bahasa simbolik dan formal dan memahami hubungan untuk bahasa alami. Tingkat ini berkaitan agak ke TIMSS menyelidiki dan pemecahan masalah kategori, termasuk merumuskan dan menjelaskan masalah dan situasi, mengembangkan strategi, pemecahan, memprediksi, dan verifikasi. Dilihat oleh barang-barang ini, bagaimanapun, kita harus diingat masalah itu memecahkan dan menggunakan prosedur kompleks dalam TIMSS yang kompetensi yang benar-benar sangat dekat dengan orang-orang di Tingkat diusulkan kami karena 1. Contoh memainkan peran penting dalam membuat tingkat kami kompetensi dan keterampilan yang jelas dan bisa diterapkan.
Item di Level 2 sering ditempatkan dalam konteks dan melibatkan siswa dalam pengambilan keputusan matematika.

Tingkat 3. mathematization, pemikiran matematika, generalisasi, dan wawasan

Pada Level 3, siswa diminta untuk mathematize situasi (mengenali dan ekstrak matematika tertanam dalam situasi dan penggunaan matematika untuk memecahkan masalah). Mereka harus menganalisis, menafsirkan, mengembangkan model dan strategi mereka sendiri, dan membuat argumen matematika termasuk bukti dan generalisasi. Kompetensi ini mencakup komponen kritis dan analisis model dan refleksi pada proses. Siswa tidak hanya harus mampu memecahkan masalah tetapi juga untuk menimbulkan masalah.
Kompetensi ini berfungsi dengan baik hanya jika siswa mampu berkomunikasi dengan baik dengan cara yang berbeda (misalnya, secara lisan, tertulis, menggunakan visualisasi). Komunikasi dimaksudkan untuk menjadi proses dua arah: siswa juga harus dapat memahami komunikasi dengan komponen matematika oleh orang lain. Akhirnya kami ingin menekankan bahwa siswa juga perlu wawasan kompetensi-wawasan sifat matematika sebagai ilmu (termasuk aspek budaya dan sejarah) dan pemahaman tentang penggunaan matematika dalam mata pelajaran lain yang dibawa melalui pemodelan matematika.
Seperti yang terlihat, kompetensi di Level 3 cukup sering menggabungkan keterampilan dan kompetensi biasanya berhubungan dengan dua tingkat lainnya. Kami mencatat bahwa seluruh latihan mendefinisikan tiga tingkat adalah aktivitas agak sewenang-wenang: Tidak ada perbedaan yang jelas antara tingkat yang berbeda, dan kedua keterampilan dan kompetensi tinggi- dan tingkat yang lebih rendah sering bermain keluar pada tingkat yang berbeda.
Dalam rangka TIMSS, Level 3 berkaitan terbaik dengan matematika ekspektasi kinerja penalaran: mengembangkan notasi dan kosa kata, mengembangkan algoritma, generalisasi, dan conjecturing.
Level 3, yang pergi ke jantung matematika dan literasi matematika, sulit untuk tes. Pilihan ganda jelas bukan format pilihan di Level 3. pertanyaan diperpanjang respon dengan beberapa jawaban (dengan [super] item atau tanpa meningkatkan tingkat kompleksitas) lebih cenderung menjadi format yang menjanjikan. Namun kedua desain dan penilaian dari jawaban siswa sangat, jika tidak sangat, sulit. Karena Level 3 adalah jantung dari penelitian kami, bagaimanapun, kita harus mencoba, sebanyak izin praktik, untuk mengoperasionalkan kompetensi ini dalam item tes sesuai.
Tiga tingkat dapat direpresentasikan secara visual dalam piramida (Gambar 1; de Lange, 1995). Piramida ini memiliki tiga dimensi atau aspek: (a) isi atau domain matematika, (b) tiga tingkat pemikiran matematika dan pemahaman (sepanjang garis hanya ditentukan), dan (c) tingkat kesulitan dari pertanyaan yang diajukan ( mulai dari yang sederhana sampai yang kompleks). Dimensi tidak dimaksudkan untuk menjadi ortogonal, dan piramida dimaksudkan untuk memberikan gambaran visual yang adil dari jumlah relatif dari barang-barang yang diperlukan untuk mewakili pemahaman siswa matematika. Karena kita hanya perlu item sederhana untuk tingkat yang lebih rendah, kita dapat menggunakan lebih dari mereka dalam waktu singkat. Untuk tingkat yang lebih tinggi kita hanya perlu beberapa item karena akan memakan waktu bagi siswa untuk memecahkan masalah pada tingkat ini.
Gambar 1. Penilaian piramida

Mudah untuk dimensi yang sulit dapat dipertukarkan dengan dimensi yang berkisar dari informal formal.
Semua pertanyaan penilaian dapat terletak di piramida menurut (a) tingkat pemikiran menyerukan, (b) isi matematis atau ide-ide besar domain, dan (c) tingkat kesulitan. Karena penilaian kebutuhan untuk mengukur dan menggambarkan pertumbuhan siswa dalam semua domain matematika dan di semua tiga tingkat pemikiran, pertanyaan dalam program penilaian lengkap harus mengisi piramida. Harus ada pertanyaan di semua tingkat pemikiran, dari berbagai tingkat kesulitan, dan di semua domain konten.
Penting untuk melek matematika adalah kemampuan untuk mathematize masalah. Proses mathematization karena itu akan dijelaskan dalam sedikit lebih detail:
Mendefinisikan mathematization.Mathematization, karena sedang dibahas di sini, adalah mengorganisir kenyataan menggunakan ide-ide matematika dan konsep. Ini adalah kegiatan pengorganisasian yang menurut siswa digunakan memperoleh pengetahuan dan keterampilan untuk menemukan keteraturan diketahui, hubungan dan struktur (Treffers & Goffree, 1985). Proses ini kadang-kadang disebut mathematization horisontal (Treffers, 1987) dan memerlukan aktivitas seperti-
·         Mengidentifikasi matematika spesifik dalam konteks umum.
·         Schematizing.
·         Merumuskan dan memvisualisasikan masalah.
·         Menemukan hubungan dan keteraturan.
·         Menyadari kesamaan dalam masalah yang berbeda (de Lange, 1987).
Begitu masalah telah ditransformasikan ke masalah yang lebih-atau-kurang matematis, dapat menyerang dan diperlakukan dengan alat-alat matematika. Artinya, alat-alat matematika dapat diterapkan untuk memanipulasi dan memperbaiki matematis dimodelkan masalah dunia nyata. Ini adalah proses mathematization vertikal dan dapat diakui dalam kegiatan sebagai berikut:
·         Mewakili hubungan dalam formula.
·         Membuktikan keteraturan.
·         Refining dan model menyesuaikan.
·         Menggabungkan dan mengintegrasikan model.
·         Generalisasi.
Dengan demikian proses mathematization memainkan dalam dua tahap yang berbeda. Yang pertama adalah mathematization horisontal, proses pergi dari dunia nyata ke dunia matematika. Kedua, mathematization vertikal bekerja pada masalah dalam dunia matematika (mengembangkan alat matematika untuk memecahkan masalah). Berkaca pada solusi sehubungan dengan masalah asli adalah suatu langkah penting dalam proses mathematization yang cukup sering tidak menerima perhatian yang layak.
Satu dapat menyatakan bahwa mathematization bermain keluar di semua kelas kompetensi karena dalam masalah kontekstual kita harus mengidentifikasi matematika yang relevan. Kompleksitas yang bervariasi dari mathematization tercermin dalam dua contoh di bawah ini. Keduanya dimaksudkan untuk siswa dari 13-15 tahun dan keduanya memanfaatkan konsep-konsep matematika yang sama. Yang pertama membutuhkan mathematization sederhana sedangkan yang kedua membutuhkan mathematization lebih kompleks.
Contoh 1. (Level 2) Sebuah kelas memiliki 28 siswa. Rasio perempuan terhadap anak laki-laki adalah 4: 3.
Berapa banyak anak perempuan di kelas?
Sumber: TIMSS Matematika Prestasi di Tahun Tengah, p.98

Contoh 2. (Level 3) Di negara tertentu, anggaran pertahanan nasional $ 30 juta untuk 1980. Total anggaran untuk tahun itu adalah $ 500 juta. Tahun berikutnya anggaran pertahanan adalah $ 35 juta, sedangkan total anggaran $ 605 juta. Inflasi selama periode yang dicakup oleh dua anggaran sebesar 10 persen.
a.       Anda diundang untuk memberikan ceramah bagi masyarakat pasifis. Anda berniat untuk menjelaskan bahwa anggaran pertahanan menurun selama periode ini. Menjelaskan bagaimana Anda bisa melakukan hal ini.
b.       Anda diundang untuk kuliah ke akademi militer. Anda berniat untuk menjelaskan bahwa anggaran pertahanan meningkat selama periode ini. Jelaskan bagaimana Anda akan melakukan hal ini.
Sumber: de Lange (1987)

Matematika: Strands dan Gagasan Big

kurikulum sekolah matematika tersebut akan disusun dalam untaian yang mengklasifikasikan matematika sebagai suatu disiplin ketat terkotak dengan lebih-penekanan pada perhitungan dan formula. organisasi ini membuat hampir tidak mungkin bagi siswa untuk melihat matematika sebagai bidang ilmiah terus berkembang yang terus menyebar ke bidang baru dan aplikasi. Siswa tidak diposisikan untuk melihat konsep menyeluruh dan hubungan, sehingga matematika tampaknya menjadi koleksi potongan terfragmentasi pengetahuan faktual.
Steen (1990) menempatkan agak berbeda: matematika sekolah mengambil sangat sedikit helai (misalnya, aritmatika, aljabar, geometri) dan mengatur mereka horizontal untuk membentuk kurikulum. Pertama adalah aritmatika, aljabar maka sederhana, maka geometri, kemudian lebih aljabar, dan akhirnya-seolah-olah itu di mana lambang matematika pengetahuan-kalkulus. Pendekatan lapisan-kue ini untuk pendidikan matematika secara efektif mencegah pengembangan informal intuisi sepanjang beberapa akar matematika. Selain itu, memperkuat kecenderungan untuk merancang setiap kursus terutama untuk memenuhi prasyarat dari kursus berikutnya, membuat studi matematika sebagian besar latihan dalam menunda kepuasan.
“Apa matematika?” Bukan pertanyaan sederhana untuk menjawab. Seseorang bertanya secara acak kemungkinan besar akan menjawab, “Matematika adalah studi tentang Nomor.” Atau, jika Anda beruntung, “Matematika adalah ilmu nomor.” Dan, seperti Devlin (1994) menyatakan dalam buku yang sangat sukses, “matematika: The Science of Pola,” mantan adalah kesalahpahaman besar berdasarkan deskripsi matematika yang berhenti menjadi akurat sekitar 2.500 tahun yang lalu. Hadir hari matematika adalah berkembang, aktivitas di seluruh dunia, itu adalah alat penting untuk banyak domain lain seperti perbankan, rekayasa, manufaktur, obat-obatan, ilmu sosial, dan fisika. Ledakan aktivitas matematika yang telah terjadi pada abad kedua puluh telah dramatis. Pada pergantian abad kesembilan belas, matematika bisa cukup dianggap sebagai terdiri dari sekitar 12 mata pelajaran yang berbeda: aritmatika, geometri, aljabar, kalkulus, topologi dan sebagainya. Kesamaan antara daftar ini dan kini daftar kurikulum sekolah luar biasa.
Seorang tokoh yang lebih masuk akal untuk hari ini, bagaimanapun, akan menjadi antara 60 dan 70 mata pelajaran yang berbeda. Beberapa mata pelajaran (misalnya, aljabar, topologi) telah terpecah menjadi berbagai subbidang; orang lain (misalnya, teori kompleksitas, teori sistem dinamis) adalah daerah yang sama sekali baru dari studi.
Dalam daftar prinsip, kita menyebutkan isi: Matematika harus relevan, yang berarti bahwa matematika harus dilihat sebagai bahasa yang menggambarkan pola-pola baik di alam dan pola diciptakan oleh pikiran manusia. Pola-pola dapat berupa nyata atau membayangkan, visual atau mental, statis atau dinamis, kualitatif atau kuantitatif, murni utilitarian atau sedikit lebih dari bunga rekreasi. Mereka bisa timbul dari dunia di sekitar kita, dari kedalaman ruang dan waktu, atau dari inner pikiran manusia (Devlin, 1994). Untuk alasan ini, kami belum memilih helai konten tradisional sebagai dimensi utama untuk menggambarkan konten. Sebaliknya, kita telah memilih untuk mengatur isi dari matematika relevan di sekitar “ide besar” atau “tema.”
Konsep ide-ide besar tidak baru. Pada tahun 1990, Dewan Pendidikan Ilmu Matematika diterbitkan pada Shoulders of Giants: Pendekatan Baru untuk Berhitung (Steen, 1990), sebuah buku yang membuat permohonan yang kuat bagi pendidik untuk membantu siswa menggali lebih dalam untuk menemukan konsep-konsep yang mendasari semua matematika dan dengan demikian lebih baik memahami makna dari konsep-konsep ini di dunia. Untuk mencapai hal ini, kita perlu mengeksplorasi ide-ide dengan akar dalam ilmu matematika tanpa memperhatikan keterbatasan sekolah sekarang kurikulum.
Banyak ide-ide besar dapat diidentifikasi dan dijelaskan. Bahkan domain matematika begitu kaya dan beragam yang tidak akan mungkin untuk mengidentifikasi daftar lengkap dari ide-ide besar. Hal ini penting untuk tujuan penilaian kelas, namun, untuk setiap pilihan ide-ide besar yang ditawarkan untuk mewakili variasi dan kedalaman yang cukup untuk mengungkapkan penting matematika dan hubungan mereka dengan helai tradisional.
Berikut daftar ide-ide besar matematika memenuhi persyaratan ini:
·        Ubah dan pertumbuhan.
·        Ruang dan bentuk.
·        penalaran kuantitatif.
·        Ketidakpastian.

Perubahan dan Pertumbuhan

Setiap fenomena alam adalah manifestasi dari perubahan. Beberapa contoh organisme berubah saat mereka tumbuh, siklus musim, pasang surut dan aliran pasang surut, siklus untuk pengangguran, perubahan cuaca, dan indeks Dow-Jones. Beberapa proses pertumbuhan ini dapat dijelaskan atau dimodelkan dengan beberapa fungsi matematika agak mudah (misalnya, linear, eksponensial, periodik, logistik, baik diskrit atau kontinu). Tetapi banyak proses jatuh ke dalam kategori yang berbeda, dan analisis data cukup sering penting. Penggunaan teknologi komputer telah menghasilkan teknik pendekatan yang lebih kuat, dan visualisasi yang lebih canggih dari data. Pola perubahan di alam dan dalam matematika tidak di akal mengikuti helai konten tradisional.
Untuk peka terhadap pola perubahan, kita mengikuti Stewart (1990), yang menyatakan bahwa kita perlu ke-
·         Merupakan perubahan dalam bentuk dipahami.
·         Memahami jenis mendasar perubahan.
·         Kenali jenis tertentu perubahan ketika mereka terjadi.
·         Menerapkan teknik ini ke dunia luar.
·         Kontrol alam semesta berubah untuk keuntungan yang terbaik.
Kompetensi ini berhubungan baik dengan kedua definisi kita tentang literasi matematika dan kompetensi sebagaimana didefinisikan sebelumnya dalam kerangka ini.
Banyak yang berbeda sub-helai helai konten tradisional muncul dalam ini domain matematis utama perubahan dan pertumbuhan. Yang jelas adalah hubungan, fungsi dan representasi grafis mereka. Seri dan gradien juga sangat terkait dengan fungsi. Mengingat tingkat pertumbuhan untuk fenomena pertumbuhan yang berbeda mengarah ke linier, eksponensial, logaritma, periodik, kurva pertumbuhan logistik, dan sifat dan hubungan mereka. Ini, pada gilirannya, menyebabkan aspek teori bilangan, seperti Fibonacci-angka dan Golden-ratio. Hubungan antara ide-ide ini dan representasi geometris juga dapat memainkan peran di sini.
Dalam geometri, salah satu juga dapat menjelajahi pola di alam, seni atau arsitektur. Kesamaan dan keselarasan mungkin memainkan peran di sini, seperti yang akan pertumbuhan suatu daerah dalam kaitannya dengan pertumbuhan perimeter atau keliling.
Pola pertumbuhan dapat dinyatakan dalam aljabar bentuk, yang pada gilirannya dapat diwakili oleh grafik. Pertumbuhan juga dapat diukur secara empiris, dan pertanyaan-pertanyaan seperti timbul sebagai yang kesimpulan dapat dibuat dari data pertumbuhan dan bagaimana data pertumbuhan mungkin diwakili. Aspek dari analisis data dan statistik helai konten juga secara alami muncul di sini.

Ruang dan Bentuk

Pola yang ditemui tidak hanya dalam proses pertumbuhan dan perubahan, tetapi juga mereka terjadi di mana-mana di sekitar kita: kata-kata yang diucapkan, musik, video, lalu lintas, konstruksi, dan seni. Bentuk pola: rumah, gereja, jembatan, bintang laut, kepingan salju, rencana kota, cloverleaves, kristal, dan bayangan. pola geometris dapat berfungsi sebagai model yang relatif sederhana dari berbagai jenis fenomena, dan penelitian mereka adalah mungkin dan diinginkan di semua tingkatan (Grünbaum, 1985). Bentuk adalah tema penting, tumbuh, dan menarik dalam matematika yang memiliki hubungan yang mendalam untuk geometri tradisional (meskipun relatif sedikit dalam geometri sekolah) tapi jauh melampaui dalam konten, makna, dan metode (Senechal, 1990).
Dalam studi bentuk dan konstruksi, kami sedang mencari persamaan dan perbedaan seperti yang kita menganalisis komponen dari bentuk dan mengenali bentuk dalam representasi yang berbeda dan dimensi yang berbeda. Studi tentang bentuk erat rajutan untuk “ruang menggenggam” (Freudenthal, 1973). Yang belajar untuk tahu, mengeksplorasi, dan menaklukkan dalam rangka meningkatkan bagaimana kita hidup, bernapas, dan bergerak melalui ruang di mana kita hidup.
Ini berarti bahwa kita harus dapat memahami posisi relatif benda. Kita harus menyadari bagaimana kita melihat hal-hal dan mengapa kita melihat mereka dengan cara ini. Kita harus belajar untuk menavigasi melalui ruang dan melalui konstruksi dan bentuk. Ini berarti bahwa siswa harus dapat memahami hubungan antara bentuk dan gambar atau representasi visual (misalnya, hubungan antara kota nyata dan foto-foto atau peta dari kota yang sama). Mereka juga harus memahami bagaimana benda tiga dimensi dapat direpresentasikan dalam dua dimensi, bagaimana bayangan terbentuk dan harus ditafsirkan, dan apa “perspektif” adalah dan bagaimana fungsinya.
Dijelaskan dalam cara ini, studi tentang Ruang dan Shape adalah terbuka dan dinamis, dan itu cocok ke kedua literasi matematika dan kompetensi matematika seperti yang didefinisikan untuk kerangka ini ..

Penalaran kuantitatif

Karl Friedrich Gauss' (1777-1855) guru telah meminta kelas untuk menambahkan bersama semua angka dari 1 sampai 100. Agaknya tujuan guru adalah untuk menjaga siswa diduduki untuk sementara waktu. Tapi Gauss adalah pemikir kuantitatif yang sangat baik dan mengidentifikasi jalan pintas untuk solusi. Alasannya pergi seperti ini:
Anda menuliskan jumlah dua kali-sekali dalam urutan menaik, maka dalam urutan, seperti ini:
Sekarang Anda tambahkan dua jumlah, kolom dengan kolom, untuk memberikan:
Karena ada persis 100 eksemplar dari jumlah 101 di jumlah ini, nilainya adalah
Produk ini adalah dua kali jawaban untuk jumlah asli, sehingga Anda dapat membagi dua untuk mendapatkan jawabannya: 5050.
Berbicara tentang pola: kita mungkin menjelaskan sedikit lebih jauh sebagai formula yang memberikan situasi umum untuk masalah Gauss' terlihat seperti ini:
Formula ini juga menangkap pola geometris yang terkenal: Jumlah formulir disebut nomor segitiga karena mereka adalah persis angka yang Anda dapat memperoleh dengan mengatur bola di segitiga sama sisi. Pertama lima nomor-1 segitiga, 3, 6, 10, dan 15-ditunjukkan pada Gambar 2.
Gambar 2. pertama lima nomor segitiga (1, 3, 6, 10, dan 15)

penalaran kuantitatif lebih dari yang sangat baik di penalaran dalam situasi matematika. Ini mencakup sejumlah pengertian: arti dari operasi, merasakan besarnya angka, perhitungan cerdas, aritmatika mental, estimasi. Dan datang dekat untuk menjadi matematis melek jika kita menerima definisi yang lebih luas (Howden, 1989).
Mengingat peran fundamental penalaran kuantitatif dalam aplikasi matematika, serta daya tarik manusia bawaan untuk nomor, itu tidak mengherankan bahwa konsep jumlah dan keterampilan membentuk inti dari matematika sekolah. Di kelas paling awal, kita mulai anak-anak di jalan matematika yang dirancang untuk mengembangkan prosedur komputasi aritmatika bersama-sama dengan pemahaman konseptual yang sesuai yang diperlukan untuk memecahkan masalah kuantitatif dan membuat keputusan.
keaksaraan kuantitatif memerlukan kemampuan untuk menafsirkan nomor yang digunakan untuk menggambarkan fenomena acak serta deterministik, untuk alasan dengan set kompleks variabel yang saling terkait, dan untuk merancang dan kritis menafsirkan metode untuk mengukur fenomena di mana tidak ada model standar ada.
Kuantitatif siswa melek membutuhkan kemampuan fleksibel untuk (a) mengidentifikasi hubungan penting dalam situasi baru, (b) mengungkapkan mereka hubungan dalam bentuk simbolik yang efektif, (c) menggunakan alat komputasi untuk memproses informasi, dan (d) menafsirkan hasil perhitungan tersebut ( Fey, 1990). Di sini kita berbatasan ide besar berikutnya: ketidakpastian.
Kami juga ingin menekankan bahwa dalam rangka tampak aritmatika sekolah dasar, ada tempat untuk penalaran kuantitatif serupa dengan Gauss, seperti yang dijelaskan sebelumnya. Kreativitas, ditambah dengan pemahaman konseptual, sering diabaikan di tingkat sekolah dasar sekolah. Siswa tahu bagaimana melaksanakan perkalian tetapi tidak tahu bagaimana menjawab ketika ditanya, “Apa perkalian?” Siswa sangat buruk dididik dalam mengenali masalah isomorfik, atau masalah yang dapat diselesaikan dengan menggunakan alat-alat matematika yang sama. Misalnya, mereka sering gagal untuk mengenali bahwa tiga masalah berikut semua bisa diselesaikan dengan menggunakan tabel rasio.
1) Malam ini Anda memberikan pesta. Anda ingin sekitar seratus kaleng Coke. Berapa banyak enam-pack Anda akan membeli?           
2) Sebuah menguasainya glider dengan rasio luncur 1 sampai 23 dimulai dari sebuah tebing terjal di 123 meter. Pilot bertujuan untuk sebuah tempat pada jarak 1.234 meter. Apakah dia mencapai tempat itu?     
3) Sebuah sekolah ingin menyewa minivan (dengan 8 kursi masing-masing) untuk mengangkut 78 siswa ke sebuah kamp sekolah. Berapa banyak van sekolah perlu?     

ketidaktentuan

Ketidakpastian ini dimaksudkan untuk menyarankan dua topik terkait: data dan kesempatan. Baik adalah topik dalam matematika tetapi keduanya adalah fenomena yang merupakan subjek penelitian matematika. rekomendasi bukan baru-baru ini mengenai kurikulum sekolah sepakat dalam menunjukkan bahwa statistik dan probabilitas harus menempati tempat yang jauh lebih menonjol daripada yang telah terjadi di masa lalu (Ilmu Matematika Dewan, 1990; NCTM, 1989). Karena rekomendasi ini menekankan analisa data, bagaimanapun, sangat mudah untuk melihat statistik sebagai kumpulan keterampilan khusus. David S. Moore, statistik pendidik terkenal, menunjukkan bagi kita apa ide besar “ketidakpastian” benar-benar semua tentang. Kami mengikuti ide-idenya seperti yang disajikan dalam Pada Shoulders of Giants (Steen, 1990).
Kemampuan untuk menangani cerdas dengan variasi dan ketidakpastian adalah tujuan instruksi tentang data dan kesempatan. Variasi adalah sebuah konsep yang sulit untuk menangani: Anak-anak yang memulai pendidikan mereka dengan ejaan dan perkalian mengharapkan dunia untuk menjadi deterministik. Mereka belajar dengan cepat untuk mengharapkan satu jawaban untuk menjadi benar dan orang lain salah, setidaknya ketika jawaban mengambil bentuk numerik. Variasi adalah tak terduga dan tidak nyaman, sebagai Arthur Nielsen (1987) dari perusahaan riset pemasaran terkenal mencatat:
[Bisnis orang] menerima nomor sebagai mewakili Kebenaran .... Mereka tidak melihat angka sebagai semacam singkatan untuk rentang yang menggambarkan pengetahuan yang sebenarnya kita tentang kondisi yang mendasarinya.
... Saya pernah memutuskan bahwa kami akan menarik semua grafik untuk menunjukkan berbagai kemungkinan sekitar jumlah yang dilaporkan; misalnya, penjualan yang baik naik 3 persen, atau turun 3 persen atau di suatu tempat di antara. Ini ternyata menjadi salah satu ide saya bodoh. Klien kami hanya tidak bisa bekerja dengan jenis ketidakpastian. (P. 8)
pemikiran statistik melibatkan penalaran dari data empiris yang tidak pasti dan karenanya harus menjadi bagian dari peralatan mental setiap warga negara yang cerdas. elemen utamanya adalah the-
·         Kemahahadiran variasi dalam proses.
·         Perlu untuk data tentang proses.
·         Desain produksi data dengan variasi dalam pikiran.
·         Kuantifikasi variasi.
·         Penjelasan variasi.
Analisis data mungkin membantu belajar matematika dasar: Inti dari analisis data adalah untuk “membiarkan data berbicara” dengan mencari pola dalam data tanpa terlebih dahulu mempertimbangkan apakah data mewakili beberapa alam semesta yang lebih besar.
Fenomena yang memiliki hasil individu pasti tetapi pola yang teratur dari hasil di banyak pengulangan disebut acak. Psikolog telah menunjukkan bahwa intuisi kita kesempatan mendalam bertentangan dengan hukum probabilitas. Pada bagian, ini karena kontak terbatas siswa dengan keacakan. Studi data menawarkan pengaturan alam untuk sebuah pengalaman. Hal ini menjelaskan prioritas analisis data melalui probabilitas formal. Inferensi harus menjadi prinsip penting dalam belajar dan mengajar ketidakpastian.

Hubungan Dengan Tradisional Strands

Ini akan menjadi jelas dari pengenalan kita tentang “ide-ide besar” bahwa (a) kita tidak akan pernah dapat sepenuhnya ambil “matematika” dalam tema tersebut dan (b) tidak hanya tema lain ada tetapi tema ini mungkin lebih baik, tergantung pada perspektif seseorang. Hal ini juga memerlukan sedikit imajinasi untuk menghubungkan ide-ide besar dengan untaian tradisional. Kami juga menyadari bahwa relatif sedikit bahan teks sekolah berangkat dari big-ide pendekatan. Visualisasi tingkat kompetensi di Piramida mencerminkan dilema itu. Tapi kita hanya melakukan keadilan untuk disiplin matematika dan untuk siswa kami jika kita memberikan gambaran yang lebih jujur ​​matematika. Itu berarti bahwa dalam penilaian kelas kita, kita perlu berjuang untuk item penilaian yang lebih luas yang belum tentu cocok dengan untaian tradisional. Yang memiliki dampak bagi proses belajar mengajar di kelas karena penilaian harus selaras mulus. Tetapi jika kita menerima prinsip bahwa matematika harus penting dan relevan, kita memerlukan setidaknya untuk menanamkan untai tradisional di ide-ide besar. Sekali lagi, kami menekankan hipotesis Black dan Wiliam bahwa penilaian kelas mungkin alat yang paling ampuh untuk mengubah dan meningkatkan pendidikan matematika. Bahkan mungkin membantu kami melukis gambar jauh lebih hidup dan dinamis matematika.

Metode untuk Classroom Assessment

Ketika terlibat dalam penilaian kelas, guru dihadapkan dengan banyak tugas, pilihan, dan dilema. Bagaimana kita bisa memprovokasi dialog Socrates yang memacu belajar, dan bagaimana kita dapat menilai dialog ini? (Perhatikan bahwa bahkan selama dialog tersebut, Hans Freudenthal memperingatkan terhadap peran siswa terlalu pasif [Freudenthal, 1973].) Bagaimana kita dapat mengatur interaksi mujarab, dan bagaimana kita dapat menilai efek yang dihasilkan? Apa jenis tugas menyebabkan argumen berbuah dan bagaimana kita bisa menghargai argumen ini? Bagaimana kita dapat mengamati dengan cara yang tepat dan melacak apa yang diamati?
Untuk banyak alasan, tidak satupun dari pertanyaan-pertanyaan ini harus sederhana, mudah menerapkan jawaban. Alasan yang paling jelas, bagaimanapun, tampaknya penilaian yang begitu terjalin dengan belajar dan mengajar. Tidak mungkin untuk mengatakan di mana pembelajaran berakhir dan penilaian dimulai. Alasan lain adalah bahwa konteks sosial budaya memainkan peran utama. Tidak ada “umum” aturan. Kita hanya dapat memberikan guru beberapa informasi tentang eksperimen kelas dan hasil observasi, cukup sering mengakibatkan teori “lokal”.
Kami dapat menawarkan saran agak lebih praktis di bidang diri dan penilaian sejawat dan bahkan lebih ketika kita membahas format penilaian yang lebih umum; kemungkinan mereka, kualitas, dan kelemahan; bagaimana memilih format yang sesuai; dan bagaimana untuk mencetak tugas. Kami telah memilih sebagai prinsip kami bahwa matematika harus relevan, yang cukup sering berarti bahwa perlu ada link ke dunia nyata; Oleh karena itu, perhatian khusus harus diberikan kepada pilihan, peran, dan fungsi konteks dalam penilaian. Aspek ini memainkan peran penting dalam setiap bentuk penilaian, jadi kita akan mulai dengan diskusi tentang konteks.

konteks

Ini akan menjadi jelas dari deskripsi domain kita yang harus memainkan peran utama sebagai wahana untuk menilai wawasan, pemahaman, dan konsep konteks.
Berbagai konteks yang dibutuhkan, serta berbagai peran untuk konteks. varietas diperlukan untuk meminimalkan kemungkinan menampilkan isu dan fenomena yang tidak relevan secara budaya. Kisaran peran untuk konteks kebutuhan penjabaran lebih lanjut karena efek pada apa yang kita mengukur berkaitan dengan peran ini. Meyer (2001) membedakan lima peran yang berbeda dari konteks: (a) untuk memotivasi, (b) untuk aplikasi, (c) sebagai sumber matematika, (d) sebagai sumber strategi solusi dan (e) sebagai jangkar bagi pemahaman siswa.

Jarak ke siswa

Seseorang dapat berpikir tentang konteks sebagai “jarak” tertentu dari siswa: konteks yang terdekat adalah kehidupan pribadi (kehidupan sehari-hari); berikutnya terdekat adalah kehidupan sekolah, pekerjaan, dan olahraga; berikutnya adalah masyarakat setempat dan masyarakat sebagai ditemui dalam kehidupan sehari-hari; dan di luar yang konteks ilmiah. Dengan cara ini, seseorang dapat menentukan kurang lebih skala terus menerus yang dapat dianggap sebagai aspek lain dari kerangka. Tidak jelas bagaimana jarak ini mempengaruhi kinerja siswa pada tugas-tugas. Aspek ini memerlukan penelitian lebih lanjut, sebagai hasil sejauh tidak dapat disimpulkan dalam arti bahwa kita tidak bisa mengatakan bahwa “lebih dekat” konteks yang lebih menarik bagi siswa atau lebih cocok untuk tugas-tugas dari yang lebih ilmiah. kepercayaan umum menunjukkan bahwa kurang siswa brilian “lebih” konteks lebih dekat ke lingkungan dekat mereka karena mereka dapat terlibat lebih mudah melalui konteks.
·         Penjual es krim telah dihitung bahwa jika dia menjual 10 es krim, mereka akan menjadi jenis berikut: 2 cangkir, 3 kerucut dan 5 tongkat. Dia memerintahkan 500 es krim untuk pertandingan sepak bola. Apa distribusi berbagai jenis yang akan ia gunakan?
·         Marge lebih ringan dari Alice. Anny adalah lebih ringan dari Alice. Yang lebih ringan: Anny atau Marge?
·         Satu pak kertas yang berisi 500 lembar tebal 5 cm. Bagaimana tebal satu lembar kertas?
Di tingkat dasar kita sering melihat jenis konteks yang “dekat dengan siswa” dan diambil dari nya kehidupan “sehari-hari”. Menurut Gravemeijer (1994) dan Dekker (1993), bagaimanapun, keakraban dengan konteks dapat menjadi penghalang: Harus ada “jarak tertentu.”
Fantasi dunia menawarkan konteks lain yang populer di mana fantasi dan kreativitas siswa dapat menyebabkan relevan, tetapi tidak otentik, kegiatan matematika. Tentu saja kita tidak bisa mengukur jarak ke setiap siswa secara individual, jadi kita harus membuat asumsi tertentu. Salah satu asumsi, penting karena berkaitan langsung dengan salah satu prinsip membimbing kami, adalah bahwa jarak untuk konteks tertentu mungkin berbeda untuk anak perempuan dan anak laki-laki. Kita perlu menyadari anak laki-laki khas dan perempuan konteks. Penelitian oleh van den Heuvel-Panhuizen dan Vermeer (1999) menunjukkan bahwa anak laki-laki berbuat lebih baik pada pengetahuan eksperimental pada nomor dan langkah-langkah dari dunia nyata sehari-hari, sedangkan anak perempuan tampaknya tampil lebih baik pada item mana algoritma standar atau prosedur yang dibutuhkan.
Pada tingkat menengah, asumsi yang perlu konteks menjadi sangat dekat dengan siswa tidak memegang. Kami melihat setidaknya dua isu yang relevan. Pertama, kita melihat lebih banyak dan lebih baru real-dunia untuk siswa-termasuk dunia ilmiah dan politik. Tapi ada juga tampaknya menjadi kecenderungan perkembangan ini ditunda agak bagi siswa-kemampuan yang lebih rendah. Alasan untuk ini tampaknya lebih didasarkan pada praktis intuisi guru kelas dari pada penelitian.
Aspek lain dari penggunaan konteks itu kita perlu menyadari adalah perannya dalam item penilaian. Tentu saja kita tahu bahwa banyak item tidak memiliki konteks sama sekali, dan melihat definisi domain kita, tampaknya sangat tidak mungkin bahwa kita akan menghadapi masalah seperti ini sering, tapi matematika itu sendiri adalah bagian dari dunia nyata kita, sehingga kita terikat untuk pertemuan aspek ini.

Relevansi dan Peran Konteks

Konteks dapat hadir hanya untuk membuat masalah terlihat seperti masalah dunia nyata (konteks palsu, konteks kamuflase, “zero-order” konteks). Kami harus tinggal jauh dari penggunaan tersebut jika memungkinkan.
The real “orde pertama” penggunaan konteks adalah ketika konteksnya adalah relevan dan diperlukan untuk memecahkan masalah dan menilai jawabannya.
penggunaan urutan kedua dari konteks muncul ketika salah satu benar-benar perlu “mathematize” masalah dalam rangka untuk memecahkan itu, dan satu perlu merenungkan jawaban dalam konteks untuk menilai kebenaran jawabannya. Jadi perbedaan antara penggunaan pertama dan kedua urutan konteks terletak pada peran proses mathematization. Di urutan pertama, kami telah premathematized masalah, sedangkan di urutan kedua banyak penekanan ditempatkan pada proses ini (de Lange, 1979, 1987).
Untuk alasan ini, kami berharap penggunaan pertama konteks ketertiban di sebagian besar item lebih pendek (misalnya, pilihan ganda; terbuka, jawaban singkat), sedangkan orde kedua menggunakan konteks yang paling sering terbatas pada format yang memungkinkan untuk lebih berorientasi pada proses kegiatan yang cukup sering mewakili kompetensi dan keterampilan kedua dan ketiga tingkat.
disebutkan secara khusus harus dibuat dari penggunaan konteks orde ketiga, di mana konteks melayani konstruksi atau reinvention konsep-konsep matematika baru. Sebuah contoh yang sangat sederhana adalah penggunaan naik bus sebagai model untuk penambahan dan pengurangan (van den Brink, 1989).

Nyata Versus Buatan Versus Konteks Virtual

Tampak jelas bahwa ketika kita menekankan pendidikan matematika yang akan mempersiapkan warga negara kita untuk menjadi warga negara yang cerdas dan informasi, kita harus berurusan dengan segala macam konteks nyata. Kami harus berurusan dengan masalah pencemaran, dengan keselamatan lalu, dengan pertumbuhan penduduk. Tapi apakah ini berarti bahwa kita harus mengecualikan konteks buatan dan virtual? Jawabannya adalah tidak, tapi kita perlu menyadari perbedaan bagi siswa.
Sebuah konteks virtual berisi unsur-unsur yang tidak diambil bentuk apapun realitas fisik, sosial, praktis, atau ilmiah yang ada. Mereka yang bersifat ideal, bergaya atau umum. Misalnya, jika tata letak jalan bergaya dari kota C dianggap untuk masalah lalu lintas ideal, hanya label “jalan”, “kota,” dan “lalu lintas” yang nyata-kota, jalan-jalan, dan lalu lintas tidak nyata atau otentik.
Konteks buatan Penawaran misalnya dengan objek dongeng-ada atau konstruksi. Kelas ini konteks lebih mudah untuk memisahkan dari konteks nyata dan harus digunakan dengan hati-hati. Siswa tidak akan selalu dapat bekerja berfantasi dalam pengaturan buatan ini atau terlibat dalam dunia yang jelas tidak nyata. Tapi kadang-kadang penggunaan situasi ini dapat dibenarkan.
Untuk semua penggunaan konteks, kondisi yang mereka fitur matematika dan bahwa mereka memungkinkan kita untuk menganalisis sistem dan situasi, kadang-kadang bahkan sebelum mereka ditetapkan atau dipraktekkan dan karenanya sebelum sumber daya yang dihabiskan atau bahaya yang dihadapi.
Mari kita mengalihkan perhatian kita dari fitur umum ini yang berperan dalam semua metode penilaian dan dalam beberapa sebagian besar dapat menentukan apakah atau tidak kita mendapatkan penilaian yang baik dalam arti bahwa siswa bersedia dan bersemangat untuk terlibat dalam masalah yang kita berpose ke mereka. Pertama kita akan membahas aspek dari praktek kelas sehari-hari yang tidak selalu dianggap sebagai memiliki aspek penilaian yang berharga: ceramah, observasi, dan pekerjaan rumah.

Ceramah

Membahas, menjelaskan, membenarkan, menggambarkan, dan analogizing semua fitur penalaran di kelas matematika. Memiliki argumen untuk menemukan solusi matematika yang tepat dan definisi umumnya dianggap sebagai kontribusi baik untuk belajar seluruh kelas ini juga untuk kemajuan masing-masing individu (Wood, 1998; Cobb, Yackel, & Wood, 1993). Di bawah kondisi tertentu ruang kelas, argumentasi dapat memiliki dampak yang kuat pada pembelajaran. interaksi kelas didasarkan pada asumsi bahwa siswa di “tingkat kompetensi matematika dan sosial dan keterampilan” yang berbeda atau bahwa ada “framing perbedaan” (Krummheuer, 1995). Jadi hanya akan ada kesepakatan tentang inti dari argumen. Selanjutnya, inti dari argumen berarti sesuatu yang berbeda untuk setiap siswa, tergantung pada framing.
Penting dalam argumentasi adalah kemampuan untuk membangun kesamaan struktural antara beberapa pengalaman argumentasi dalam situasi yang berbeda. Seperti “pola” dari argumen sama terstruktur disebut topos. Argumentasi di dalam kelas dapat berkontribusi untuk pembentukan topos untuk seorang siswa, yang mengarah ke pengembangan matematika konseptual.
Krummheuer memberikan contoh dua mahasiswa yang mengetahui argumentasi untuk memecahkan balancing skala masalah sederhana tetapi tidak dapat memanfaatkannya, yang berarti bahwa tidak ada topos individual tersedia. Tentu saja, ini adalah informasi penting untuk guru, dan dengan demikian, penilaian formatif.
Singkatnya, Krummheuer menggunakan pengertian tentang data, kesimpulan, waran, dan dukungan sebagai sarana untuk menganalisis argumentasi. Menurut Yackel (1995), pendekatan Krummheuer ini berguna untuk dua alasan: Ini menjelaskan hubungan antara individu dan kolektif, dan-terutama relevan di sini-itu menyediakan cara untuk menunjukkan perubahan yang terjadi dari waktu ke waktu.
Contoh lain diberikan oleh van Reeuwijk (1993), menunjukkan bagaimana pengetahuan tentang konsep 'siswa rata-rata' itu dinilai selama diskusi kelas. Pertanyaan yang diajukan adalah apakah mungkin untuk menghitung ukuran rata-rata keluarga menggunakan data sebagai berikut:

# anak-anak
 per keluarga
keluarga #
(Dalam ribuan)
0
1176
1
810
2
1016
3
417
4
149
5
59
6
23
7 atau lebih
16
Siswa A: Bagaimana kita harus melakukan ini?         
Mahasiswa B: Hanya meringkas dan membagi.        
Mahasiswa C: Ya, tapi apa?   
Mahasiswa B: Saya tidak tahu. OK, ada 3.650 keluarga.     
Mahasiswa C: OK, bagi dengan 7.    
Siswa A: Itu tidak masuk akal.          
Guru: Apa yang dimaksud dengan keluarga?            
Mahasiswa: ibu, ayah dan anak.                    
Mahasiswa: Jadi, kita harus mencari tahu berapa banyak anak-anak dalam keluarga.                      
Guru: Berapa banyak anak-anak yang ada?               
Mahasiswa: 28 atau lebih. Oh tidak, itu tidak masuk akal.               
Guru: Berapa banyak keluarga yang ada tanpa anak-anak?              
Mahasiswa: 1176                    
Guru: Berapa banyak anak-anak itu?             
Mahasiswa: (Terkejut) Tidak ada!                  
Mahasiswa: Itu berarti 810 anak-anak di keluarga tanpa anak-anak.            

Sebuah artikel oleh Cobb (1999) memberikan contoh lain dari wacana kelas yang menarik yang memberikan informasi penting tentang dimana siswa dalam proses belajar mengajar, dan dengan demikian merupakan bagian dari proses penilaian. Ini adalah tentang penalaran dengan data dari awal. Kegiatan ini difokuskan pada pertanyaan apakah pengenalan perangkap kecepatan polisi dalam zona dengan batas kecepatan 50 mil per jam telah melambat lalu lintas dan dengan demikian mengurangi kecelakaan. Data yang ditunjukkan pada Gambar 3. Grafik bawah menunjukkan kecepatan 60 mobil sebelum perangkap kecepatan diperkenalkan, dan yang atas menunjukkan kecepatan 60 mobil setelah perangkap kecepatan telah digunakan untuk beberapa waktu. Untuk memulai diskusi, salah satu guru meminta Janice untuk membaca laporan analisisnya:
Jika Anda melihat grafik dan melihat mereka seperti bukit, maka untuk kelompok sebelumnya, kecepatan tersebar dan lebih dari 55, dan jika Anda melihat grafik setelah, maka banyak orang yang berkumpul dekat dengan batas kecepatan, yang berarti bahwa mayoritas rakyat melambat dekat dengan batas kecepatan.
Gambar 3. Grafik data dari kegiatan trap (1999) kecepatan Cobb

Sebagai Cobb melihat, ini adalah kesempatan pertama dalam wacana kelas publik di mana mahasiswa menggambarkan sebuah set data, hal kualitatif global dengan mengacu pada bentuknya. Kedua guru kemudian memanfaatkan kontribusi Janice dalam sisa diskusi, memperlakukan analisis siswa lain sebagai upaya untuk menggambarkan perbedaan kualitatif dalam data set secara kuantitatif. Misalnya, Karen menjelaskan bahwa dia telah mengorganisir data set dengan menggunakan lebar interval tetap lima: “Seperti, pada yang pertama, kebanyakan orang 50-60-di situlah kebanyakan orang berada di grafik.” Salah satu guru memeriksa apakah siswa lain setuju dengan interpretasi nya. Karen kemudian melanjutkan: “Dan kemudian di satu atas, kebanyakan orang adalah antara 50 dan 55 karena, um, banyak orang melambat ... Jadi, seperti, lebih banyak orang antara 50 dan 55.”
Tak usah dikatakan bahwa subjek wacana cocok untuk lebih banyak perhatian dari yang kita dapat memberikan dalam kerangka ini. Satu-satunya titik kita ingin membuat di sini adalah bahwa, dengan asumsi kami menawarkan siswa tugas berharga dan mengatur interaksi dan wacana dalam beberapa cara terorganisir (ada tak terhingga banyaknya), kita tidak hanya akan memberikan kontribusi pada pengembangan konseptual dari siswa tetapi juga mendapatkan wawasan yang lebih dalam kegagalan dan keberhasilan pembangunan itu dan akan dapat menyesuaikan pengajaran dan praktik pembelajaran. Karenanya, ini adalah salah satu aspek yang paling penting dari penilaian kelas.
Johnson & Johnson (1990) menyajikan meta-analisis menunjukkan bahwa wacana kolaboratif dapat menghasilkan keuntungan yang signifikan dalam belajar. Dalam bidang ilmu, Rodrigues & Bell (1995), Cosgrove & Schaverien (1996), dan Duschl & Gitomer (1997) melaporkan lebih banyak dukungan untuk belajar keuntungan dengan cara wacana.

pengamatan

Diskusi tentang wacana menyatu secara alami dengan satu pengamatan, terutama jika kita melihat observasi di lingkungan kelas interaktif. Tapi pengamatan meliputi lebih dari wacana itu saja. Pengamatan menunjukkan mana siswa melakukan lebih baik sendiri, dan yang tampil lebih baik dalam kelompok. Mereka memberikan wawasan tentang seberapa baik siswa mengatur hasil dari diskusi di atas kertas, bagaimana terorganisir mereka. Mereka membantu guru memperkirakan tingkat kepercayaan yang sangat penting dalam rangka untuk terlibat dalam argumen matematika.
Banyak guru telah terdegradasi informasi penting yang diperoleh dari pengamatan status kelas dua di balik informasi yang dapat diperoleh dari “test.” Sebagian dari masalah adalah bahwa pengamatan sulit untuk mengatur secara sistematis dan informasi yang terlalu informal untuk membuat keputusan pendidikan keras. Pengenalan teknologi informasi baru seperti penyelidikan PD dan spreadsheet, bagaimanapun, membuatnya agak lebih mudah untuk membuat format ini lawan yang lebih serius, terutama untuk penilaian kelas.
Dan bantuan yang tersedia untuk guru-guru yang ingin membuat penggunaan efektif pengamatan. Beyer (1993) memberikan beberapa saran yang secara ekologis berlaku: Gunakan refleksi Anda sebagai guru dalam rangka untuk mengembangkan indikator kinerja Anda sendiri. Berikutnya: Cobalah untuk merekam kinerja siswa terhadap indikator Anda secara teratur. Hal ini mungkin terdengar lebih rumit dari yang diperlukan. indikator kinerja bisa menunjukkan, misalnya, tiga tingkat-jangan sederhana tidak mengerti, dalam perjalanan ke pemahaman, dan benar-benar memahami konsep-dan tujuan hanya pada konsep-konsep matematika yang sangat penting, membatasi lingkup tetapi masih mendapatkan informasi yang sangat relevan. Indikator-indikator ini dapat dikembangkan secara lebih rinci menggunakan kerangka ini atau sumber eksternal lainnya. Kebanyakan guru tahu betul apa Webb (1995) catatan:

Pekerjaan rumah

Pekerjaan rumah tidak sangat sering digunakan sebagai atau dianggap penilaian, dan tentu saja tidak jika kita berpikir tentang penilaian seperti yang kita lihat itu. Cukup sering, sedikit pemikiran diberikan kepada pemilihan masalah pekerjaan rumah ( “hanya melakukan penjumlahan selanjutnya”), juga tidak ada diskusi yang rumit tentang hasil. Hal ini tidak terlalu mengejutkan, mengingat bahwa banyak masalah pekerjaan rumah umumnya mendorong belajar hanya dangkal dan hafalan. Namun pengecualian menunjukkan kemungkinan dan kekuatan, sebagai menjadi jelas dalam pengamatan dari proyek NCISLA-RAP. Semua siswa mendapat pekerjaan yang sama. Masalah dengan hati-hati dipilih untuk menjamin kemungkinan strategi yang berbeda dalam solusi siswa. Guru pertama kali memeriksa apakah siswa telah berhasil dicapai pekerjaan rumah dan membuat catatan (nilai) dalam kasus khusus (lebih baik daripada, lebih buruk dari). Berikutnya, guru mengundang beberapa siswa untuk menulis pekerjaan rumah mereka di papan tulis, memastikan para siswa diwakili strategi dan solusi yang berbeda. Kemudian semua solusi yang dibahas dalam sesi kelas pleno yang melibatkan semua siswa. Siswa bisa membuat pikiran mereka dan membuat revisi pekerjaan mereka sendiri. Selama diskusi ini, dan berdasarkan masukan oleh masing-masing siswa, guru bisa membuat lebih banyak catatan tentang pemahaman siswa tentang matematika yang terlibat.
PR operasionalisasi cara ini menyatukan aspek terbaik dari wacana dan pengamatan dan juga memberikan siswa pengenalan yang sangat baik ke dalam self-assessment.

Penilaian diri

Hal ini menggoda untuk mengutip di sini dalil oleh Wiggins (1993): “Sebuah pendidikan otentik membuat self-assessment pusat.” Cara untuk menghilangkan kerahasiaan adalah cara yang sama untuk memastikan kualitas yang lebih tinggi di-the-board pekerjaan dari bahkan kita yang paling siswa mengkhawatirkan: mengajar siswa bagaimana menilai diri sendiri dan menyesuaikan diri, berdasarkan standar kinerja dan kriteria yang akan digunakan. Implikasi praktis dari postulat ini adalah bahwa kita harus memerlukan siswa untuk menyerahkan penilaian diri dengan potongan-potongan utama dari pekerjaan. Umpan balik dari guru akan membantu membuat jelas kepada siswa bagaimana guru menilai dalam kaitannya dengan persepsi mereka sendiri “kualitas.” Hal ini pada gilirannya kemungkinan besar akan meningkatkan belajar siswa melalui pemahaman yang lebih baik dari kriteria dan terutama berbagai tingkat kompetensi matematika karena mereka bermain keluar pada tes dan tugas-tugas. Postulat Wiggins ini tidak sepele, seperti ditegaskan oleh tinjauan literatur dilakukan oleh Black dan Wiliam (1998), di mana mereka menyimpulkan bahwa fokus pada penilaian diri oleh siswa tidak praktek umum, bahkan di antara guru yang mengambil penilaian serius. Juga luar biasa adalah fakta bahwa di literatur umum pada penilaian kelas, topik yang sering diabaikan, hanya seperti di koleksi lain yang komprehensif oleh Phye (1997).
Argumen untuk memperkenalkan self-assessment bervariasi. Kita telah mencatat titik Wiggins pandang. Norwegia memperkenalkan diri sendiri dan teman-assessment sebagai bagian intrinsik dari setiap program yang bertujuan untuk membantu siswa mengambil tanggung jawab lebih untuk belajar mereka sendiri. Argumen selanjutnya adalah bahwa siswa perlu merefleksikan pemahaman mereka sendiri dan bagaimana mengubah pemahaman mereka, dan penilaian diri adalah alat yang sangat baik untuk mencapai hal ini. Sadler (1989) berpendapat bahwa siswa tidak dapat mengubah pemahaman mereka kecuali mereka pertama kali dapat memahami tujuan yang mereka gagal untuk mencapai, mengembangkan sekaligus gambaran di mana mereka dapat menemukan posisi mereka sendiri dalam kaitannya dengan tujuan-tujuan ini, dan kemudian lanjutkan untuk mengejar dan internalisasi pembelajaran yang mengubah pemahaman mereka. Dalam pandangan ini, penilaian diri adalah sine qua non untuk pembelajaran yang efektif. Data penelitian adalah secara umum sangat positif: beberapa penelitian kualitatif melaporkan inovasi untuk mendorong refleksi diri. Kami hanya menyebutkan hasil yang menunjukkan bahwa siswa dapat dibantu dengan menggunakan self-assessment untuk menyadari, melalui umpan balik pada penilaian diri mereka, kurangnya korespondensi antara persepsi mereka sendiri dari pekerjaan mereka dan penilaian orang lain. Hal ini menyebabkan peningkatan kualitas karya siswa (Merret & Merret, 1992; Griffiths & Davies, 1993; Powell & Makin 1994; Meyer & Woodruff, 1997). kurangnya korespondensi antara persepsi mereka sendiri dari pekerjaan mereka dan penilaian orang lain. Hal ini menyebabkan peningkatan kualitas karya siswa (Merret & Merret, 1992; Griffiths & Davies, 1993; Powell & Makin 1994; Meyer & Woodruff, 1997). kurangnya korespondensi antara persepsi mereka sendiri dari pekerjaan mereka dan penilaian orang lain. Hal ini menyebabkan peningkatan kualitas karya siswa (Merret & Merret 1992; Griffiths & Davies, 1993; Powell & Makin 1994; Meyer & Woodruff, 1997).
Kami telah menunjukkan bahwa pekerjaan rumah dapat memainkan peran dalam penilaian diri, tetapi juga dapat berfungsi dalam konsep peer-assessment-siswa menilai karya siswa. Dan kedua penilaian diri dan penilaian sejawat dapat menemukan bentuk yang sangat efektif ketika “produksi sendiri” format yang digunakan. penilaian sejawat akan dibahas selanjutnya, diikuti oleh siswa ‘produksi sendiri.’

Penilaian sejawat

Mengintip penilaian, seperti self-assessment, dapat mengambil banyak bentuk. Siswa dapat diminta untuk kelas sebaliknya test “tradisional”, mengomentari presentasi lisan oleh siswa lain, atau untuk membangun item tes atau bahkan seluruh tugas (Koch & Shulamith, 1991; de Lange et al, 1993;. Streefland, 1990 ; van den Brink, 1987). Tingkat keberhasilan belum mapan karena penilaian sejawat sering diperkenalkan pada saat yang sama seperti inovasi lainnya seperti kelompok kerja (Webb, 1995). penilaian sejawat memprovokasi diskusi antara siswa tentang strategi dan solusi yang berbeda dan membantu mereka untuk memperjelas pandangan mereka dalam pengaturan di mana mereka dapat merasa safe.As contoh yang lebih konkret dari kedua penilaian diri dan penilaian sejawat yang berhubungan dengan cara yang positif untuk prinsip-prinsip kami -lebih khususnya,

Productions sendiri

Jika salah satu prinsip kami adalah bahwa pengujian harus positif-yang berarti bahwa kita harus menawarkan siswa kesempatan untuk menunjukkan kemampuan-dan bahwa tes adalah bagian dari proses belajar mengajar, maka produksi sendiri menawarkan kemungkinan mereka bagus. Ide produksi sendiri tidak benar-benar baru. Laporan tentang pengalaman kembali waktu yang lama. Treffers (1987) telah memperkenalkan perbedaan antara konstruksi dan produksi, yang menurut dia tidak ada masalah prinsip. Sebaliknya, produksi bebas adalah cara yang paling hamil untuk konstruksi untuk mengekspresikan diri.
Dengan konstruksi, kita maksud-
·         Memecahkan masalah yang relatif terbuka yang menimbulkan produksi divergen karena berbagai macam solusi mereka mengakui, sering pada berbagai tingkat mathematization.
Dan-
·         Memecahkan masalah yang tidak lengkap yang memerlukan data diri memasok dan referensi sebelum mereka dapat diselesaikan.
Ruang konstruksi untuk produksi bebas mungkin bahkan lebih luas:
·         Contriving masalah sendiri (mudah, sedang, sulit) sebagai kertas tes atau sebagai buku masalah tentang tema atau kursus, menulis untuk melayani kelompok berikutnya murid (Streefland, 1990).
Ketiga Saran-memiliki siswa menghasilkan item tes atau tes-dilaksanakan dalam sebuah studi tentang masalah visualisasi data di sebuah sekolah tinggi Amerika. Para penulis (de Lange & van Reeuwijk, 1993) menjelaskan secara rinci bagaimana mengajar dan urutan belajar dari sekitar lima minggu dinilai. Terlepas dari dua format lebih-atau-kurang-tradisional dengan beberapa masalah yang tidak biasa, akhir-of-the-periode pengujian berbeda. Tugas disajikan kepada siswa dengan cara berikut:
Data Visualisasi Tugas
Tugas ini adalah salah satu yang sangat sederhana. Pada saat ini, Anda telah bekerja sendiri melalui dua bab pertama buku dan dibawa tes relatif biasa. Tugas ini adalah berbeda:
Desain tes untuk sesama siswa yang mencakup seluruh buku.
Anda dapat memulai persiapan Anda sekarang: Lihatlah majalah, buku, dan koran untuk data, grafik, dan grafik yang ingin Anda gunakan. Tuliskan ide-ide yang muncul selama waktu sekolah. Setelah menyelesaikan pelajaran terakhir, Anda akan memiliki tiga minggu untuk merancang tes. Mengingat:
Tes harus diambil dalam satu jam.
Anda harus tahu semua jawaban.
Semoga berhasil!
Hasil tes ini memang sangat membantu bagi guru yang terlibat. Beberapa siswa menunjukkan pekerjaan yang sangat mengecewakan: Mereka hanya menyalin item dari buklet, menghindari mengambil risiko atau kreativitas. Lainnya menunjukkan bahwa bahkan itu terlalu banyak bagi mereka: Jawaban untuk pertanyaan yang dibahas dalam kelas menunjukkan bahwa belajar siswa sangat minim di terbaik. Meskipun banyak pertanyaan yang dirancang oleh mahasiswa yang jauh lebih baik, mereka cukup sering pada Kompetensi Level 1 (lihat Gambar 4).

Grafik yang ditampilkan di sini adalah grafik bar yang melibatkan informasi tentang berapa banyak uang yang dihabiskan untuk perlengkapan militer dibandingkan dengan GNP negara.
Apakah informasi ini mudah dibaca dan dimengerti? Mengapa atau mengapa tidak?
Tidak, informasi ini tidak mudah dibaca karena angka-angka di sebelah kiri tidak memiliki arti. Satu tidak bisa mengatakan jika itu berarti jutaan, miliaran, dll
Bisa informasi ini diwakili lebih baik? Menjelaskan.
Tidak, karena grafik garis (kotak-plot, grafik pie, batang daun, dll) tidak akan bekerja.
Apakah grafik ini akurat? Jelaskan jawabanmu.
Tidak, karena grafik ini didasarkan pada rata-rata antara tahun 1960 dan 1979.
Gambar 4. Item Matematika ditulis oleh siswa

Para peneliti menyimpulkan bahwa jika tes yang dirancang adalah untuk mencerminkan kurikulum dirasakan, bahwa ini tidak memenuhi tujuan yang dimaksudkan. Sebagian besar latihan yang agak tradisional dan terutama ditujukan isu-isu sebagai mewakili angka dalam grafik atau membaca dan menafsirkan grafik. Beberapa item yang dirancang, bagaimanapun, dioperasionalkan tingkat yang lebih tinggi dengan cara yang sangat naif. Ini digunakan untuk memprovokasi kelas wacana tentang proses belajar mengajar dari lima minggu sebelumnya.
Ini adalah bukti bahwa cara ini mengumpulkan informasi tentang mengajar dan proses belajar sangat efektif dan juga cocok untuk memberikan umpan balik kepada siswa.
Van den Brink (1987) menyarankan “produksi sendiri,” sedikit berbeda melakukan eksperimen dengan kelas pertama. Idenya adalah bahwa mereka akan bertindak sebagai penulis buku teks matematika. Ide ini langsung menimbulkan banyak pertanyaan. Van den Brink menyebutkan:
·         Apakah anak-anak termotivasi oleh gagasan menuliskan pengetahuan mereka untuk orang lain?
·         Harus buku ditulis pada akhir tahun atau dikembangkan oleh bit sepanjang tahun?
·         Harus aritmatika pelajaran yang diberikan oleh guru memiliki tempat dalam buku-buku?
·         Apakah anak-anak yang berasal dari latar belakang etnis yang berbeda menciptakan buku yang berbeda?
·         Akan menulis buku memaksa anak-anak untuk merefleksikan?
·         Akan buku memberikan gambaran yang handal dari negara pengetahuan siswa?
Dari perspektif penilaian, pertanyaan terakhir dan satu tentang refleksi adalah yang paling menarik. Percobaan, yang berlangsung di dua sekolah yang berbeda, tampaknya menunjuk ke arah yang memang aktivitas memaksa siswa untuk merefleksikan pembelajaran nya sendiri dan merupakan pengetahuan matematika mereka dengan cara yang adil.
Beberapa hasil penelitian lain sangat mendukung ini “metode” untuk penilaian formatif: Raja (1990, 1992a, 1992b, 1994) menemukan bahwa pelatihan yang mendorong siswa untuk menghasilkan tertentu, pertanyaan mereka sendiri pemikiran dan kemudian berusaha untuk menjawab mereka sangat efektif. Koch dan Shulamith (1991) melaporkan hasil yang sama, menunjukkan bahwa pertanyaan siswa sendiri hasil yang lebih baik daripada pertanyaan tambahan dari guru.
Selanjutnya kita akan mengalihkan perhatian kita untuk alat-alat lain atau format untuk penilaian yang diselenggarakan dalam rangka agak logis dari yang sederhana pilihan ganda tugas proyek untuk sangat kompleks.

Pilihan ganda

Dalam membangun sebuah tes prestasi sesuai dengan tujuan yang diinginkan, pembuat tes memiliki berbagai jenis item dari yang untuk memilih. Ini akan datang sebagai tidak mengherankan bahwa format pilihan ganda tampaknya menjadi “terbaik” format jika kita hanya menilai berdasarkan nya.
Pilihan ganda, benar-salah, dan pencocokan item semua termasuk dalam kategori yang sama: pemilihan jenis item. Secara resmi, mereka begitu populer karena mereka item-mereka tujuan dapat mencetak obyektif. Itu berarti bahwa pencetak gol sama kompeten bisa mencetak mereka secara independen dan mendapatkan hasil yang sama. Ini pencetak gol sama kompeten biasanya komputer. Dan di situlah letak popularitas nyata seleksi-jenis item: Mereka dapat dicetak oleh komputer dan karena itu sangat murah untuk mengelola.
Aturan untuk membangun item pilihan ganda sederhana: Sebuah item pilihan ganda akan hadir siswa dengan tugas yang penting dan jelas dipahami dan salah satu yang dapat dijawab dengan benar hanya oleh mereka yang telah mencapai belajar diinginkan (Gronlund, 1968 ). Hal ini tidak sesederhana tampaknya, seperti yang kita semua tahu, terutama jika kita termasuk bahwa item harus mengoperasionalkan tujuan tertentu.
Masalah lain yang sering disebutkan dengan item pilihan ganda adalah keharusan bahwa hanya mereka yang telah mencapai belajar diinginkan dapat menjawab pertanyaan dengan benar. Tetapi beberapa yang menjawab dengan benar mungkin hanya menduga atau kebetulan menuliskan surat yang tepat. Bila menggunakan format pilihan ganda akan selalu tetap keraguan tentang validitas pengetahuan dinilai.
Tugas membangun item pilihan ganda yang penting bagi siswa, dapat dipahami dengan jelas, dapat dijawab dengan benar hanya oleh mereka yang telah mencapai pembelajaran yang diinginkan, dan mengoperasionalisasi tujuan tertentu atau belajar hasil tidak sederhana.
Banyak item memiliki kekurangan, dan semua memiliki nilai yang sangat terbatas jika kita benar-benar menuju penilaian otentik. Pada saat ini, satu-satunya daerah aplikasi tampaknya untuk mengoperasionalkan tujuan yang lebih rendah. Menurut pendapat kami, pertanyaan terbuka menawarkan lebih banyak kemungkinan dari biasanya dimanfaatkan. Benar dibangun pertanyaan terbuka, dengan berbagai tanggapan pendek, panjang dan diperpanjang jangan menawarkan beberapa kemungkinan untuk penilaian pada tingkat yang lebih tinggi dari yang terendah-apa pun nama yang kita berikan kepada tingkat yang lebih rendah. Mereka dapat disebut hasil pengetahuan dan berbagai keterampilan intelektual dan kemampuan, atau komputasi dan pemahaman, atau keterampilan dasar dan fakta. Apapun kata-kata, umumnya sepakat bahwa kita perlu instrumen lain (seperti tes esai) yang memberikan kebebasan respon yang diperlukan untuk mengukur hasil belajar agar kompleks atau lebih tinggi.

(Closed) Pertanyaan Terbuka

item pilihan ganda sering dicirikan sebagai pertanyaan tertutup. Hal ini menunjukkan bahwa ada pertanyaan terbuka juga. Namun, kita harus berhati-hati. Kadang-kadang pertanyaan terbuka dengan format yang tapi ditutup oleh alam. responden harus menjawab oleh sejumlah, ya atau tidak, definisi, dan mungkin grafik sederhana atau formula. Hampir tidak ada pemikiran atau refleksi yang terlibat. Kategori ini adalah sebagian besar dalam kompetisi dekat dengan format pilihan ganda. Pertanyaan berikut memberikan contoh: “Sebuah mobil membutuhkan waktu 15 menit untuk melakukan perjalanan 20 kilometer. Berapa kecepatan mobil di kilometer per jam?” 
Pertanyaan yang sama dapat diajukan dengan mudah dalam format pilihan ganda.
Perbedaan antara pertanyaan tertutup terbuka dan pertanyaan terbuka terbuka agak sewenang-wenang; Namun, kita harus tetap memperhatikan aspek ini saat merancang tes.

(Open) Pertanyaan Terbuka

Dalam persepsi kita, pertanyaan terbuka-terbuka berbeda dari pertanyaan tertutup terbuka sehubungan dengan kegiatan yang terlibat dalam mendapatkan jawaban yang tepat. jawaban yang tepat ini masih bisa hanya nomor atau formula tetapi proses untuk sampai ke sana sedikit lebih rumit atau melibatkan aktivitas yang lebih tinggi (lihat Gambar 5).
Gambar 5. Contoh pertanyaan terbuka-terbuka

Diperpanjang Response-Pertanyaan Terbuka

Diperpanjang respon pertanyaan terbuka memberikan siswa kesempatan untuk terlibat dalam konteks dengan satu atau lebih terbuka pertanyaan alam yang relatif kompleks, di mana pilihan siswa yang strategi untuk mengikuti tidak jelas di muka. Super item masuk ke dalam kategori ini. Kategori ini berbeda dari pertanyaan terbuka terbuka dalam bahwa kita mengharapkan siswa untuk menjelaskan proses penalaran mereka sebagai bagian dari jawaban mereka. Contoh dari jenis pertanyaan adalah “Martin hidup tiga mil dari sekolah dan Alice lima mil. Seberapa jauh terpisah adalah Martin dan Alice hidup dari satu sama lain?”
Tentu saja jawaban “mereka tinggal dua mil terpisah” adalah hanya bagian dari jawaban yang benar. Siswa dapat membuat gambar untuk menjelaskan alasan mereka:
Martin dan Alice bisa hidup 8 mil satu sama lain, atau 2 mil atau nomor apapun di antara.

super Item

Diperpanjang respon “super item” (Collis, Romberg, & Jurdak, 1986) adalah tugas yang memberikan siswa kesempatan untuk terlibat dengan konteks atau situasi masalah dengan mengajukan serangkaian pertanyaan terbuka meningkatkan kompleksitas. Beberapa pertanyaan pertama mungkin ditutup-terbuka pertanyaan atau pertanyaan terbuka terbuka. Ini diikuti oleh pertanyaan yang lebih sulit yang mungkin tidak memiliki satu set predefinable kemungkinan jawaban. Untuk pertanyaan seperti, beberapa scoring dan beberapa ajudikasi tanggapan mungkin.

Multiple-Pertanyaan Item

Format ini menyerupai item yang super Collis, Romberg dan Jurdak dalam arti bahwa satu konteks atau situasi masalah membentuk setting untuk pertanyaan-pertanyaan. Berbeda dengan item super, bagaimanapun, tidak ada perintah tegas yang diperlukan dalam struktur dari berbagai pertanyaan. Sangat mungkin bahwa pertanyaan pertama akan sederhana dalam rangka untuk melibatkan siswa; itu juga lebih dari mungkin bahwa pertanyaan terakhir akan berada di Level 2 atau Level 3. Namun di antara ada sedikit kebebasan dalam struktur.

esai

Pembangunan dan pilihan item tidak sulit untuk tingkat yang lebih rendah dari kognitif perilaku-perhitungan dan pemahaman. Kesulitan dipresentasikan pada tingkat yang lebih tinggi. ...... .Construction dari bukti umumnya perilaku tingkat analisis dan tentu sesuatu yang harus diuji. Namun, IMC, dalam konsultasi dengan banyak ahli matematika dan pendidik matematika, mencoba berbagai pilihan ganda untuk menguji kemampuan untuk membangun bukti. Tidak ada yang memuaskan. Oleh karena itu, hanya beberapa item menguji kemampuan untuk menganalisa bukti yang disertakan.
Pernyataan ini dari Asosiasi Internasional untuk Evaluasi Pendidikan Prestasi (IEA) Kedua International Mathematics Study (SIMS; Travers & Westbury, 1988) menjelaskan banyak masalah yang kita hadapi dalam pendidikan matematika. Pertama, seperti yang kita ditunjukkan sebelumnya, itu sama sekali tidak mudah untuk menghasilkan barang-barang baik untuk tingkat yang lebih rendah, dan tentu saja tidak dengan format pilihan ganda. Namun tampaknya ada perasaan umum, juga lazim dalam studi TIMSS, bahwa itu sama sekali tidak sulit. Jadi masalah pertama adalah untuk menunjukkan dan meyakinkan spesialis-dan dalam pendidikan matematika tampaknya ada banyak spesialis-bahwa kita memiliki masalah serius di sini.
Kedua, ada masalah yang kita sering melihat presentasi dari item tes yang dimaksudkan untuk mengukur tujuan yang lebih tinggi tetapi gagal untuk mewujudkan tujuan itu.
Ketiga, semua orang setuju bahwa tingkat yang lebih tinggi harus diuji. Beberapa bahkan menyatakan bahwa tingkat yang lebih tinggi adalah yang paling penting. Sungguh menakjubkan, kemudian, untuk melihat bahwa karena “kurangnya memuaskan” pilihan ganda, hanya beberapa item yang digunakan pada tingkat yang lebih tinggi. Masalah ketiga: Mengapa kita tidak mengeksplorasi setidaknya beberapa alat yang tersedia untuk kita untuk mengoperasionalkan tingkat yang lebih tinggi?
Alat kuno tapi jarang digunakan dalam pendidikan matematika adalah tes esai. Sebagai Gronlund (1968) menyatakan: tes Essay tidak efisien untuk mengukur hasil pengetahuan, tetapi mereka memberikan kebebasan respon yang diperlukan untuk mengukur hasil kompleks. Ini termasuk kemampuan untuk membuat, mengatur, mengintegrasikan, untuk mengekspresikan, dan perilaku serupa yang memanggil untuk produksi dan sintesis ide-ide.
Karakteristik yang paling menonjol dari tes esai adalah kebebasan respon menyediakan. siswa diminta pertanyaan yang mengharuskan dia untuk menghasilkan jawabannya sendiri. Pertanyaan esai menempatkan premi pada kemampuan untuk menghasilkan, mengintegrasikan, dan mengekspresikan ide.
Its kekurangan yang terkenal: Tugas esai hanya menawarkan sampling terbatas prestasi, kemampuan menulis cenderung mempengaruhi kualitas jawaban, dan esai sulit untuk mencetak gol obyektif.
Esai dapat datang sangat dekat dengan respon pertanyaan terbuka diperpanjang, terutama dalam pendidikan matematika. Aspek lain yang sering disebutkan dari esai adalah apakah itu harus ditulis di sekolah atau di rumah. Meskipun tugas esai biasanya terlihat sebagai tugas dibawa pulang, ini tidak diperlukan. Satu dapat dengan mudah memikirkan masalah esai yang lebih kecil yang dapat diselesaikan di sekolah. Hal ini berlaku umum bahwa lebih tepat atau “ditutup” pertanyaan-pertanyaan, semakin obyektif gol adalah. Dari perspektif ini, seseorang tergoda untuk menyimpulkan bahwa tugas ini dapat mencetak gol dengan objektivitas yang wajar, atau lebih baik, dalam cara, baik intersubjektif.

Tugas lisan dan Wawancara

Di beberapa negara penilaian lisan adalah praktek yang biasa, bahkan sebagai bagian dari formal sistem ujian nasional. Ada berbagai bentuk, dari yang kita mengutip tiga:
·         An oral discussion on certain mathematical subjects that are known to the students.
·         An oral discussion on a subject—covering a take-home task—that is given to the students for 20 minutes prior to the discussion.
·         An oral discussion on a take-home task after the task has been completed by the students.
Quite often the oral assessment format is used to operationalize the higher process goals.

Two-Stage Tasks

Any task that combines test formats can rightfully be called a two-stage task. An oral task on the same subject as an earlier written task is a typical example. Two-stage tasks characteristically combine the advantages of the traditional, restricted-time written tests with the possibilities offered by tasks that are more open.
The characteristics of restricted-time written tests as considered here are—
·         All students are administered the same test at the same time.
·         All students must complete it within a fixed time limit.
·         The test—
   Is oriented more toward finding out what students do not know than what they do know.
   Usually operationalizes the “lower” goals (i.e., computation, comprehension).
   Consists of open questions.
·         Scores are as objective as they can be given the fact that we exclude multiple-choice format.
These, then, are the characteristics of the first stage of the task.
The second stage should complement what we miss in the first stage as well as what we really want to operationalize. The characteristics of the second stage are—
·         There is no time limit.
·         The test emphasizes what you know (rather than what you don’t).
·         Much attention is given to the operationalization of higher goals (e.g., interpretation, reflection, communication).
·         The structure of the test is more open: long-answer questions and essay-type questions.
·         Scoring can be difficult and less than objective; intersubjectivity in grading should be stressed.

Journals

Journal writing is one of the least used forms of assessment. This seems to be because it is time-consuming, hard to score the mathematics separate from the reading and writing skills, and unclear how to score students’ work. But, like drawing schemata and graphs, writing mathematically—shaping, clarifying, and discovering ideas (Bagley & Gallenberger, 1992)—is a very important mathematical ability.

Concept Maps

Putih (1992) telah menyarankan bahwa pemetaan konsep dapat digunakan dengan siswa untuk menunjukkan bagaimana mereka melihat hubungan antara konsep-konsep kunci atau istilah dalam tubuh pengetahuan. Kegiatan ini, seperti produksi sendiri, memaksa siswa untuk merefleksikan hubungan tersebut dan untuk mengembangkan pemahaman yang lebih terintegrasi, sebagai lawan belajar fakta terisolasi. Mengikuti garis pemikiran ini, itu akan menjadi jelas bahwa ide ini cocok baik dengan pengenalan ide-ide besar bukan helai kurikulum. Studi menunjukkan bahwa-
·         Peta konsep dapat membantu siswa dalam secara efektif mengorganisir pengetahuan mereka tentang topik.
·         Siswa datang untuk memahami bagaimana mereka belajar melalui penggunaan peta konsep.
·         Guru dapat memperoleh informasi berharga tentang hubungan di antara konsep bahwa siswa telah dibangun.
·         Concepts maps can help teachers identify misconceptions that do not come to the surface with other assessment techniques.
(Santos, Driscoll, & Briars, 1993).
According to Roth and Roychoudhury (1993), who also recommend the use of concept maps as an aid in discourse, such maps drawn by the students serve to provide useful points of reference in clarifying the points under discussion and enable the teacher to engage in “dynamic assessment.”

Progress-Over-Time Tests

Kemajuan dari waktu ke waktu selalu menjadi aspek implisit menilai. Tugas berikutnya seharusnya lebih sulit dari yang sebelumnya, dan organisasi kurikuler mengurus aspek itu juga: segala sesuatu yang datang kemudian lebih kompleks atau pada tingkat yang lebih tinggi. Tapi kita mungkin perlu cara yang lebih eksplisit untuk mengukur pertumbuhan matematika. Salah satu cara untuk melakukan ini adalah dengan menggunakan masalah hampir mirip dalam tes yang diberikan pada waktu yang berbeda. Sebagai contoh, kita mengacu pada Matematika dalam Konteks Longitudinal Study, di mana akhir-of-the-tahun tes dikembangkan yang mengandung satu item (sebenarnya item super). Item ini ditinjau kembali dalam semua empat end-of-the-tahun tes, meskipun dalam bentuk yang lebih kompleks seperti tahun-tahun berkembang.

Pelaporan: Umpan balik dan Scoring

Masukan

Designing and selecting tasks is one thing, but how to establish quality feedback is quite another, and a very important one. Without proper feedback the whole concept of assessment contributing to the learning process is endangered.
Feedback possibilities depend clearly on the “format” that is chosen. In discourse the feedback can be immediate and very differentiated in the sense that the feedback can be direct (giving the student information about what is wrong and why and giving a suggestion for correction) but also and probably quite often, indirect (just asking whether the student is “sure” and can explain his answer and comparing it with other answers given by fellow students).
Feedback possibilities with the multiple-choice format are not abundant: Usually, the only feedbacks students get is whether something was correct or incorrect; in a best-case scenario, the teacher might spend some time in the classroom highlighting some of the most common incorrect answers.
Within the common restricted-time written test, there are ample opportunities to give dedicated, individual feedback to the student. This is time-consuming and the quality of the feedback depends to a large extent on how the student’s answers are formulated. If the student fails to write down anything relevant, the question of quality feedback becomes an extremely difficult one. In such cases, oral feedback after additional questioning seems to be the only option.
Feedback can also have a very stimulating effect. Consider, for example, the homework method. Compare the experience of a student who is assigned homework but nothing is done beyond “checking” whether he or she “did” it, versus the student who gets quality feedback (as described in the Homework section). This was also pointed out in a study in Venezuela on mathematics homework (Elawar & Corno, 1985). One group of students was given specific feedback on specific errors and strategies used. Another group followed the “normal” practice of homework without comments. Analysis of the results showed a large effect of the feedback treatment on future student achievement.
A definition for feedback can be found in Ramaprasad (1983): “Feedback is information about the gap between the actual level and the reference level of a system parameter, which is used to alter the gap in some way. In order for feedback to exist, the information about the gap must be used in altering the gap.”
This definition is a little too restricted for our purposes because the “gap” need not necessarily be a gap in the strict sense. Students might be able to solve a problem at very different levels of mathematization and formalization. But they are all successful. So theoretically speaking there is no gap. But we might still use the feedback mechanism to bridge the level-of-formality “gap”: to show the students on a less formal level what is possible with some more formal mathematics. It can also be used the other way around: to show the more formal students how elegant—maybe even superior—“common sense” solutions can be.
Kluger and DeNisi (1996) identified four different ways to close the gap. The first one will come as no surprise: try to reach the standard or reference level—this needs clear goals and high commitment on the part of the learner. On the other end of the scale, one can abandon the standard completely. In between we have the option of lowering the standard. And finally, one can deny the gap exists.
Kluger and DeNisi also identified three levels of linked processes involved in the regulation of task performance: meta-task processes involving the self, task motivation processes involving the focal task, and finally the task-learning processes involving details of the task.
About the meta-task processes, it might be interesting to note that feedback that directs attention to the self rather than the task appears likely to have negative effects on performance (Siero & Van Oudenhoven, 1995; Good & Grouws, 1975; Butler 1987). In contrast to those interventions that cue attention to meta-task processes, feedback interventions that direct attention toward the task itself are generally more successful.
In 1998, Black and Wiliam were surprised to see how little attention in the research literature had been given to task characteristics and the effectiveness of feedback. They concluded that feedback appears to be less successful in “heavily-cued” situations (e.g., those found in computer-based instruction and programmed learning sequences) and relatively more successful in situations that involve “higher-order” thinking (e.g., unstructured test comprehension exercises).
From our own research (de Lange, 1987), it became clear that the “two-stage task” format affords excellent opportunities for high-quality feedback, especially between the first and second stages of the task. This is in part due to the nature of the task format: After completion of the first stage, the students are given feedback that they can use immediately to complete the second stage. In other words, the students can “apply” the feedback immediately in a new but analogous situation, something they were able to do very successfully.

Scoring

Wiggins (1992) points out, quite correctly, that feedback is often confused with test scores. This perception is one of many indications that feedback is not properly understood. A score on a test is encoded information, whereas feedback is information that provides the performer with direct, usable insights into current performance and is based on tangible differences between current performance and hoped-for performance.
So what we need is quality feedback on one side and “scores” to keep track of growth in a more quantitative way on the other side. And quite often we need to accept that we are unable to quantify in the traditional sense (e.g., on a scale from one to ten), but just make short notes when, during a discourse or during homework, a student does something special, whether good or bad.
Many of the formats described before have in common that they are in a free-response format. Analysis of students’ responses to free-response items can provide valuable insights into the nature of student knowledge and understanding and in that sense help us formulate quality feedback. With such formats we get information on the method the student uses in approaching the problem and information about the misconceptions or error types that they may demonstrate.
But as the TIMSS designers observed (Martin & Kelly, 1996), student responses to free-response items scored only for correctness would yield no information on how the students approached problems. So TIMSS developed a special coding system that can also be used in classroom assessment to provide diagnostic information in addition to information about the correctness of the student responses. It was proposed that a two-digit coding system be employed for all free-response question items. The first digit, ranging between 1 and 3, would be used for a correctness score, and the second digit would relate to the approach or strategy used by the student. Numbers between 70 and 79 would be assigned to categories of incorrect response attempts, while 99 would be used to indicate that the student did not even try. This TIMSS coding system, which was later adapted successfully for the Longitudinal Study on Middle School Mathematics (Shafer & Romberg, 1999), is demonstrated in Table 1 using a generic example of the coding scheme worth one point.

Table 1. Example coding scheme using the TIMSS coding system
Write down the reason why we get thirsty on a hot day and have to drink a lot.
Code
Response
Example
Correct responses
10
Refers to perspiration and its cooling effect and the need to replace lost water.

11
Refers to perspiration and only replacement of lost water.
  Because when we are hot, our body opens the pores on our skin and we lose a lot of salt and liquid.
12
Refers to perspiration and only its cooling effect.

13
Refers to perspiration only.
  We are sweating.
  Your body gives away much water.
  We are sweating and get drier.
19
Other acceptable explanation.

Incorrect responses
70
Refers to body temperature (being too hot) but does not answer why we get thirsty.
  You cool down by drinking something cold.
71
Refers only to drying of the body.
  Your throat (or mouth) gets dry.
  You get drier.
  The heat dries everything.
72
Refers to getting more energy by drinking more water.
  You get exhausted.
76
Merely repeats the information in the stem.
  Because it is hot.
  You need water.
79
Other incorrect responses.
  You loose salt.
Nonresponses
90
Crossed out or erased, illegible, or impossible to interpret.

99
BLANK


Student responses coded as 10, 11, 12, 13, or 19 are correct and earn one point. The second digit denotes the type of response in terms of the approach used or explanation provided. A response coded as 10 demonstrates a correct response that uses Strategy 1. For items worth more than one point, rubrics were developed to allow partial credit to describe the approach used or the explanation provided.
Student responses coded as 70, 71, 76, or 79 are incorrect and earn zero points. The second digit gives us a representation for the misconception displayed, incorrect strategy used, or incomplete explanation given. This gives the teacher a good overview of where the classroom as a whole stands, as well as individual differences, which can lead to adequate and effective feedback.
Student responses with 90 or 99 also earn zero points. A score of 90 means the student attempted but failed completely, and 99 represents no attempt at all.
Another addition to the scoring system that can be very helpful is a code for the level of mathematical competency. Of course, when a teacher designs her classroom assessment system she will balance it in relation to the levels of mathematical competencies. But this will not necessarily lead to information on the levels of individual students.
A crucial and potential weak point arises when we are dealing with partial credit, as will quite often be the case. This is a difficult point for students and teachers alike. Without preparation, guidelines, exemplary student responses, or a proper “assessment” contract between teacher and students, partial-credit scoring can be a frustrating experience even though its necessity is obvious. We therefore discuss the issue of partial credits in a little more detail through the following examples.
First, we will present an example of a very simple and straightforward method for partial scoring credits in the form of an (external) examination item about a cotton cloth for a round table (National Examination, The Netherlands, 1992).
Nowadays you quite often see small round tables with an overhanging cloth [Figure 6]. You can make such a cover yourself using—
     Cotton, 90 cm wide; 14.95 guilders per meter
     Cotton, 180 cm wide; 27.95 guilders per meter
     Ornamental strip, 2 cm wide; 1.65 guilders per meter
When buying the cotton or strip, the length is rounded to the nearest 10 cm. For instance, if you want 45 cm, you need to buy 50 cm.
1.Marja has a small, round table: height 60 cm; diameter 50 cm. On top of the table, she puts a round cloth with a diameter of 106 cm.   
3 points—How high above the ground will the cloth reach?
2.Marja is going to buy cloth to make her own cover. She wants it to reach precisely to the ground. It will be made from one piece of cotton fabric and will be as economical as possible. There will be a hem of 1 cm.
6 points—Compute the amount of cotton Marja will have to buy and how much that will cost.
3.Marja wants an ornamental strip around the edge of the cloth.           
4 points—Compute how much ornamental strip she will need and how much it will cost.
Figure 6. Round table with overhanging cloth

This example shows what some will recognize as a typical female context with questions at Levels 1 and 2. Beforehand, it shows the students clearly how many points they can earn for answering each of the questions. Next, we provide guidelines for the teachers’ scoring (Table 2).
Table 2. Example of Scoring Guidelines for Teachers
No.
Max.score

Response
Points
1
3
Answer: 32 cm
1


Proper explanation
2
2
6
Diameter: 172 cm
1


Proper explanation
2


Answer: 180 cm of cotton cloth
1


Width: 180 cm
1


Price: 1.80  27.95 = 50.31 (or 50.30*)
1
3
4
Diameter: 170 cm
1


Circumference: 534 cm (p ´ 170)
1


Answer: She has to buy 540 cm
1


Answer: The cost will be 5.40 ´ 1.65 = 8.91 guilders(or 8.90*)

1
*Note: The Netherlands did not use single-unit coins at the time.

This might seem clear but of course it is not. There are still many answers possible for which the subjective judgment of one teacher might differ from another. That is why it is advisable to use intersubjective scoring with external examinations. With intersubjective scoring, at least two teachers score the test independently, and they have to come to an agreement. This is a must for high-stakes testing but can also be done on a somewhat regular basis in the classroom if teachers coordinate their classroom assessment practices.
Scores are usually on a 100-point scale and are deceptive in the sense that a score of 66 actually means a score from something like 62 to 69 and thus seems more precise than it actually is. But the advantage is that students can check the judgment of the teacher and start a discussion about a score based on clear points of departure.
If so-called “holistic” scoring is used, the clarity is less obvious because there is more room for subjective judgment. Under holistic scoring, we group the scoring systems that are quite often very meaningful for such formats as essays, journals, and projects but are nowadays also used for formats that can be scored more easily. As an example we present two higher-grade descriptors of journals by Clarke, Stephens, and Waywood (1992):
A:Makes excellent use of her journal to explore and review the mathematics she is learning. She uses mathematical language appropriately and asks questions to focus and extend her learning. She can think through the difficulties she encounters.      
B:Maintains regular entries and is able to record a sequence of ideas. She uses examples to illustrate and further her understanding and is able to use formal language to express ideas but is yet to develop mathematical explorations.
And two descriptors by Stephens and Money (1993) for extended tasks (not complete):
A: Demonstrated high-level skills of organization, analysis, and evaluation in the conduct of the investigation. Used high levels of mathematics appropriate to the task with accuracy.   
B: Demonstrated skills of organization, analysis, and evaluation in the conduct of the investigation. Used mathematics appropriate to the task with accuracy.           
It is clear that in this latter set of descriptors, subjective judgments are a greater risk than in the previous example. But for some formats we almost have to use this kind of scoring system. One can still use numbers of course, even on a 100-point scale for very complex tasks. Exemplary student work and how the teacher judged it can be very helpful. This of course is also part of the assessment contract between teacher and students. Students need to know clearly what the teacher values—maybe not so much the correct answers but the reasoning or the solution’s presentation and organization. But even without exemplary work, experienced teachers are very capable of sensible scoring on more complex tasks if we are willing to accept the uncertainty behind every scoring grade.
Our own research (de Lange, 1987) on how well teachers are able to score very open-ended tasks without any further help in the form of scoring rubrics showed that the disagreement among teachers grading the same task was acceptable for most teachers; if we assume that the average of a series of grades is the “correct” one, we noticed that 90% of the grades were within 5 points of the correct grade on a 100-point scale. Other research shows that especially the ordering of such complex tasks can be done with very high reliability (Kitchen, 1993). One example is the scoring system of the mathematics A-lympiad, a modeling contest for high school students that uses both some kind of holistic scoring (gold, silver, bronze, honorable mention) and an ordering system. Even though the commission that carried out the difficult task of scoring had many personal changes over time, agreement on the rank order was consistently high (De Haan & Wijers, 2000).

From Principles to Practice: The Process

Putting everything we have discussed so far together in an actual classroom environment is, to say the very least, a challenge. It is the aim of this part of the framework to propose a possible scenario.
Let us start with the Professional Standards for School Mathematics (NCTM, 1991). These standards envision teachers’ responsibilities in four key areas:
·         Setting goals and selecting or creating mathematical tasks to help students achieve these goals.
·         Stimulating and managing classroom discourse so that both the students and the teacher are clearer about what is being learned.
·         Creating a classroom environment to support teaching and learning mathematics.
·         Analyzing student learning, the mathematical tasks, and the environment in order to make ongoing instructional decisions.

Hypothetical Learning Trajectory

These standards implicitly tell us that much of the teacher’s responsibility involves planning. As Brousseau (1984) stated: “If the teacher has no intention, no plan, no problem or well-developed situation, the child will not do and will not learn anything.” The consideration of (a) the learning goals, (b) the learning activities, and (c) the thinking and learning in which the students might engage is called the hypothetical learning trajectory (Simon, 1995).
Although it is necessary for a teacher to form and describe his hypothetical learning trajectory, it is also evident that this trajectory will never actually play out as planned in the classroom. A teacher might offer students nice, open-ended tasks but the teacher cannot predict a student’s actual reactions, and therefore cannot predict the actual learning trajectory. So the trajectory will be modified continuously as the lesson cycle develops. And students’ assessment plays a vital role in this modification process.
Of the three components in the trajectory, the teacher’s learning goals seem to be the easiest to tackle, and an experienced teacher will also be able to develop a plan for learning activities (probably heavily based on the student materials available on the market). But the most difficult component is the teacher’s hypothesis of the actual learning process. As Simon notes with some regret, the mathematics education literature is not abundant with research with emphasis on anticipating students’ learning processes. A notable positive exception is the successful project, Cognitively Guided Instruction (Carpenter & Fennema, 1988; Carpenter et al., 1999), in which teachers learned much about research on children’s thinking and thus were more capable of predicting and anticipating children’s learning processes.
The design of a hypothetical learning trajectory. To a great extent, the student and teacher learning materials used will affect how complicated the design of the hypothetical learning trajectory will be. Sometimes the (textbook) materials help in a very limited way; sometimes they make more help available. As an example of the latter scenario, we have chosen the teacher guide for Looking at an Angle (Feijs, de Lange, Van Reeuwijk, Spence, & Brendefur, 1996), a unit from Mathematics in Context, a middle school curriculum funded by the National Science Foundation (NSF) and developed by the Wisconsin Center for Education Research (WCER; Madison, WI) and the Freudenthal Institute (Utrecht, The Netherlands).
In this teacher guide we find a rather explicit goal description on the three competency levels used in this framework. That by itself facilitates the design quite a bit. From the nine goals on Level 1 (here called Conceptual and Procedural Knowledge), we quote: “understand the concepts of vision line, vision angle, and blind spot,” and this goal is directly related to activities in the student materials that “offer ongoing assessment opportunities.”
From Level 2, we also mention one goal: “understand the relationship among steepness, angle, and height-to-distance ratio.” Again, the connection to the student materials shows that these connections are evenly spread out over the whole period of the unit (4–5 weeks), so that teachers and students can reflect on the concept several times and can work toward putting the relationship on a new and higher level of understanding.
Also, some activities are identified that refer explicitly to Level 3 competencies such as seeing the isomorphism in the different models used in this unit.
Not only are opportunities identified for ongoing formative assessment but also for “end-of-unit” assessment, which has both formative and summative aspects. Further help is available in the form of possible right and wrong answers and strategies.
In such a way, the teacher can get considerable support in formulating learning goals and planning for learning activities and can get backing for formulating the hypothetical learning process and how to relate this hypothetical learning trajectory to the assessments of student’s knowledge (a particularly important aspect).
In his article on the learning trajectory, mentioned earlier, Simon (1995) correctly points out that the design of the trajectory with traditional textbooks is a difficult task. His approach represents a sharp contrast to the approach to instruction characteristic of traditional mathematics instruction and represented by traditional mathematics textbooks. Traditional instruction tends to focus on one skill or idea at a time and then provide considerable routine practice to “reinforce” that learning. Materials developed more recently differ in many ways from this approach and are more or less in line with the ideas represented by Simon, although they do not always directly represent the purely constructivist approach advocated in the article.
After forming a hypothetical learning trajectory—and the more experienced a teacher gets, the better the trajectory, assuming the flexibility of the teacher to adjust continuously—the next problem arises: where and when am I going to assess what, and how?
Our basic assumptions will be the following: there is a clearly defined curriculum for the whole year—including bypasses and scenic roads—and the time unit of coherent teaching within a cluster of related concepts is about a month. So that means that a teacher has learning trajectories with at least three “zoom” levels. The global level is the curriculum, the middle level is the next four weeks, and the micro level is the next hour(s). These levels will also have consequences for assessment: end-of-the-year assessment, end-of-the-unit assessment, and ongoing formative assessment.

Hypothetical Assessment Trajectory

Next we will see how to design a hypothetical assessment trajectory to fit the learning trajectory. Some of the ideas we describe have been suggested by Dekker and Querelle (1998).
Before. The first assessment activity should be when starting to teach a new concept or idea with some fundamental value (middle zoom level). The teacher wants to know whether the students have mastered the prior knowledge necessary to start successfully with a new unit. Already, this assessment activity will change the learning trajectory. Possible and suggested test formats for these goals are—
·         Oral test. Questions are posed that involve basic knowledge and skills (Level 1). This format is appropriate because it enables the teacher to recapitulate important topics with the whole group in a very interactive way. Although basic knowledge and skills should be stressed, the format also allows the teacher to check Level 2 and 3 competencies in a relatively effective and fruitful way.
·         Aural test. Questions are posed orally but answers are written down. This gives students who are not too fluent in English a second and probably fairer chance to express their ideas. This format also lends itself very well to checking whether students are able to express their informal knowledge about things to come; this is again relevant to designing the learning trajectory.
·         Entry test. A short, written entry test consisting of open-ended questions.
·         Other test formats. It goes without saying that the teacher is free to choose from any of the test formats described before or to design other test formats.
During. While in the trajectory, there are several issues that are of importance to teachers and students alike. One is the occurrence of misconceptions of core ideas and concepts. Because students in a socio-constructivist or interactive classroom get lots of opportunities to re-construct or re-invent their mathematics, the opportunities to develop misconceptions also abound. Because there is only one teacher but more than 30 students, the teacher needs some tools to check for student misconceptions. Dekker and Querelle (1998) recorded that cubes were mistaken for squares, Pythagoras theorem was remembered with a multiplication or “´” sign instead of a plus or “+” sign, and perimeters and areas were regularly mixed up. Possible assessment tools include:
·         Production items. Students design a simple short-answer test. Of course answers should be provided as well (see discussion of this format), and all of the required content should be covered. The test could be graded but another, more rewarding possibility is to compose a class test using the student-designed items. Misconceptions will turn up and can then be discussed.
·         Student-generated items. Students hand in a certain number of single-answer questions on the subject involved. These are used in a computer-based quiz for the whole group and are discussed afterwards.
As discussed previously in some detail, all assessment should result in feedback, and hopefully in feedback that goes far beyond grading a test. Feedback to the students is especially important when most students fail to solve a problem—a problem which the teacher thought fit nicely in the learning trajectory.
A very forceful way to get quality feedback is formed by the two-stage task. In this case, feedback on the first stage is given before the students start working on the second stage. In reality, this means that the teacher gets feedback from the students on how well the teacher’s feedback worked. Other information-rich formats include:
·         Oral questions are asked when the topic is discussed in the classroom. In this case, the discourse is an assessment format.
·         Short quizzes, sometimes consisting in part of one or more problems taken directly from student materials.
·         Homework as an assessment format (if handled as described in our earlier section on homework).
·         Self-assessment—preferable when working in small groups. Potential important difficulties will be dealt with in whole-class discussion.
Throughout the school year, the teacher will constantly evaluate the students’ individual progress and the progress of the whole classroom within the learning trajectory and thus evaluate the intended learning goals as benchmarks.
This ongoing and continuous process of formative assessment, coupled with the teachers’ so-called intuitive feel for students’ progress, completes the picture of the learning trajectory that the teacher builds. The problem of a strongly interactive classroom environment is that for teachers and students alike it is difficult to know whether or not they contribute to the group learning process and what they learned individually. Formats that may be helpful to evaluate students’ progress include—
·         Discussions with individual students about their understanding.
·         Observation of students in groups and while working individually.
·         Extended-response open questions, which require own productions, display of results for the whole group, or discussion by the whole class.
·         Peer-assessment can be a tremendous help because students see the mistakes of their fellow students and then try to decide whether full or partial credit should be given for a certain solution.
After. At the end of a unit, a longer chapter, or the treatment of a cluster of connected concepts, the teacher wants to assess whether the students have reached the goals of the learning trajectory. This test has both formative and summative aspects depending of the place of this part of the curriculum in the whole curriculum. Different test formats are possible, while we see often that some formats with timed, written tests are the teacher’s favorite—most likely because of their relatively ease of design and scoring and the limited possibility of feedback in a qualitative way

On Design

Assuming that the teacher has been able to construct a reasonable Hypothetical Learning Trajectory, the question is how to design in some more detail the assessment package that fits the corresponding trajectory. We need to take the following minimal variables into account:
·          Zoom” level.
·          Content or big ideas.
·          Level of competencies.
·          Contexts.
·          Formats.
·          Feedback.
·          Grading.
·          Coherence and balance.
Keep in mind that we need to also consider the nine “Principles for Classroom Assessment.” With these in mind, let us look briefly at each variable.
Zoom” level. It is a good idea to start with a helicopter view of what the curriculum will look like over the whole year. This can be done in units of instruction or chapters of a textbook, or another clustering of ideas and concepts. The sequence needs to be logical and we need to pay attention to the longer lines of cognitive development that might be the results of this curriculum. For instance, it is quite possible that several concepts return to the attention months apart but at a higher and more formal level each time. If this is the case, it should be reflected in the assessment package.
From this higher or more global zoom-level, we can identify the end-of-year test and a number of end-of-cluster tests. For all practical purposes, most of these will be in a restricted-time written test format. But some of them need to be different if we want to stick to our principles. One of the tests could easily be a two-stage task. Easily, in the sense that apart from the design, these tests are relatively easy to administer. Or one of them could be a take-home task or a task to be performed in groups of two.
Content. The content can be covered in two distinct ways: cumulatively or by covering only the “unit” that has just been taught. The end-of-year test will always be cumulative, even over the years. The implication, of course, is that students should be informed about what the covered content will be far in advance. Three aspects need to be considered when looking at the content:
·         How similar or dissimilar should the items be in relation to the student materials? (Are we testing reproduction or production and transfer?)
·         What are the connections with other subjects and concepts? (Are we thinking big ideas, and to what extent?)
·         What is the balance between more formal vs. informal mathematics?
This connects directly to the levels of mathematical competencies.
Competencies. All levels of competencies should be present in all tests but there should be more of the lower ones because they take little time. It is advisable to make an equal distribution over the three levels in terms of time rather than in terms of the number of items. It is a good idea to keep track of the distribution of the number of items on different levels and how the students perform relative to the levels in order to be able to give quality feedback both on both the classroom and the individual levels. Some support in finding higher level items and how to keep track of the distribution over the years can be found in the applications of technology to assessment. A modest contribution in this direction, consistent to a large extent with this framework is the assessment tool, “AssessMath!” (Cappo & de Lange, 1999), that offers not only a database of items but also a wide array of formats, the three levels of competencies, and the role of context.
Contexts. One should not fall into the tempting trap of designing items with the mathematics content in mind and then later adding a context. Nor should one take a context problem and simply change the context—many examples are available to show the disasters that can happen when these design strategies are followed.
The distance of the context to the students’ real world is one aspect that the teacher needs to get under control in the sense that each class environment can generate its own rules. (The assessment contract plays a crucial role here.) If the teacher takes the news from the different media as a regular discussion point in the lessons, one might expect a greater spread of distances in contexts than is the case with a teacher who facilitates contexts especially close to home and school. There is a clear trend for younger students to feel more confident with contexts closer to their life; to the surprise of some, however, context that relates to the environment, nature, and daily life in a wider sense can also motivate students very well, assuming challenging problems.
One should also be aware that in the more informal assessment formats, the freedom in context use is greater than when the tests are of a more summative character. This is because a teacher in a discussion will immediately note whether a certain context seems sensible to certain students (certain illnesses, for instance), and the teacher can correct for that on the spot.
The relevance of the context is another important point of consideration. If we take problem solving, and thus mathematization, as an important aspect of mathematics, then it is absolutely necessary to include first- and preferably second-order contexts on a regular basis. Quite often this means the use of more complex formats, although extended-response written questions offer good possibilities.
Finally, the point of “realness” of the context needs attention. Here again the teacher, in relation with the students, sets the boundaries. Although it seems sensible to stay as close to reality as possible without losing mathematical relevance, there are also good examples of not-so-real or not-so-authentic problems that have been excellent items for assessment, along with a few almost ridiculous “fantasy” problems that functioned within the classroom environment defined by teacher and students.
Formats. It is too simple to state that the choice of formats should be balanced. When we have a learning trajectory, one cannot just identify crucial assessment opportunities and choose a format. But in general, one can say certain things about the choice. From our previous discussion, it will be evident that discourse and observations are the continuous mode of operation together with homework. What is not trivial is that this has to be carried out with some structure and focus on key concepts. Also, some thought needs to be given to keeping track of the “scores” of the students on these formats. Again, technology can support us a bit with these issues: Handheld PDIs with dedicated software can be a considerable help in tracking the observations.
Regularly, some kind of restricted-time written test will be the backbone of our system. Assuming we have the right quality of items, there’s nothing wrong with that. These can vary in time from a short, 10-minute quiz to a two hour–long problem-solving task. We also need to stress more “constructive” formats of assessment with some mode of a two-stage task that can fit in well, although certainly not too often—maybe at most three times per year.
Part of the minimal requirements for a representative assessment system include that self-assessment be systemic and that homework should function, at least in part, as assessment.
It seems advisable to construct a path of incremental change in relation to more challenging assessment formats. The design, or even a proper judgment of open–open ended questions is already a very complex task. And although it seems sometimes easier to design a project task (like the question: “Is the pattern of green and red lights at this intersection the optimal in relation to the traffic flow?”), problems abound about such concerns as the execution, logistics, level of individuality, data sampling, and reporting in and out of school, not to mention how to cope with the different reports when the scoring, grading, and feedback are to be discussed. One should be careful not to fall into the hole of entering a very promising but extremely complex area of the assessment landscape without the prior experience of closely related formats.
Feedback. Feedback on the practical level relates directly to the assessment format. If we are in the discourse mode, feedback is absolutely necessary and instant. This can be challenging: Teachers need to react without much opportunity for reflection; thus they take the risk of not completely grasping the meaning of a student’s remark. A sharp ear and a the eye of a hawk are the requirements for proper feedback during discourse, especially as we are viewing this as a part of the assessment system. And the better the picture of the hypothetical learning trajectory at the micro zoom level, the better this process will go.
At the other end we have the more traditional restricted-time written tests that usually only allow for a grade and some comments on errors or excellent strategies. But giving feedback this way has a large risk: It may never reach the student in an effective way. In order to learn from it, the students should internalize the feedback and reflect on it. This process sometimes becomes visible in a discussion but with written feedback on a test, there is no way to check this.
Making students aware of what feedback is and should be at all occasions, and in this way adapting the classroom environments to new socio-mathematical norms (Cobb, Yackel, & Wood, 1993), is a task that lays ahead of any teacher who wants to improve the teaching and learning process. This includes a discussion in a whole classroom of some of the students’ answers and the feedback given by the teacher.
Grading. Students should be offered a clear and transparent picture of the scoring and grading for each of the assessment formats chosen. We have discussed in some detail how we can grade several of the more traditional formats. But we should also inform the students if we give certain marks for their role in a discussion, for doing excellent homework, or for suggesting a different and elegant strategy. At any given moment, the student should know which marks and grades are in the teacher’s grading book. And a discussion about these should be possible, too.
Coherence and balance. Of course, we should not give the students multiple-choice throughout the year and then give a project at the end. Designing a hypothetical assessment trajectory that really is coherent and balanced, though it seems trivial, is very difficult given the variables that need to be balanced out: the competency levels, the content (from formal to informal), the contexts, the formats, and the possibilities for feedback. Teachers need concrete examples of a hypothetical assessment trajectory and imaginary curriculum for a whole year.

References

Aikenhead, G. (1997). A framework for reflecting on assessment and evaluation. In Globalization of science education: International conference on science education (pp. 195–199). Seoul, Korea: Korean Educational Development Institute.
Bagley, T., & Gallenberger, C. (1992). Implementing the standards: Assessing students’ dispositions. Using journals to improve students’ performance. Mathematics Teacher, 85 (8), 660–663.
Beyer, A. (1993). Assessing students’ performance using observations, reflections and other methods. In N. L. Webb & A. F. Coxford (Eds.). Assessment in the mathematics classroom: 1993 yearbook (pp. 111–120). Reston, VA: National Council of Teachers of Mathematics.
Biggs, J. (1998). Assessment and classroom learning: A role for summative assessment? Assessment in Education: Principles, Policy and Practice, 5, 85–103.
Black, P. J. (1993). Assessment policy and public confidence: Comments on the BERA policy task group’s article, “Assessment and the improvement of education.” The Curriculum Journal, 4, 421–427.
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education, 5 (1), 7–74.
Boertien, H., & de Lange, J. (1994). The national option of TIMSS in The Netherlands. Enschede, The Netherlands: University of Twente.
Brousseau, G. (1984). The crucial role of the didactical contract in the analysis and construction of situations in teaching and learning mathematics. In H.-G. Steiner (Ed.), Theory of mathematics education (Occasional paper 54; pp. 110–119). Bielefeld, Germany: University of Bielefeld, Institut für Didaktik der Mathematik.
Butler, R. (1987). Task-involving and ego-involving properties of evaluation: Effects of different feedback conditions on motivational perceptions, interest and performance. Journal of Educational Psychology, 79, 474–482.
Cappo, M., & de Lange, J. (1999). AssessMath! [Computer software]. Santa Cruz, CA: Learning in Motion.
Carpenter, T. P., & Fennema, E. (1988). Research and cognitively guided instruction. In E. Fennema & T. P. Carpenter (Eds.), Integrating research on teaching and learning mathematics (pp. 2–17). University of Wisconsin–Madison, National Center for Research in Mathematics Education.
Carpenter, T. P., Fennema, E., Franke, M. L., Levi, L., & Empson, S. B. (1999). Children’s mathematics: Cognitively guided instruction. Portsmouth, NH: Heinemann.
Clarke, D., Stephens, M., & Waywood, A. (1992). Communication and the learning of mathematics. In T. A. Romberg (Ed.), Mathematics assessment and evaluation: Imperatives for mathematics educators (pp. 184–212). Albany, NY: SUNY Press.
Cobb, P. (1999). Individual and collective mathematical development: The case of statistical data analysis. Mathematical Thinking and Learning, 1, 5–44.
Cobb, P., Wood, T., Yackel, E., Nicholls, J., Wheatley, G., Trigatti, B., & Perlwitz, M. (1991). Assessment of a problem-centered second-grade mathematics project. Journal for Research in Mathematics Education, 22, 3–29.
Cobb, P., Yackel, E., & Wood, T. (1993). Discourse, mathematical thinking, and classroom practice. In E. A. Forman, N. Minick, & C. A. Stone (Eds.), Contexts for learning: Sociocultural dynamics in children’s development (pp. 91–119). New York: Oxford University Press.
Cockroft, W. H. (1982). Mathematics counts: Report of the committee of inquiry into the teaching of mathematics in school. London, England: Her Majesty’s Stationery Office (HMSO).
Collis, K. F., Romberg, T. A., & Jurdak, M. E. (1986). A technique for assessing mathematical problem-solving ability. Journal for Research in Mathematics Education, 17 (3), 206–221.
Cosgrove, M. M., & Schaverien, L. (1996). Children’s conversations and learning science and technology. International Journal of Science Education, 18, 105–116.
Crooks, T. J. (1988). The impact of classroom evaluation practices on students. Review of Educational Research, 58, 438–481.
de Haan, D., & Wijers, M. (Eds.). (2000). Ten years of math A-lympiad: The real world mathematics team competition from 1990–2000. Utrecht, The Netherlands: Freudenthal Institute.
Dekker, T. (1993). Checklist toetsen met contexten [A checklist for tests with contexts; Internal paper]. Utrecht, The Netherlands: Freudenthal Institute.
Dekker, T., & Querelle, N. (1998).  [Internal publication]. Utrecht, The Netherlands: Freudenthal Institute.
Dekker, T., & Querelle, N. (in press). Great assessment picture book. Utrecht, The Netherlands: Freudenthal Institute.
de Lange, J. (1979). Exponenten en Logaritmen [Exponents and logarithms]. Utrecht, The Netherlands: Instituut Ontwikkeling Wiskundeonderwijs (IOWO; now Freudenthal Institute).
de Lange, J. (1987), Mathematics: Insight and meaning. Utrecht, The Netherlands: Vakgroep Onderzoek Wiskunde Onderwijs en Onderwijscomputercentrum (OW & OC).
de Lange, J. (1992). Assessing mathematical skills, understanding, and thinking. In R. Lesh & S. Lamon (Eds.), Assessment of Authentic Performance in School Mathematics (pp. 195–214). Washington, DC: American Association for the Advancement of Science.
de Lange, J. (1994). Curriculum change: An American-Dutch perspective. In D. F. Robitaille, D. H. Wheeler, & C. Kieran (Eds.), Selected lectures from the 7th international congress on mathematics education: Québec, 17–23 August 1992 (pp. 229–249). Quebec, Canada: Les Presses de l’Université Laval.
de Lange, J. (1995). Assessment: No change without problems. In T. A. Romberg (Ed.), Reform in school mathematics and authentic assessment (pp. 87–172). New York: SUNY Press.
de Lange, J., & van Reeuwijk, M. (1993). The tests. In J. de Lange, G. Burrill, T. A. Romberg, & M. van Reeuwijk, Learning and testing Mathematics in Context: The case. Data visualization (pp. 91–142). University of Wisconsin–Madison, National Center for Research in Mathematics Education.
Devlin, K. J. (1994). Mathematics, the science of patterns: The search for order in life, mind, and the universe. New York: Scientific American Library.
Duschl, R. D., & Gitomer, D. H. (1997). Strategies and challenges to changing the focus of assessment and instruction in science classrooms. Educational Assessment, 4, 37–73.
Elawar, M. C., & Corno, L. (1985). A factorial experiment in teachers’ written feedback on student homework: Changing teacher behavior a little rather than a lot. Journal of Educational Psychology, 77, 162–173.
Feijs, E., de Lange, J., Van Reeuwijk, M., Spence, M., & Brendefur, J. (1996). Looking at an angle. In National Center for Research in Mathematical Science Education & Freudenthal Institute (Eds.), Mathematics in Context. Chicago: Encyclopædia Britannica.
Fey, J. T. (1990). Quantity. In National Research Council, Mathematical Sciences Education Board, On the shoulders of giants: New approaches to numeracy (L. A. Steen, Ed.; pp. 61–94). Washington, DC: National Academy Press.
Freudenthal, H. (1973). Mathematics as an educational task. Utrecht, The Netherlands: Reidel.
Goldin, G. A. (1992). Toward an assessment framework for school mathematics. In R. Lesh & S. J. Lamon (Eds.), Authentic assessment performance in school mathematics (pp. 63–88). Washington, DC: American Association for the Advancement of Science Press.
Good, T. L., & Grouws, D. A. (1975). Process product relationships in fourth grade mathematics classrooms (Report for National Institute of Education). University of Missouri–Columbia.
Gravemeijer, K. P. E. (1994). Developing realistic mathematics education. Utrecht, The Netherlands: Freudenthal Institute, CD-b Press.
Griffiths, M. & Davies, G. (1993). Learning to learn: Action research from an equal opportunities perspective in a junior school. British Educational Research Journal, 19, 43–58.
Gronlund, N. E. (1968). Constructing achievement tests. Englewood Cliffs, NJ: Prentice-Hall.
Grünbaum, B. (1985). Geometry strikes again. Mathematics Magazine, 58 (1), 12–18.
Hattie, J., & Jaeger, R. (1998). Assessment and classroom learning: A deductive approach. Assessment in Education, 5, 111–122.
Howden, H. (1989). Teaching number sense. Arithmetic Teacher, 36 (6), 6–11.
Johnson, D. W., & Johnson, R. T. (1990). Co-operative learning and achievement. In S. Sharan (Ed.), Co-operative learning: Theory and research (pp. 23–27). New York: Praeger.
King, A. (1990). Enhancing peer interaction and learning in the classroom through reciprocal questioning. American Educational Research Journal, 27, 664–687.
King, A. (1992a). Comparison of self-questioning, summarizing, and note-taking review as strategies for learning from lectures. American Educational Research Journal, 29, 303–323.
King, A. (1992b). Facilitating elaborative learning through guided student-generated questioning. Educational Psychologist, 27, 111–126.
King, A. (1994). Autonomy and question asking: The role of personal control in guided student-generated questioning. Learning and Individual Differences, 6, 163–185.
Kitchen, A. (1993). Coursework and its assessment in mechanics at ages 16–19. In J. de Lange, C. Keitel, I. Huntley, & M. Niss (Eds.), Innovation in maths education by modelling and applications (pp. 245–255). Chichester, UK: Ellis Horwood.
Kluger, A. N., & Denisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119, 254–284.
Koch, A., & Shulamith, G. E. (1991). Improvement of reading comprehension of physics texts by students’ question formulation. International Journal of Science Education, 13, 473–485.
Krummheuer, G. (1995). The ethnography of argumentation. In P. Cobb & H. Bauersfeld (Eds.), The emergence of mathematical meaning: Interaction in classroom cultures (pp. 229–269). Mahwah, NJ: Erlbaum.
Kuiper, W., Bos, K., & Plomp, T. (1997). TIMSS populatie 2, Nationaal Rapport [TIMSS population 2, National Report]. Enschede, The Netherlands: University of Twente.
Lajoie, S. P. (1991, October). A framework for authentic assessment in mathematics. NCRMSE Research Review, 1 (1), 6–12.
Lane, S. (1993). The conceptual framework for the development of a mathematics assessment instrument for QUASAR. Educational Measurement: Issues and Practice, 12 (2), 16–23.
Lesh, R., & Lamon, S. J. (Eds.). (1992). Assessment of authentic performance in school mathematics (pp. 319–342). Washington, DC: American Association for the Advancement of Science Press.
Martin, M. O., & Kelly, D. L. (1996). Third international mathematics and science study: Technical report. Chestnut Hill, MA: Boston College.
Mathematical Sciences Education Board. (1990). Reshaping school mathematics: A philosophy and framework of curriculum. Washington, DC: National Academy Press.
Mathematical Sciences Education Board. (1990). On the shoulders of giants: New approaches to numeracy (L. A. Steen, Ed.). Washington, DC: National Academy Press.
Merrett, J., & Merrett, F. (1992). Classroom management for project work: An application of correspondence training. Educational Studies, 18, 3–10.
Meyer, K., & Woodruff, E. (1997). Consensually driven explanation in science teaching. Science Education, 80, 173–192.
Meyer, M., Dekker, T., & Querelle, N. (2001) Context in mathematics curricula. Mathematics teaching in the middle school, 9, 522-527
Money, R., & Stephens, M. (1993). A meaningful grading scheme for assessing extended tasks. In N. L. Webb & A. F. Coxford (Eds.), NCTM Yearbook: Assessment in the mathematics classroom. (pp. 177–186). Reston, VA: National Council of Teachers of Mathematics.
National Council of Teachers of Mathematics. (1989). Curriculum and evaluation standards for school mathematics. Reston, VA: Author.
National Council of Teachers of Mathematics. (1991). Professional standards for teaching mathematics. Reston, VA: Author.
National Council of Teachers of Mathematics. (1995). Assessment standards for school mathematics. Reston, VA: Author.
Nichols, P. D. (1994). A framework for developing cognitively diagnostic assessments. Review of Educational Research, 64, 575–603.
Nielsen, A. C., Jr. (1987). The Nielsen panel: Statistics in marketing. In Proceedings of the 1986 Making Statistics More Effective in Schools of Business (MSMESB) conference. University of Chicago. Retrieved October 1, 2002, from MSMESB Web site: http://www.msmesb.org
Organization for Economic Cooperation and Development. (1999). Measuring student knowledge and skills: A new framework for assessment. Paris: OECD Publications.
Phye, G. D. (Ed.). (1997). Handbook of classroom assessment. London: Academic Press.
Powell, S. D., & Makin, M. (1994). Enabling pupils with learning difficulties to reflect on their own thinking. British Educational Research Journal, 20, 579–593.
Pullin, D. C. (1993). Legal and ethical issues in mathematics assessment. In Mathematical Sciences Education Board & National Research Council, Measuring what counts: A conceptual guide for mathematics assessment (pp. 201–223). Washington, DC: National Academy Press.
Ramaprasad, A. (1983). On the definition of feedback. Behavioral Science, 28, 4–13.
Robitaille, D. F., Schmidt, W. H., Raizen, S., McKnight, C., Britton, E., & Nicol, C. (1993). TIMSS monograph no. 1: Curriculum frameworks for mathematics and science. Vancouver, BC: Pacific Educational Press.
Rodrigues, S., & Bell, B. (1995). Chemically speaking: A description of student-teacher talk during chemistry lessons using and building on students’ experiences. International Journal of Science Education, 17, 797–809.
Roth, W.-M., & Roychoudhury, A. (1993). The concept map as a tool for the collaborative construction of knowledge: A microanalysis of high school physics students. Journal of Research in Science Teaching, 30, 503–534.
Sadler, R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18, 119–144.
Santos, M., Driscoll, M., & Briars, D. (1993). The classroom assessment in mathematics network. In N. L. Webb & A. F. Coxford (Eds.), Assessment in the mathematics classroom: 1993 yearbook (pp. 220–228). Reston, VA: National Council of Teachers of Mathematics.
Schmidt, W. H., McKnight, C. C., & Raizen, S. A. (1996). Splintered Vision: An investigation of U.S. science and mathematics education. East Lansing: Michigan State University, U.S. National Research Center for the Third International Mathematics and Science Study.
Schwarz, J. L. (1992). The intellectual prices of secrecy in mathematics assessment. In R. Lesh & S. J. Lamon (Eds.), Assessement of authentic performance in school mathematics (pp. 427–438). Washington, DC: American Association for the Advancement of Science Press.
Senechal, M. (1990). Shape. In National Research Council, Mathematical Sciences Education Board, On the shoulders of giants: New approaches to numeracy (L. A. Steen, Ed.; pp. 139–181). Washington, DC: National Academy Press.
Shafer, M. C., & Foster, S. (1997). The changing face of assessment. Principled Practice in Mathematics & Science Education, 1 (2), 1–8.
Shafer, M. C., & Romberg, T. (1999). Assessments in classrooms that promote understanding. In E. Fennema & T. Romberg (Eds.), Mathematics classrooms that promote understanding (pp. 159–184). Mahwah, NJ: Erlbaum.
Siero, F., & Van Oudenhoven, J. P. (1995). The effects of contingent feedback on perceived control and performance. European Journal of Psychology of Education, 10, 13–24.
Simon, M. (1995). Reconstructing mathematics pedagogy from a constructivist point of view. Journal for Research in Mathematics Education 16 (2), 114–115.
Smaling, A. (1992). Varieties of methodological intersubjectivity – The relations with qualitative and quantitative research, and with objectivity. Quality and Quantity, 26, 169–180.
Stephens, M., & Money, R. (1993). New developments in senior secondary assessment in Australia. In M. Niss (Ed.), Cases of assessment in mathematics education: An ICME study (pp. 155–171). Dordrecht, The Netherlands: Kluwer Academic.
Stewart, I. (1990). Change. In National Research Council, Mathematical Sciences Education Board, On the shoulders of giants: New approaches to numeracy (L. A. Steen, Ed.; pp. 183–217). Washington, DC: National Academy Press.
Streefland, L. (1990). Free productions in teaching and learning mathematics. In K. Gravemeijer, M. van den Heuvel-Panhuizen, & L. Streefland, Contexts, free productions, tests and geometry in realistic mathematics education (pp. 33–52). Utrecht, The Netherlands: Vakgroep Onderzoek Wiskunde Onderwijs en Onderwijscomputercentrum (OW & OC).
Travers, K. J., & Westbury I. (Eds.). (1988). International studies in educational achievement: Volume 1. The IEA study of Mathematics I. Analysis of mathematics curricula.
p 22.  New York: Pergamon Press.
Treffers, A. (1987). Three dimensions: A model of goal and theory description in mathematics instruction – The Wiskobas Project. Dordrecht, The Netherlands: Reidel.
Treffers, A., & Goffree, F. (1985). Rational analysis of realistic mathematics education – The Wiskobas Program. In L. Streefland, Proceedings of the Ninth International Conference for the Psychology of Mathematics Education (pp. 97–122). Utrecht, The Netherlands: Vakgroep Onderzoek Wiskunde Onderwijs en Onderwijscomputercentrum (OW & OC).
van den Brink, J. (1987). Children as arithmetic book authors. For the Learning of Mathematics, 7, 44–48.
van den Brink, J. (1989). Realistisch rekenonderwijs aan kinderen [Realistic arithmetic education for young children; Doctoral thesis]. Utrecht, The Netherlands: Vakgroep Onderzoek Wiskunde Onderwijs en Onderwijscomputercentrum (OW & OC).
van den Heuvel-Panhuizen, M., & Vermeer, H. J. (1999). Verschillen tussen meisjes en jongens bij het vak rekenen-wiskunde op de basisschool [Differences between girls and boys in mathematics at primary school]. Utrecht, The Netherlands: CD-b Press.
van Reeuwijk, M., (1993) Learning and testing mathematics in context. In Data visualization in the classroom. National Center for Research in mathematical sciences education & Freudenthal Institute.
Verhage, H., & de Lange, J. (1997). Mathematics education and assessment. Pythagoras, 42, 14–20.
Webb, N. L. (1995). Group collaboration in assessment: Multiple objectives, processes, and outcomes. Educational Evaluation and Policy Analysis, 17, 239–261.
White, R. T. (1992). Implications of recent research on learning for curriculum and assessment, Journal of Curriculum Studies, 24, 153–164.
Wiggins, G. P. (1992). Creating tests worth taking. Educational Leadership, 49 (8), 26–33.
Wiggins, G. P. (1993). Assessing student performance: Exploring the purpose and limits of testing. San Francisco, CA: Jossey-Bass.
Wood, T. (1998). Alternative patterns of communication in mathematics classes: Funneling or focusing? In H. Steinbring, M. G. Bussi & A. Sierpinska (Eds.), Language and communication in the classroom (pp. 167–178). Reston, VA: National Council of Teachers of Mathematics.
Yackel, E. (1995). Children’s talk in inquiry mathematics classrooms. In P. Cobb & H. Bauersfeld (Eds.), The emergence of mathematical meaning (pp. 131–162). Mahwah, NJ: Erlbaum.

Endnotes

1. The Mathematical Functional Expert Group is comprised of Jan de Lange (Chair), Raimondo Boletta, Sean Close, Maria Luisa Moreno, Mogens Niss, Kyang Mee Park, Thomas Romberg, and Peter Schuller.
2. These levels have been developed over the last decade and find their origin at the end of the Eighties (de Lange, 1987), were made more explicit in the early Nineties (de Lange, 1992, 1994, 1995) and have been represented visually in a pyramid from then on with help from Dekker (Verhage & de Lange, 1997; Shafer & Foster, 1997).

Komentar