270x Filetype PDF File size 0.65 MB Source: openlibrary.telkomuniversity.ac.id
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 755
PENGENALAN KARAKTER HURUF HANGUL KOREA
MENGGUNAKAN RANDOM FOREST
Abdullah Imaduddin Tjokorda Agung Budi W. ST., MT.
abdimaduddin@gmail.com cokagung2001@gmail.com
Abstrak
Seiring berkembangnya teknologi informasi, rasa keingintahuan masyarakat terhadap budaya
dan bahasa dari negara lain meningkat. Negara Korea adalah salah satu negara yang kebudayaannya
sedang banyak diminati. Bahasa Korea ditulis menggunakan huruf hangul. Optical character
recognition (OCR) adalah salah satu solusi untuk mempermudah dalam pengenalan karakter huruf
hangul. Berbagai metode seperti ANN dan SVM umum digunakan pada OCR, namun keduanya
memerlukan waktu training yang lama.
Random Forest digunakan sebagai metode alternatif dalam pengenalan karakter huruf Hangul
Korea pada Tugas Akhir ini. Random Forest dapat menerima berbagai jenis input data dan
menghasilkan nilai akurasi yang bagus. Hasil pengujian random forest dengan 10-tree dengan
esktraksi ciri projection based mampu mengklarifikasi silabel huruf hangul berdasarkan KS5602
hingga 99%.
Kata Kunci : Optical Optical Character Recognition (OCR), pengenalan huruf Hangul, Random
Forest, Projection Based Feature Extraction
I. Pendahuluan bahasa lokal dengan baik. Salah satu negara
Seiring dengan perkembangan yang menggunakan sistem penulisan yang
teknologi dan informasi yang pesat berbeda adalah negara Korea.
diseluruh penjuru dunia, rasa keingintahuan Negara Korea, terutama Korea
masyarakat terhadap budaya dan bahasa dari Selatan, memiliki daya tarik yang kuat pada
negara lainpun ikut meningkat. Banyak beberapa tahun terakhir. Korean Wave
negara yang dalam penulisan huruf membuat masyarakat asing tertarik untuk
bahasanya tidak menggunakan huruf mengenali budaya Korea lebih mendalam.
romawi, melainkan menggunakan bentuk Pengetahuan budaya Korea Selatan dapat
huruf lainnya. Adanya perbedaan penulisan ditemukan pada berbagai macam literatur,
huruf ini mempersulit masyarakat luar termasuk tulisan-tulisan yang terdapat pada
dalam proses pembelajaran budaya dan media Internet. Tidak terlepas keharusan
bahasa negara tersebut. Agar masyarakat membaca literatur dalam bahasa Korea jika
luar dapat mempelajari budaya negara yang masyarakat ingin mengenali budaya Korea
memiliki sistem penulisan huruf yang secara lebih mendalam. Oleh karenanya,
berbeda, maka masyarakat terpaksa masyarakat asing tentunya diharuskan
memiliki dan memahami pengetahuan tata memiliki kemampuan untuk dapat membaca
dan memahami literatur yang tertulis dalam
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 756
hangul guna mempelajari budaya Korea gambar mengalami perubahan yang tajam
Selatan secara lebih mendalam. biasanya diatur dalam satu set segmen garis
Google Translate adalah sebuah alat melengkung disebut tepi. Masalah yang
bantu yang dapat mengartikan tulisan hangul sama untuk menemukan diskontinuitas pada
Korea yang tertulis dalam media elektronik sinyal 1D dikenal sebagai deteksi langkah dan
kedalam bahasa lain, seperti bahasa masalah menemukan diskontinuitas sinyal
Indonesia ataupun bahasa Inggris. Kendala dari waktu ke waktu dikenal sebagai deteksi
yang dihadapi adalah ketika suatu literatur perubahan. Deteksi tepi adalah alat
yang ingin dibaca tidaklah tertulis pada media fundamental dalam pengolahan citra, visi
elektronik, melainkan pada media cetak, mesin dan visi komputer, khususnya di
seperti buku, surat kabar, dan majalah. bidang fitur deteksi dan ekstraksi fitur[11].
Pengenalan Karakter Optik atau Metode Edge Detection yang paling
lebih dikenal dengan Optical Character kuat yang sering digunakan adalah metode
Recognition (OCR) merupakan sebuah Canny. Metode Canny berbeda dari metode
solusi yang dapat digunakan dalam pendeteksian tepi lain karena menggunakan
mengenali karakter huruf dari sebuah dua ambang batas yang berbeda (untuk
gambar yang kemudian dikeluarkan kembali mendeteksi tepi kuat dan lemah). Metode
dalam bentuk teks[2]. Banyak penelitian Canny memiliki sebuah treshold yang
OCR yang sudah dilakukan dalam memisahkan antara garis tepi lemah dan
pengenalan huruf Hangul, yang kemudian garis tepi kuat. Setelah garis tepi kuat dan
diterapkan menjadi sebuah aplikasi. Tingkat garis tepi lemah terdeteksi, metode akan
pengenalan rata-rata pada berbagai menelusuri ulang garis-garis yang terdeteksi
penelitian terkait sudah sangat tinggi. Meski dengan ambang batas lemah. Jika garis
demikian, masih terdapat kesalahan yang tersebut terhubung dengan garis yang
ditemui dalam pengenalan huruf Hangul terdeteksi dengan ambang batas kuat, maka
Korea. Kesalahan pengenalan pada garis-garis lemah tersebut akan dimasukkan
umumnya disebabkan oleh banyaknya kedalam output akhir. Oleh karena itu,
susunan kombinasi huruf Hangul yang metode ini lebih rentan terhadap noise
tersedia yang mengakibatkan sulitnya proses dibandingkan dengan metode Edge
segmentasi huruf. Jumlah suku kata yang Detection yang lain, dan lebih mungkin
dapat dibentuk dari kombinasi huruf hangul untuk mendeteksi tepi lemah dengan benar.
mencapai 11172 karakter, namun hanya
2350 suku kata yang digunakan pada B. Reverse Edge Detection
penulisan sehari-hari[7]. Metode yang Metode reverse edge detection, pada
umum digunakan pada pengenalan huruf dasarnya memiliki alur proses yang sama
hangul adalah metode template dengan metode edge detection. Tujuan
matching[2][8]. penggunaan metode ini adalah untuk
mengurangi noise yang terdapat pada
II. Dasar teori gambar. Salt & pepper adalah salah satu
A. Edge Detection
jenis noise yang biasa ditemukan pada suatu
Deteksi tepi adalah nama untuk satu gambar. Posisi pixel-pixel noise tersebut
set metode matematika yang bertujuan untuk tersebar pada seluruh permukaan gambar.
mengidentifikasi titik-titik dalam gambar Pada reverse edge detection,
digital di mana kecerahan gambar perubahan program akan mendeteksi nilai pixel hitam
tajam atau, dalam kata lain, memiliki mulai dari kiri atas sampai kanan bawah.
diskontinuitas. Titik-titik di mana kecerahan Ketika ditemukan pixel berwarna hitam,
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 757
maka akan dilakukan pengecekan terhadap dibangun menggunakan proses pelatihan data
pixel-pixel tetangganya. Jika ditemukan pada setiap node. Algoritma learning pada
decision tree akan memilih salah satu atribut
adanya pixel hitam yang berketetanggaan, dari dataset yang telah memenuhi kriteria
maka pixel tersebut tetap dimasukkan tertentu. Node turunan akan dibuat dengan
kedalam gambar akhir. Namun, ketika tidak memecah sampel data training yang telah ada
berdasarkan nilai atribut yang telah
ditemukan pixel hitam yang ditentukan. Proses ini akan terus berulang
berketetanggaan, maka pixel tersebut akan sampai suatu kondisi terpenuhi, atau
dieliminasi dari gambar akhir. sebanyak jumlah yang sudah ditentukan,
misal sebanyak x kali atau sebanyak jumlah
data sampel yang tersedia[3].
C. Projection Based Feature Extraction Pada decision tree klasifikasi dilakukan
Projection histograms diperkenalkan dengan menelusuri node mulai dari root
pada tahun 1956 oleh Glauberman dalam sampai ke node-leaf, sesuai dengan kondisi
atribut pada tiap node. Selain untuk klasifikasi,
sistem hardware OCR. Metode ini bekerja decision tree juga memiliki varian untuk
dengan melakukan perhitungan sederhana memecahkan masalah regresi, yang biasa
terhadap pixel-pixel hitam yang berada pada disebut Regression Tree.
suatu baris. Baris yang digunakan dapat
E. Random Forest
berupa horizontal ataupun vertical. Random forest adalah algoritma
Belakangan ini, teknik ini banyak digunakan klasifikasi yang menggunakan ensemble
untuk segmentasi baris, kata, dan learning. Random forest dikembangkan oleh
karakter[10]. Leo Breiman dan Adele Cutler. Random
forest didasarkan pada sebuah ide untuk
Untuk setiap baris dan kolom pada membentuk suatu kumpulan dari decision
gambar, akan dihitung jumlah pixel hitam tree dengan variansi yang dapat diatur[1].
yang terdapat pada baris dan kolom tersebut. Ensemble adalah pendekatan divide
and conquer yang digunakan untuk
Pada penelitian ini, peneliti akan meningkatkan kinerja. Prinsip utama di
menyimpan data histogram gambar yang balik metode ensemble adalah bahwa
berukuran 30x30 pixel dalam bentuk vektor kelompok “weak-learner” dapat
dikumpulkan dan membentuk sebuah
dengan ukuran 1x60. Dimana kolom 1-30 “strong-learner”. Runtimes Random Forest
berisikan data jumlah pixel hitam untuk cukup cepat, dan mampu menangani data
baris 1-30 dan kolom 31-60 berisikan data yang tidak seimbang dan tidak lengkap.
jumlah pixel hitam untuk kolom 1-30. Kelemahan Random Forest pada regresi
tidak dapat memprediksi nilai yang diluar
jangkauan pada data training., dan memiliki
kemungkinan melakukan over-fit pada data
yang memiliki sangat banyak noise.
D. Decision Tree
Decision Tree atau Pohon Keputusan adalah Tidak seperti decision tree yang
sebuah metode learning yang menggunakan cenderung sulit diimplementasikan pada
struktur pohon (tree), dimana informasi data dengan variansi yang tinggi, random
mengenai prediksi yang dilakukan tersimpan forest memberikan nilai rata-rata untuk
pada setiap node-leaf tree. Pohon keputusan menemukan titik balance pada data-data
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 758
tersebut. Random Forest tahan terhadap 1. Pengujian Akurasi Sistem Terhadap Data
noise yang terdapat pada data. Latih
Algoritma training untuk Random 2. Pengujian Akurasi Pengenalan Sistem
Forest adalah dengan menggunakan Terhadap Data Uji dengan Noise
Bootstrap Aggregating (Bagging). Proses 3. Pengujian Akurasi Pengenalan Sistem
latih dilakukan dengan mengambil satu set Terhadap Data Uji dengan Font Asing
data latih yang kemudian akan dimasukkan
kedalam suatu tree. Pemilihan atribut dalam B. Hasil Pengujian
Hasil dari pengujian skenario pertama
setiap kali sebuah node akan dipecah
diambil secara acak. Bagging melakukan adalah nilai akurasi dari masing-masing
pemilihan sample berulang kali, dengan pengujian, yang dijelaskan pada Tabel 1 dan
penggantian. Jumlah data latih yang Tabel 2 dibawah ini.
diberikan pada setiap pohon akan berjumlah
sama. Kolom data yang digunakan pada Tabel 1: Nilai Akurasi Berdasarkan
suatu node akan ditentukan nilai treshold Pengujian Skenario I dengan 5-tree
nya menggunakan gini index[5].
= 1 − � 2
=1
|�� | |�� |
1 ( ) 2 ( ) Uji Metode Dikenali Akurasi
= �� + ��
| | 1 | | 2
�� �� 1 - Vectorization 2219 94.43%
2 - Vectorization 2188 93.11%
m adalah jumlah kelas, sedangkan 3 - Vectorization 2190 93.19%
Pi adalah rasio jumlah data yang diberi label Projection
kelas i dalam D. Gini index menghasilkan 4 - Based 2209 94.00%
Projection
binary split untuk setiap atribut. Perhitungan
nilai Gini index binary split dimulai dengan 5 - Based 2211 94.09%
Projection
membagi data D menjadi 2 kelompok data D1
dan D2. Nilai Gini D dihitung dengan 6 - Based 2173 92.47%
menjumlahkan nilai Gini setiap partisi yang Edge
sudah diberi bobot. Untuk nilai Gini diskrit, 7 Detection Vectorization 2188 93.11%
setiap subset nilai dari atribuat akan Edge
dipertimbangkan untuk dijadikan nilai split 8 Detection Vectorization 2187 93.06%
pada suatu label. Split yang menghasilkan Edge
nilai Gini terkecil akan dipilih sebagai split 9 Detection Vectorization 2143 91.19%
Edge Projection
treshold sebuah node.
10 Detection Based 2204 93.79%
Edge Projection
11 Detection Based 2208 93.96%
III. Perancangan Sistem Edge Projection
Detection Based
A. Skenario Pengujian 12 2183 92.89%
Reverse
Pengujian penelitian ini dilakukan dengan Edge
7050 data latih dan 25850 data uji yang akan
13 Detection Vectorization 978 41.62%
digunakan tergantung pada skenario Reverse
pengujian. Pengujian sistem dibagi menjadi Edge
3 skenario yang kemudian akan 14 Detection Vectorization 383 16.30%
direpresentasikan sesuai metode yang Reverse
Edge
digunakan pada pembentukan random forest
Pengujian sistem dibagi menjadi 3 skenario, 15 Detection Vectorization 307 13.06%
yaitu: 16 Reverse Projection 2164 92.09%
no reviews yet
Please Login to review.