279x Filetype PDF File size 1.03 MB Source: upload.wikimedia.org
Laporan Perkembangan
Proyek OCR Aksara Jawa
Tahap II
Oleh
Aditya Wikan Mahastama
Universitas Kristen Duta Wacana
Yogyakarta
2018
Laporan Perkembangan Proyek OCR Aksara Jawa
Tahap : II
Pelaksana : Aditya Wikan Mahastama (Pak Mahas)
Batas Waktu : 31 Oktober 2018
Penyerahan Laporan : 21 November 2018 (karena Pak Mahas ditugaskan ke Belanda)
A. Perkembangan Proyek
Tahapan proyek telah mencapai sebagian kemajuan seperti yang disyaratkan sebagai
milestone Tahap II untuk pekerjaan pelaksana, meliputi:
1. Pemeliharaan Server
Persiapan server Google Cloud untuk sementara ditunda karena hingga tahap ini belum
membutuhkan uji server.
2. Pengembangan Perangkat Lunak
Pada pertengahan bulan September 2018, mengikuti kondisi bahasa pemrograman yang
digunakan oleh voluntir penelitian (Samuel dan Ofri) yang terkait dengan sistem operasi yang
mereka gunakan, maka versi Python yang digunakan untuk pengembangan perangkat lunak
disesuaikan menjadi Python 3.6, tercermin dari kode program yang mulai menggunakan awalan
3 (3kodexx.py) pada penyimpanan Google Drive. Kode program mengalami sejumlah
penyesuaian agar dapat berjalan di Python 3.6.
Kemajuan yang telah berhasil dicapai pada tahap ini adalah:
Perbaikan segmentasi karakter. Segmentasi aksara Jawa telah mengalami penyempurnaan
yang jauh pada tahap II ini, meliputi deteksi baris tiga pass untuk mendapatkan baris-baris
aksara Jawa, dengan:
1. Pass pertama bertujuan mendapatkan baris-baris kasar teks menggunakan Projection
Profile Cutting (PPC).
2. Pass ke dua uji statistik volume baris hasil pass pertama menggunakan kuartil setiap
baris, di mana baris yang volumenya melebihi kuartil atas dianggap sebagai baris utama
(baris di mana aksara nglegena berada)
3. Pass ke tiga adalah merging dan splitting di mana (1) baris-baris yang bukan merupakan
baris utama dilihat posisinya (atas atau bawah) terhadap baris utama untuk disatukan
dengan baris utama terdekat, dan (2) memisahkan “baris” hasil pass ke dua yang
ternyata memiliki dua baris utama.
Setelah deteksi baris selesai, dilanjutkan dengan deteksi karakter (aksara) pada setiap baris,
dengan pendekatan PPC juga tetapi secara horisontal. Hasilnya berupa aksara-aksara terpisah
yang masing-masing berupa aksara nglegena beserta sandhangan dan pasangannya.
Dalam diskusi Tim Trawaca bersama Pak Biyanto, Ibu Raisha dan Ibu Apri (pakar Bahasa
Jawa), sempat muncul pertanyaan apakah tidak akan terlalu banyak variasi yang harus
dicocokkan untuk pengenalan jika setiap karakter memuat pasangan dan sandhangan, dalam
penelitian tahun ini target kami adalah melihat apakah perlu breakdown lebih jauh menjadi
segmentasi aksara nglegena, sandhangan dan pasangan, serta menyimpan relasinya. Contoh
tahapan segmentasi dan hasil akhir segmentasi dapat dilihat pada Gambar 1 dan Gambar 2.
Gambar 1. Proses segmentasi.
Angka merah: Pass 1, Biru tua: Pass 2, Cyan: Pass 3, Coklat: Segmentasi horisontal
Gambar 2. Hasil akhir segmentasi karakter hingga saat ini.
Angka besar: Nomor baris (dimulai dari 0), angka kecil: nomor karakter pada baris (dimulai dari
0)
no reviews yet
Please Login to review.