Google Website Translator Gadget

Saturday, December 24, 2011

Mengautomasi Pengumpulan Data Bagi Harga Getah Harian Dengan Ubuntu, wget, ssconvert, Java, Palo Suite dan cron.


Artikel ini memberi panduan ringkas untuk menggunakan sistem Ubuntu 11.11 untuk mengautomasi pengumpulan data harga getah harian dari laman web http://www3.lgm.gov.my/mre/daily.aspx . Perisian yang diperlukan bagi tujuan ini adalah:
  1. wget
  2. ssconvert
  3. Java
  4. Palo Suite
  5. cron
Laman Web Harga Getah Harian dari Lembaga Getah Malaysia : www.lgm.gov.my

wget adalah perisian yang akan digunakan untuk menyalin muka laman http://www3.lgm.gov.my/mre/daily.aspx dan menyimpannya pada sistem Ubuntu 11.11 saya. Ianya adalah satu perisian asas yang terdapat pada sistem Ubuntu.

Ssconvert adalah fungsi yang terdapat pada perisian Gnumeric spreadsheet, dan boleh dipasang melalui repositori sistem Ubuntu 11.11. Fungsi ini saya gunakan untuk mengubah muka laman yang telah disalin dari format html kepada format csv.

Perisian Java juga diperlukan untuk perisian seterusnya iaitu Palo Suite. Versi yang diperlukan adalah Sun Java JDK. Pemasangan ini memerlukan untuk menambah repositori bagi sistem Ubuntu.

Perisian Palo Suite adalah sekumpulan perisian Business Intelligence, jika diterjemah menjadi perisikan perniagaan. Walaupun panduan ini tidak akan menjadikan anda glamer seperti James Bond, namun kemahiran merisik data adalah sesuatu yang dapat membantu anda menyelesaikan berbagai jenis kerja yang memerlukan data dari berbagai sumber.

Untuk menggunakan perisian Palo Suite ini, hanya memerlukan pelayar web browser dan terminal sahaja. Pada Palo Suite ini terdapat komponen ETL (extract-transform-load), MOLAP (multi-dimensional online analytical processing) dan Palo Web. Palo Web membolehkan berbagai macam analisa dibuat melalui antaramuka mirip web spreadsheet, termasuk fungsi data pivot, formula dan carta. Terdapat juga plugin untuk MS Excel dan OpenOffice.org.

Menyalin Muka Laman Web Dengan wget
  1. Buka terminal pada Ubuntu melalui panel Accessories > Terminal
  2. Salin muka laman berkenaan dengan menaip pada terminal
  3. wget akan menyimpan fail daily.aspx pada folder /home// pada sistem Ubuntu

Memasang Perisian Gnumeric
  1. Pada terminal taip arahan berikut:
    1. sudo apt-get install gnumeric
  2. Perisian Gnumeric versi 1.10 akan dimuat turun dan dipasang pada sistem Ubuntu

Mengubah Format Fail Dari html Kepada csv
  1. Format bagi muka laman ini agak pelik sedikit, dimana data-data diatur sebagai spreadsheet sheet dalam muka laman berkenaan. Pada terminal taip arahan berikut:
    1. ssconvert daily.aspx harga_getah.txt
    2. nano harga_getah.txt
  2. Apabila anda baca fail harga_getah.txt, anda akan dapati “PHYSICAL CLOSING PRICES (FOB) AT 5.00 PM ON 23/12/2011[see sheet Sheet8]” . Ini bermaksud data berkenaan terdapat pada Sheet8.
  3. Tutup nano editor dengan menekan kekunci [Ctrl] dan [X] serentak
  4. Untuk dapatkan Sheet8, taip pada terminal
    1. ssconvert -O 'sheet=Sheet8 separator=| format=raw' daily.aspx harga_getah_sheet8.txt
  5. Saya menggunakan pilihan opsyen -O untuk memilih Sheet8, pembahagi pipe |, dan format asas raw.
  6. Sekarang perhatikan fail berkenaan dengan menaip pada terminal
    1. nano harga_getah_sheet8.txt
  7. Perhatikan sekarang anda sudah dapat data harga getah SMR yang diperlukan. Anda boleh mengulangi proses yang sama untuk Sheet9, Sheet10, Sheet11 dan Sheet12.
  8. Sekarang tutup nano editor dengan menekan kekunci [Ctrl] dan [X] serentak

Memasang Perisian Sun Java 6 JRE
  1. Pada terminal, taip:
    1. sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner"
    2. sudo apt-get update
    3. sudo apt-get install sun-java6-jre sun-java6-bin sun-java6-jdk sun-java6-plugin sun-java6-fonts
  2. Java akan dipasang pada folder /usr/lib/jvm/java-6-sun/
  3. Pada terminal taip arahan berikut untuk membuat pilihan versi Java yang akan digunakan
    1. sudo update-alternatives --config java
  4. Semak pilihan versi Java dengan menaip pada terminal
    1. java -version
  5. Tetapkan path kepada versi Java ini dengan menaip pada terminal
    1. sudo nano /etc/bash.bashrc
  6. Pada editor nano, tambah baris berikut:
    1. # Path to JAVA_HOME
    2. JAVA_HOME=/usr/lib/jvm/java-6-sun/
    3. export JAVA_HOME
    4. PATH=$PATH:$JAVA_HOME/bin
    5. export PATH
  7. Simpan perubahan yang telah dibuat pada nano editor dengan menekan kekunci [Ctrl] dan [O] serentak, kemudian tutup nano editor dengan menekan kekunci [Ctrl] dan [X] serentak.


Muat Turun dan Pasang Perisian Palo Suite Community Edition
  1. Langkah pertama yang perlu anda buat untuk memuat turun Palo BI Suite adalah untuk mendaftar sebagai pengguna di http://www.palo.net/index.php?id=9
  2. Setelah anda berjaya mendaftar sebagai pengguna, anda boleh meneruskan dengan memuat turun perisian Palo Suite Community Edition untuk Linux.
  3. Setelah perisian Palo_Suite_3_2_OS_4166_5160.tar di muat turun, buka terminal pada Ubuntu melalui panel Accessories > Terminal dan menaip arahan berikut sebagai root
    1. sudo -i
    2. cd /home//Downloads/
    3. tar -xvf Palo_Suite_3_2_OS_4166_5160.tar
    4. sh install.sh
  4. Semasa pemasangan, skrip install.sh akan meminta beberapa parameter. Bagi maksud ini, boleh gunakan parameter default yang diberikan oleh skrip seperti berikut:
    1. Path : /opt/jedox/ps
    2. Port : 85 (sekiranya terdapat pelayan web http server sedia ada pada port 80)
    3. IP Address : 127.0.0.1 (localhost)
  5. Sekiranya semasa pemasangan, anda menggunakan port selain dari 80 pada fail config.php dengan menaip pada terminal
    1. nano /opt/jedox/ps/htdocs/app/etc/config.php
  6. Pada nano editor pinda baris berikut mengikut port yang anda gunakan
    1. define('CFG_UB_PORT', 80);
  7. Simpan perubahan yang telah dibuat pada nano editor dengan menekan kekunci [Ctrl] dan [O] serentak, kemudian tutup nano editor dengan menekan kekunci [Ctrl] dan [X] serentak.
  8. Palo Suite memerlukan MS TrueType fonts, dan ini boleh dibuat dengan menaip arahan berkenaan pada terminal
    1. apt-get install ttf-mscorefonts-installer
    2. cp /usr/share/fonts/truetype/msttcorefonts/* /opt/jedox/ps/core-Linux-i386/var/fonts/
  9. Tambahkan had maksimum memori yang dikongsi pada shmmax dengan menaip pada terminal
    1. nano /etc/sysctl.conf
  10. Pada nano editor, tambah baris berikut pada penghujung fail
    1. # This is to increase shmmax limit
    2. kernel.shmmax=134217728
    3. #
  11. Simpan perubahan yang telah dibuat pada nano editor dengan menekan kekunci [Ctrl] dan [O] serentak, kemudian tutup nano editor dengan menekan kekunci [Ctrl] dan [X] serentak.

Memulakan Perisian Palo Suite
  1. Pada terminal taip
    1. sudo -i
    2. cd /opt/jedox/ps/
    3. sh startserver.sh
    4. cd /opt/jedox/ps/tomcat/bin/
    5. sh startup.sh






1 comment:

Raja Iskandar Shah said...

Perisian Palo boleh juga berfungsi dengan openjdk. Ubuntu tidak lagi menyertakan perisian sun-java pada repositorinya. Pada terminal taip
sudo apt-get install openjdk-6-jre