IsonSearchBot.
IsonSearchBot is the web crawler operated by IsonSearch, a service of IsonAI. Its purpose is to build an index of Indonesian web content for the IsonSearch search engine.
Identification
The crawler identifies itself with the following User-Agent string:
IsonSearchBot/1.0 (+https://search.isonai.com/bot)
Behavior
- robots.txt is honored in full.
Disallow, Crawl-delay, and Sitemap directives are read and applied.
- Request rate is capped at one request per two seconds per host (no more than 0.5 requests per second). Aggressive backoff is applied on HTTP 429 and 5xx responses.
- Scope is restricted to Indonesian content. The crawler admits pages on the .id top-level domain, pages whose content is detected as Indonesian language, and pages linked from Indonesian-language sources.
- JavaScript is not executed during routine crawling. Only static HTML is fetched.
- Excluded surfaces. The crawler does not submit forms, attempt authentication, or access content behind paywalls.
Blocking the crawler
To prevent IsonSearchBot from accessing a site, add the following directive to robots.txt:
User-agent: IsonSearchBot
Disallow: /
Opt-out and removal requests
To request removal of indexed content or permanent exclusion of a domain, contact hi@isonai.net with the subject line IsonSearch removal: [domain]. Removal from the index is completed within 24 hours, and the domain is added to a permanent exclusion list.
Verification
IsonSearchBot operates from the following network ranges. Verified ranges will be listed here as deployment expands.
- Datacenter (Biznetgio Jakarta): to be published at production rollout.
- Residential (IsonAI infrastructure): not published.
User-Agent spoofing by third parties may occur. Reports of unauthorized use of the IsonSearchBot identifier can be sent to the address above.
IsonSearchBot.
IsonSearchBot adalah crawler web yang dikelola oleh IsonSearch, layanan dari IsonAI. Tujuan crawler ini adalah membangun indeks konten web Indonesia untuk mesin pencari IsonSearch.
Identifikasi
Crawler mengidentifikasi diri dengan User-Agent berikut:
IsonSearchBot/1.0 (+https://search.isonai.com/bot)
Perilaku
- robots.txt dipatuhi sepenuhnya. Direktif
Disallow, Crawl-delay, dan Sitemap dibaca dan diterapkan.
- Laju permintaan dibatasi pada satu permintaan setiap dua detik per host (maksimum 0,5 permintaan per detik). Backoff agresif diterapkan pada respons HTTP 429 dan 5xx.
- Cakupan dibatasi pada konten Indonesia. Crawler menerima halaman pada domain tingkat atas .id, halaman yang kontennya terdeteksi berbahasa Indonesia, dan halaman yang ditautkan dari sumber berbahasa Indonesia.
- JavaScript tidak dieksekusi selama proses crawling rutin. Hanya HTML statis yang diambil.
- Permukaan yang dikecualikan. Crawler tidak mengirim formulir, tidak melakukan autentikasi, dan tidak mengakses konten di balik paywall.
Memblokir crawler
Untuk mencegah IsonSearchBot mengakses suatu situs, tambahkan direktif berikut pada robots.txt:
User-agent: IsonSearchBot
Disallow: /
Permintaan opt-out dan penghapusan
Untuk meminta penghapusan konten ter-indeks atau pengecualian permanen suatu domain, hubungi hi@isonai.net dengan subjek IsonSearch removal: [domain]. Penghapusan dari indeks akan diselesaikan dalam 24 jam, dan domain ditambahkan pada daftar pengecualian permanen.
Verifikasi
IsonSearchBot beroperasi dari rentang jaringan berikut. Rentang yang telah diverifikasi akan dicantumkan di sini seiring perluasan deployment.
- Datacenter (Biznetgio Jakarta): akan dipublikasikan pada rilis produksi.
- Residential (infrastruktur IsonAI): tidak dipublikasikan.
Pemalsuan User-Agent oleh pihak ketiga dapat terjadi. Laporan penggunaan tidak sah atas identifier IsonSearchBot dapat dikirim ke alamat di atas.