วันอังคารที่ 2 ธันวาคม พ.ศ. 2557

การทำงานกับ Array

4. การทำงานกับ Array


           array ใน PHP มีความแตกต่างจากภาษาอื่นคือ สามารถตั้งชื่อดัชนีเป็นข้อความ เรียกว่า associative array นอกเหนือจากการใช้ตัวเลข การเก็บข้อมูลใน array สามารถเป็นตัวเลข ข้อความ รวมถึง array จึงทำให้การประยุกต์มีประสิทธิภาพ



5. การควบคุมข้อความ และนิพจน์ปกติี่


             การประยุกต์กับข้อความของ PHP สำหรับการจัดรูปแบบและควบคุมข้อความ จะกล่าวถึงการใช้ฟังก์ชันข้อความ หรือฟังก์ชันนิพจน์ปกติ (regular expression) เพื่อค้นหาคำ วลี หรือรูปแบบอื่นภายในข้อความ

             ฟังก์ชันเหล่านี้มีประโยชน์ในหลายบริบท เช่น การจัดรูปแบบนำเข้าแล้วจัดเก็บในฐานข้อมูล ฟังก์ชันค้นหามีประโยชน์มากเมื่อสร้างโปรแกรม

ชุดตัวอักษรและ Unicode


                ตามปกติ PHP นำเสนอข้อความเป็นตัวอักษร 8 บิตตาม ISO-8859-1 ซึ่งสามารถแสดงได้ 256 ตัวอักษร ดังนั้นจึงไม่สามารถแสดงพยัญชนะที่ต้องการมากกว่านี้ได้ เช่น จีนหรือญี่ปุ่นได้

               PHP มีส่วนขยาย mbstring ช่วยแก้ไขปัญหานี้ ก่อนอื่นควรเรียนรู้เกี่ยวกับ "ชุดตัวอักษร" (Character Set หรือ charset) และการทำงานของคอมพิวเตอร์กับพยัญชนะต่างๆ

ASCII


             การพัฒนาคอมพิวเตอร์ในตอนต้นได้สร้างการจับคู่ระหว่างรหัสดิจิตอลกับตัวอักษรพิมพ์ได้ แต่ไม่ค่อยเหมาะสมกับธรรมชาติระบบไบนารีของคอมพิวเตอร์ ในปี 1963 American Standard Association ได้ประกาศมาตรฐาน American Standard Code for Information Interchange หรือ ASCII โดยเป็นตัวอักษร 7 บิตที่ครอบคลุมตัวอักษรลาตินที่ใช้เป็นพยัญชนะภาษาอังกฤษ ตัวเลข เครื่องหมาย และสัญลักษณ์ทางการเงิน
               ระบบนี้ไม่สามารถรองรับภาษาในยุโรปตะวันตก เช่น ฝรั่งเศส สเปน รวมถึงภาษา ไซริลลิค อาร์เมเนียและฮิบรู

Unicode


                Unicode (มาจาก Universal Code) ได้รับการพัฒนาตั้งแต่ทศวรรษ 1980 เพื่อให้ครอบคลุมทุกภาษา ต่อมาได้กลายเป็น ISO 10464

                 มาตรฐานเริ่มแรกเป็นตัวอักษร 16 บิตที่สอดคล้องกับตัวอักษร ASCII ใน 127 สล๊อตแรก นอกจากจะสนับสนุนพยัญชนะลาตินแล้ว ยังสนับสนุนภาษาอื่น เช่น อาเมเนีย กรีซ ไทย จีน ญี่ปุ่น และเกาหลีด้วย

                 ตัวอักษร 16 บิตนี้ยังไม่สามารถรองรับตัวอักษรในภาษาจีน ญี่ปุ่น และเกาหลี ที่มีมากกว่า 70,000 ตัวอักษรได้ จึงมีการพัฒนาเป็นระบบ 32 บิตทำให้สามารถรองภาษาปัจจุบันและภาษาที่ตายแล้วได้ ระบบนี้ไม่เพียงรองรับมาตรฐาน 16 บิตและ 32 บิตแล้ว ยังรองรับตัวอักษรบิตเดียวด้วย
การเข้ารหัส unicode ที่ใช้กันมากคือ


  • UTF-7 เป็นการเข้ารหัส 7 บิตสำหรับการรองรับ ASCII 7 บิตและใช้อีก 1 หรือ 2 สล๊อตเพื่อระบุไบต์ขยายสำหรับตัวอักษรอื่น
  • UTF-8 เป็นการเข้ารหัส ASCII เต็มใน 127 สล๊อตแรกและใช้ schema เข้ารหัสส่วนที่เหลือ
  • UTF-16 เป็นการเข้ารหัสคำ 16 บิต ภาษาหลักยังคงอยู่ใน 16 บิตแรก
  • UTF-32 เป็นการเข้ารหัสคำ 2 เท่า (double word หรือ DWORD) 32 บิต นอกจากนี้ยังสนับสนุน หลายตัวอักษร DWORD สำหรับตัวอักษรเพิ่มเติมในอนาคต

ไม่มีความคิดเห็น:

แสดงความคิดเห็น