קטגוריה: regex

ניתוח מחרוזות חלק א' התאוריה (על רגל אחת)

כאשר התחלתי ללמוד לתכנת לבד, אחד הנושאים שהחלטתי לעבוד עליהם חזק הוא ניתוח מחרוזות.
ככה למדתי המון גישות לניתוח מידע, כדוגמת מציאת שם דומה, באמצעות אלגוריתם הצלילים בשם soundex, ומאוחר יותר גיליתי גם את גם את Metaphone אשר עושה פעולה חישובית טובה יותר.
אבל הדבר שלא הצלחתי להבין הרבה זמן (בכל זאת, למדתי לבד), הוא איך אני סורק תווים ומקבל עליהם "הבנה" באמצעות הקוד שלי. כלומר איך אני יודע את המשמעות של מה שאני סורק?

על פניו, זה נשמע די קל ופשוט, אני מוצא משהו המוגדר כ"גבול", ואז אני מחפש על זה משמעות נכון? ובכן, מסתבר שזה לא כזה פשוט. יותר מזה, גיליתי שישנם 2 סוגים של "שפות" כאשר רוצים לנתח מידע – אחת נקראת "שפה דטרמיניסטית" והשנייה "שפה לא דטרמיניסטית". באנגלית הם קיבלו את השמות Deterministic language ו Nondeterministic . כאשר מדברים עליהם, מדברים על הבנת ההקשר (context). להמשיך לקרוא

regular expression על קצה הפוסט – חלק שלישי

בחלק הקודם הסברתי כיצד ניתן להגיד למנוע regex מבוסס POSIX לחפש תווים שונים.
עכשיו בואו נתחיל לחבר דברים בייחד.

זוכרים את ההדגמה שלי של "Hello World" ?

כאשר אנחנו מחפשים משהו שהוא לא באמצע הטקסט, חשוב מאוד להגדיר עוגנים (הסימן של גג והסימן של דולר) בהתאם לצורך. כלומר אם אני רוצה לחפש בהתחלה תבנית מסויימת, מאוד חשוב להתחיל אותה עם הסימן גג ("^"). הסיבה לכך תמונה בכך שזה יעזור למנוע ה Regex להבין היכן לחפש, ובכך לגרום לו להיות מהיר ויעיל יותר.
בנוסף, גם יהיה קל יותר לקבל את התבנית שאותה אנחנו מחפשים. כלומר מימוש המנוע ידע להביא לנו את התוצאה של ההתחלה, או להחזיר שום ערך במידה והיא לא (היות ובמידה והיא לא נמצאה בהתחלה, ולא צויין עוגן, היא תחזיר את המיקום הראשון שכן המנוע ימצא כאשר אין עוגן).

אם לתרגם את זה למילים: במידה ונרצה למצוא חמישה תווי אותיות, ואנחנו בהכרח רוצים שהם יהיו מהתחלת הטקסט, נכתוב זאת כך: להמשיך לקרוא

regular expression על קצה הפוסט – חלק שני

בחלק הקודם הצגתי בקצרה מאוד מה זה Regular Expression.

אבל ממש לא סיימתי להציג את השפה עצמה.

בשפה יש סוגי קבוצות שונים המייצגים תוכן. הקבוצות (מחלקות – class בשם הרשמי) יכולות לייצג תווים כדוגמת אותיות, מספרים, אותיות גדולות בלבד, אותיות קטנות בלבד, וכו'
הקבוצות יהיו בתוך סוגריים מרובעים, וייוצגו באמצעות נקודותיים בהתחלה ובסוף של שם הקבוצה: להמשיך לקרוא

regular expression על קצה הפוסט – חלק ראשון

עולם המתכנתים מתחלק לשלושה חלקים:

  1. אלו אשר משתמשים ב Regex‏
  2. אלו אשר שמעו על Regex‏
  3. אלו שחושבים שאני מקלל אותם כרגע

פוסט זה נכתב עבור האנשים שרק שמעו קצת על הנושא, ואלו שבכלל לא.

Regular Expression או Regex כקיצור, זו למעשה שפה המאפשרת לתאר תבנית מסויימת של טקסט שרוצים למצוא או לשנות.

ישנן הרבה מימושים לשפה, כאשר כל מימוש מספק יכולות שונות – בעיקר תוספות למימוש הבסיסי ביותר. אחת הידועות ביותר נקראת Perl Compatible Regular Expression או PCRE בקיצור .אך התקן הבסיסי ביותר שיש עבור השפה, בכלל שייכת לPOSIX.

לעין בלתי רגילה, הקוד נראה כמו אסופה של ג'יבריש, אבל ככול שמבינים יותר את השפה, קל יותר להבין אותה (אלא אם מתעללים בה), אבל לוקח לעיניים כל פעם מחדש קצת זמן להתרגל לתחביר.

המטרה של Regex היא למצוא מבנה (תבנית) בעל חוקיות מסויימת אשר בכל דרך אחרת, תהיה זו משימה מסובכת יותר לגילוי. העניין הוא, שregex במידה והמבנה ידוע מראש, אינו יהיה יעיל כמו חילוץ מידע בצורה לינארית. ועל כן השימוש בRegex נבנה עבור השימוש בתבניות, ומומלץ לא להשתמש בו עבור משהו פשוט יותר.

למשל, במידה ואנחנו בהכרח יודעים כי המחרוזת תראה כך:

Hello World

כלומר, אנחנו מחפשים מבנה מחרזות שהיא בהכרח תהיה Hello World (כאשר H גדולה, השאר אותיות קטנות, אז רווח ואז W גדולה, והשאר אותיות קטנות), אז השימוש ב Regex אינו יעיל, היות והוא אינו תורם לנו שום דבר מיוחד בנושא, למרות שניתן להשתמש בו במקרה זה. אך החיפוש הרגיל של מחרוזות בהכרח יהיה יעיל ומהיר יותר בנושא.
לעומת זאת, כאשר נרצה לדעת האם מדובר באוסף אותיות (אפילו התחלה באות גדולה בכל התחלת "מילה"), רווח, ועוד אוסף אותיות (שוב פעם עם אות גדולה), אז דווקא לRegex יתרון ברור, היות ואנחנו מחפשים תבנית, ולא אסופת תווים מדוייקת. שימוש ב Regex בסיסי לשם כך יראה בצורה הבאה:

^([\w]+)\s([\w]+)$

נראה כמו ג'יבריש אני יודע. בפוסט הבא אסביר גם מה המשמעות.
המראה הבסיסי של השפה מתארת מספר דברים: להמשיך לקרוא