کاراکترهای خاص و Regex

کاراکترهای خاص و عبارات منظم (Regex) در پردازش متن

عبارات منظم یا Regex یکی از قدرتمندترین ابزارها برای کار با متن در محیط‌های برنامه‌نویسی و خط فرمان است. این تکنیک به شما امکان می‌دهد الگوهای پیچیده را در رشته‌های متنی شناسایی، استخراج یا جایگزین کنید.

نکته کلیدی: یادگیری Regex مانند یادگیری یک زبان جدید است. با تمرین مداوم می‌توانید به مهارت بالایی در استفاده از آن دست یابید.

کاراکترهای خاص پرکاربرد

کاراکتر معنی مثال
. هر کاراکتر به جز خط جدید a.c با "abc" یا "a5c" مطابقت دارد
* تکرار 0 یا بیشتر ab*c با "ac" یا "abbc" مطابقت دارد
+ تکرار 1 یا بیشتر ab+c با "abc" مطابقت دارد اما نه با "ac"
? تکرار 0 یا 1 بار colou?r با "color" و "colour" مطابقت دارد

کلاس‌های کاراکتر و محدوده‌ها

با استفاده از براکت‌ها می‌توانید مجموعه‌ای از کاراکترهای مجاز را تعریف کنید:

  • [abc] - با a یا b یا c مطابقت دارد
  • [a-z] - با هر حرف کوچک انگلیسی مطابقت دارد
  • [^0-9] - با هر کاراکتر به جز اعداد مطابقت دارد (^ به معنی نفی است)
  • [\d] - معادل [0-9] (هر رقم)
  • [\w] - معادل [a-zA-Z0-9_] (حروف، اعداد و زیرخط)

برای یادگیری تکنیک‌های پیشرفته‌تر می‌توانید به این صفحه بروید و مطالب تکمیلی را مطالعه کنید.

کاربردهای عملی Regex

  1. اعتبارسنجی داده‌ها: بررسی صحت فرمت ایمیل، شماره تلفن یا کد ملی
  2. جستجوی پیشرفته: یافتن الگوهای خاص در فایل‌های متنی بزرگ
  3. تغییرات دسته‌ای: جایگزینی همزمان چندین الگوی مختلف در متن
  4. استخراج داده: جداسازی بخش‌های خاصی از یک رشته طبق الگوی تعریف شده

برای تمرین بیشتر، سعی کنید الگوهای زیر را بنویسید:

  • شناسایی تاریخ به فرمت YYYY-MM-DD
  • جستجوی کلمات با حداقل 8 کاراکتر که شامل حروف بزرگ و کوچک و اعداد باشند
  • استخراج تمام لینک‌های موجود در یک سند HTML