داستان آبیدیک

هنجارسازی


english

1 computer:: Normalization

برچسب گذاری نقش کلمه (Part-of-speech-Tagging ) (تهیه لیستی از اقسام و نقش کلمات در زبان فارسی است که بتوان از آن لیست انتخاب نمود)، ابهام زدایی از نقش کلمه (Word sense Disambiguation، تشخیص مفهوم مورد نظر از هر کلمه که در چند مفهوم استفاده می شود، ابهام زدایی نحوی (Syntatic Disambiguation ) که ناشی از ارتباط میان کلمات و عبارات درون جمله است، هنجارسازی (Normalization)( وجود نویسه های هم شکل متعدد که در زبان شناسی رایانه متفاوت هستند)، وجود فاصله های اضافی در متن که عمل استخراج کلمات و عبارات را مشکل می سازد ، تشخیص اعمال گفتاری(Speech act )، گوناگونی معادل های علمی، تنوع ضبط اسامی، تعیین مرز کلمات و سرهم نویسی، جدانویسی و بی فاصله نویسی کلمات، انواع جمع ها، صورتهای مختلف نوشتاری و استفاده از زبان محاوره در نوشتار به ویژه در وبلاگ ها ، اختلافاتی مانند اتصال پسوندها، فاصله گذاری ها و دگرگونی کلمات در حین پیوند ، اعراب گذاری نویسه های خاص ، کدگذاری نویسههای فارسی، ریخت شناسی پیچیده و مبهم خط فارسی با رویکرد مشکلات املایی از قبیل قواعد فعلی، قواعد وندی Affix ، و قواعد فاصله گذاری، وجود حروف همشکل بسیار، وجود حروف هم آوای بسیار، و توزیع متفاوت انواع غلطهای تایپی می باشد. یکی از راهکارها، ایجاد پایگاه داده زیرساختی است با استفاده از ابزارهای قطعه بندی متن، برچسب گذاری ادات سخن (part of speech) ، ابهام زدایی از نقش کلمه ، ابهام زدایی نحوی و هنجارسازی پیکره های متنی ، متشکل از بخشهای واژگان زبان، اصطلاحنامه ها،الگوهای زبان، هم نشینی های رایج در زبان، پیکره های برچسب داده ای و پیکره های تخصصی ، خصوصیات زبان فارسی را پوشش دهد . ایجاد پایگاه داده زیرساخت کاربری خط و زبان فارسی برای قطعه بندی متن، برچسب گذاری ادات سخن (part of speech)، ابهام زدایی معنایی ونحوی، و هنجارسازی

واژگان شبکه مترجمین ایران


معنی‌های پیشنهادی کاربران

نام و نام خانوادگی
شماره تلفن همراه
متن معنی یا پیشنهاد شما
Captcha Code