تحصیلات:, آموزش متوسطه و مدارس

روش نزدیکترین همسایه: مثال کار

روش نزدیک ترین همسایه ساده ترین طبقه بندی متریک است که بر مبنای ارزیابی شباهت اشیاء مختلف است.

شی مورد تجزیه و تحلیل قرار گرفته به کلاس که متعلق به افراد نمونه آموزش است. بیایید پیدا کنیم که روش نزدیکترین همسایه چیست. بیایید سعی کنیم این مسئله پیچیده را درک کنیم، نمونه هایی از تکنیک های مختلف را ارائه دهیم.

فرضیه روش

روش نزدیکترین همسایه میتواند رایج ترین الگوریتم مورد استفاده برای طبقه بندی باشد. یک شی که تحت طبقه بندی قرار می گیرد متعلق به آن کلاس y_i است، که نزدیک ترین شی نمونه آموزش x_i متعلق به آن است.

خاص روش شناسی نزدیکترین همسایگان

روش K نزدیک ترین همسایگان اجازه می دهد تا قابلیت اطمینان طبقه بندی را افزایش دهد. جسم تجزیه شده متعلق به همان کلاس به عنوان جرم اصلی همسایگان آن، یعنی، k اشیاء نزدیک به آن از نمونه تجزیه و تحلیل x_i. هنگام حل مسائل با دو کلاس، تعدادی از همسایگان عادت خواهند کرد تا وضعیت ابهام را حذف کنند، اگر همان تعداد همسایگان به طبقات مختلف تعلق دارند.

تکنیک همسایگان وزنه برداری

روش postgresql نزدیک ترین همسایگان tsvector هنگامی استفاده می شود که تعداد کلاس ها کمتر از سه باشد و عادت نمی تواند مورد استفاده قرار گیرد. اما ابهام حتی در این موارد نیز وجود دارد. سپس همسایه i-th وزن w_i را دریافت می کند که با افزایش رتبه همسایه i کاهش می یابد. این شی به کلاس اشاره می کند که حداکثر وزن کل را در میان همسایگان نزدیک داشته باشد.

فرضیه فشرده سازی

در قلب تمام روش های فوق فرضیه فشردگی است. این ارتباطی بین اندازه ی شباهت اشیا و وابستگی آنها به یک کلاس وجود دارد. در این وضعیت، مرز بین دیدگاه های مختلف یک فرم ساده است، و کلاس ها در فضای اشیاء مناطق کامپوننتی کامپکت ایجاد می کنند. تحت چنین حوزه هایی در تجزیه و تحلیل ریاضی به معنی مجموعه های محدود محدود است. این فرضیه مربوط به درک روزمره این کلمه نیست.

فرمول پایه

بگذارید جزئیات بیشتر روش نزدیکترین همسایه را تحلیل کنیم. اگر یک نمونه آموزشی فرم "شی-پاسخ" ارائه شود، X ^ m = \ {(x_1، y_1)، \ dots، (x_m، y_m) \}؛ اگر برای مجموعه ای از اشیاء تابع فاصله \ rho (x، x ') داده شده است، که به عنوان یک مدل کافی از شباهت اشیا به عنوان ارزش این تابع افزایش می یابد، شباهت بین اشیاء x، x' کاهش می یابد.

برای هر جسم، ما اشیاء نمونه تمرین x_i را به عنوان فاصله ای که به آن افزایش می دهیم، ساختیم:

\ rho (u، x_ {1؛ u}) \ leq \ rho (u، x_ {2؛ u}) \ leq \ cdots \ leq \ rho (u، x_ {m؛ u}

کجا x_ {i؛ U} مشخصه شی نمونه ی آموزش است که همسایه i-th از شی اصلی است. ما از این علامت برای پاسخ به همسایه i استفاده می کنیم: y_ {i؛ U} در نتیجه، ما دریافت می کنیم که یک شیء دلخواه شما باعث تغییر در شماره نمونه خود می شود.

تعیین تعداد همسایگان k

روش نزدیک ترین همسایه در k = 1 می تواند طبقه بندی اشتباه را نه تنها در مورد اشیاء انتشار، بلکه همچنین در کلاس های دیگر که در نزدیکی آنها واقع شده است، ارائه دهد.

اگر ما k = m را بدست آوریم، الگوریتم حداکثر پایدار خواهد بود و به مقدار ثابت تبدیل خواهد شد. به همین دلیل است که برای قابلیت اطمینان مهم است که شاخصهای شدید k را اجازه ندهیم.

در عمل معیار کنترل کششی به عنوان شاخص بهینه k استفاده می شود.

لغو انتشار گازهای گلخانه ای

اشیاء آموزش اکثرا نابرابر هستند، اما در میان آنها کسانی هستند که ویژگی های خاصی از کلاس دارند و استانداردها نامیده می شوند. با نزدیک بودن موضوع به نمونه ایده آل، احتمال تعلق آن به یک طبقه مشخص، بالا است.

روش نزدیکترین همسایگان چقدر موثر است؟ یک نمونه را می توان بر اساس دسته بندی های محیطی و اطلاعات غیر مرتبط با اشیا بررسی کرد. محیطی متراکم از موضوع مورد نظر، دیگر نمایندگان این کلاس است. اگر آنها را از نمونه حذف کنید، کیفیت طبقه بندی تحت تاثیر قرار نخواهد گرفت.

برای رسیدن به چنین نمونه ای می توان تعداد مشخصی از انتشار های نویز را که "در ضخامت" کلاس دیگری است، می تواند باشد. حذف اساسا تأثیر مثبتی بر کیفیت طبقه بندی انجام شده دارد.

اگر اشیای غیرواقعی و سر و صدایی از نمونه حذف شوند، می توان چندین نتیجه مثبت را در همان زمان انتظار داشت.

اول از همه، تعامل با روش نزدیکترین همسایه اجازه می دهد تا کیفیت طبقه بندی را بهبود بخشد، برای کاهش میزان داده ذخیره شده، برای کاهش زمان طبقه بندی، که برای انتخاب نزدیکترین استانداردها صرف می شود.

استفاده از نمونه های فوق العاده بزرگ

روش نزدیکترین همسایه بر اساس ذخیره سازی واقعی اشیاء آموزشی است. برای ایجاد نمونه های فوق العاده بزرگ از مشکلات فنی استفاده کنید. وظیفه نه تنها صرفه جویی در مقدار قابل توجهی از اطلاعات، بلکه همچنین در یک فریم زمان کم برای مدیریت یک شیء دلخواه در میان نزدیکترین همسایگان k است.

به منظور مقابله با این کار، از دو روش استفاده می شود:

با پرتاب اشیای غیر اطلاعاتی، نمونه را از بین ببرید
اعمال ساختارهای مؤثر و شاخص های داده برای جستجوی فوری نزدیک ترین همسایگان.

قوانین برای انتخاب روش

طبقه بندی بالا در نظر گرفته شد. روش نزدیک ترین همسایه برای حل مسائل عملی استفاده می شود که در آن تابع فاصله \ rho (x، x ') از قبل شناخته شده است. هنگام توصیف اشیاء، بردارهای عددی از متریک اقلیدس استفاده می کنند. چنین انتخابی هیچ توجیه خاصی ندارد، اما این به معنی اندازه گیری تمام علائم است "در یک مقیاس واحد". اگر این عامل در نظر گرفته نشود، پس از آن متریک توسط علامت دارای بزرگترین عددی غالب خواهد شد.

در حضور تعدادی از ویژگی های مهم، محاسبه فاصله به عنوان مجموع انحرافات برای ویژگی های خاص، یک مسئله ابعاد جدی به نظر می رسد.

در یک فضای ابعاد بزرگ، تمام اشیا دور از هم هستند. در تجزیه و تحلیل نهایی، نمونه دلخواه از همسایگان نزدیک به موضوع مورد مطالعه k خواهد بود خودسرانه. برای از بین بردن این مشکل، تعداد کمی از علائم اطلاع رسانی انتخاب شده است. الگوریتم برای محاسبه تخمین ها بر اساس مجموعه های مختلفی از ویژگی ها ساخته شده و برای هر فرد آنها تابع مجاورت خود را ایجاد می کنند.

نتیجه گیری

محاسبات ریاضی اغلب شامل استفاده از تکنیک های مختلفی است که ویژگی های خاص خود، مزایا و معایب آنها را دارد. روش در نظر گرفته شده از نزدیکترین همسایگان اجازه می دهد تا به حل مشکلات نسبتا جدی مرتبط با مشخصه اشیاء ریاضی. مفاهیم تجربی، براساس روش تحلیل شده، در حال حاضر به طور فعال در ابزار هوش مصنوعی استفاده می شود.

در سیستم های متخصص، لازم است نه تنها به طبقه بندی اشیاء، بلکه برای نشان دادن کاربر توضیح طبقه بندی مورد نظر. در این روش، توضیحاتی برای چنین پدیده ای به وسیله رابطه شی به یک کلاس خاص و با موقعیت آن نسبت به نمونه مورد استفاده بیان می شود. متخصصان صنعت قانونی، زمین شناسان، پزشکان، این منطق "سابقه" را قبول می کنند، آن را به طور فعال در مطالعات خود استفاده می کنند.

برای اینکه روش تحلیل شده تا حد امکان قابل اعتماد باشد، موثر است، نتیجه مطلوب را به دست آورد، لازم است حداقل شاخص k را بپذیریم و همچنین اجازه ندهیم که انتشار از اشیاء مورد تجزیه و تحلیل قرار گیرد. به همین دلیل است که روش انتخاب استانداردها مورد استفاده قرار می گیرد و بهینه سازی متریک نیز انجام می شود.

تحصیلات:, آموزش متوسطه و مدارس

روش نزدیکترین همسایه: مثال کار

فرضیه روش

خاص روش شناسی نزدیکترین همسایگان

تکنیک همسایگان وزنه برداری

فرضیه فشرده سازی

فرمول پایه

تعیین تعداد همسایگان k

لغو انتشار گازهای گلخانه ای

استفاده از نمونه های فوق العاده بزرگ

قوانین برای انتخاب روش

نتیجه گیری

Similar articles

تحصیلات:

تحصیلات:

تحصیلات:

تحصیلات:

تحصیلات:

تحصیلات:

Trending Now

زشتی

سلامت

هنر و سرگرمی

زیبایی

سلامت

سفر

Newest

قانون

اخبار و جامعه

تحصیلات:

فن آوری

زشتی

زیبایی