HOME / ¹®¼°øÀ¯ / ¸®Æ÷Æ®/³í¹® / ±â¼ú°øÇÐ
0
0°ÇÀÇ Èı⺸±âÀÇ»ç°áÁ¤ ³ª¹«ÀÇ ±¸Á¶¿¡ ´ëÇØ ±â¼úÇÑ ¸®Æ÷Æ® Âü°íÀÚ·áÀÔ´Ï´Ù.
¼·Ð ÀÇ»ç°áÁ¤³ª¹« contents 1 1 ¼·Ð
ÀÇ»ç°áÁ¤³ª¹«(decision tree) ¶Ç´Â ³ª¹« ¸ðÇü(tree model)Àº ÀÇ»ç°áÁ¤ ±ÔÄ¢À» ³ª¹« ±¸Á¶·Î ³ªÅ¸³»¾î Àüü ÀڷḦ ¸î °³ÀÇ ¼ÒÁý´ÜÀ¸·Î ºÐ·ù(classification)Çϰųª ¿¹Ãø(prediction)À» ¼ö ÇàÇÏ´Â ºÐ¼®¹æ¹ýÀÌ´Ù.
»óÀ§ ³ëµå·ÎºÎÅÍ ÇÏÀ§³ëµå·Î Æ®¸®±¸Á¶¸¦ Çü¼ºÇÏ´Â ¸Å ´Ü°è¸¶´Ù ºÐ·ùº¯¼ö¿Í ºÐ·ù ±âÁØ°ªÀÇ ¼±ÅÃÀÌ Áß¿äÇÏ´Ù.»óÀ§³ëµå¿¡¼ÀÇ (ºÐ·ùº¯¼ö, ºÐ·ù ±âÁØ°ª)Àº ÀÌ ±âÁØ¿¡ ÀÇÇØ ºÐ±âµÇ´Â ÇÏÀ§³ë µå¿¡¼ ³ëµå(Áý´Ü) ³»¿¡¼´Â µ¿Áú¼ºÀÌ, ³ëµå(Áý´Ü) °£¿¡´Â ÀÌÁú¼ºÀÌ °¡Àå Ä¿Áöµµ·Ï ¼±ÅõȴÙ.
³ª¹« ¸ðÇüÀÇ Å©±â´Â °ú´ëÀûÇÕ(¶Ç´Â °ú¼ÒÀûÇÕ) µÇÁö ¾Êµµ·Ï ÇÕ¸®Àû ±âÁØ¿¡ ÀÇÇØ Àû´çÈ÷ Á¶ÀýµÇ ¾î¾ß ÇÑ´Ù.
ÀÇ»ç°áÁ¤³ª¹«ºÐ¼®Àº ½ÃÀåÁ¶»ç, ±¤°íÁ¶»ç, ÀÇÇבּ¸, Ç°Áú°ü¸® µîÀÇ ´Ù¾çÇÑ ºÐ¾ß¿¡¼ È°¿ëµÇ°í ÀÖÀ¸¸ç, ±¸Ã¼ÀûÀÎ È°¿ë ¿¹´Â °í°´ Ÿ°ÙÆÃ, °í°´µéÀÇ ½Å¿ëÁ¡¼öÈ, Ä·ÆäÀÎ ¹ÝÀÀºÐ¼®, °í°´Çൿ¿¹Ãø, °í°´ ¼¼ºÐÈ µîÀ» µé ¼ö ÀÖ´Ù.
2 2 ÀÇ»ç°áÁ¤³ª¹« 4 [±×¸² 1] ÀÇ»ç°áÁ¤³ª¹«ÀÇ ±¸Á¶
ÀÇ»ç°áÁ¤³ª¹«ÀÇ ±¸Á¶´Â ´ÙÀ½ÀÇ [±×¸² 1]°ú °°´Ù.ÀÌ ±×¸²¿¡¼ ¸Ç À§ÀÇ ¸¶µð¸¦ »Ñ¸®³ëµå(root node)¶ó Çϸç, ÀÌ´Â ºÐ·ù(¶Ç´Â ¿¹Ãø) ´ë»óÀÌ µÇ´Â ¸ðµç ÀÚ·áÁý´ÜÀ» Æ÷ÇÔÇÑ´Ù.
»óÀ§ ¸¶µð¸¦ ºÎ¸ð¸¶µð(parent node)¶ó ÇÏ°í, ÇÏÀ§ ¸¶µð¸¦ Àڽĸ¶µð(child node)¶ó Çϸç, ´õ ÀÌ»ó ºÐ±âµÇÁö ¾Ê´Â ¸¶µð¸¦ ÃÖÁ¾³ëµå(terminal node)¶ó°í ºÎ¸¥´Ù.
°¡ÁöºÐÇÒ(split)Àº ³ª¹«ÀÇ °¡Áö¸¦ »ý¼ºÇÏ´Â °úÁ¤À», °¡ÁöÄ¡±â(pruning)´Â »ý¼ºµÈ °¡Áö¸¦ Àß¶ó³» ¾î ¸ðÇüÀ» ´Ü¼øÈÇÏ´Â °úÁ¤À» ¸»ÇÑ´Ù.
2 ÀÇ»ç°áÁ¤³ª¹«
ÀÇ»ç°áÁ¤³ª¹«´Â ¸ñÇ¥º¯¼ö°¡ ÀÌ»êÇüÀÎ °æ¿ìÀÇ ºÐ·ù³ª¹«(classification tree)¿Í ¸ñÇ¥º¯¼ö°¡ ¿¬ ¼ÓÇüÀÎ °æ¿ìÀÇ È¸±Í³ª¹«(regression tree)·Î ±¸ºÐµÈ´Ù.
¸ñÇ¥º¯¼ö°¡ ÀÌ»êÇüÀÎ ºÐ·ù³ª¹«ÀÇ °æ¿ì »óÀ§³ëµå¿¡¼ °¡ÁöºÐÇÒÀ» ¼öÇàÇÒ ¶§, ºÐ·ù(±âÁØ)º¯¼ö¿Í ºÐ·ù ±âÁØ°ªÀÇ ¼±Åà ¹æ¹ýÀ¸·Î Ä«ÀÌÁ¦°ö Åë°è·®(chi-square statistic)ÀÇ-°ª, Áö´Ï Áö¼ö(gini index), ¿£Æ®·ÎÇÇ Áö¼ö(entropy index) µîÀÌ»ç¿ëµÈ´Ù.
¼±ÅÃµÈ ±âÁØ¿¡ ÀÇÇØ ºÐÇÒÀÌ ÀϾ ¶§, Ä«ÀÌÁ¦°öÅë°è·®ÀÇ-°ªÀº ±× °ªÀÌ ÀÛÀ»¼ö·Ï Àڽijëµå °£ÀÇ ÀÌÁú¼ºÀÌ ÅÀ» ³ªÅ¸³»¸ç, Àڽijëµå¿¡¼ÀÇ Áö´Ï Áö¼ö³ª ¿£Æ®·ÎÇÇ Áö¼ö´Â
±× °ªÀÌ Å¬¼ö·Ï Àڽijëµå ³»ÀÇ ÀÌÁú¼ºÀÌ ÅÀ» ÀǹÌÇÑ´Ù.µû¶ó¼ ÀÌ °ªµéÀÌ °¡Àå ÀÛ¾ÆÁö´Â ¹æÇâÀ¸ ·Î °¡ÁöºÐÇÒÀ» ¼öÇàÇÏ°Ô µÈ´Ù.
4 2 ÀÇ»ç°áÁ¤³ª¹«
¿¹¸¦ µé¾î, ¾Æ·¡ÀÇ [±×¸² 2]¿¡¼ µÎ ³ëµå(Áý´Ü)¿¡ ´ëÇÑ Áö´Ï Áö¼ö´Â ´ÙÀ½°ú °°ÀÌ °è»êµÈ´Ù.Áö ´Ï Áö¼öÀÇ °ªÀÌ Å¬¼ö·Ï ÀÌÁúÀûÀÌ¸ç ¼ø¼öµµ(purity)°¡ ³·´Ù°í ÇÒ ¼ö ÀÖ´Ù.
[±×¸² 2] µÎ Áý´Ü¿¡ ´ëÇÑ Áö´Ï Áö¼ö 5 2 ÀÇ»ç°áÁ¤³ª¹«
À§ ½Ä¿¡¼ ´Â ¸ñÇ¥º¯¼öÀÇ ¹üÁÖÀÇ ¼öÀ̸ç, °¢ Áö¼öÀÇ ¹üÀ§´Â c2ÀÎ °æ¿ì¿¡ ÇØ´çÇÑ´Ù.
ºÒÈ®½Ç¼º Ãøµµ(uncertainty measure)ÀÎ Áö´Ï Áö¼ö¿Í ¿£Æ®·ÎÇÇ Áö¼ö¿¡ ´ëÇÑ Á¤ÀÇ´Â ´ÙÀ½°ú °° ´Ù.µÎ Áö¼öÀÇ °ªÀÇ ¹üÀ§´Â ´Ù¸£³ª, Çؼ®Àº ±× Å©±â¿¡ µû¶ó À¯»çÇÏ´Ù.
Áö´Ï Áö¼ö: , 0 ¡Â g ¡Â 1/2 ¿£Æ®·ÎÇÇ Áö¼ö: , 0 ¡Â e ¡Â 1 6 2 ÀÇ»ç°áÁ¤³ª¹« ºÐ±âÀü: 1 2 2 1 2 2 1 2 ºÐ±âÈÄ: 3 4 2 1 4 2 2 3 0 4 2 0 4 2 1 1 3 8 (ºÐ±â Àü¿¡ ºñÇØ °¨¼ÒÇÔ) Ä«ÀÌÁ¦°öÅë°è·® a b left right 6(4) 2(4) 0(2) 4(2) 2 2 2 2 2 Âü °í Áö´ÏÁö¼ö¿Í Ä«ÀÌÁ¦°öÅë°è·®ÀÇ °è»ê
ÀÇ»ç°áÁ¤³ª¹«¿¡¼ ¾Æ·¡ ±×¸²°ú °°Àº ºÐ±â¸¦ »ý°¢ÇÏÀÚ.ºÐ±â Àü°ú ÈÄÀÇ Áö´ÏÁö¼ö¿Í Ä«ÀÌÁ¦°öÅë°è ·®ÀÇ °è»ê°úÁ¤À» ¼Ò°³ÇÏ¸é ´ÙÀ½°ú °°´Ù.
Áö´ÏÁö¼ö 7 2 ÀÇ»ç°áÁ¤³ª¹«
-Åë°è·®
¸ñÇ¥º¯¼ö°¡ ¿¬¼ÓÇüÀΠȸ±Í³ª¹«ÀÇ °æ¿ì¿¡´Â ºÐ·ùº¯¼ö¿Í ºÐ·ù ±âÁØ°ªÀÇ ¼±Åùæ¹ýÀ¸·Î ÀÇ-°ª, ºÐ»êÀÇ °¨¼Ò·® µîÀÌ»ç¿ëµÈ´Ù.
-Åë°è·®Àº ÀÏ¿ø¹èÄ¡¹ý¿¡¼ÀÇ °ËÁ¤Åë°è·®À¸·Î ±× °ªÀÌ Å¬¼ö·Ï ¿ÀÂ÷ÀÇ º¯µ¿¿¡ ºñÇØ Ã³¸® (treatment)ÀÇ º¯µ¿ÀÌ Å©´Ù´Â °ÍÀ» ÀǹÌÇϸç, ÀÌ´Â Àڽijëµå(󸮵é) °£ÀÌ ÀÌÁúÀûÀÓÀ» ÀǹÌÇÏ¹Ç ·Î ÀÌ °ªÀÌ Ä¿Áö´Â(-°ªÀº ÀÛ¾ÆÁö´Â) ¹æÇâÀ¸·Î °¡ÁöºÐÇÒÀ» ¼öÇà(Àڽijëµå¸¦ »ý¼º)ÇÏ°Ô µÈ´Ù.
ºÐ»êÀÇ °¨¼Ò·®(variance reduction)µµ ÀÌ °ªÀÌ ÃÖ´ëÈ µÇ´Â ¹æÇâÀ¸·Î °¡ÁöºÐÇÒÀ» ¼öÇàÇÏ°Ô µÈ´Ù.
8 2 ÀÇ»ç°áÁ¤³ª¹«
ÀÇ»ç°áÁ¤³ª¹«ÀÇ ºÐ¼®°úÁ¤Àº ´ÙÀ½°ú °°´Ù.
[´Ü°è 1] ¸ñÇ¥º¯¼ö¿Í °ü°è°¡ ÀÖ´Â ¼³¸íº¯¼öµéÀÇ ¼±ÅÃ
[´Ü°è 2] ºÐ¼®¸ñÀû°ú ÀÚ·áÀÇ ±¸Á¶¿¡ µû¶ó ÀûÀýÇÑ ºÐ¸®±âÁØ°úÁ¤Áö±ÔÄ¢À» Á¤ÇÏ¿© ÀÇ»ç°áÁ¤ ³ª¹«ÀÇ »ý¼º [´Ü°è 3] ºÎÀûÀýÇÑ ³ª¹µ°¡Áö´Â Á¦°Å: °¡ÁöÄ¡±â (ÀÌÇÏ »ý·«)
¹ÞÀº º°Á¡
0/5
0°³ÀÇ º°Á¡
¹®¼°øÀ¯ ÀڷḦ µî·ÏÇØ ÁÖ¼¼¿ä.
¹®¼°øÀ¯ Æ÷ÀÎÆ®¿Í Çö±ÝÀ» µå¸³´Ï´Ù.
Æ÷ÀÎÆ® : ÀÚ·á 1°Ç´ç ÃÖ´ë 5,000P Áö±Þ
Çö±Ý : ÀÚ·á 1°Ç´ç ÃÖ´ë 2,000¿ø Áö±Þ