[๋น…๋ถ„๊ธฐ] 1๊ณผ๋ชฉ 1์žฅ 2 ๋น…๋ฐ์ดํ„ฐ ๊ฐ€์น˜

2021. 3. 28. 09:38ใ†Data science

๋ฐ˜์‘ํ˜•

1. ๋น…๋ฐ์ดํ„ฐ์˜ ์ดํ•ด 

(1) ๋น…๋ฐ์ดํ„ฐ๋ž€

: ์–‘์ ์œผ๋กœ ํฌ๊ณ  ์งˆ์ ์œผ๋กœ๋„ ๊ด‘๋ฒ”์œ„ํ•œ ๊ฒƒ (๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘) 

*๋น…๋ฐ์ดํ„ฐ์— ๊ด€ํ•œ ๋‹ค์–‘ํ•œ ์ •์˜๊ฐ€ ์กด์žฌํ•œ๋‹ค. ๋Œ€์ฒด๋กœ ๋น„์šฉํšจ์œจ์ด ๋†’๊ณ , ๋Œ€์šฉ๋Ÿ‰, ๊ณ ์† ๋ฐ ๋‹ค์–‘์„ฑ์„ ๊ฐ€์ง„ ๋ชจ๋“  ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. 

(1-2) ๋น…๋ฐ์ดํ„ฐ์˜ ํŠน์ง• 

*๋น…๋ฐ์ดํ„ฐ๋Š” ๋ฐ์ดํ„ฐ์˜ ์–‘(Volume) + ๋‹ค์–‘์„ฑ(Variety) + ์ˆ˜์ง‘ ๋ฐ ์ฒ˜๋ฆฌ ์†๋„(Velocity)๊ฐ€ ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๋ฉด์„œ ๋‚˜ํƒ€๋‚˜๋Š” ํ˜„์ƒ 

*์ถ”๊ฐ€๋กœ Value or Veracity  ํ˜น์€ ์ถ”๊ฐ€๋กœ Visualization or Variability ์ถ”๊ฐ€ -> 4V

(1-3) ๋น…๋ฐ์ดํ„ฐ ์ถœํ˜„ ๋ฐฐ๊ฒฝ 

โ‘  ์‚ฐ์—…๊ณ„์˜ ๋ณ€ํ™” : ์ •๋ณด ์ง€์†์  ์ถ•์  -> ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ -> ์ƒˆ๋กœ์šด ๊ฐ€์น˜ ์ฐฝ์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋ณ€ํ™”์˜ ์ƒํƒœ๊ฐ€ ๋œ๋‹ค. '์–‘์งˆ ์ „ํ™˜์˜ ๋ฒ•์น™'

โ‘ก ํ•™๊ณ„์˜ ๋ณ€ํ™” : ๊ฒŒ๋†ˆํ”„๋กœ์ ํŠธ, ๋Œ€ํ˜• ๊ฐ•์ž…์ž ์ถฉ๋Œ๊ธฐ, NASA ๊ธฐํ›„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋“ฑ์— ํ™œ์šฉ 

โ‘ข ๊ด€๋ จ ๊ธฐ์ˆ ์˜ ๋ณ€ํ™” : ๋””์ง€ํ„ธํ™”์˜ ๊ธ‰์ง„์ „, ๊ธฐ์ˆ  ๋ฐœ์ „๊ณผ ๊ฐ€๊ฒฉํ•˜๋ฝ, ํด๋ผ์šฐ๋“œ ์ปดํ“จํŒ… ๋ณดํŽธํ™” ๋“ฑ 

* ๋น…๋ฐ์ดํ„ฐ ์ถœํ˜„์— ๊ธฐ์—ฌํ•œ ๊ธฐ์ˆ  : CRM(๊ณ ๊ฐ๋ฐ์ดํ„ฐ ์ถ•์ ), ์ธํ„ฐ๋„ท ํ™•์‚ฐ, ๋ฌด์„ ํ†ต์‹  ๋ฐœ์ „, ๋ชจ๋ฐ”์ผ ์ƒํƒœ๊ณ„ ํ™•์‚ฐ, ํด๋ผ์šฐ๋“œ ์ปดํ“จํŒ… ๊ธฐ์ˆ  ๋ฐœ์ „, IoT, ๋ฐ์ดํ„ฐ ๋ถ„์„ ํˆด์˜ ๋ฐœ์ „ ๋“ฑ 

(1-4) ๋น…๋ฐ์ดํ„ฐ์— ๊ฑฐ๋Š” ๊ธฐ๋Œ€ 

โ‘  ์‚ฐ์—…ํ˜๋ช…์˜ ์„ํƒ„/์ฒ  : ์ œ์กฐ์—…, ์„œ๋น„์Šค ๋ถ„์•ผ ๋“ฑ ์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ์„ ํ†ตํ•œ ํ˜๋ช…์  ๋ณ€ํ™” ๊ธฐ๋Œ€

โ‘ก 21์„ธ๊ธฐ ์›์œ  : ์‚ฐ์—… ์ „๋ฐ˜ ์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ, ์ƒˆ๋กœ์šด ๋ฒ”์ฃผ์˜ ์‚ฐ์—… ์ฐฝ์กฐ ๊ธฐ๋Œ€

โ‘ข ๋ Œ์ฆˆ : ์‚ฐ์—… ๋ฐœ์ „์— ํฐ ์˜ํ–ฅ์„ ์ค„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ (๊ตฌ๊ธ€ Ngram Viewer) 

โ‘ฃ ํ”Œ๋žซํผ : ๋‹ค์–‘ํ•œ ์„œ๋“œํŒŒํ‹ฐ ๋น„์ฆˆ๋‹ˆ์Šค์— ํ™œ์šฉ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ (ํŽ˜์ด์Šค๋ถ, ์นด์นด์˜คํ†ก ๋“ฑ) 

(1-5) ๋น…๋ฐ์ดํ„ฐ๊ฐ€ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ณ€ํ™” 

โ‘  ์‚ฌํ›„์ฒ˜๋ฆฌ : ๋จผ์ € ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ํ›„ ์กฐํ•ฉํ•˜์—ฌ ์ˆจ์€ ์ธ์‚ฌ์ดํŠธ ๋ฐœ๊ตด

โ‘ก ์ „์ˆ˜์กฐ์‚ฌ : ๋น„์šฉ ๊ฐ์†Œ๋กœ ์ธํ•ด ๋ฐ์ดํ„ฐ ์ „์ˆ˜์กฐ์‚ฌ๊ฐ€ ๊ฐ€๋Šฅํ•ด์ง 

โ‘ข ์–‘ : ์–‘์˜ ์ฆ๊ฐ€ -> ๋ถ„์„ ์ •ํ™•๋„ ํ–ฅ์ƒ 

โ‘ฃ ์ƒ๊ด€๊ด€๊ณ„ 

 

(2) ๋น…๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜์™€ ์˜ํ–ฅ 

(2-1) ๋น…๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜ 

: ๋น…๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๊ฐ€์น˜์žˆ๋Š” ๊ฒฐ๊ณผ(์ธ์‚ฌ์ดํŠธ) ์ฐฝ์ถœ์„ ํ•˜๋Š” ๊ณผ์ •์ด ์ค‘์š”ํ•˜๋‹ค. 

*๋น…๋ฐ์ดํ„ฐ ๊ฐ€์น˜ ์‚ฐ์ •์˜ ์–ด๋ ค์›€ : ๋ฐ์ดํ„ฐ ํ™œ์šฉ๋ฐฉ์‹์ด ๋ถˆ๋ถ„๋ช…, ๊ฐ€์น˜ ์ฐฝ์ถœ ๋ฐฉ์‹์ด ์ƒˆ๋กœ์šด ๋ฐฉ์‹์ด๊ธฐ ๋–„๋ฌธ์—, ๋ถ„์„ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€์น˜ ์œ ๋ฌด๊ฐ€ ์ƒํ™ฉ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— 

(2-2) ๋น…๋ฐ์ดํ„ฐ์˜ ์˜ํ–ฅ 

โ‘  ํˆฌ๋ช…์„ฑ ์ œ๊ณ ๋กœ ์—ฐ๊ตฌ๊ฐœ๋ฐœ ๋ฐ ๊ด€๋ฆฌ ํšจ์œจ์„ฑ ์ œ๊ณ 

โ‘ก ์‹œ๋ฎฌ๋ ˆ์ด์…˜์„ ํ†ตํ•œ ์ˆ˜์š” ํฌ์ฐฉ ๋ฐ ์ฃผ์š” ๋ณ€์ˆ˜ ํƒ์ƒ‰์œผ๋กœ ๊ฒฝ์Ÿ๋ ฅ ๊ฐ•ํ™” 

โ‘ข ๊ณ ๊ฐ ์„ธ๋ถ„ํ™” ๋ฐ ๋งž์ถค ์„œ๋น„์Šค ์ œ๊ณต 

โ‘ฃ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ™œ์šฉํ•œ ์˜์‚ฌ๊ฒฐ์ • ๋ณด์กฐ ํ˜น์€ ๋Œ€์ฒด 

โ‘ค ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ๊ณผ ์ œํ’ˆ, ์„œ๋น„์Šค์˜ ํ˜์‹  ๋“ฑ 

*๋น…๋ฐ์ดํ„ฐ ๊ฒฝ์˜ํ˜์‹  ๋‹จ๊ณ„ 

์ƒ์‚ฐ์„ฑ ํ–ฅ์ƒ -> ๋ฐœ๊ฒฌ์— ์˜ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ -> ์˜์‚ฌ ๊ฒฐ์ • ํ–ฅ์ƒ -> ์ƒˆ๋กœ์šด ๊ณ ๊ฐ๊ฐ€์น˜์™€ ๋น„์ฆˆ๋‹ˆ์Šค ์ฐฝ์ถœ

 

(3) ๋น…๋ฐ์ดํ„ฐ์™€ ๋น„์ฆˆ๋‹ˆ์Šค ๋ชจ๋ธ 

(3-1) ๋น…๋ฐ์ดํ„ฐ ํ™œ์šฉ ์‚ฌ๋ก€ 

๊ตฌ๊ธ€ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ, ์›”๋งˆํŠธ ๋งค์ถœ ํ–ฅ์ƒ, ์งˆ๋ณ‘ ์˜ˆํ›„ ์ง„๋‹จ ๋“ฑ ์˜๋ฃŒ๋ถ„์•ผ, ์‹ค์‹œ๊ฐ„ ๊ตํ†ต์ •๋ณด ์ˆ˜์ง‘, ๊ธฐํ›„์ •๋ณด, ๊ฐ์ข… ์ง€์งˆํ™œ๋™, ๊ตญ๊ฐ€ ์•ˆ์ „ ํ™•๋ณด ํ™œ๋™, ์ •์น˜์ธ๊ณผ ์—ฐ์˜ˆ์ธ์˜ SNS ํ™œ์šฉ ๋“ฑ 

(3-2) 7๊ฐ€์ง€ ๋น…๋ฐ์ดํ„ฐ ํ™œ์šฉ ๊ธฐ๋ณธ ํ…Œํฌ๋‹‰ 

โ‘  ์—ฐ๊ด€๊ทœ์น™ ํ•™์Šต(Association rule learning) : ๋ณ€์ธ ๊ฐ„์— ์ƒ๊ด€๊ด€๊ณ„ ์œ ๋ฌด ํŒŒ์•… 

โ‘ก ์œ ํ˜•๋ถ„์„ (Classification tree Analysis) : ๋ฒ”์ฃผ ๋ถ„๋ฅ˜ 

โ‘ข ์œ ์ „ ์•Œ๊ณ ๋ฆฌ์ฆ˜ (Generic algorithms) : ์ตœ์ ํ™” ํ•„์š”ํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์ฑ…์„ ์ž์—ฐ์„ ํƒ, ๋Œ์—ฐ๋ณ€์ด ๋“ฑ๊ณผ ๊ฐ™์€ ๋งค์ปค๋‹ˆ์ฆ˜ ํ†ตํ•ด ์ ์ง„์ ์œผ๋กœ ์ง„ํ™” 

i.g. ์ตœ๋Œ€ ์‹œ์ฒญ๋ฅ  ์–ป๊ธฐ ์œ„ํ•ด ์–ด๋–ค ํ”„๋กœ๊ทธ๋žจ ์–ด๋–ค ์‹œ๊ฐ„๋Œ€์— ๋ฐฐ์น˜, ํƒ๋ฐฐ ์ฐจ๋Ÿ‰ ๋ฐฐ์น˜ ๋“ฑ

โ‘ฃ ๊ธฐ๊ณ„ ํ•™์Šต (Machine Learning) : ์•Œ๋ ค์ง„ ํŠน์„ฑ์„ ํ™œ์šฉ '์˜ˆ์ธก'์— ์ดˆ์  

โ‘ค ํšŒ๊ท€๋ถ„์„ (Regression analysis) : ๋…๋ฆฝ๋ณ€์ˆ˜ ์กฐ์ž‘ -> ์ข…์†๋ณ€์ˆ˜ ๋ณ€ํ™” ํ™•์ธ -> ๋ณ€์ธ๊ด€๊ณ„ ํŒŒ์•… 

i.g. ๊ตฌ๋งค์ž ๋‚˜์ด์™€ ์ฐจ๋Ÿ‰ ํƒ€์ž…์˜ ๊ด€๊ณ„ 

โ‘ฅ ๊ฐ์ •๋ถ„์„ (Sentiment analysis) : ํŠน์ • ์ฃผ์ œ์— ๋Œ€ํ•œ ๋ง์ด๋‚˜ ๊ธ€์˜ ๊ฐ์ • ๋ถ„์„ i.g. ๊ณ ๊ฐ ํ‰๊ฐ€ 

โ‘ฆ ์†Œ์…œ ๋„คํŠธ์›Œํฌ ๋ถ„์„(Social network analysis) : ์ธํ”Œ๋ฃจ์–ธ์„œ ํŒŒ์•…, ์˜ํ–ฅ๋ ฅ ํŒŒ์•…, ์†Œ์…œ ๊ด€๊ณ„ ํŒŒ์•… 

 

(4) ๋น…๋ฐ์ดํ„ฐ ์œ„๊ธฐ ์š”์ธ๊ณผ ํ†ต์ œ ๋ฐฉ์•ˆ 

โ‘  ์‚ฌ์ƒˆํ™œ์นจํ•ด : ๋™์˜ -> ์ฑ…์ž„์œผ๋กœ ํ•ด๊ฒฐํ•ด์•ผ ํ•œ๋‹ค 

โ‘ก ์ฑ…์ž„ ์›์น™ ํ›ผ์† : ์„ฑํ–ฅ์— ๋‹ค๋ฅธ ์ฒ˜๋ฒŒ์ด ์•„๋‹ˆ๋ผ ํ–‰๋™ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ˜ ์ฑ…์ž„ ์›์น™ ๊ณ ์ˆ˜ 

โ‘ข ๋ฐ์ดํ„ฐ ์˜ค์šฉ : ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ ‘๊ทผ๊ถŒ ๋ณด์žฅ, ์•Œ๊ณ ๋ฅด์ง€๋ฏธ์ŠคํŠธ (์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์˜ํ•ด ๋ถˆ์ด์ต ๋‹นํ•œ ์‚ฌ๋žŒ ๊ตฌ์ œํ•˜๋Š” ์ „๋ฌธ๊ฐ€) 

*๋ฏธ์—ฐ๋ฐฉ๊ฑฐ๋ž˜์œ„์›ํšŒ(FTC) ์†Œ๋น„์ž ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ 3๋Œ€ ๊ถŒ๊ณ ์‚ฌํ•ญ 

์ƒํ’ˆ ๊ฐœ๋ฐœ ๋‹จ๊ณ„์—์„œ ๋ถ€ํ„ฐ ๋ณดํ˜ธ ๋ฐฉ์•ˆ ์ ์šฉ, ์†Œ๋น„์ž์—๊ฒŒ ๊ณต์œ  ์ •๋ณด ์„ ํƒ ์˜ต์…˜ ์ œ๊ณต, ์ˆ˜์ง‘๋œ ์ •๋ณด ๋‚ด์šฉ ๋ฐ ์ ‘๊ทผ๊ถŒ ๋ถ€์—ฌ 

 

 

 

 

๋ฐ˜์‘ํ˜•