2021. 3. 28. 09:38ใData science
1. ๋น ๋ฐ์ดํฐ์ ์ดํด
(1) ๋น ๋ฐ์ดํฐ๋
: ์์ ์ผ๋ก ํฌ๊ณ ์ง์ ์ผ๋ก๋ ๊ด๋ฒ์ํ ๊ฒ (๋ณต์กํ๊ณ ๋ค์)
*๋น ๋ฐ์ดํฐ์ ๊ดํ ๋ค์ํ ์ ์๊ฐ ์กด์ฌํ๋ค. ๋์ฒด๋ก ๋น์ฉํจ์จ์ด ๋๊ณ , ๋์ฉ๋, ๊ณ ์ ๋ฐ ๋ค์์ฑ์ ๊ฐ์ง ๋ชจ๋ ๊ฒ์ ์๋ฏธํ๋ค.
(1-2) ๋น ๋ฐ์ดํฐ์ ํน์ง
*๋น ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ์ ์(Volume) + ๋ค์์ฑ(Variety) + ์์ง ๋ฐ ์ฒ๋ฆฌ ์๋(Velocity)๊ฐ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ฉด์ ๋ํ๋๋ ํ์
*์ถ๊ฐ๋ก Value or Veracity ํน์ ์ถ๊ฐ๋ก Visualization or Variability ์ถ๊ฐ -> 4V
(1-3) ๋น ๋ฐ์ดํฐ ์ถํ ๋ฐฐ๊ฒฝ
โ ์ฐ์ ๊ณ์ ๋ณํ : ์ ๋ณด ์ง์์ ์ถ์ -> ๊ฑฐ๋ํ ๋ฐ์ดํฐ -> ์๋ก์ด ๊ฐ์น ์ฐฝ์ถํ ์ ์๋ ๋ณํ์ ์ํ๊ฐ ๋๋ค. '์์ง ์ ํ์ ๋ฒ์น'
โก ํ๊ณ์ ๋ณํ : ๊ฒ๋ํ๋ก์ ํธ, ๋ํ ๊ฐ์ ์ ์ถฉ๋๊ธฐ, NASA ๊ธฐํ ์๋ฎฌ๋ ์ด์ ๋ฑ์ ํ์ฉ
โข ๊ด๋ จ ๊ธฐ์ ์ ๋ณํ : ๋์งํธํ์ ๊ธ์ง์ , ๊ธฐ์ ๋ฐ์ ๊ณผ ๊ฐ๊ฒฉํ๋ฝ, ํด๋ผ์ฐ๋ ์ปดํจํ ๋ณดํธํ ๋ฑ
* ๋น ๋ฐ์ดํฐ ์ถํ์ ๊ธฐ์ฌํ ๊ธฐ์ : CRM(๊ณ ๊ฐ๋ฐ์ดํฐ ์ถ์ ), ์ธํฐ๋ท ํ์ฐ, ๋ฌด์ ํต์ ๋ฐ์ , ๋ชจ๋ฐ์ผ ์ํ๊ณ ํ์ฐ, ํด๋ผ์ฐ๋ ์ปดํจํ ๊ธฐ์ ๋ฐ์ , IoT, ๋ฐ์ดํฐ ๋ถ์ ํด์ ๋ฐ์ ๋ฑ
(1-4) ๋น ๋ฐ์ดํฐ์ ๊ฑฐ๋ ๊ธฐ๋
โ ์ฐ์ ํ๋ช ์ ์ํ/์ฒ : ์ ์กฐ์ , ์๋น์ค ๋ถ์ผ ๋ฑ ์์ฐ์ฑ ํฅ์์ ํตํ ํ๋ช ์ ๋ณํ ๊ธฐ๋
โก 21์ธ๊ธฐ ์์ : ์ฐ์ ์ ๋ฐ ์์ฐ์ฑ ํฅ์, ์๋ก์ด ๋ฒ์ฃผ์ ์ฐ์ ์ฐฝ์กฐ ๊ธฐ๋
โข ๋ ์ฆ : ์ฐ์ ๋ฐ์ ์ ํฐ ์ํฅ์ ์ค ๊ฒ์ผ๋ก ๊ธฐ๋ (๊ตฌ๊ธ Ngram Viewer)
โฃ ํ๋ซํผ : ๋ค์ํ ์๋ํํฐ ๋น์ฆ๋์ค์ ํ์ฉ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ (ํ์ด์ค๋ถ, ์นด์นด์คํก ๋ฑ)
(1-5) ๋น ๋ฐ์ดํฐ๊ฐ ๋ง๋ค์ด๋ด๋ ๋ณํ
โ ์ฌํ์ฒ๋ฆฌ : ๋จผ์ ๋ฐ์ดํฐ ์์ง ํ ์กฐํฉํ์ฌ ์จ์ ์ธ์ฌ์ดํธ ๋ฐ๊ตด
โก ์ ์์กฐ์ฌ : ๋น์ฉ ๊ฐ์๋ก ์ธํด ๋ฐ์ดํฐ ์ ์์กฐ์ฌ๊ฐ ๊ฐ๋ฅํด์ง
โข ์ : ์์ ์ฆ๊ฐ -> ๋ถ์ ์ ํ๋ ํฅ์
โฃ ์๊ด๊ด๊ณ
(2) ๋น ๋ฐ์ดํฐ์ ๊ฐ์น์ ์ํฅ
(2-1) ๋น ๋ฐ์ดํฐ์ ๊ฐ์น
: ๋น ๋ฐ์ดํฐ๋ฅผ ํตํด ๊ฐ์น์๋ ๊ฒฐ๊ณผ(์ธ์ฌ์ดํธ) ์ฐฝ์ถ์ ํ๋ ๊ณผ์ ์ด ์ค์ํ๋ค.
*๋น ๋ฐ์ดํฐ ๊ฐ์น ์ฐ์ ์ ์ด๋ ค์ : ๋ฐ์ดํฐ ํ์ฉ๋ฐฉ์์ด ๋ถ๋ถ๋ช , ๊ฐ์น ์ฐฝ์ถ ๋ฐฉ์์ด ์๋ก์ด ๋ฐฉ์์ด๊ธฐ ๋๋ฌธ์, ๋ถ์ ๊ธฐ์ ์ ๋ฐ์ ์ผ๋ก ๋ฐ์ดํฐ์ ๊ฐ์น ์ ๋ฌด๊ฐ ์ํฉ์ ๋ฐ๋ผ ๋ณํํ ์ ์๊ธฐ ๋๋ฌธ์
(2-2) ๋น ๋ฐ์ดํฐ์ ์ํฅ
โ ํฌ๋ช ์ฑ ์ ๊ณ ๋ก ์ฐ๊ตฌ๊ฐ๋ฐ ๋ฐ ๊ด๋ฆฌ ํจ์จ์ฑ ์ ๊ณ
โก ์๋ฎฌ๋ ์ด์ ์ ํตํ ์์ ํฌ์ฐฉ ๋ฐ ์ฃผ์ ๋ณ์ ํ์์ผ๋ก ๊ฒฝ์๋ ฅ ๊ฐํ
โข ๊ณ ๊ฐ ์ธ๋ถํ ๋ฐ ๋ง์ถค ์๋น์ค ์ ๊ณต
โฃ ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ ์์ฌ๊ฒฐ์ ๋ณด์กฐ ํน์ ๋์ฒด
โค ๋น์ฆ๋์ค ๋ชจ๋ธ๊ณผ ์ ํ, ์๋น์ค์ ํ์ ๋ฑ
*๋น ๋ฐ์ดํฐ ๊ฒฝ์ํ์ ๋จ๊ณ
์์ฐ์ฑ ํฅ์ -> ๋ฐ๊ฒฌ์ ์ํ ๋ฌธ์ ํด๊ฒฐ -> ์์ฌ ๊ฒฐ์ ํฅ์ -> ์๋ก์ด ๊ณ ๊ฐ๊ฐ์น์ ๋น์ฆ๋์ค ์ฐฝ์ถ
(3) ๋น ๋ฐ์ดํฐ์ ๋น์ฆ๋์ค ๋ชจ๋ธ
(3-1) ๋น ๋ฐ์ดํฐ ํ์ฉ ์ฌ๋ก
๊ตฌ๊ธ ๊ฒ์ ๊ธฐ๋ฅ, ์๋งํธ ๋งค์ถ ํฅ์, ์ง๋ณ ์ํ ์ง๋จ ๋ฑ ์๋ฃ๋ถ์ผ, ์ค์๊ฐ ๊ตํต์ ๋ณด ์์ง, ๊ธฐํ์ ๋ณด, ๊ฐ์ข ์ง์งํ๋, ๊ตญ๊ฐ ์์ ํ๋ณด ํ๋, ์ ์น์ธ๊ณผ ์ฐ์์ธ์ SNS ํ์ฉ ๋ฑ
(3-2) 7๊ฐ์ง ๋น ๋ฐ์ดํฐ ํ์ฉ ๊ธฐ๋ณธ ํ ํฌ๋
โ ์ฐ๊ด๊ท์น ํ์ต(Association rule learning) : ๋ณ์ธ ๊ฐ์ ์๊ด๊ด๊ณ ์ ๋ฌด ํ์
โก ์ ํ๋ถ์ (Classification tree Analysis) : ๋ฒ์ฃผ ๋ถ๋ฅ
โข ์ ์ ์๊ณ ๋ฆฌ์ฆ (Generic algorithms) : ์ต์ ํ ํ์ํ ๋ฌธ์ ํด๊ฒฐ์ฑ ์ ์์ฐ์ ํ, ๋์ฐ๋ณ์ด ๋ฑ๊ณผ ๊ฐ์ ๋งค์ปค๋์ฆ ํตํด ์ ์ง์ ์ผ๋ก ์งํ
i.g. ์ต๋ ์์ฒญ๋ฅ ์ป๊ธฐ ์ํด ์ด๋ค ํ๋ก๊ทธ๋จ ์ด๋ค ์๊ฐ๋์ ๋ฐฐ์น, ํ๋ฐฐ ์ฐจ๋ ๋ฐฐ์น ๋ฑ
โฃ ๊ธฐ๊ณ ํ์ต (Machine Learning) : ์๋ ค์ง ํน์ฑ์ ํ์ฉ '์์ธก'์ ์ด์
โค ํ๊ท๋ถ์ (Regression analysis) : ๋ ๋ฆฝ๋ณ์ ์กฐ์ -> ์ข ์๋ณ์ ๋ณํ ํ์ธ -> ๋ณ์ธ๊ด๊ณ ํ์
i.g. ๊ตฌ๋งค์ ๋์ด์ ์ฐจ๋ ํ์ ์ ๊ด๊ณ
โฅ ๊ฐ์ ๋ถ์ (Sentiment analysis) : ํน์ ์ฃผ์ ์ ๋ํ ๋ง์ด๋ ๊ธ์ ๊ฐ์ ๋ถ์ i.g. ๊ณ ๊ฐ ํ๊ฐ
โฆ ์์ ๋คํธ์ํฌ ๋ถ์(Social network analysis) : ์ธํ๋ฃจ์ธ์ ํ์ , ์ํฅ๋ ฅ ํ์ , ์์ ๊ด๊ณ ํ์
(4) ๋น ๋ฐ์ดํฐ ์๊ธฐ ์์ธ๊ณผ ํต์ ๋ฐฉ์
โ ์ฌ์ํ์นจํด : ๋์ -> ์ฑ ์์ผ๋ก ํด๊ฒฐํด์ผ ํ๋ค
โก ์ฑ ์ ์์น ํผ์ : ์ฑํฅ์ ๋ค๋ฅธ ์ฒ๋ฒ์ด ์๋๋ผ ํ๋ ๊ฒฐ๊ณผ ๊ธฐ๋ฐ ์ฑ ์ ์์น ๊ณ ์
โข ๋ฐ์ดํฐ ์ค์ฉ : ์๊ณ ๋ฆฌ์ฆ ์ ๊ทผ๊ถ ๋ณด์ฅ, ์๊ณ ๋ฅด์ง๋ฏธ์คํธ (์๊ณ ๋ฆฌ์ฆ์ ์ํด ๋ถ์ด์ต ๋นํ ์ฌ๋ ๊ตฌ์ ํ๋ ์ ๋ฌธ๊ฐ)
*๋ฏธ์ฐ๋ฐฉ๊ฑฐ๋์์ํ(FTC) ์๋น์ ํ๋ผ์ด๋ฒ์ ๋ณดํธ 3๋ ๊ถ๊ณ ์ฌํญ
์ํ ๊ฐ๋ฐ ๋จ๊ณ์์ ๋ถํฐ ๋ณดํธ ๋ฐฉ์ ์ ์ฉ, ์๋น์์๊ฒ ๊ณต์ ์ ๋ณด ์ ํ ์ต์ ์ ๊ณต, ์์ง๋ ์ ๋ณด ๋ด์ฉ ๋ฐ ์ ๊ทผ๊ถ ๋ถ์ฌ
'Data science' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Oracle_Java] Java SE: Programming Complete_01 (0) | 2021.03.30 |
---|---|
[ORC_Java Prep] 2. Local Variable Type Inference Local Variable Syntax for Lambda Parameters (0) | 2021.03.29 |
[ORC_Java Prep] 1. Java SE 11 Certification (0) | 2021.03.29 |
[๋น ๋ถ๊ธฐ] 1๊ณผ๋ชฉ 1์ฅ 1 ๋น ๋ฐ์ดํฐ์ ํน์ง (0) | 2021.03.28 |
[๋น ๋ถ๊ธฐ] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ฌ ๊ฐ์ (0) | 2021.03.26 |