본문 바로가기
AI 및 관련 기술 확산(1960년대~1990년대)

EDA(탐색적 데이터 분석) 완전 쉽게 배우기! 초등학생도 이해하는 데이터 탐험 🚀

by AI 댕댕이 2025. 6. 14.

EDA(탐색적 데이터 분석)란 무엇인가요? 🤔

EDA는 Exploratory Data Analysis, 한글로는 탐색적 데이터 분석이라고 해요.
이름만 들어도 뭔가 어려워 보이지만, 사실은 "데이터를 탐험하며 살펴보는 일"이랍니다!
예를 들어, 별이가 오늘 어떤 간식을 많이 먹었는지, 어느 시간에 산책을 많이 나갔는지 궁금할 때
먼저 데이터를 눈으로 살펴보고, 차트로 그려보고, 다양한 특징을 파악하는 과정이에요.

처음 데이터를 확인하는 모습


왜 EDA가 필요할까요? 📊

데이터를 바로 분석하거나 예측 모델을 만들기 전에,
데이터가 어떻게 생겼는지, 무엇이 들어 있는지 꼼꼼하게 살펴봐야 해요.
만약 데이터에 이상치(튀는 값), 결측치(비어있는 값), 엉뚱한 값이 들어 있다면
정확한 결과를 얻기 어렵거든요.
그래서 EDA는 데이터를 "청소"하고, 특징을 찾는 아주 중요한 첫 단계예요!

결측치를 색깔로 표시한 표


EDA에서 하는 일들 🛠️

EDA에서는 여러 가지 일을 해요!
자주 하는 일들은 아래와 같아요:

주요 EDA 작업설명
데이터 요약 평균, 중앙값, 최댓값, 최솟값 등 기본 통계치 보기
시각화 히스토그램, 박스플롯, 산점도 등으로 데이터 특징 보기
이상치 탐색 너무 크거나 작은, 평범하지 않은 값 찾아내기
결측치 확인 빠진 값(비어 있는 값)이 어디에 얼마나 있는지 확인하기
변수 관계 탐색 두 변수 사이에 어떤 관련이 있는지 살펴보기
다양한 차트가 한눈에 보이는 대시보드 화면

EDA의 대표적인 시각화 방법 🌈

EDA에서 많이 사용하는 시각화 방법들을 소개할게요!

  • 히스토그램(histogram): 값의 분포를 볼 수 있어요.
  • 박스플롯(boxplot): 중간값, 이상치 등을 한눈에 볼 수 있어요.
  • 산점도(scatter plot): 두 변수의 관계를 알 수 있어요.

히스토그램, 박스플롯, 산점도 예시


EDA는 어떤 순서로 하나요? 🔍

EDA는 주로 아래와 같은 순서로 진행해요.

  1. 데이터 불러오기
  2. 데이터 형태와 크기 확인
  3. 기본 통계치와 요약 정보 확인
  4. 결측치와 이상치 탐색
  5. 시각화로 데이터 특징 살펴보기
  6. 변수 간의 관계 확인

만약 여러 해의 데이터가 있다면, 표로 연도를 정리해 볼 수도 있어요!

연도데이터 예시
2023년 별이 산책 기록
2024년 별이 건강 기록
2025년 별이 간식/급여 기록
연도별 데이터가 정리된 표

EDA를 하면 좋은 점! 🌟

  • 데이터를 정확하게 이해할 수 있어요
  • 문제를 미리 발견할 수 있어요 (예: 잘못된 값, 빠진 값 등)
  • 더 좋은 분석과 예측을 할 수 있어요

EDA는 데이터를 “친구처럼 친해지는 과정”이라고 생각하면 좋아요!


요약 정리 📝

  • **EDA(탐색적 데이터 분석)**는 데이터를 처음 만났을 때,
    어떤 데이터인지 꼼꼼하게 살펴보고 시각화하는 과정이에요.
  • EDA를 통해 이상치, 결측치, 데이터의 특징을 미리 알 수 있어요.
  • 대표적인 방법으로 히스토그램, 박스플롯, 산점도 같은 시각화가 있어요.
  • EDA를 잘하면 데이터와 더 빨리, 더 정확하게 친해질 수 있어요!


1+1 버닝몬스터 와이드 6부 버뮤다팬츠 반바지
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."