왜 많은 R 사용자가 결국 ggplot2로 돌아오는가

R에서 그래프를 그리는 방법은 하나가 아닙니다. 기본 그래픽 시스템도 있고, lattice도 있고, htmlwidgets 계열도 있고, 목적별 특화 패키지도 많습니다. 그런데 데이터 분석을 오래 하다 보면 상당수 사용자가 결국 ggplot2를 핵심 도구로 삼게 됩니다. 이유는 단순합니다. 문법이 일관되고, 확장성이 좋고, 결과물이 안정적이기 때문입니다.

특히 ggplot2는 “그래프를 그린다”기보다 데이터를 시각적 요소로 매핑한다는 관점으로 접근합니다. 처음에는 조금 낯설 수 있지만, 이 구조를 이해하면 산점도, 막대그래프, 히스토그램, 박스플롯, 패싯, 테마 커스터마이징, 애니메이션, 복합 레이아웃까지 같은 문법 안에서 연결됩니다.

이 글은 다음 순서로 설명합니다.

ggplot2의 핵심 철학과 기본 문법
aes(), geom_*(), facet_*(), theme()가 각각 무엇을 하는지
초보자가 가장 자주 그리는 그래프 유형
실무에서 자주 부딪히는 설정 포인트
ggridges, gganimate, patchwork, rayshader 같은 확장 패키지와의 연결

코드는 초보자가 그대로 읽고 따라갈 수 있도록 최대한 단순하게 구성했고, 예시는 iris, mpg, diamonds, faithful 같은 기본 데이터셋을 적극적으로 사용했습니다.

이 글을 읽기 전에 알아두면 좋은 점

ggplot2는 문법이 잘 정리된 패키지이지만, 처음 시작할 때는 아래 세 가지를 동시에 이해하려다 헷갈리는 경우가 많습니다.

구분	핵심 질문	대표 함수
데이터	무엇을 그릴 것인가	`ggplot(data = ...)`
미적 매핑	어떤 변수를 축, 색상, 크기 등으로 연결할 것인가	`aes()`
기하 객체	어떤 모양으로 표현할 것인가	`geom_point()`, `geom_line()`, `geom_col()` 등

이 세 가지를 분리해서 생각하면 구조가 훨씬 선명해집니다.

ggplot2는 무엇이 다른가

그래프를 “명령”이 아니라 “구성”으로 본다

기본 그래프 시스템에서는 종종 “점 그래프를 그려라”, “선 그래프를 그려라”처럼 함수 하나가 그래프 하나를 의미합니다. 반면 ggplot2는 다음처럼 생각합니다.

어떤 데이터가 있고
그 데이터의 어떤 변수를 x축, y축, 색상, 크기 등에 연결하고
그것을 점, 선, 막대, 면 등 어떤 형태로 보여줄지 결정한다

이 접근은 처음에는 약간 우회적으로 보이지만, 복잡한 그래프를 만들수록 장점이 커집니다.

Grammar of Graphics라는 배경

ggplot2는 “Grammar of Graphics”라는 아이디어를 구현한 패키지입니다. 아주 단순화해서 말하면, 그래프를 아래 같은 구성 요소의 결합으로 봅니다.

데이터(data)
미적 매핑(aes)
기하 객체(geom)
통계 변환(stat)
위치 조정(position)
스케일(scale)
좌표계(coord)
패싯(facet)
테마(theme)

그래서 ggplot2를 잘 쓴다는 말은 단순히 예쁜 그래프를 많이 그린다는 뜻이 아니라, 이 요소들을 상황에 맞게 조합할 수 있다는 뜻에 가깝습니다.

가장 기본이 되는 문법 한 줄

가장 기본적인 형태는 아래 한 줄입니다.

ggplot(data = 데이터프레임, aes(x = 변수1, y = 변수2)) +
  geom_point()

이 코드는 다음 의미를 가집니다.

데이터프레임을 사용하고
변수1을 x축에 놓고
변수2를 y축에 놓고
그것을 점(point)으로 표현한다

실제로 iris 데이터로 그려보면 아래와 같습니다.

library(ggplot2)

ggplot(data = iris, aes(x = Sepal.Length, y = Sepal.Width)) +
  geom_point()

코드가 어떻게 읽히는지 문장으로 해석해 보기

초보자에게 가장 좋은 연습은 ggplot2 코드를 한국어 문장으로 읽어보는 것입니다.

위 코드는 이렇게 읽을 수 있습니다.

iris 데이터를 사용해서, Sepal.Length를 x축에, Sepal.Width를 y축에 배치하고, 점 그래프로 그린다.

이 읽기 습관이 생기면 이후 복잡한 코드도 구조적으로 이해하기 쉬워집니다.

`aes()`는 왜 중요한가

`aes()`는 변수와 시각 요소를 연결한다

aes()는 aesthetics의 약자입니다. 흔히 “미적 매핑”이라고 번역합니다. 여기서 말하는 미적 요소는 아래 같은 것들입니다.

x, y
color
fill
size
shape
alpha
group

즉, aes()는 데이터의 변수값을 시각적 속성에 연결하는 함수입니다.

예를 들어 종(Species)에 따라 점 색상을 다르게 하려면:

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point()

이제 Species 값에 따라 색상이 자동으로 나뉩니다.

`aes(color = Species)`와 `color = "blue"`는 완전히 다르다

많이 헷갈리는 부분입니다.

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point()

이 코드는 변수 Species를 색상에 매핑합니다.

반면:

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width)) +
  geom_point(color = "blue")

이 코드는 모든 점을 파란색으로 고정합니다.

정리하면 다음과 같습니다.

코드 위치	의미
`aes(color = Species)`	데이터 변수에 따라 색상을 바꿈
`geom_point(color = "blue")`	색상을 고정값으로 설정

이 차이를 이해하지 못하면 범례가 예상과 다르게 생기거나, 색이 안 바뀌는 문제가 자주 발생합니다.

`geom_*()`는 어떤 모양으로 보여줄지 결정한다

ggplot2에서 geom_*() 계열 함수는 “데이터를 어떤 기하적 형태로 그릴지”를 결정합니다.

자주 쓰는 함수는 아래와 같습니다.

목적	대표 함수	설명
산점도	`geom_point()`	점으로 표현
선그래프	`geom_line()`	선으로 연결
막대그래프	`geom_col()`, `geom_bar()`	막대 형태
히스토그램	`geom_histogram()`	구간별 빈도
박스플롯	`geom_boxplot()`	분포 요약
바이올린플롯	`geom_violin()`	분포 형태 강조
타일/히트맵	`geom_tile()`	격자형 값 표현
카운트 점	`geom_count()`	겹침 빈도를 점 크기로 표현

산점도: 연속형 변수 두 개의 관계를 볼 때

ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point()

이 그래프는 배기량(displ)과 고속도로 연비(hwy)의 관계를 보여줍니다.

종종 초보자는 산점도를 “점 그래프” 정도로 생각하고 끝내지만, 실제 분석에서는 아래 질문을 보는 데 유용합니다.

두 변수 사이에 대체로 증가/감소 경향이 있는가
값이 몇 개의 그룹으로 나뉘는가
이상치가 있는가
특정 구간에서 분산이 커지는가

색상까지 추가하면 그룹 차이도 볼 수 있습니다.

ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
  geom_point()

선그래프: 시간 흐름이나 순서를 볼 때

economics_small <- economics[1:20, ]

ggplot(economics_small, aes(x = date, y = unemploy)) +
  geom_line(color = "steelblue", linewidth = 1)

선그래프는 데이터에 순서가 중요할 때 사용합니다. 보통 시간축이 대표적입니다.

여기서 linewidth는 선 두께입니다. 최근 ggplot2에서는 선의 두께를 size보다 linewidth로 명확하게 쓰는 흐름이 정리되어 있습니다.

막대그래프: 범주 비교를 할 때

막대그래프는 초보자가 가장 먼저 접하지만, 동시에 가장 자주 잘못 쓰는 그래프이기도 합니다.

이미 집계된 값을 그릴 때는 `geom_col()`

library(dplyr)

avg_hwy <- mpg |>
  group_by(class) |>
  summarise(mean_hwy = mean(hwy), .groups = "drop")

ggplot(avg_hwy, aes(x = class, y = mean_hwy)) +
  geom_col(fill = "tomato") +
  coord_flip()

geom_col()은 y값이 이미 계산되어 있을 때 사용합니다.

빈도 자체를 세고 싶다면 `geom_bar()`

ggplot(mpg, aes(x = class)) +
  geom_bar(fill = "skyblue")

geom_bar()는 기본적으로 각 범주의 개수를 세어 막대를 만듭니다.

이 차이는 꼭 기억해야 합니다.

함수	y값 직접 제공 여부	기본 동작
`geom_bar()`	필요 없음	개수 세기
`geom_col()`	필요함	주어진 y값 사용

히스토그램: 한 변수의 분포를 볼 때

ggplot(faithful, aes(x = eruptions)) +
  geom_histogram(binwidth = 0.25, fill = "navy", color = "white")

히스토그램은 연속형 변수의 분포를 구간으로 나눠 보여줍니다.

여기서 중요한 인수는 binwidth입니다. 같은 데이터라도 구간 폭을 어떻게 잡느냐에 따라 그래프 해석이 상당히 달라집니다.

초보자가 자주 놓치는 점은, 히스토그램은 “그려진 결과”보다 구간 기준을 어떻게 정했는지가 더 중요할 수 있다는 것입니다.

밀도그래프: 구간 폭보다 분포 윤곽을 보고 싶을 때

히스토그램이 구간 단위 빈도를 보여 준다면, 밀도그래프는 분포의 전체 윤곽을 더 부드럽게 보여 줍니다. 특히 여러 집단의 분포를 겹쳐 비교할 때 유용합니다.

박스플롯: 그룹별 분포 비교

ggplot(iris, aes(x = Species, y = Sepal.Length, fill = Species)) +
  geom_boxplot(show.legend = FALSE)

박스플롯은 아래 정보를 빠르게 보여줍니다.

중앙값
사분위 범위
이상치 가능 구간

실무에서는 박스플롯만 단독으로 쓰기보다 점을 함께 얹는 방식도 많이 씁니다.

ggplot(iris, aes(x = Species, y = Sepal.Length, fill = Species)) +
  geom_boxplot(alpha = 0.6, show.legend = FALSE) +
  geom_jitter(width = 0.15, alpha = 0.5)

바이올린플롯: 분포의 모양 자체를 더 직접 보고 싶을 때

박스플롯이 분포를 요약해서 보여 준다면, 바이올린플롯은 분포의 형태 자체를 더 강하게 보여 줍니다. 데이터가 어느 구간에 많이 몰려 있는지, 봉우리가 여러 개인지 같은 정보가 더 잘 드러납니다.

`geom_count()`: 겹치는 점이 많을 때 유용한 기본 해법

로컬 자료에도 정리되어 있던 함수입니다. 같은 좌표에 관측치가 많이 겹치면 산점도는 실제 빈도를 숨깁니다. 이때 geom_count()를 쓰면 점 크기로 중복 빈도를 표현할 수 있습니다.

ggplot(mpg, aes(x = drv, y = cyl)) +
  geom_count(color = "firebrick") +
  scale_size_area(max_size = 12)

이 그래프는 구동 방식(drv)과 실린더 수(cyl) 조합별 관측치 수를 직관적으로 보여줍니다.

`geom_tile()`: 표 형태 데이터를 색으로 읽게 만들기

geom_tile()은 히트맵, 캘린더 그래프, 교차표 시각화 등에 자주 쓰입니다.

tile_df <- expand.grid(
  x = c("A", "B", "C", "D"),
  y = c("G1", "G2", "G3")
)

tile_df$value <- c(12, 5, 9, 3, 8, 14, 7, 6, 11, 10, 4, 13)

ggplot(tile_df, aes(x = x, y = y, fill = value)) +
  geom_tile(color = "white") +
  scale_fill_gradient(low = "white", high = "steelblue")

색의 강도만으로 패턴을 읽을 수 있어, 수치를 표로 나열했을 때보다 빠르게 구조를 파악할 수 있습니다.

레이어는 하나만 올리는 것이 아니다

ggplot2의 강점 중 하나는 레이어를 계속 쌓을 수 있다는 점입니다.

ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point(alpha = 0.5) +
  geom_smooth(method = "lm", se = FALSE, color = "red")

이 그래프는 점으로 원자료를 보여주고, 선형 회귀 추세선을 덧그립니다.

레이어를 쌓는다는 말의 실제 의미

위 코드는 단순히 “점 그래프 위에 선을 하나 더 그린다”는 수준이 아닙니다. 각 레이어는 독립적으로 다음을 가질 수 있습니다.

자체 데이터
자체 미적 매핑
자체 기하 객체
자체 통계 변환

예를 들어 일부 레이어만 다른 데이터를 사용하도록 만들 수도 있습니다. 이 구조가 ggplot2를 강력하게 만드는 핵심입니다.

패싯은 “한 그래프를 여러 조각으로 나누는 기능”이다

데이터를 그룹별로 나눠 여러 패널에 같은 문법으로 그릴 때 facet_wrap()과 facet_grid()를 사용합니다.

`facet_wrap()`

ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point() +
  facet_wrap(~ class)

차종(class)별로 산점도를 따로 봅니다.

이 방식은 그룹별 패턴이 비슷한지, 특정 그룹만 다른 경향이 있는지 볼 때 매우 유용합니다.

`facet_grid()`

ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point() +
  facet_grid(drv ~ cyl)

행과 열 기준이 모두 있을 때 씁니다.

언제 패싯을 써야 하는가

패싯은 다음 상황에서 특히 좋습니다.

범례가 많아 한 그래프에 다 겹치면 복잡할 때
그룹별 차이를 비교하는 것이 목적일 때
같은 축 기준으로 여러 집단을 나란히 보고 싶을 때

반대로 그룹 수가 너무 많으면 패널이 작아져 가독성이 떨어질 수 있습니다.

스케일과 라벨은 해석력을 크게 좌우한다

초보자는 그래프가 “그려지는지”에 집중하지만, 실제로는 축과 색상, 라벨을 어떻게 설계했는가가 독자의 이해를 결정합니다.

`labs()`로 제목과 축 이름 정리하기

ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
  geom_point() +
  labs(
    title = "배기량이 커질수록 고속도로 연비는 대체로 낮아진다",
    subtitle = "mpg 데이터셋의 차종별 분포",
    x = "배기량",
    y = "고속도로 연비",
    color = "차종",
    caption = "Data: ggplot2::mpg"
  )

좋은 제목은 단순히 그래프 종류를 말하는 것이 아니라, 독자가 먼저 읽어야 할 핵심 메시지를 요약해 주는 편이 좋습니다.

`scale_*()`로 축과 색을 조정하기

ggplot(mpg, aes(x = displ, y = hwy, color = drv)) +
  geom_point(size = 2.5) +
  scale_color_brewer(palette = "Set1") +
  scale_x_continuous(breaks = seq(1, 7, by = 1)) +
  scale_y_continuous(limits = c(10, 50))

여기서 핵심은 다음과 같습니다.

scale_color_brewer()는 범주형 색상 팔레트를 정리할 때 유용
scale_x_continuous()는 눈금 위치를 통제
scale_y_continuous()는 범위를 제한

축 범위를 과하게 잘라내면 해석이 왜곡될 수 있으므로 주의해야 합니다.

테마는 “꾸미기”가 아니라 “가독성 설계”다

기본 테마만 바꿔도 인상이 달라진다

ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
  geom_point() +
  theme_minimal()

ggplot2에는 기본 테마 함수가 여러 개 있습니다.

함수	특징
`theme_gray()`	기본값
`theme_bw()`	흰 배경, 선명한 축
`theme_minimal()`	미니멀한 배경
`theme_classic()`	고전적인 축 중심 스타일
`theme_void()`	축과 배경 대부분 제거

`theme()`로 세부 조정하기

ggplot(mpg, aes(x = class, y = hwy, fill = class)) +
  geom_boxplot(show.legend = FALSE) +
  theme_minimal() +
  theme(
    plot.title = element_text(size = 16, face = "bold"),
    axis.text.x = element_text(angle = 30, hjust = 1),
    panel.grid.minor = element_blank()
  ) +
  labs(title = "차종별 고속도로 연비 분포")

실무에서 자주 건드리는 요소는 아래 정도입니다.

제목 글자 크기와 굵기
x축 텍스트 각도
범례 위치
보조 격자선 제거
패널 여백

중요한 점은, 테마는 예쁘게 보이기 위한 장식이 아니라 독자의 읽기 순서를 조정하는 수단이라는 것입니다.

초보자가 자주 묻는 질문: 언제 어떤 그래프를 써야 하나

데이터 상황	추천 그래프	이유
연속형 변수 2개 관계	산점도	관계, 군집, 이상치 확인에 좋음
범주별 평균/합계 비교	막대그래프	비교가 직관적
한 변수의 분포	히스토그램, 밀도그래프	분포 모양 확인 가능
그룹별 분포 비교	박스플롯, 바이올린플롯	중앙값과 퍼짐 비교 용이
시간에 따른 변화	선그래프	순서와 추세 확인에 적합
조합별 강도 비교	히트맵, 타일	패턴을 한눈에 파악 가능

그래프는 “멋있는 것”을 고르는 것이 아니라 질문에 맞는 표현 방식을 고르는 것입니다.

ggplot2와 같이 쓰면 좋은 확장 패키지들

로컬 자료에 정리된 내용과 공식 문서를 함께 보면, ggplot2의 확장성은 단순히 테마 몇 개를 더 주는 수준이 아닙니다. 그래프 유형 자체를 넓혀 줍니다.

`ggridges`: 분포를 층처럼 쌓아 보여주는 패키지

ggridges는 ridgeline plot을 만들 때 쓰는 대표 패키지입니다. 여러 그룹의 분포를 한 화면에 겹치듯 비교하고 싶을 때 유용합니다.

library(ggridges)

ggplot(iris, aes(x = Sepal.Length, y = Species, fill = Species)) +
  geom_density_ridges(alpha = 0.7, show.legend = FALSE) +
  theme_ridges()

언제 쓰는가

그룹별 분포를 여러 개 비교하고 싶을 때
박스플롯보다 분포의 모양 자체를 더 강조하고 싶을 때
보고서에서 시각적으로 강한 인상을 주고 싶을 때

기본적인 ridgeline density plot 예시

월별 평균 기온을 ridgeline plot으로 표현한 예시

`ggridges`로 확장할 수 있는 표현들

ggridges의 장점은 단순히 층을 쌓는 데서 끝나지 않습니다. 테마, 분위수 강조, 확률 구간 표현, 점 레이어 결합까지 확장할 수 있습니다.

여러 스타일의 ridgeline plot 예시를 나란히 비교한 이미지

확률 구간을 색으로 강조한 ridgeline plot 예시

gradient fill을 적용한 ridgeline plot 예시

ridgeline plot 위에 실제 관측치를 점으로 올린 예시

`gganimate`: 정적인 그래프를 시간 흐름 속에서 보여주는 패키지

로컬 자료에도 별도 정리되어 있던 패키지입니다. gganimate는 ggplot2 문법 위에 애니메이션 전환 개념을 얹습니다.

library(gganimate)

p <- ggplot(airquality, aes(x = Temp, y = Ozone, color = factor(Month))) +
  geom_point(size = 3, alpha = 0.8) +
  transition_states(Month) +
  labs(title = "Month: {closest_state}")

animate(p, nframes = 60, fps = 10)

언제 쓰는가

시점별 변화가 핵심인 데이터
교육용 데모
발표 자료에서 데이터 변화 과정을 보여주고 싶을 때

단, 애니메이션은 시선을 강하게 끌지만 비교 정밀도는 떨어질 수 있으므로, 분석 보고서에서는 정적 패싯과 함께 비교해서 쓰는 것이 좋습니다.

`patchwork`: 여러 그래프를 깔끔하게 조합하는 패키지

patchwork는 여러 개의 ggplot 객체를 레이아웃으로 조합할 때 매우 편리합니다. 복잡한 대시보드형 정적 리포트에서 특히 유용합니다.

library(patchwork)

p1 <- ggplot(mpg, aes(displ, hwy)) +
  geom_point()

p2 <- ggplot(mpg, aes(class)) +
  geom_bar()

p3 <- ggplot(mpg, aes(hwy)) +
  geom_histogram(binwidth = 2)

(p1 | p2) / p3

왜 많이 쓰이는가

gridExtra보다 문법이 직관적임
레이아웃을 수식처럼 조합할 수 있음
제목, 범례, 여백 정리도 비교적 편함

`rayshader`: 2D ggplot을 3D 스타일로 확장할 때

로컬 자료에는 “2D를 3D 그래프로 변경”하는 예시가 정리되어 있었습니다. rayshader는 지형도, 면적 기반 맵, 높낮이 표현이 중요한 시각화에서 주목받습니다.

library(rayshader)

p <- ggplot(faithfuld, aes(x = waiting, y = eruptions, fill = density)) +
  geom_raster()

plot_gg(p, multicore = FALSE, width = 5, height = 5, scale = 250)

주의할 점

결과는 인상적이지만, 모든 데이터에 3D가 적절한 것은 아님
해석보다 연출 효과가 강해질 수 있음
발표용과 탐색용 목적을 구분해서 써야 함

ggplot2 실무 팁: 초보자 때부터 바로 습관 들이면 좋은 것들

1. 제목은 그래프 종류가 아니라 메시지를 쓰기

좋지 않은 예:

“산점도”
“막대그래프”

더 좋은 예:

“배기량이 커질수록 고속도로 연비는 낮아지는 경향을 보인다”

2. 색상을 너무 많이 쓰지 않기

범주가 많을수록 색상은 빠르게 읽기 어려워집니다. 정말 필요한 그룹만 색을 나누고, 나머지는 패싯이나 직접 라벨로 푸는 것이 더 낫습니다.

3. 기본 데이터 정리를 먼저 끝내고 그래프를 그리기

ggplot2는 그리기 도구입니다. 데이터를 복잡하게 가공하는 도구는 아닙니다. 그룹 평균, 비율, 순위, 누적값 같은 것은 대개 dplyr로 먼저 정리한 뒤 넘기는 편이 더 명확합니다.

4. 저장은 `ggsave()`로 일관되게 관리하기

p <- ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point()

ggsave(
  filename = "mpg-scatter.png",
  plot = p,
  width = 8,
  height = 5,
  dpi = 300
)

보고서나 블로그에 넣을 이미지라면 dpi, 가로세로 비율, 배경색 등을 처음부터 의식하는 편이 좋습니다.

초보자가 많이 하는 실수와 해결 방법

실수 1. `aes()` 안과 밖을 혼동한다

가장 흔합니다. 변수 매핑은 aes() 안, 고정값은 보통 geom_*() 인수로 둡니다.

실수 2. `geom_bar()`와 `geom_col()`를 혼동한다

이미 계산한 값이면 geom_col(), 개수를 세려면 geom_bar()입니다.

실수 3. 한 그래프에 너무 많은 정보를 넣는다

색, 모양, 크기, 패싯을 한꺼번에 다 쓰면 해석이 어려워집니다. 독자가 무엇을 먼저 봐야 하는지 우선순위를 정해야 합니다.

실수 4. 축 제목과 범례를 기본값으로 방치한다

코드 변수명이 그대로 노출되면 독자 친화성이 크게 떨어집니다. labs()로 의미 있는 한글 라벨을 붙이는 습관이 좋습니다.

실수 5. 장식 효과가 해석보다 앞선다

과한 3D, 그림자, 장식 폰트, 무리한 색상 그라데이션은 그래프를 “인상적”으로 만들 수는 있어도, “정확하게 읽히는 그래프”를 만드는 데는 불리할 수 있습니다.

학습 순서를 이렇게 잡으면 덜 헷갈린다

초보자라면 아래 순서를 권합니다.

ggplot(data, aes(...)) + geom_*() 구조 익히기
geom_point(), geom_line(), geom_col(), geom_histogram() 연습
color, fill, size, alpha 매핑 익히기
facet_wrap()과 facet_grid() 익히기
labs(), scale_*(), theme_*()로 읽기 좋은 그래프 만들기
ggridges, patchwork, gganimate 같은 확장 패키지로 넓히기

이 순서를 건너뛰고 처음부터 화려한 그래프 유형만 따라가면, 결과물은 만들 수 있어도 문법을 자기 것으로 만들기 어렵습니다.

ggplot2를 공부할 때 함께 보면 좋은 공식 흐름

추가 조사 기준으로 보면, ggplot2 공식 문서와 확장 패키지 문서는 공통적으로 아래 흐름을 강조합니다.

먼저 레이어 구조를 이해할 것
그다음 스케일과 테마를 다룰 것
마지막에 패싯, 확장 패키지, 고급 레이아웃으로 갈 것

이 순서가 중요한 이유는, 예쁜 결과물은 확장 패키지로 금방 만들 수 있지만, 문제가 생겼을 때 원인을 진단하는 능력은 결국 기본 구조 이해에서 나오기 때문입니다.

FAQ

`ggplot2`만 알아도 충분한가요

기본 시각화의 중심 도구로는 충분히 강력합니다. 다만 실무에서는 보통 dplyr, tidyr, scales, patchwork 정도와 함께 쓰게 됩니다.

`base R` 그래프보다 무조건 좋은가요

항상 그런 것은 아닙니다. 아주 간단한 탐색에서는 base 그래프가 더 빠를 수도 있습니다. 하지만 일관된 문법, 재현 가능한 스타일, 확장성 면에서는 ggplot2가 훨씬 유리한 경우가 많습니다.

블로그나 보고서용 그래프도 ggplot2로 충분한가요

대부분 충분합니다. 정적 리포트, 논문형 그림, 설명용 시각화, 다중 패널 구성까지 폭넓게 대응할 수 있습니다.

마무리

ggplot2는 단순히 “예쁜 그래프 패키지”가 아닙니다. 데이터를 어떻게 읽고, 어떤 시각 요소로 연결하고, 어떤 형태로 전달할지를 체계적으로 다루는 도구입니다. 그래서 처음에는 산점도 하나 그리는 데도 문법이 길어 보이지만, 익숙해질수록 오히려 복잡한 그래프를 더 안정적으로 제어할 수 있습니다.

핵심은 두 가지입니다.

문법을 외우기보다 구조를 이해할 것
확장 패키지로 가기 전에 기본 레이어 개념을 확실히 잡을 것

이 두 가지만 잡혀도 ggplot2는 단순한 시각화 도구를 넘어, 분석 결과를 설득력 있게 전달하는 언어가 됩니다.

공식 문서 및 참고 링크

ggplot2는 함수 수가 많아질수록 “기억”보다 “공식 레퍼런스를 빠르게 찾는 습관”이 더 중요합니다. 아래 링크들은 그래프 문법을 다시 확인하거나 확장 패키지 사용 예시를 찾을 때 가장 먼저 볼 만한 공식 문서입니다.

ggplot2 공식 사이트: https://ggplot2.tidyverse.org/
ggplot2 레퍼런스 인덱스: https://ggplot2.tidyverse.org/reference/index.html
ggridges 공식 사이트: https://wilkelab.org/ggridges/
patchwork 공식 사이트: https://patchwork.data-imaginist.com/
gganimate 공식 사이트: https://gganimate.com/

구독하기

왜 많은 R 사용자가 결국 ggplot2로 돌아오는가

이 글을 읽기 전에 알아두면 좋은 점

ggplot2는 무엇이 다른가

그래프를 “명령”이 아니라 “구성”으로 본다

Grammar of Graphics라는 배경

가장 기본이 되는 문법 한 줄

코드가 어떻게 읽히는지 문장으로 해석해 보기

aes()는 왜 중요한가

aes()는 변수와 시각 요소를 연결한다

aes(color = Species)와 color = "blue"는 완전히 다르다

geom_*()는 어떤 모양으로 보여줄지 결정한다

산점도: 연속형 변수 두 개의 관계를 볼 때

선그래프: 시간 흐름이나 순서를 볼 때

막대그래프: 범주 비교를 할 때

이미 집계된 값을 그릴 때는 geom_col()

빈도 자체를 세고 싶다면 geom_bar()

히스토그램: 한 변수의 분포를 볼 때

밀도그래프: 구간 폭보다 분포 윤곽을 보고 싶을 때

박스플롯: 그룹별 분포 비교

바이올린플롯: 분포의 모양 자체를 더 직접 보고 싶을 때

geom_count(): 겹치는 점이 많을 때 유용한 기본 해법

geom_tile(): 표 형태 데이터를 색으로 읽게 만들기

레이어는 하나만 올리는 것이 아니다

레이어를 쌓는다는 말의 실제 의미

패싯은 “한 그래프를 여러 조각으로 나누는 기능”이다

facet_wrap()

facet_grid()

언제 패싯을 써야 하는가

스케일과 라벨은 해석력을 크게 좌우한다

labs()로 제목과 축 이름 정리하기

scale_*()로 축과 색을 조정하기

테마는 “꾸미기”가 아니라 “가독성 설계”다

기본 테마만 바꿔도 인상이 달라진다

theme()로 세부 조정하기

초보자가 자주 묻는 질문: 언제 어떤 그래프를 써야 하나

ggplot2와 같이 쓰면 좋은 확장 패키지들

ggridges: 분포를 층처럼 쌓아 보여주는 패키지

언제 쓰는가

ggridges로 확장할 수 있는 표현들

gganimate: 정적인 그래프를 시간 흐름 속에서 보여주는 패키지

언제 쓰는가

patchwork: 여러 그래프를 깔끔하게 조합하는 패키지

왜 많이 쓰이는가

rayshader: 2D ggplot을 3D 스타일로 확장할 때

주의할 점

ggplot2 실무 팁: 초보자 때부터 바로 습관 들이면 좋은 것들

1. 제목은 그래프 종류가 아니라 메시지를 쓰기

2. 색상을 너무 많이 쓰지 않기

3. 기본 데이터 정리를 먼저 끝내고 그래프를 그리기

4. 저장은 ggsave()로 일관되게 관리하기

초보자가 많이 하는 실수와 해결 방법

실수 1. aes() 안과 밖을 혼동한다

실수 2. geom_bar()와 geom_col()를 혼동한다

실수 3. 한 그래프에 너무 많은 정보를 넣는다

실수 4. 축 제목과 범례를 기본값으로 방치한다

실수 5. 장식 효과가 해석보다 앞선다

학습 순서를 이렇게 잡으면 덜 헷갈린다

ggplot2를 공부할 때 함께 보면 좋은 공식 흐름

FAQ

ggplot2만 알아도 충분한가요

base R 그래프보다 무조건 좋은가요

블로그나 보고서용 그래프도 ggplot2로 충분한가요

마무리

공식 문서 및 참고 링크

함께 읽으면 좋은 글

`aes()`는 왜 중요한가

`aes()`는 변수와 시각 요소를 연결한다

`aes(color = Species)`와 `color = "blue"`는 완전히 다르다

`geom_*()`는 어떤 모양으로 보여줄지 결정한다

이미 집계된 값을 그릴 때는 `geom_col()`

빈도 자체를 세고 싶다면 `geom_bar()`

`geom_count()`: 겹치는 점이 많을 때 유용한 기본 해법

`geom_tile()`: 표 형태 데이터를 색으로 읽게 만들기

`facet_wrap()`

`facet_grid()`

`labs()`로 제목과 축 이름 정리하기

`scale_*()`로 축과 색을 조정하기

`theme()`로 세부 조정하기

`ggridges`: 분포를 층처럼 쌓아 보여주는 패키지

`ggridges`로 확장할 수 있는 표현들

`gganimate`: 정적인 그래프를 시간 흐름 속에서 보여주는 패키지

`patchwork`: 여러 그래프를 깔끔하게 조합하는 패키지

`rayshader`: 2D ggplot을 3D 스타일로 확장할 때

4. 저장은 `ggsave()`로 일관되게 관리하기

실수 1. `aes()` 안과 밖을 혼동한다

실수 2. `geom_bar()`와 `geom_col()`를 혼동한다

`ggplot2`만 알아도 충분한가요

`base R` 그래프보다 무조건 좋은가요