“지질학회지”의 연구주제와 동향 분석: LDA 모델과 네트워크 분석을 중심으로

김태용1 ; 박혜민1 ; 허준용1 ; 이혜림1 ; 양민준2, 3,
1국립부경대학교 지구환경시스템과학부 지구환경과학전공
2국립부경대학교 지구환경시스템과학부 환경지질과학전공
Analysis of research topics and trends in “Journal of the Geological Society of Korea”: focus on LDA model and network analysis
Taeyong Kim1 ; yemin Park1 ; Junyong Heo1 ; Hyerim Lee1 ; Minjune Yang2, 3,
1Division of Earth Environmental System Sciences, Pukyong National University, Busan 48513, Republic of Korea
2Division of Earth and Environmental System Sciences-Major of Environmental Geosciences, Pukyong National University, Busan 48513, Republic of Korea
3Wible Co., Ltd, Busan 48547, Republic of Korea

“지질학회지”는 국내 최초의 지질학 학술지로 1964년부터 현재까지 활발한 학술 활동 및 연구 논문을 게재하고 있다. 지난 수십 년 동안 지질학 연구자들에 의해 특정 분야를 대상으로 고찰한 연구들은 존재하나, “지질학회지”를 대상으로 수행한 연구는 미비한 실정이다. 본 연구는 텍스트 마이닝 기법 중 하나인 Latent Dirichlet Allocation (LDA) 모델을 이용하여 연구주제와 동향을 분석하였으며, 네트워크 분석을 통해 시대별 주제간 연관성을 확인하였다. 분석 결과, 총 12개의 연구주제로 분류할 수 있었으며, 3가지 동향(Classic topic, Emerging topic, Stable topic)으로 나누어 해석하였다. 1993년부터 2008년까지 성행한 전통적인 연구주제(Classic topic)는 “암석학”, “고생물학”, “구조지질학”으로 분석되었으며, 2008년 이후 최근 화제 된 연구주제(Emerging topic)는 “수리지질학”, “지질유산”으로 분석되었다. 추세변화가 없는 연구주제(Stable topic)는 “지질연대학”, “퇴적학”, “지구물리학”, “동위원소 지질학”, “이산화탄소 지중저장”, “환경지질학”, “화산학”으로 분류할 수 있었다. 네트워크 분석 결과, 2008년 이전에는 “암석학”이 중심 주제였으며, 2008년 이후에는 “수리지질학”이 중심 주제였다. 본 연구의 결과는 “지질학회지”의 전체적인 연구 흐름을 분석하고, 역사와 발전에 대한 이해를 제공하였음에 의의가 있다.


The Journal of the Geological Society of Korea (JGSK) is the first geological academic journal in South Korea, actively publishing scholarly articles and research since 1964. JGSK covers various geological research topics, including petrology, mineralogy, geophysics, soil and hydrogeology, sedimentology, and engineering geology. With the expansion of interdisciplinary research, the scope of research topics has broadened. Despite numerous studies focusing on specific fields within geology over the past few decades, comprehensive research targeting JSGK remains limited. Therefore, this study employed the latent Dirichlet Allocation (LDA) model, a text-mining technique, to analyze research topics and trends within JGSK. Additionally, network analysis was conducted to identify the relationship between topics over different periods. Based on the results of the LDA mode, 12 primary research topics were identified and classified into three trends through trend analysis. Classic topics prominent from 1993 to 2008 included “petrology”, “paleontology”, and “structural geology”. Emerging topics, gaining prominence after 2008, encompassed “hydrogeology” and “geoheritage”. Stable topics, which have maintained a consistent presence, included “geochronology”, sedimentology”, “geophysics”, “isotope geology”, “carbon capture and storage”, “environmental geology” and “volcanology”. Network analysis indicated that “petrology" was the central topic before 2008, while “hydrogeology” emerged as the central topic after 2008. The findings of this study provided a comprehensive analysis of the research trends in JGSK, offering insights into its historical development and future directions.


Journal of the Geological Society of Korea, text mining, Latent Dirichlet Allocation, trend analysis, network analysis


지질학회지, 텍스트 마이닝, 잠재 디리클레 할당, 연구동향 분석, 네트워크 분석

1. 서 론

국내 지질학을 대표하는 학술지인 “지질학회지”는 1964년에 창간된 이후로 다양한 지질학적 연구 분야를 다루며 꾸준히 발전해왔다. 암석학, 광물학, 지구물리학, 토양 및 수리지질학, 퇴적학, 지질공학 등 다양한 분야의 연구 결과가 발표되었으며, 국내 지질학 연구의 기초를 다지는 데 중요한 역할을 해왔다. 현대의 “지질학회지”는 기존에 설립한 분류체계 보다 더 넓은 범위의 연구주제들의 논문들이 게재되고 있으며, 이에 따른 새로운 분류 체계의 필요성이 대두되고 있다. 최근에는 데이터 과학의 발전과 함께 방대한 양의 문헌데이터를 효율적으로 분석하고, 의미를 도출하는 메타 분석(Meta-Analysis), 네트워크 분석(Network analy-sis), 기계학습(Machine learning), 텍스트 마이닝(text min-ing) 등 다양한 방법론을 적용하여 학술데이터를 분석한 연구들이 수행되었다.

텍스트 마이닝은 비정형 텍스트 데이터에서 유용한 정보를 추출하고, 이를 구조화된 형태로 변환하는 기술을 의미하며, 학술 논문의 주제 분류 및 연구 동향 분석에 유용하게 활용될 수 있다(McCurley and Jawitz, 2017; Salloum et al., 2018). 특히, 토픽모델링은 비정형 텍스트 데이터에서 잠재되어 있는 주제를 추론하고, 각 문서가 어떤 주제를 다루고 있는지 확률적으로 모델링하는 기법으로, 다양한 분야에서 그 유용성이 입증되고 있다(Blei and Lafferty, 2009). Latent Dirichlet Allocation (LDA)는 대표적인 토픽모델링 기법으로, 문서 집합에서 각 문서가 여러 주제로 구성되어 있으며, 각 주제는 특정 단어들의 분포로 정의된다는 가정에 기반을 두고 있다(Jelodar et al., 2019).

문헌 고찰 연구 중 LDA 모델을 사용하여 다양한 분야의 주제를 추론하고, 그에 따른 동향을 해석한 국외연구가 다수 존재하였다. Das et al. (2016)은 Transportation research board annual meetings에서 2008년부터 2014년까지 총 8년간 발표된 총 15,357편의 논문을 대상으로 Latent Dirichlet Allocation (LDA)모델을 적용하여, 대용량의 문헌 내에 내재되어 있는 주제를 추론하였다. 또한, Sun and Yin (2017)은 LDA 모델을 교통분야에 적용하여 교통분야의 다양한 학술지 내에 내재되어 있는 연구주제를 추론하고, 공동 출현 단어 간 네트워크 분석을 통해 단어 간 연관성을 분석하였다. Sharma et al. (2022)은 LDA 모델을 스마트 시티 분야에 적용하여 IoT와 관련된 최근 연구 동향을 분석하였다. Hidayatullah et al. (2019)은 트위터 데이터를 LDA 모델로 분석하여 날씨 정보, 기상 예보, 지진 정보 등 기후 및 날씨 조건과 관련된 주제들을 도출하고, 각 지역의 기후 및 재해 트렌드를 시각화 하였다. 그러나, 지질학을 대상으로 LDA 모델 기반 문헌 고찰 연구는 부족한 실정이다.

국내 지질학 분야를 대상으로 수행한 문헌고찰 연구로는 Sang and Chung (1990)이 미국지질학협회(American Geological Institute, AGI)에서 제공하는 지질학의 분류체계를 이용하여 “지질학회지”, “광산지질” 및 여러 연구소에서 발행된 논문을 분석하였으며, 1990년 이전의 연구들이 광물 및 에너지 자원조사에 집중되어 있음을 확인하였다. Heo and Kim (2018)은 “자원환경지질”에 게재된 전체 논문 대상으로 연구주제를 분류하고 동향을 해석하였다. Kim, T. et al. (2021)은 “자원환경지질”에 게재된 논문 전체를 대상으로 LDA 모델을 적용하여 연구주제를 분류하고, 그에 따른 연구동향을 분석하였으며, 네트워크 분석을 통해 시대별 연구주제간 연관성을 확인하였다. 기존의 연구들은 연구자가 대량의 문헌을 직접 검토하고 주제를 분류하는 방식이었기 때문에, 지질학 연구의 전반적인 동향을 파악하기에는 시간·비용적 측면에서 많은 한계점이 존재하였다. Kim, T. et al. (2021)은 이러한 문제를 해결하기 위해 토픽모델링을 사용하여 분석의 효율성을 높일 수 있음을 제안하였다.

따라서, 본 연구는 “지질학회지”에 게재된 논문 전체를 대상으로 LDA 모델을 적용하였으며, 모델 결과에 따른 1) 연구주제를 분류를 하고, 2) 분류된 연구주제를 바탕으로 연구 동향을 분석하고 통계 검정하였으며, 3) 네트워크 분석을 통해 “지질학회지”의 시대별 연구주제간 연관성을 확인하였다. 이를 바탕으로 “지질학회지의” 역사와 발전에 대해 토의하고, 향후 지질학적 연구에 대한 통찰을 제공하고자 한다.

2. 연구방법

2.1. 데이터 수집 및 전처리

본 연구에서는 국내 학술 데이터베이스 검색 사이트인 RISS (Research Information Sharing Service)에서 “지질학회지”의 창간년도인 1964년 1권 1호부터 2023년 59권 4호까지 총 60년간 출판한 논문 총 1,832편을 수집하였다. “지질학회지”의 연간평균 논문 수는 30.47편으로, 연간 누적 논문 수는 지속적으로 증가하는 추세(linear slope = 1.01, R2 = 0.84, p < 0.05)를 보였다(그림 1).

Fig. 1.

The number of publications per year (black line plot) and the cumulative number of publications (grey area plot) in the Journal of the Geological Society of Korea (JGSK) from 1964 to 2023.

데이터 전처리는 그림 2와 같이 수행하였다. “지질학회지”에 게재된 논문의 메타데이터(제목, 주제어, 초록)를 모델링의 입력자료로 사용하였으며, 논문의 발행연도는 연구동향을 확인하기 위해 사용하였다. 논문의 국문 데이터는 한글의 특성상 조사와 어미 등 다양한 형태소가 존재하여 텍스트 분석 시 어려움이 있으므로, 영문 데이터를 필터링하여 분석하였다. 모델링 데이터는 띄어쓰기(white space)와 구두점(punctuation mark)을 기준으로 문장을 단어로 변환시키는 토큰화(tokenization)를 실시하였으며, 문장 내에서 자주 출현하지만 분석에 필요하지 않은 관사 및 대명사와 같은 단어(is, the, that, was 등)를 제거하기 위해 불용어 사전(stopwords dictionary)을 이용하여 처리하였다. 모델링 효율을 높이기 위해 단어의 시제, 수 일치 등 같은 의미를 지시하는 단어를 원형으로 변환하기 위해 사용하는 어간 추출(stemming) 방법을 사용하였다. 텍스트 데이터 전처리는 파이썬 자연어처리 라이브러리인 NLTK (Bird et al., 2009)를 사용하여 수행하였다.

Fig. 2.

Flowchart of text processing for topic modeling.

2.2. 잠재 디리클레 할당(Latent Dirichlet Allocation)

Latent Dirichlet Allocation (LDA)는 비정형 텍스트 데이터에서 내재되어 있는 잠재적인 주제를 추출하는 데 사용되는 확률적 토픽 모델링 기법 중 하나이다. LDA는 각 문서가 여러 주제로 구성되어 있으며, 각 주제는 특정 단어들의 분포로 정의된다는 가정에 기반을 두고 있다(Blei et al., 2003). LDA는 주어진 문서 집합에서 각 문서가 어떤 주제들로 이루어져 있는지, 각 주제는 어떤 단어들로 구성되어 있는지를 동시에 추정한다. 이를 통해 문서 내 단어의 출현 패턴을 분석하여 주제를 도출할 수 있다. LDA는 각 문서가 주제의 혼합으로 구성되어 있는 가정을 통해, 문서 내 단어들이 특정 주제에 속할 확률을 계산한다. 계산된 확률을 바탕으로 문서와 주제 간의 관계를 추정하며, 반복적인 계산을 통해 최적의 주제 분포를 찾아낸다. LDA는 대규모의 데이터에서도 효과적으로 주제를 추출할 수 있고, 각 문서가 단일 주제에 국한되지 않아 복수의 주제를 반영할 수 있다는 장점을 가진다. 이러한 특성 때문에, LDA는 다양한 분야의 문헌 분석에서 사용되고 있다.

LDA의 그래프 모델과 각 변수에 대한 설명과 본 연구에서 사용한 매개변수의 값은 그림 3표 1에서 확인할 수 있다. D는 전체 문서 집합을 나타내며, N은 문서에 포함된 단어의 집합을 의미한다. θdd번째 문서에 대한 주제의 확률분포를 뜻하며, α를 매개변수로 갖는 디리클레(Dirichlet) 분포에 의해 샘플링 된다. βkk번째 주제에 대한 단어의 확률분포를 나타내며 β를 매개변수로 갖는 디리클레 분포에 의해 샘플링 된다. zd,nd번째 문서의 n번째 단어가 할당된 주제를 나타내며, θd에 의해 샘플링 되고, 최종적으로 wd,nd번째 문서의 n번째 단어를 나타내며, zd,nβk에 의해 샘플링 되어 결정된다. wd,n은 문서내에 존재하는 단어로 관측할 수 있는 변수이며, 나머지 변수들은 내재되어 있는 잠재변수(latent variable)이다. 해당 과정은 식(1)과 같이 결합확률분포로 표현할 수 있다.

Fig. 3.

Schematic of the LDA model. The nodes represent the random variables. The observed node is shaded as grey, and latent nodes are unshaded. The direction of the arrow indicates the influence from the input node to the response node.

Notation of variables and parameters used in this study.

모델링 과정에서 사전에 설정해야 하는 초모수(hyper- parameter)는 α, η, K이다. αη는 주제와 단어에 대한 디리클레 분포의 모형을 결정하는 매개변수이며, K는 문헌 내에 존재하는 주제의 개수를 나타낸다. 본 연구에서는 주제의 수 K를 5 ~ 20까지 설정하여 반복 수행 및 결과 해석을 통해 적절한 주제의 수로 설정하였다. αη는 주제와 단어 분포의 형태를 결정하는 변수로 값이 클수록 분포가 균일하며, 값이 작을수록 분포가 희소하게 설정된다. Griffiths and Steyvers (2004)는 균일한 주제 추론을 위해 α = 50/K, η = 0.1로 설정할 것을 제안하였다. 본 연구에서는 “지질학회지”에 게재된 논문을 대상으로 수행하였으며, 지질학과 관련된 연구주제들이 집중되었을 것으로 판단하여 지질학의 하위주제를 식별하기 위해 α = 0.1, η = 0.01로 설정하여 분석하였다. 또한, 변수들이 안정적인 값으로 수렴하도록 하기 위해 깁스 샘플링(Gibbs sampling) 방법을 사용하였으며(Porteous et al., 2008), 100,000회 반복 샘플링 한 후 안정된 결과값을 사용하였다. 모델링 결과는 주제에 따른 단어의 확률분포(βk)와 문서에 따른 주제의 확률분포(θd)로 나타나며, 주제에 따른 단어의 확률분포를 바탕으로 문서 전체에 존재하는 연구주제를 추론하고, 문서에 따른 주제의 확률분포를 사용하여 주제별 동향을 확인할 수 있다. 본 연구에서는 파이썬 오픈소스 토픽모델링 라이브러리인tomotopy (Lee et al., 2023)의 LDA 모델을 이용하여 분석하였다.

2.3. 연구동향 분석

모델링 결과를 바탕으로 시간에 따른 주제별 연구동향을 확인하기 위해 단순선형회귀분석(simple linear regression analysis)을 수행하였다. 본 연구에서 사용한 단순선형회귀분석은 식(2)로 수행하였다.


여기서, θkt는 번째 연도에서 k번째 주제의 비율을 의미하며, t번째 연도에서의 모든 주제 k에 대한 합은 1이다. slopek(t)t번째 연도에서 k번째 주제의 선형회귀계수를 의미하며, b는 선형회귀모델의 절편을 의미한다. 단순선형회귀분석의 결과를 바탕으로 회귀계수의 유의성을 판단하기 위해 왈드 검정(Wald test; Gourieroux et al., 1982)을 실시하였다. 왈드 검정은 선형 회귀분석에서 회귀계수를 검정할 때 주로 사용되며, 귀무 가설(null hypothesis)은 회귀계수 ββ = 0이다. 유의확률(significance probability, p-value)이 0.05 미만일 경우 귀무 가설을 기각하고, 선형회귀계수가 양수이면 최근에 연구가 활발하게 진행되는 것을 의미하는 Emerging topic으로 분류하였으며, 음수일 경우 초기에 성행한 연구를 뜻하는 Classic topic으로 분류하였다. 유의확률이 0.05를 초과할 경우 귀무 가설을 채택하고, 동항을 보이지 않는다고 판단하여 초기부터 현재까지 꾸준하게 연구되고 있는 Stable topic으로 분류하였다. 단순선형회귀분석 및 통계검정은 파이썬 라이브러리인 Scipy (Virtanen et al., 2020)를 이용하여 분석 및 검정하였다.

2.4. 네트워크 분석

모델링 결과를 바탕으로 주제별 연관성을 확인하기 위해 네트워크 분석을 실시하였다. 시간에 따른 주제별 연관성의 변화를 확인하기 위해 1993년 이전(t ≤ 1993), 1993~ 2008년(1993 < t ≤ 2008), 2008년 이후(t > 2008)로 구분하여 분석하였다. 문서에 따른 주제의 확률분포는 식(3)으로 나타낼 수 있다.


여기서, θd,k는 d번째 문서에서 k번째 주제에 대한 확률을 나타내고, Θperiod는 시대별 문서에 따른 주제의 확률분포이다. 네트워크 분석을 실시하기 위해 문서에 따른 주제의 확률분포 행렬을 식(4)를 통해 시대별 네트워크 행렬(Mperiod)을 계산하였다.


여기서, ΘperiodT는 시대별 문서에 따른 주제 확률분포(Θperiod)의 전치행렬(transpose matrix)이며, wk-1,kk-1번째 주제와 k번째 주제간 연관가중치(association weight)를 의미한다. 연관가중치의 값이 클수록 연관정도가 높다고 판단한다. 시대별 네트워크 행렬 Mperiodk × k 개의 대칭 정방행렬로 대각성분을 기준으로 대칭이 되는 구조로 무방향 네트워크(undirected network)로 시각화 할 수 있다. 네트워크는 노드(node)와 엣지(edge)로 구성되며, 노드는 개체로 네트워크 그래프에서 원형으로 표현된다. 엣지는 노드 사이의 관계를 나타내며 그래프에서 선으로 표현된다. 본 연구에서 노드는 k개의 주제로 표현하였고, 엣지는 주제간 연관가중치로 표현하여 연관정도를 나타내었으며 네트워크 분석 툴인 Cytoscape (Smoot et al., 2011)를 사용하여 분석 및 시각화하였다.

3. 결과 및 토의

3.1. LDA 모델 결과에 따른 “지질학회지”의 연구주제 분류

LDA 모델의 반복수행을 통해 최적의 주제 개수(K)를 설정하였으며, 모델의 예측 성능을 평가하는 지표인 퍼플렉서티(perplexity)를 사용하였다(Blei et al., 2003). 퍼플렉서티와 “지질학회지”의 논문 분류 체계를 비교분석 한 결과, 최적의 주제 개수를 12개로 설정하였다. LDA 모델의 결과인 βk를 분석하여 각 주제별 상위 10개의 출현 단어를 확인하였으며, 분석 결과를 바탕으로 주제명을 명명하였다(표 2). 분석결과는 워드클라우드로 시각화 하였으며, 단어의 크기는 βk 크기에 비례하게 나타내었다(그림 4). 분류결과, “암석학”, “고생물학”, “수리지질학”, “지질연대학”, “구조지질학”, “퇴적학”, “지구물리학”, “환경지질학”, “지질유산”과 같이 “지질학회지”의 논문분류체계에서 분류되고 있는 연구주제와 “이산화탄소 지중 저장”, “동위원소 지질학”과 같이 기술응용적 연구주제로 분류할 수 있었다. 연구주제 별 분류된 결과를 바탕으로, “지질학회지”에 게재된 연구주제별 논문들을 선정하여 해석하였다.

Summary of research topics and key themes identified through Latent Dirichlet Allocation (LDA) model. The research types are classified based on the categorization system used by the JGSK for its publications, distinguishing between general research topics and applied research topics.

Fig. 4.

The wordcloud of each geological research topic (k = 12) in the JGSK. The size of the word represents the proportion of the word in the topic . Topics highlighted with a red dashed border (Topic #11 and Topic #12) are classified as applied research topics.

“암석학”(Topic #1)은 암석의 기원, 구성, 분포 및 변화를 연구하는 분야로 전체 논문 중 14.24%를 차지하였다. 암석학 분야는 변성작용 및 지화학적 특성(Oh et al., 1995; Park, 2009; Jeong and Oh, 2021), 화성활동과 마그마 과정(Hwang and Choi, 2001; Hwang and Kim, 2006; Hwang et al., 2007)과 관련된 다양한 연구들이 진행되었다.

“고생물학”(Topic #2)은 고대 생태계와 환경을 연구하는 분야로, 전체 논문 중 약 10.83%를 차지하였다. 고생태학 분야는 화석 기록을 이용한 고환경 분석(Paik et al., 1998; Hwang et al., 2002; Kim et al., 2011; Park and Park, 2017)과 관련된 논문들이 있었으며, 코노돈트(Conodont) 화석을 이용한 연구(Lee, 1990; Lee et al., 1993; Park, 1993, 1996; Seo, 2000)들이 다수 존재하였다.

“수리지질학”(Topic #3)은 지하수의 발생, 이동, 분포 및 특성을 연구하는 학문으로, 전체 논문 중 약 10.50%를 차지하였다. 수리지질학은 지하수와 관련된 다양한 연구주제를 포함하고 있으며, 지하수-지표수 상호작용(Shin et al., 2016; Jo and Jeen, 2018; Lee, C. et al., 2019; Jung et al., 2021), 지열시스템(Park et al., 2013; Park, Y.G. et al., 2015; Mok et al., 2018), 토양수분 및 지하수 함양(Ha et al., 2016; Noh et al., 2018; Kim, J.J. et al., 2020; Lee, S. et al., 2022)과 관련된 논문들이 존재하였고, 인공지능을 활용한 지하수 연구들도 존재하였다(Yoon et al., 2016; Kim, G.B. et al., 2019, 2020; Kim and Hwang, 2022).

“지질연대학”(Topic #4)은 지구의 역사와 암석, 화석 및 지층의 형성시기를 정량적으로 결정하는 기술로, 전체 논문 중 약 9.95%를 차지하였다. 지질연대학 분야에 속한 연구들은 U-Pb 연대측정 방법을 활용하여 지층 및 암석의 형성 시기를 분석한 논문(Park et al., 2011; Chae et al., 2019; Choi and Kwon, 2019; Kim, M.J. et al., 2021; Lee, B.C. et al., 2022)이 주를 이루었으며, 층서 분석 및 고지자기 연구를 통해 지질연대를 측정한 연구(Kang and Kim, 2000; Kim, W. et al., 2002; Kang and Paik, 2013)도 다수 존재였다.

“구조지질학”(Topic #5)은 지각의 변형과 구조를 연구하는 분야로, 전체 논문 중 9.43%를 차지하였다. 구조지질학 분야는 단층활동 및 특성(Hong and Lee, 2012; Bae and Lee, 2016; Park et al., 2020), 지구조 운동 및 고응력장 분석(Hwang, 1994; Chang and Baek, 1995; Chang, 2001; Jang and Jeong, 2005)와 관련된 연구들이 있었으며, ESR (Electron Spin Resonance)과 OSL (Optically Stimulated Luminescence)을 사용하여 단층의 활동시기 및 특성을 분석한 연구들이 존재하였다(Lee and Hong, 2007; Bae and Lee, 2014; Weon and Lee, 2018).

“퇴적학”(Topic #6)은 퇴적물의 형성과 퇴적 작용을 연구하는 분야로, 전체 논문 중 약 8.98%를 차지하였다. 퇴적물 분석을 통한 고환경연구(Bak et al., 2007; Ryu et al., 2008; Jun et al., 2009; Bak et al., 2010), 지화학 분석 및 해수면 변화(Ryu et al., 2005; Kim and Park, 2006; Chang and Nam, 2011) 등 퇴적 분석을 통해 고환경을 해석하고자 하는 다양한 연구들이 수행되었다.

“지구물리학”(Topic #7)은 지진파, 중력, 자기장 등 물리학적인 원리를 통해 지구 내부구조와 물리적 현상을 분석하는 분야로, 전체 논문 중 약 8.87%를 차지하였다. 지구물리학 분야는 지진 및 지진파 분석(Shin and Baag, 1996; Sheen and Shin, 2010; Sheen, 2015; Son et al., 2022), 물리탐사기법을 활용한 천부·심부 지각구조 분석(Kim, D.H. et al., 2002; Park et al., 2002)등 다양한 지구물리학적 연구들이 있었으며, 심층학습모델(Deep learning) 및 인공신경망을 활용한 지진 및 산사태와 관련된 연구(Lee et al., 2005; Sheen et al., 2023)들이 존재하였다.

“환경지질학”(Topic #8)은 지질학적 원리와 방법을 활용하여 토양 및 지하수의 오염문제를 해결하는 데 중점을 두는 분야로, 전체 논문 중 5.62%를 차지하였다. 환경지질학 분야는 중금속 오염 및 정화 기술(Lee et al., 2001; Roh et al., 2001; Song et al., 2005; Choi, 2006; Han et al., 2014), 토양 오염 및 흡착 특성(Lee, 2001; Lee et al., 2002; Jung et al., 2004)과 관련된 다양한 연구들이 수행되었다.

“화산학”(Topic #9)은 화산의 기원, 형성, 분출 과정과 그에 따른 지형 변화 및 영향을 연구하는 분야로, 전체 논문 중 약 4.94%를 차지하였다. 화산학 분야는 화산활동 및 화산재 층서 연구(Yun et al., 1993; Chun et al., 1998; Koh et al., 2021a, 2021b, 2021c), 화산 지형 및 구조 연구(Sohn and Park, 1994; Hwang, 2001; Hwang et al., 2005)들이 존재하였다. 화산학 분야의 연구들은 대부분 제주도를 대상으로 수행되었으며, 일부 연구들이 독도와 백두산을 대상으로 수행되었다.

“지질유산”(Topic #10)은 지질학적 가치가 높은 지역을 발굴, 평가, 보존, 관리, 교육 및 홍보하는 분야로 전체 논문 중 약 4.56%를 차지하였다. 지질유산 분야는 지질공원 및 지질유산의 가치 평가(Cho et al., 2016; Kang et al., 2016; Lee et al., 2016; Shin et al., 2018; Ju and Woo, 2019), 교육, 홍보, 운영방안(Kim et al., 2014; Kim and Lim, 2016; Lee and Shin, 2019; Lee, J.K. et al., 2019)등 다양한 연구들이 진행되었다.

“동위원소 지질학”(Topic #11)은 동위원소를 이용하여 암석, 광물, 화석, 지하수 등의 기원을 추적하고 연대를 측정하는 분야로, 전체 논문 중 약 6.29%를 차지하였다. 동위원소 지질학 분야는 동위원소를 수문학(Lee and Chang, 1994; Lee and Lee, 1999; Park et al., 2006; Cho et al., 2007) 및 고환경(Jo et al., 2006; Hur and Ahn, 2017; Jeong and Huh, 2023)연구의 연구방법으로 활용하고 있었으며, 태양계 구성물질과 운석(Choi, 2008; Lee et al., 2009)을 동위원소로 해석하고자 하는 논문들도 존재하였다.

“이산화탄소 지중 저장”(Topic #12)은 대기중 이산화탄소를 지중에 저장하여 기후 변화 완화 및 탄소 배출 감소를 목표로 하는 기술로, 전체 논문 중 약 5.79%를 차지하였다. 이산화탄소 지중 저장 분야는 이산화탄소 지중 저장 용량 평가(Kihm and Kim, 2013; Choi et al., 2015a; Park, J.-Y. et al., 2015), 광물학적·화학적 반응(Choi et al., 2009, 2015b; Lee et al., 2017) 등 이산화탄소를 지중 저장하기 위한 모델링 및 예비평가 연구들이 주를 이루었다.

3.2. “지질학회지”의 연구주제별 연구동향 분석

LDA 모델을 통해 도출된 연구주제를 바탕으로, 연도별 주제의 비율(θkt)을 계산하여 연구동향을 분석하였다. 연구주제별 연구동향은 단순선형회귀분석을 통해 확인하였으며, θkt의 변화에 따른 경향을 주제에 따른 선형회귀계수(slopek)로 분석하였다. 왈드 검정을 통해 회귀계수의 유의성을 판단하여 연구주제를 Classic topic, Emerging topic, Stable topic으로 분류하였다(그림 5). 1993년 이전에 발표된 논문은 상대적으로 논문편수가 부족하기 때문에 통계적으로 유의미한 연구동향 분석의 어려움이 존재하였다. 따라서, 전체적인 연구흐름을 파악하기 위해 1993년 이후에 발표된 논문을 대상으로 연구동향 분석을 수행하였다.

Fig. 5.

The annual proportion of each geological research topic (k = 12) in the JGSK using data from 1993 onwards. The line plots show the status (emerging, classic, and stable) of each research topic with different colors (red, blue, and grey). Statistics performed by Wald test with the linear regression coefficient (*p < 0.05 and **p < 0.01). Topics highlighted with a red dashed border (Topic #11 and Topic #12) are classified as applied research topics.

Classic topic (slopek < 0, p < 0.05)은 “지질학회지”의 창간초기부터 중점적으로 다뤄졌으나 시간이 지남에 따라 비중이 감소한 주제들로, “암석학”(Topic #1, slope1 = ‑8.07 × 10-3), “고생물학”(Topic #2, slope2 = ‑2.06 × 10-3), “구조지질학”(Topic #5, slope5 = ‑1.98 × 10-3)과 같은 연구주제들이 존재하였다. 위와 같은 연구주제들은 2008년 이전부터 활발히 연구되었으나, 이후 다양한 연구주제가 등장하면서 비중이 감소하였다.

Emerging topic (slopek > 0, p < 0.05)은 최근에 연구 비중이 증가하고 있는 연구주제들로, “수리지질학”(Topic #3, slope3 = 6.07 × 10-3), “지질유산”(Topic #10, slope10 = 3.31 × 10-3)과 같은 연구주제들이 존재하였다. 이러한 연구주제들은 2008년 이후부터 현재까지 연구 비중이 증가하고 있으며, 현대 지질학 연구의 주요 동향을 반영하는 것으로 판단된다.

Stable topic (p > 0.05)은 유의미한 추세변화가 없는 연구주제들로, “지질연대학”(Topic #4, slope4 = ‑0.04 × 10-3), “퇴적학”(Topic #6, slope6 = ‑0.21 × 10-3), “지구물리학” (Topic #7, slope7 = 1.53 × 10-3), “환경지질학”(Topic #8, slope8 = 0.25 × 10-3), “화산학”(Topic #9, slope9 = ‑0.99 × 10-3), “동위원소 지질학”(Topic #11, slope11 = 0.55 × 10-3), “이산화탄소 지중 저장” (Topic #12, slope12 = 0.13 × 10-3), 과 같은 연구주제들이 존재하였다. 이러한 주제들은 과거부터 현재까지 뚜렷한 변화 추세를 보이지 않고 있으며, 일정한 연구 관심을 유지하고 있는 것으로 판단된다.

3.3. 네트워크 분석을 통한 “지질학회지”의 연구주제간 시대별 연관성 분석

연구주제간 연관성을 확인하기 위해LDA 모델의 결과인 문서별 주제의 확률분포 θd를 이용하여 네트워크를 계산하였으며, 시대별로 분석하였다.

1993년 이전의 네트워크(Mt≤1993)는 총 422편을 포함하고 있으며, 연구주제간 연관성은 그림 6a에 나타내었다. 1993년 이전 네트워크의 전체 평균 연관 가중치는 0.50였으며, 연구주제 중 “암석학”(Topic #1)이 가장 높은 연관 가중치(w1¯= 0.88)를 보였다. 1993년 이전 네트워크에서 연구주제간 높은 연관성을 보여주는 주제들은 “암석학”-“고생물학”(Topic #1-Topic #2, w1,2 = 2.86), “암석학” -“구조지질학”(Topic #1-Topic #5, w1,5 = 1.41), “고생물학” -“지질연대학”(Topic #2-Topic #4, w2,4 = 1.30), “암석학” -“지구물리학”(Topic #1-Topic#7, w1,7 = 1.10)순으로 연관가중치가 높았다. 이러한 결과는 1993년 이전에 게재된 논문들이 주로 “암석학”을 중심으로 다양한 연구주제와 관련되어 있음을 보여준다.

Fig. 6.

The association network across three periods: (a) t ≤ 1993, (b) 1993 < t ≤ 2008, and (c) t > 2008. Nodes represent the research topics and edges represent the association weight (w). The thickness of the edges indicates the strength of the association between topics. The trend status (emerging, classic, and stable) of each topics is represented with different colors (red, blue, and grey).

1993년부터 2008년 까지의 네트워크(M1993<t≤2008)는 총 579편을 포함하고 있으며, 연구주제 간 연관성은 그림 6b에 나타내었다. 1993년부터 2008까지의 네트워크의 전체 평균 연관 가중치는 0.96였으며, 연구주제 중 “암석학”(Topic #1)이 가장 높은 연관 가중치(w1¯= 0.94)를 보였다. 1993년부터 2008년 까지의 네트워크에서 연구주제간 높은 연관성을 보여주는 주제들은 “암석학”-“구조지질학”(Topic #1-Topic #5, w1,5 = 2.99), “수리지질학” -“동위원소 지질학”(Topic #3-Topic #11, w3,11 = 2.93), “암석학” -“지질연대학”(Topic #1-Topic #4, w1,4 = 2.33), “암석학” -“고생물학”(Topic #1-Topic#2, w1,2 = 2.27)순으로 연관가중치가 높았다. 이를 통해 1993년부터 2008년까지 게재된 논문들이 주로 “암석학”을 중심으로 다양한 연구주제와 관련되어 있음을 알 수 있었다.

2008년 이후의 네트워크(Mt>2008)는 총 797편을 포함하고 있으며, 연구주제 간 연관성은 그림 6c에 나타내었다. 2008년 이후 네트워크의 전체 평균 연관 가중치는 2.20였으며, 연구주제 중 “수리지질학”(Topic #3)이 가장 높은 연관 가중치 (w3¯= 3.52)를 보였다. 2008년 이후 네트워크에서 연구주제간 높은 연관성을 보여주는 주제들은 “수리지질학”-“환경지질학”(Topic #3-Topic #8, w3,8 = 7.96), “구조지질학-“지구물리학”(Topic #5-Topic #7, w5,7 = 7.02), “수리지질학”-“이산화탄소 지중” (Topic #3-Topic #12, w3,12 = 6.29), “암석학”-“지질연대학”(Topic #1-Topic #4, w1,4 = 5.64) 순으로 연관가중치가 높았다. 이러한 결과는 2008년 이후 게재된 논문들이 “수리지질학”을 중심으로 다양한 연구주제와 밀접하게 관련되어 있음을 나타낸다.

4. 토의 및 결론

본 연구는 “지질학회지”에 게재된 논문들을 대상으로 텍스트 마이닝 기법을 적용하여 연구주제와 동향을 분석하였다. LDA모델을 통해 도출된 연구주제들을 기반으로, 각 주제별 연구 비율의 변화를 단순선형회귀분석을 통해 분석 및 검정하였으며, 이를 바탕으로 연구주제를 Classic topic, Emerging topic, Stable topic으로 분류하였다. 또한, 네트워크 분석을 통해 각 연구주제간 연관성을 시각적으로 나타내어 주제간 관계를 확인하였다.

연구결과, “지질학회지”에 게재된 논문들은 시간에 따라 연구주제가 변화하고 있음을 확인할 수 있었다. Classic topic은 “암석학”, “고생물학”, “구조지질학”으로 분류할 수 있었으며, “지질학회지” 창간 초기부터 중점적으로 다뤄졌으나 시간이 지남에 따라 비중이 감소하였다. Emerging topic은 “수리지질학”, “지질유산”으로 분류할 수 있었으며, 최근에 연구 비중이 증가하고 있는 것을 확인하였다. 특히, “지질학회지”는 지질공원(2014년)과 지질유산(2016년)을 다루는 특별호를 발행하였으며, “지질유산”과 관련된 연구주제들이 최근 주목받는 연구 영역으로 부상된 것으로 판단된다. Stable topic은 “지질연대학”, “퇴적학”, “지구물리학”, “동위원소 지질학”, “이산화탄소 지중 저장”, “환경지질학”, “화산학” 분류할 수 있었으며, 연구비중이 시간에 따른 추세변화를 보이지 않고 일정하게 유지되고 있는 것을 확인하였다. 네트워크 분석 결과, 2008년 이전에는 “암석학”이 주요 연구주제로서 다양한 주제와 밀접하게 연관되어 있었다. 2008년 이후에는 “수리지질학”이 주요 연구주제로 부상하였으며, 다양한 주제와 연관성을 보여주었다. 연구동향 분석 및 네트워크 분석의 결과는 시간에 따른 연주주제들의 변화와 중심주제의 변화를 확인할 수 있었다.

지질학은 복잡성, 연구주제의 중첩성, 학문간 경계의 모호성, 연구 방법의 다양성 등 다양한 요소로 인해 기계적으로 연구주제를 분류하는 데 한계점이 존재한다. 예를 들어, “고생물학”과 “층서학”은 화석과 관련된 연구를 포함하고 있기 때문에, 화석을 통해 지층의 연대를 결정하거나 환경을 재구성할 시 두 주제를 중첩될 수 있다. 또한, “퇴적학”은 퇴적환경을 재구성할 시 고생물학적 데이터가 필요할 수 있기 때문에, 연구주제를 명확하게 분류하기에는 어려움이 존재한다. 현대 지질학 연구는 여러 하위 분야의 접근법을 통합하려는 경향이 있기 때문에 학문 간 경계가 모호해질 수 있다. 특히, “화산학”은 “지구화학”, “지구물리학”, “지질공학” 등 다양한 지질학적 분야와 연관되어 있기 때문에 지질학의 연구주제 분류는 매우 복잡할 수 있다. 또한, 다양한 분석 기술로 인해 물리적, 화학적, 생물학적 분석방법을 적용하여 동일한 지질학 문제를 해결하고자 한다면, 해당 주제는 어떤 지질학적 하위 분야인지를 정의하기 모호할 수 있다. “이산화탄소 지중 저장”은 다학문적 연구가 요구되는 주제로, 전통적인 지질학 분류 체계로는 명확하게 분류하기 어려운 측면이 있다. 예를 들어, “이산화탄소 지중 저장”은 지구물리학, 지구화학, 환경지질학, 공학적 접근 등 다양한 연구주제들이 결합되어야 하는 응용 분야로 단일한 학문 범주로 구분되기 어려울 수 있다. “지질학회지”에서 다양한 기술응용적 연구주제가 다루어지고 있으나, 본 논문에서는 전체 논문 중 4.0% 이상을 차지하는 연구주제만 다루고 있기 때문에, 일부 기술응용적 연구주제는 분석에서 제외되었다. 따라서, 향후 다양한 기술응용적 연구주제들이 “지질학회지”에서 토의된다면, 해당 주제들에 대한 분석이 가능할 것으로 판단되며, 이를 통해 지질학의 연구 범위를 확장하고 응용 연구의 방향성을 제시하는 기초자료로 활용될 수 있을 것이다.

본 연구는 “지질학회지”의 연구주제와 동향을 체계적으로 분석하여 “지질학회지”의 전체적인 연구 흐름을 확인하였으며, 역사와 발전에 대해 토의하였다. 지질학의 특성상 명확한 연구주제 분류의 한계점이 존재하였으나, 본 연구는 정량적 분석 방법론을 통한 연구동향 분석 방법을 제시하였으며, 그에 따른 해석을 통해 지질학 연구의 복잡성을 이해하고자 하였다. 본 연구의 결과는 지질학 연구자들이 향후 연구에서 주목해야 할 연구주제와 융합 연구의 가능성을 탐색할 수 있을 것이다. 지질학 분야의 지속적인 발전을 위해 다양한 연구주제를 포괄할 수 있는 융합연구가 필요할 것으로 판단되며, 이를 통해 지질학의 다양한 문제 해결에 기여할 수 있을 것으로 판단된다.


이 논문은 2023년도 정부(교육부)의 재원으로 한국연구재단의 G-램프(LAMP) 사업 지원을 받아 수행된 연구임(No. RS-2023-00301702).


