컴퓨터/엑셀
오피스 문서(워드, 엑셀등)에서 한자, 일본어, 한글 추출
이비그치면
2013. 7. 8. 12:54
MS Office Documents(MS WORD, MS Excel etc.)에서 VBA를 이용하여
한자, 일본어, 한글 추출
unicode 와 정규식(Regular Expression) 사용
Sub test() Dim RegEx As Object Set RegEx = CreateObject("vbscript.regexp") '-- 한자 추출 RegEx.Pattern = "[\u2E80-\u2EFF\u3400-\u4DBF\u4E00-\u9FBF\uF900-\uFAFF\u20000-\u2A6DF\u2F800-\u2FA1F]+" RegEx.IgnoreCase = True RegEx.Global = True sStr = "태초(太初)에 하나님이 천지(天地)를 창조(創造)하시니라" Set matches = RegEx.Execute(sStr) For Each mch In matches Debug.Print mch.Value Next '-- 한글 추출 RegEx.Pattern = "[\uAC00-\uD7AF]+" Set matches = RegEx.Execute(sStr) For Each mch In matches Debug.Print mch.Value Next '-- 일어 추출 RegEx.Pattern = "[\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\u8EA1-\u8EFE\uFF61-\uFF9F]+" sStr = "はじめに神は天と地とを創造された" Set matches = RegEx.Execute(sStr) For Each mch In matches Debug.Print mch.Value Next End Sub
太初 天地 創造 태초 에 하나님이 천지 를 창조 하시니라 はじめに は と とを された