증사.jpeg

양효준

“안녕하세요

성장하는 개발자 양효준입니다”

Again and Again 무한한 배움을 통해 무한한 성장을 목표합니다.

<aside>

새로운 학습과 도전을 즐기며, 끝임없이 백엔드 개발자로서의 역량을 키워나가고 있습니다. 여러가지 언어를 활용한 실전 프로젝트를 통해 끊임없이 성장하는 개발자로서, 오늘보다 더 나은 내일을 향해 나아가고 있습니다.

</aside>

Introduction

🏫 부산소프트웨어마이스터고등학교 (재학중)

✉️ [email protected]

📞 010-3703-9874

https://velog.io/@hyojun/posts

https://github.com/hyojun6

기술

🏆 Activity & Career

2024 교내 해커톤 참여 : 가족 소통 웹사이트(KFC)

2024 교내 네트워크 경진대회 참여 : Oh My Neck

2025 교내 아이디어 해커톤 (우수상) : snatchy

2025 산호세 주립대학교(SJSU) 역량강화 프로그램 참여

2025 부산디지털혁신아카데미 : BDIA ICT골든벨 동상

2025 교내 동계 해커톤 (우수상) : ThatsNotYou

2026 해군·해병대 인공지능(AI)경진대회 참여

🧾 Certificate

2025 정보처리산업기사

Project

EMN

스크린샷 2025-09-23 오전 9.42.35.png

Frontend&Design 1명 Backend&AI&Server 1명

<aside>

사용자 맞춤형 아침 뉴스 요약 알림 서비스 25.09.02 ~ 25.12.25

</aside>

Github

https://github.com/hyojun6/EMN

Introduce

<aside>

바쁜 아침을 보내는 사람들을 위한 뉴스 요약 서비스로, 매일 아침 사용자가 원하는 주제또는 기본 카테고리에 관한 매우 짧은 요약본 알림을 통해 간단히 정보를 습득할 수 있으며 TTS를 통해 바쁜 아침에도 뉴스 정보를 손쉽게 습득할 수 있도록 도와줍니다. AI 교차검증을 통하여 뉴스 요약의 질을 향상시켰습니다. 바쁜 아침을 보내는 사람들이 뉴스를 손쉽게 접할수 있도록 지원하는 서비스입니다.

EMN

기획 - 80%
backend - 100%
AI - 100% </aside>

Contribution - BE

<aside>

1. 뉴스 수집 및 스케줄링 시스템 구현

카테고리별 인기 뉴스를 주기적으로 수집하기 위해 스케줄러 기반 크롤링 시스템 설계 및 개발
약 10개 뉴스 카테고리를 대상으로 매 시간마다 상위 뉴스 최대 2건 자동 수집
불필요한 중복 호출을 방지하고 최신성을 유지하기 위한 주기 및 수집 정책 설계

2. 뉴스 본문 크롤링 로직 개발

다양한 뉴스사의 상이한 HTML 구조를 분석하여 본문 영역을 추출하는 커스텀 크롤링 로직 구현
단순 API 의존이 아닌, DOM 구조 기반으로 정확한 콘텐츠 추출 방식 설계
사이트별 구조 차이를 고려한 유연한 파싱 처리 로직 적용

3. AI 기반 텍스트 전처리 파이프라인 구축

수집된 뉴스 본문을 활용하기 위해 AI 기반 전처리 로직 설계
불필요한 텍스트 제거 및 핵심 정보 중심으로 데이터 정제 프로세스 구현
이후 서비스 활용을 고려한 입력 데이터 품질 향상 </aside>

TroubleShooting

<aside>

1. 뉴스 API 사용 시 본문 데이터 누락 문제

문제 상황

네이버 Open API를 활용해 뉴스 데이터를 수집
API 정책상 뉴스 본문 전체가 제공되지 않고 일부 요약 데이터만 반환되는 문제 발생

원인 분석

해결 방법

API에서 제공되는 **뉴스 원문 링크(URL)**를 활용하여 직접 본문을 크롤링하는 방식으로 전환

# 1단계: 네이버 API에서 기사 URL 수집
def fetch_news(keyword, display=5):
    encText = urllib.parse.quote(keyword)
    url = f"<https://openapi.naver.com/v1/search/news.json?query={encText}&display={display}>"
    request = urllib.request.Request(url)
    request.add_header("X-Naver-Client-Id", client_id)
    request.add_header("X-Naver-Client-Secret", client_secret)
    data = json.loads(urllib.request.urlopen(request).read().decode('utf-8'))
    return data['items']

# 2단계: URL로 직접 본문 크롤링
def extract_full_text_and_thumbnail(url):
    res = urllib.request.urlopen(url)
    soup = BeautifulSoup(res.read(), "html.parser")
    article_div = soup.find("div", class_=class_mapping[domain])
    return article_div.get_text(strip=True)

결과

전체 뉴스 본문 확보 가능

2. Newspaper3k 사용 시 일부 뉴스 본문 추출 실패

문제 상황

Newspaper3k 라이브러리를 사용하여 뉴스 본문 자동 추출
뉴스사별 HTML 구조 차이로 인해 일부 기사에서 본문 추출 실패 발생

원인 분석

Newspaper3k는 일반적인 패턴 기반 추출 방식이기 때문에
커스텀 구조를 가진 뉴스 사이트에 대응하지 못함

해결 방법

네이버 뉴스 제휴 언론사들의 HTML 구조를 직접 분석
각 뉴스사의 본문이 포함된 태그 정보를 JSON 파일로 저장
BeautifulSoup을 활용하여 뉴스사별 맞춤형 파싱 로직 구현

뉴스사 → 본문 태그 정보(JSON) → BeautifulSoup → 본문 추출

크롤링이 불가능하도록 설계된 태그의 경우 자동으로 해당 뉴스 제외 처리 </aside>

양효준

“안녕하세요

Introduction

🏆 Activity & Career

🧾 Certificate

Project

EMN

Introduce

Contribution - BE

TroubleShooting

1. 뉴스 API 사용 시 본문 데이터 누락 문제

2. Newspaper3k 사용 시 일부 뉴스 본문 추출 실패

HITEENS