문제를 기능보다 먼저 정의합니다
현업이 실제로 멈추는 지점과 필요한 최소 업무를 먼저 확인합니다. 완벽한 시스템을 기다리기보다, 영향도와 우선순위에 맞춰 작동 가능한 경로를 만듭니다.
Senior Backend Engineer · FDE / Internal Tools Focus · 9년 차
현업의 병목을 찾아, 데이터·자동화·AI로 바로 쓰이는 도구를 만드는 엔지니어
결제·커머스·항공·메시징 도메인에서 대용량 처리와 외부 연동 시스템을 설계·운영해 왔습니다. 최근에는 장애 상황에서 업무 연속성을 확보하는 긴급 운영 도구와, 데이터 수집부터 AI 분석·알림까지 연결한 자동화 서비스를 직접 구축하며 문제 정의부터 배포·운영까지의 실행력을 확장하고 있습니다.
현업이 실제로 멈추는 지점과 필요한 최소 업무를 먼저 확인합니다. 완벽한 시스템을 기다리기보다, 영향도와 우선순위에 맞춰 작동 가능한 경로를 만듭니다.
외부 API, DB, 배치, 알림 채널을 한 흐름으로 설계합니다. 사람이 반복 조회·정리하던 정보를 현업이 즉시 활용할 수 있는 화면과 알림으로 바꿉니다.
예외 처리, 재시도, 속도 제한, 로그, 데이터 검증을 기본으로 둡니다. 빠른 프로토타입을 실제 운영의 출발점으로 연결하는 데 집중합니다.
운영 서버 하드웨어 장애로 특정 DB 접속이 끊기자, 여러 DB를 동기 참조하던 레거시 백오피스 전체가 중단된 상황을 대응했습니다.
한국·미국 주요 20개 종목의 뉴스와 가격을 수집하고, LLM 분석 결과를 대시보드와 텔레그램 리포트로 제공하는 자동화 파이프라인입니다.
연구개발팀 과장
개발팀 팀장 · 백엔드 리드
백엔드 리드
I&S 개발팀 · 결제 시스템 개발
서버 개발 및 운영
Java/Spring Boot와 Node.js/TypeScript를 기반으로 REST API, 외부 SaaS·결제·메시징 연동, 비동기 처리 시스템을 설계합니다.
DB·배치·워크플로·알림을 연결하고, LLM Structured Output을 활용해 사람이 쓰는 데이터 흐름으로 바꿉니다.
Timeout, Retry, Rate Limit, Queue, 모니터링과 장애 격리를 고려해 빠른 도구도 운영 가능한 시스템으로 연결합니다.
AWS 기반 인프라, Docker 이미지 빌드·배포, CI/CD 파이프라인을 구성하고 서비스 운영 환경을 함께 설계합니다.
FDE/내부 도구 역할에 맞춰, 문제를 어떻게 정의했고 어떤 범위로 빠르게 실행했으며 어떤 운영 결과를 만들었는지에 집중해 정리했습니다.
하드웨어 문제로 운영 서버가 셧다운되며 특정 DB 접근이 불가해졌고, 여러 서버의 DB를 동기적으로 참조하던 레거시 모놀리식 백오피스 전체가 동작하지 않았습니다. 서버 복구에는 약 4시간이 소요되는 상황이었습니다.
판단장애 난 시스템을 단기간에 복구하는 것보다, 운영팀이 즉시 필요한 회원 조회·메시지 발송 현황 확인을 별도 경로로 제공하는 일이 우선이라고 판단했습니다.
실행정상 DB만 참조하는 읽기 전용 Emergency Backoffice를 약 30분 내 구현했습니다. 빠른 개발을 위해 AI 도구를 보조적으로 활용했지만, 조회 범위와 데이터 의존성은 명시적으로 제한해 운영 리스크를 낮췄습니다.
결과: 서버 복구 기간 동안 핵심 운영 업무를 지속하고, DB 이중화·의존성 격리·부분 기능 저하 설계의 개선 과제를 도출.
고객사 Agent의 DB 중심 처리와 SQL limit 기반 TPS 제어는 메시지 유형별 우선순위, 속도 제어, 장애 격리 요구에 유연하게 대응하기 어려웠습니다.
실행메시지 타입별 DB → Queue 독립 파이프라인과 우선순위 큐를 도입하고, Bucket4j Rate Limiter로 TPS 제어를 개선했습니다. Socket 통신을 Netty 기반 이벤트 드리븐 방식으로 전환했습니다.
결과: 대량 메시지 환경에서 처리 흐름의 독립성, 제어 가능성, 운영 가시성을 높이는 기반 마련.
여러 종목의 뉴스와 가격 정보를 매일 직접 확인하고 정리하는 과정은 반복적이고, 분석 결과의 형식이 일정하지 않아 대시보드·알림으로 재활용하기 어려웠습니다.
실행Google News RSS와 Yahoo Finance 데이터를 수집하고 Gemini Structured Output으로 점수·추세·요약·인사이트를 정형화했습니다. 결과를 CSV로 누적해 Cloudflare 대시보드와 Telegram 리포트로 제공하고, GitHub Actions가 정기 실행과 장중 시세 갱신을 맡도록 구성했습니다.
운영 고려429/503 재시도와 서버 제공 RetryInfo 반영, 종목별 요청 간격, 텔레그램 길이 제한 분할, 실패 응답 검증을 적용해 외부 API 의존성을 통제했습니다.
결과: 데이터 수집 → AI 분석 → 저장 → 시각화 → 알림까지 연결된 실운영형 자동화 파이프라인 구축.