박시현

Sihyun  Park

FIELDData Analysis, Statistics, Ai
TOOLSR, Stata, Python, SAS, SPSS
박시현 프로필 사진

about me

제 가치관을 소개합니다.

인생에서 가장 중요하다고 생각하는 덕목 3가지

01

꾸준함

꾸준함이 전부다.

꾸준함이 가진 가장 큰 장점은 시간이 지남에 따라 발생하는 복리 효과에 있다고 생각합니다. 당장 눈앞에 보이는 성과가 미미하더라도 그것이 매일 쌓이면 나중에는 상상하지 못했던 거대한 격차를 만들어내기 때문입니다. 꾸준함은 단순히 성실함을 넘어 장기적인 목표를 현실로 바꾸는 가장 확실하고 강력한 전략입니다.

02

실행력

고민보다는 Go!

계획의 완벽함보다 중요한 것은 실전에서의 실행력이라고 생각합니다. 머릿속의 기나긴 고민은 도전을 지연시킬 뿐 진짜 해답은 직접 부딪치며 얻는 생생한 피드백 속에 존재하기 때문입니다. 결국 현실을 바꾸는 것은 완벽한 계획 100개가 아닌 한 번 의 실행입니다.

03

끈기

인생에 성공과 실패는 없다. 성공과 과정만 있을 뿐.

끈기는 실패를 좌절이 아닌 도약을 위한 과정으로 탈바꿈시키는 힘이라고 생각합니다. 당장 눈앞의 결과가 기대에 미치지 못하더라도 포기하지 않고 묵묵히 나아갈 때 비로소 스스로의 한계를 극복하고 진정한 성장을 이룰 수 있기 때문입니다. 끈기는 어떤 난관 속에서도 흔들림 없이 목표에 도달할 수 있게 해주는 가장 굳건한 삶의 태도입니다.

projects

진행한 프로젝트

Project 01, 2025.10 → 2026.03

NICE 페르소나 DB 구축 프로젝트

40대 카드 고객 안에서 외형으로는 보이지 않는 행동적 이질성을 통계적으로 분리해 4단계 리스크 운영 등급으로 변환했습니다.

발주처
NICE신용평가
역할
연구원
기간
2025.10 → 2026.03 (6개월)
사용 도구
R, Python
K-Prototypes LCA 다항 로지스틱 페르소나 DB

프로젝트 목적

같은 재무 체급 안에 다른 행동 패턴이 섞여 있습니다.

2024년 가계금융복지조사 기준 40대 가구주의 금융부채 보유비율은 72.4%로 전 연령대 중 가장 높습니다. 한국은행 2025년 12월 금융안정보고서도 부채 보유 가계의 상환부담을 경고했습니다. 즉 40대는 부채를 가장 많이 보유하면서도 그 내부 구조가 가장 다양하게 분화된 집단입니다.

그러나 자산, 소득, 부채의 총량만 보면 같은 외형 안에도 결제 안정형과 리볼빙, 카드론 의존형이 섞여 있는 행동적 이질성을 잡아낼 수 없습니다. 이 차이를 통계적으로 분리해 NICE 마케팅, 리스크 부서가 곧바로 쓸 수 있는 운영 등급으로 변환하는 것이 본 프로젝트의 목적이었습니다.

과정: 왜 이 방법을 골랐는가

방법론 선택의 3가지 분기점.

왜 K-means가 아니라 K-Prototypes였나?

투입 데이터가 수치형(소득, 카드사용액, 총대출)과 범주형(주택 보유, 입출금 상태)이 혼합된 구조였기 때문입니다. K-means는 수치형 전용이라 범주형 정보가 손실되고, K-modes는 그 반대였습니다. K-Prototypes는 수치형의 유클리드 거리와 범주형의 일치 여부를 동시에 활용하므로 사실상 유일한 선택지였습니다.

왜 K-Prototypes만으로 충분하지 않았나?

1차 군집 결과에서 K5는 K2와 외형이 유사했지만 입출금 음수흐름 z=3.236으로 실제 자금 압박 신호가 압도적이었습니다. 동일 군집 안에도 행동 패턴이 질적으로 다른 하위 유형이 존재한다는 가설을 검증할 필요가 있었습니다.

왜 LCA를 썼나?

프로젝트 주제 자체가 "페르소나를 정의하는 것"이었고 LCA는 응답 패턴을 확률 기반으로 분류하는 모형이라 도출된 잠재계층 자체가 페르소나라고 볼 수 있었습니다. 군집 결과에 사후 라벨을 붙이는 것이 아니라 모형이 만들어내는 잠재 집단이 곧 페르소나가 되는 구조였기 때문에 LCA를 선택했습니다.

파이프라인

2단계 분석으로 설계한 전 과정.

Stage 1 표본 필터링 40대, 마이데이터 연동자
Stage 2 변수 설계 (3축) 자산 / 소비 / 부채
Stage 3 K-Prototypes 군집 K=5, Jaccard 0.963
Stage 4 관심군 K5 선정 입출금 음수흐름 z=3.236
Stage 5 LCA 잠재계층 5-class
Stage 6 5개 페르소나 도출 고객 유형 분류
Stage 7 다항 로지스틱 결정요인 식별
Stage 8 4단계 리스크 등급 건전, 잠재, 경고, 즉시

결과: 5개 페르소나

한 군집 안에서 다시 갈라진 5개 잠재 유형.

아래 카드를 클릭하면 핵심 행태 수치와 추천 비즈니스 전략이 표시됩니다.

결과: 4단계 리스크 운영 등급

5개 페르소나를 위험등급에 따라 4단계로 분류했습니다.

건전 963명 22.0% C1
잠재 리스크 954명 21.8% C2
잠재 리스크 1,020명 23.3% C3
경고 리스크 840명 19.2% C4
즉시 리스크 596명 13.6% C5

CRM에는 단일 유형 고정 배정이 아닌 확률적 소속(soft assignment) 기반 운영을 제안했습니다.
같은 고객이 시점에 따라 잠재 ↔ 경고 등급 사이를 이동할 수 있다는 점을 반영하기 위함입니다.

결과: 정량 성과

모형의 안정성과 유의성을 모두 확보했습니다.

지표 수치 의미
군집 안정성Jaccard 평균 0.963 K-Prototypes 5개 군집, 최소 0.947까지 안정적으로 재현.
LCA 적합도부트스트랩 GOF p = 0.63 5-class 모형이 통계적 적합성 통과.
회귀 전체 모형χ², df = 24 1,352.06 p < 0.0001. 유형 분류에 통계적으로 유의한 결정요인 식별.
변별력 최강 요인신용점수 단일 χ² 1,195.85 공변량 6개 중 단일 변수로 가장 강한 분류 기여

느낀점

이 프로젝트가 남긴 세 가지.

01
계획대로 진행되지 않는다고 좌절하고 포기하지 말자.

공들인 모델링이 실패로 돌아갔을 때, 매몰 비용에 대한 미련과 좌절감을 내려놓기 위해 노력했습니다. 계획이 틀어지는 것은 실패가 아니라 더 나은 해답을 찾아가는 자연스러운 과정의 일부라고 생각했기 때문입니다. 막막한 상황에서도 감정적으로 포기하는 대신 이성적으로 지금 할 수 있는 다른 최선을 찾아내는 단단한 멘탈을 갖추게 되었습니다.

02
하나의 관점에 얽매이지 않고 다양한 관점을 가지자.

초기에 설계한 방식 안에서만 정답을 찾으려 했을 때는 한계가 명확했습니다. 하지만 하나의 방법론에만 얽매이지 않고 다양한 방법론을 고려하며 다각도로 접근하자 비로소 문제의 본질이 보이기 시작했습니다. 넓은 시야로 다양한 관점을 가지는 것이 중요하다는 것을 깨달았습니다.

03
모든 선택의 이면에 명확한 근거를 남기자.

납득 가능한 기준을 세우기 위해 변수 하나를 정의하고 로직을 수정할 때마다 끊임없이 질문하며 그 근거를 기록했습니다. 이 습관 덕분에 전략을 전면 수정해야 했을 때도 기존의 논리적 흐름을 빠르게 역추적하여 시간 낭비 없이 새로운 전략을 설계할 수 있었습니다. 탄탄한 논리적 근거만 뒷받침된다면 언제든 상황에 맞춰 방향을 재설정할 수 있다는 자신감을 얻었습니다.

Project 02, 2026.02 → 2026.03

노인 사회활동 유형과 결정요인 분석 통계 컨설팅

1차 분석을 끝낸 뒤, 분석의 문제점을 발견하고 처음부터 다시 분석을 진행했습니다.
의뢰인이 직접 지적하지 않은 부분까지 스스로 찾아 보완하였습니다.

의뢰처
고려대학교 통계연구소
역할
연구원
기간
2026.02 → 2026.03 (2개월)
사용 도구
Stata, R
LCA 복합표본설계 다항 로지스틱 컨설팅

프로젝트 목적

노인의 사회활동 패턴을 유형화하고, 그 결정요인을 통계적으로 밝힌다.

의뢰는 노인의 사회활동 참여 여부를 넘어 사회활동 패턴이 유사한 집단을 잠재계층분석(LCA)으로 나누고 다항 로지스틱 회귀분석으로 각 집단의 결정요인을 밝히는 일이었습니다.

과정: 왜 이 선택을 했는가

의사결정의 3가지 분기점.

왜 LCA를 썼나?

노인의 사회활동은 "참여한다, 안 한다"로 단순히 나눌 수 없습니다. 사람마다 친목, 경제, 종교/자원봉사, 교육 중 어디에 참여하는지 조합이 다르기 때문입니다. LCA는 이런 응답 패턴이 비슷한 사람들을 확률적으로 묶어 주는 모형이라 활동 참여 유형 자체를 잠재계층으로 정의할 수 있어 선택했습니다.

왜 가중치를 적용해 처음부터 다시 돌렸나?

노인실태조사는 층화, 군집, 가중치를 가진 복합표본 설계 조사입니다. 가중치를 적용하지 않으면 추출 확률이 다른 응답자들을 동일하게 취급하게 돼 모집단 분포가 왜곡되고 군집표본의 군집 내 상관을 무시하면 표준오차가 과소추정되어 유의성 판정이 잘못 나올 수 있었습니다.

왜 클래스 수가 3인가?

LCA는 클래스 수를 늘릴수록 적합도 지표는 계속 좋아지지만 동시에 모형 추정이 불안정해지고 클래스 하나의 표본 수가 너무 작아져 해석하기 어려워집니다. 클래스 수를 2개부터 늘려가며 적합도와 안정성을 같이 비교했을 때 3개에서 모형이 안정적으로 수렴하면서 각 집단이 해석 가능하게 분리되었습니다.

결과: Before / After

가중치 적용으로 결과의 의미가 바뀌었습니다.

유형 활동 패턴 요약 비중
유형 1, 다영역 적극참여형 친목, 종교, 경제, 교육 4영역 모두 중간 이상 14.0%↓ 10%p
유형 2, 사회활동 비참여형 모든 영역에서 가장 낮은 참여 47.0%↑ 14%p
유형 3, 경제/친목 중심형 친목 95%, 경제 62% 집중 39.0%↓ 4%p

비중 변화 폭이 크다는 것은 1차 결과가 실제 모집단을 상당 부분 왜곡 표현했음을 입증합니다.
가중치 적용은 형식적 절차가 아니라 결과의 의미 자체를 바꾸는 결정이었습니다.

결과: 3개 유형

가중치 적용 최종 기준 3개 유형.

Type 01
다영역 적극참여형
  • 친목활동 86.7%
  • 종교/자원봉사 76.0%
  • 경제활동 31.3%
  • 교육활동 28.6%

여성, 전기노인, 고학력, 도시, 디지털 접근성 高

Type 02, 기준 범주
사회활동 비참여형
  • 친목활동 17.1%
  • 경제활동 25.8%
  • 종교/자원봉사 24.4%
  • 교육활동 8.5%

고령(75세↑), 저소득, 독거, 건강 취약

Type 03
경제/친목 중심형
  • 친목활동 95.0%
  • 경제활동 61.6%
  • 종교/자원봉사 29.3%
  • 교육활동 13.6%

남성, 전기노인, 농촌, 부부 가구, 경제활동 참여

느낀점

이 컨설팅이 남긴 세 가지.

01
나도 할 수 있다는 자신감.

데이터 전처리부터 모델링, 시각화, 최종 보고서 작성까지 분석의 전 과정을 완수했습니다. 파이프라인 전체를 직접 설계하고 마무리한 경험은 큰 성취감을 안겨주었고, 향후 어떤 낯선 과제가 주어지더라도 흔들림 없이 해결할 수 있다는 단단한 자신감으로 이어졌습니다.

02
결론이 나와도 과정을 한 번 더 점검하자.

산출된 결과를 그대로 신뢰하기보다 분석 과정에서 놓친 오류가 없는지 다시 짚어보는 습관을 길렀습니다. 완성된 작업물이라도 얼마든지 부족한 부분이 있을 수 있기 때문입니다. 허점을 스스로 발견하고 신속하게 수정하는 검증 역량이 실무에서 무엇보다 중요함을 깨달았습니다.

03
누구나 이해할 수 있는 직관적인 언어로 전달하자.

데이터 분석은 수치를 도출하는 데서 끝나지 않고 결과를 누구나 이해하고 활용할 수 있게 전달할 때 비로소 완성된다고 생각합니다. 다양한 부서와 협업하는 실무 환경일수록 복잡한 결과를 명확하게 전달할 수 있는 소통 역량이 필수적임을 깨달았습니다.

lab

요즘 만들고 있는 것들

진행 중

국내 주가 방향 예측 MLOps 프로젝트

정량, 정성 데이터 기반의 ML 모델로 주가 방향 예측부터 백테스트까지 자동화한 MLOps 파이프라인입니다.

진행 중

제스처 인식 미니 아케이드

웹캠으로 손동작을 인식해 별도의 컨트롤러 없이 브라우저에서 바로 즐길 수 있는 레트로 미니 게임 모음입니다.

운영 중

AI 뉴스 자동화 다이제스트

24시간 내에 작성된 최신 AI 뉴스를 LLM이 자동으로 수집 및 요약하여 이메일로 발송해 주는 개인화 뉴스레터 시스템입니다.

운영 중

자격증 모의고사 CBT 사이트

자격증 시험을 대비하고자 직접 개발한 웹 모의고사 CBT 사이트입니다.

strengths

제가 일하는 방식의 강점

저의 강점은 다음과 같습니다.

1%의 디테일을 집요하게 파고듭니다.

탁월한 결과물은 보이지 않는 디테일의 축적에서 비롯된다고 믿습니다. 1%의 차이가 전체 결과의 신뢰도를 결정하기 때문입니다. 따라서 사소한 변수나 이면의 맥락까지 놓치지 않고 꼼꼼하게 점검하여 프로젝트의 완성도를 결점 없이 끌어올립니다.

명확한 로드맵 설계와 유연한 우선순위 조율

목표 달성을 위한 전체 로드맵을 그리고, 이를 실행 단위로 세분화하여 체계적으로 접근합니다. 예기치 못한 변수로 계획이 틀어지더라도 문제 자체에 매몰되지 않습니다. 현재 상황에서 가장 중요한 것이 무엇인지 빠르게 파악하고 우선순위를 재조정하여 기한 내에 안정적으로 결과를 도출합니다.

성장을 이끄는 주도적인 태도와 빠른 적응력

현재 역량에 안주하지 않고 스스로 보완해야 할 점을 객관적으로 파악해 끊임없이 채워나갑니다. 지시를 기다리기보다 업무에 필요한 지식을 능동적으로 탐구합니다. 이러한 주도성을 바탕으로 낯선 과제나 새로운 도구 앞에서도 주저하지 않고 빠르게 돌파구를 찾아냅니다.

honestly

솔직하게, 보완하고 있는 점

스스로 약점이라고 생각하는 점과 그것을 어떻게 개선해나가고 있는지 적었습니다.

완벽을 기하다 보니 초기 실행이 늦어질 때가 있습니다.

작은 디테일까지 완벽을 기하는 성향이 있습니다. 그러다 보니 스스로 납득할 만큼 준비가 되기 전에는 첫걸음을 떼는 데 시간이 걸립니다. 기획을 탄탄하게 만든다는 장점도 있지만, 프로젝트의 민첩성을 떨어뜨릴 수 있음을 인지하고 있습니다.

보완 중 거대한 계획을 세우기보다, 당장 실행할 수 있는 작은 단위로 목표를 쪼개어 첫걸음을 떼는 연습을 하고 있습니다. 시작의 허들을 낮춰 빠르게 실행하고, 디테일은 점진적으로 덧붙여가는 방식을 훈련 중입니다.

혼자서 문제를 끝까지 해결하려다 시간을 지체하기도 합니다.

무엇이든 주도적으로 파고들어 해결하려는 성향이 강합니다. 그러다 보니 막히는 구간이 생겼을 때 곧바로 도움을 요청하지 못하는 편입니다. 스스로 완벽한 답을 찾아내려다 혼자 고민하는 시간이 길어지고, 결과적으로 전체 작업이 지체되던 경험이 있습니다.

보완 중 문제에 부딪히면 현재 상황과 시도한 방법들을 먼저 글로 적어 객관화합니다. 기록하는 과정에서 스스로 실마리를 찾기도 합니다. 풀리지 않을 때는 작성한 내용을 바탕으로 동료들에게 명확하게 상황을 전달하여 도움을 구하는 습관을 들이고 있습니다.

contact

자세한 내용은 CV에서 확인하실 수 있습니다.

GitHub github.com/ParkSiHyun28 이동