[입시통계] 회귀 분석으로 기존 정원 대비 모의지원 합격자 수 예측하기
게시글 주소: https://w.orbi.kr/00032294492
지난 글 1: 지원자의 점수대와 선호도를 바탕으로 최종등록여부를 판별하는 모델 구축
지난 글 2: 지원자 점수대를 유형별로 나누어 최종등록여부를 분류하는 모델 구축
지난 글 3: SB 분석기 분석 레포트 1,2,3
1. 서론
안녕하세요 설빙입니다 :D
9월 모의고사는 잘 치루셨나요?
좋은 성적을 받으셨다면 수능날까지도 이 페이스를 꾸준히 유지하셔서 유종의 미를 거두 시길 바라고,
만족하지 못하는 성적을 받았어도 조금만 늦게 찾아올 행복할 때를 고대하면서
견디다 보면 이전의 고생이 큰 성적 상승으로 돌아와 한 해를 뜻 깊게 끝마칠 수 있으실 겁니다.
환절기 감기 조심하시고 늘 좋은 하루가 되길 바랍니다.
2. 모의지원 합격자 수 배정의 딜레마
만일 이전에 모의지원 사이트에 들어가 성적 레포트들을 쭉 둘러보았다면,
어느 학과는 정원이 50명인데도 불구하고 최초합격 인원을 30명밖에 산정하지 않고,
어느 학과는 본래 정원보다 예상 최초합격 인원을 더 많이 산출하는 의아한 사실을 쉽게 발견할 수 있을 것이다.
이러한 이유는 간단하다.
지원자의 성적을 받아 성적순으로 나열하기만 하면 되는 입학처와는 달리,
모의지원 사이트는 해당 사이트에 점수를 입력한 지원자 외에도
사이트를 이용하지 않는 미이용 지원자의 경우의 수도 생각해야 하기 때문이다.
여기서 한가지 딜레마가 발생하는데,
만일 미이용 지원자의 영향을 너무 크게 잡으면 실제보다 컷을 더 높게 예측할 수 있고,
미이용 지원자들의 영향을 너무 적게 잡으면 실제보다 컷을 더 낮게 산정하여
모의지원 이용자들에게 큰 혼동과 불편함을 줄 수 있다.
그래서 모의지원 사이트는 보통 기존 데이터들을 바탕으로
이전 모의지원 사이트 이용 지원자수 대비실제 지원자수의 차이를 비교하여
최초합격 인원 수를 산정하는데,
이에 수치적 정확성을 첨가하고 각 학과의 모의지원 이용자 수 대비 실제 지원자 수의 차이인 정밀도에 따른 최적의 합격자 수를 산정하기 위해 회귀분석 기법을 사용해 모델의 정밀도에 따른최적의 예상 모의지원 인원을 계산해 보았다.
3. 알고리즘 분석 과정
임의로 가정한 가상의 성균관대, 연세대, 고려대의 2018년-2020년 입시 데이터를 기반으로 작업한다.
대학마다 다른 반영비, 성적 분포 등등은 표준화 과정을 통해 미리 전처리한다.
모의지원 합격자 수 산정의 정밀도는 최초합격 커트라인과 추가합격 커트라인을 분석해
실제 정원 대비 모의지원 실지원 최종합격 지원자수의 차이를 실제 정원으로 나누어 계산하였다.
계산의 결과, 정밀도가 높을수록 0에 수렴하고, 정밀도가 낮을 수록 값이 무한히 증가하는 추세를 보였기 때문에 통계적 분석의 편의성을 위해 0으로 수렴하는 숫자는 1/2으로 수렴하고, 값이 무한대로 발산할수록 1의 값에 가까워지는 Sigmoid 함수를 활용하여 정밀도를 표준화한다.
(그림 1. Sigmoid 함수의 개형. 마이너스 무한대로 발산하면 0으로 수렴하고, 0일떄는 0.5, 무한대로 발산하면 1로 수렴하는 경향성을 보인다.
다음은 가상의 데이터를 기반으로 한 모의지원의 정밀도가 가장 높은 학과를 정렬한 데이터다.
정밀도가 4.0이라는 것은 그 해 가상의 모의지원이 최초합격 합격자 수와 추가합격 합격자 수를 모두 정확하게 맞추었다는 뜻이다.
(그림 2. 모의지원 정밀도 Top 5)
다음은 가상의 데이터를 기반으로 한 모의지원의 정밀도가 가장 낮은 과를 정렬한 데이터다.
정밀도가 2에 가까울수록 실제 지원자 수와 모의지원 이용 실지원 합격자 수의 괴리가 크다는 의미이다.
(그림 3. 모의지원 정밀도 Worst 5)
다음은 대학, 연도에 따라 모델의 정밀도가 높은 순서로 정렬한 데이터다.
2020년도 연세대 예측 정밀도가 제일 높고, 그 다음으로 성대 2019, 연대 2019, 고대 2020의 순서로 따른다.
(그림 4. 학교, 년도에 따른 모의지원 정밀도 Top 5)
4. 회귀 분석 레포트
가상 모의지원 시나리오의 추가합격 데이터를 분석하여, 전체 표본 대비 정밀도가 중앙값 이상인 값과 이하인 값을 분류하고 이를 기반으로 선형 회귀를 진행해 보았다.
왼쪽의 그래프는 모의지원 예상 정밀도에 따른 실제 지원자와 모의지원 예측 합격자 수를 비교하여 나타냈고, 오른쪽의 그래프는 왼쪽의 선형 식을 기반으로 모델을 학습시켜 정밀도를 예측하게 한 다음, 검증 데이터로 분류해 둔 데이터와 비교해 모델 학습의 정확성과 정밀도에 따른 오차의 정도를 추측하였다.
위 데이터를 바탕으로 가상 모의지원 시나리오의 최초합격과 추가합격 데이터를 분석하여 정밀도가 3분위 수 이상인 데이터를 분류하고, 이를 기반으로 최종 데이터에 적용시켜 선형 회귀를 진행한 결과물이다.
이전의 그래프와 비교하여 표본의 수가 많아지고 정밀도에 따른 심도있는 분류를 진행하였기 때문에 시각적으로도 일정한 경향성을 파악할 수 있게 되었고, 정밀도의 오차율도 이전과 비교해 보다 더 0의 값에 가까이 수렴하는 성향을 보인다.
선형회귀 분석을 끝마춘 학습모델을 실제 데이터셋에 대입하여 예측한 예상 모의지원 정원을 전체 정원과 기존 모의지원 정원과 비교하여 데이터프레임과 그래프로 나누어 보았다.
분석의 결과 기존의 모의지원 정원보다 전체 정원의 결과에 더 근접한 예측 모델 케이스들이 많았지만, 여전히 전체 정원과 비교해 괴리가 있었을 뿐만 아니라 기존 모의지원 학습 결과가 예측 모델 결과보다 정밀도 면에서 더 나은 면모를 보이는 케이스도 있기 때문에 추가적인 리서치와 더불어 더 나은 분류 방법을 고안해 내고, 추가적인 심층적 공부의 필요성을 느꼈다.
5. 데이터의 사용처
모의지원 사이트 – 기존 유저 데이터를 기반으로 보다 더 정밀한 모델을 학습 시켜 올바른 실지원 합격자 수를 예측해 실제 지원자 수와의 괴리를 줄여 이용자가 겪는 불편함을 줄인다
모의지원 사이트 이용자 – 모의지원 사이트가 예측한 합격자 수와 모델이 예측한 합격자 수의 괴리가 큰 학과들을 분석해 모의지원 사이트가 예측하지 못한 추가 합격의 가능성을 확인한다.
6. 마무리
해당 분석기는 적어도 1년에서 길게는 2년의 텀을 두어 몇번의 수정과 번복을 한 다음에 최종적으로 시중에 배포할 예정입니다.
알맞은 데이터를 크롤링해서 적용하기만 하면 전처리 단계가 끝이 납니다.
제 깃허브 블로그에도 비슷한 주제의 글들을 올리고 있습니다. 심심할때 한번씩 와주세요 :D
블로그 주소 : https://joyhyun99.github.io/
0 XDK (+100)
-
100
-
교대 내신반영대상자편 1)전주, 진주, 부산(twenty six가능?) 8
늘은 교대 내신반영 대상자를 관련해서 적어보도록 하겠습니다 Chapter1)...
-
사회탐구 만점을 받는다면...? + 문과 정시의 현실 7
안녕하세요. 지리과외샘 미꾸리입니다. 저는 2020수능(2019 시행) 한국지리...
-
교대정시자료 2편 비교내신대상자 2편(스물여섯가능)? 8
Chapter 1) 전주교대, 대구교대 , 청주교대 특징 파악 2) 영어 1등급당...
-
[ 시험을 위한 멘탈관리 ] 수능 때 최대치로 잘보는 꿀팁 2
이번에는 시험대비 멘탈관리에 대한 영상입니다. 제가 실제로 활용하였고, 과외나...
-
2021 수시 비대면 면접 업로드 영상녹화 온라인면접 준비방법 0
2021 수시 비대면 면접 업로드 영상녹화 온라인면접 준비방법...
-
교대 1편 비교내신기준 진주, 광주, 부산( 이십육 ㄱㄴ?) 15
비교내신대상자에 대하여 이야기를 해보겠습니다 제가 다룰학교는 전주교대 진주교대...
-
국어를 가르치면서 드는 생각 - 이 과목은 우리에게 무엇을 주는가 6
국어를 가르치면서 사람들은 참 불편한 것을 싫어하는구나 느낍니다. 가령, 신문을...
-
경찰대 육사 공사 해사 간사 면접기출 면접후기 면접사례 0
경찰대 육사 공사 해사 간사 면접기출 면접후기 면접사례...
-
정확히는 안 중요하다기보다는 개인적인 생각으로는 분해능이 떨어진다(?)라고 보는게...
-
안녕하세요 윤팀장입니다! 글에 앞서 모든건 제 개인적인 생각에 지나지 않고, 그...
-
치대를 선택한 이유, 공부법과 멘탈관리 비법! [ 연고맨 인터뷰 ] 4
좋은 기회가 닿아 개인적으로 친분이 있는 유튜버님과 인터뷰를 하게 되었습니다....
-
2021 전국 수시 경쟁률 높은 대학 순위 경쟁률 랭킹 0
2021 전국 수시 경쟁률 높은 대학 순위 경쟁률 랭킹...
-
수학에는 왕도는 없어도 [ 수능에는 ] 왕도가 있다. 2
수학 제대로 공부하는법. 첫번째 영상입니다. 보고 많은 도움되길 바라요 :)...
-
【입시 Secret-수시】 최저등급 때문에 걱정이시라고요? 수능 벼락치기 전략! 0
안녕하세요, 입시크릿입니다. 수능이 이제 2달 가량 남았네요. 얼마전에 수시 원서...
-
[MENTOR] 찐파이널 시기 실모와 기출 학습법을 제안합니다 :) 10
안녕하세요? 수능수학 콘텐츠 제작팀 MENTOR 수학 가형 총괄자 MENTOR IK...
-
【입시 Secret-수시】 고1 분들은 반드시 지금부터 준비하세요 3
안녕하세요, 입시크릿입니다. 저에게 주로 상담을 받으시는 분들은 고3 분들이...
-
2020 연세대 이과 자연계 면접기출 면접후기 면접사례 0
2020 연세대 이과 자연계 면접기출 면접후기 면접사례...
-
2020 성균관대 면접기출 및 면접후기 면접사례 0
2020 성균관대 면접기출 및 면접후기 면접사례 https://youtu.be/L4PhFay8dOc
-
[정보] 2020 고교별 의학계열 입학 실적 정리표 (펌) 41
자녀의 고등학교 진학에 유용할 것 같은 자료 하나 가져왔습니다. 전국 단위 자사고를...
-
사회문화 6.9월에 나온 도표 변형/응용문제 풀수있는 문제집이나 모의고사나 강의 있을까요?
-
고아름T연구실 제작 세계사 수능특강(2021학년도) 분석 자료! 8
안녕하세요 메가스터디 사회탐구 영역 고아름T 연구실입니다. 지난번 올렸던 EBS...
-
[Zola 자소서]감사 인사+무능력한 첨삭 사례들 13
안녕하세요. Zola임다. 자소서가 무사히(?) 끝이 난 것 같습니다. 이 글을...
-
(최초합2편) 140:1 한양대논술 Tip。논술 학원,과외없어도 충분히 가능합니다. 0
우선 간단히 저에 대해 소개드리자면, 저는 한양대학교 서울캠퍼스 인문논술...
-
2020 전국 의예과 치의예과 한의예과 수의예과 의치한수 경쟁률 순위 0
2020 전국 의예과 치의예과 한의예과 수의예과 의치한수 경쟁률 순위...
-
【입시 Secret-수시】 합격자가 알려주는 면접 자기소개 예시 0
안녕하세요, 입시크릿입니다. 오늘 칼럼에서는 올바른 대학 면접 자기소개 예시를...
-
가독성을 위한 타이핑 참고로 학력고사는 320점 만점에 20점 체력장 해서...
-
안녕하세요, MENTOR입니다. 낮에 공개한 문항 다시 투척하고 해설 투척하고 이만...
-
선생님들은 학생에게 생각보다 관심이 없다 아직 어린 학생분들은(뭐, 저도...
-
저도 정말 궁금했습니다. 우리사회에 아주 필요하다고 생각했는데 왜 인생에 중요한...
-
[즐추] MENTOR가 제작한 수열 문항 풀어볼래요? 14
안녕하세요, MENTOR입니다. 오랜만이네요:) 9월 평가원 모의평가를 치른 후...
-
2021 주요대학 수시 경쟁률 최종 https://youtu.be/5LNO_Si-6mk
-
오르비는 위와 같은 취지로 매년 10월 대학/학과 선호도 조사를 하고 있습니다....
-
【모집요강 분석】 고려대학교, 비슷한듯 다른 전형들, 최선의 선택은? 9
안녕하세요, 입시크릿입니다. 오늘은 저의 모교죠, 고려대학교의 모집요강을 분석해보는...
-
고아름T연구실 제작 동아시아사 수능특강(2021학년도) 분석 자료! 34
안녕하세요 메가스터디 사회탐구 영역 고아름T 연구실입니다. 일전에 말씀드린대로...
-
【모집요강 분석】 축소된 연세대학교 특기자전형, 일반고에 유리? + 전형별 추천학생 0
안녕하세요, 입시크릿입니다. 오늘은 연세대학교 모집요강을 분석해보는 시간을 갖도록...
-
https://orbi.kr/00028955026 (원문) 지금 도움이 될진...
-
안녕하세요, MENTOR 종현입니다. 2021학년도 대학수학능력시험 대비...
-
수능 접수 인원 확정(feat.지학,생윤,한지) 118
수시 원서 접수 기간입니다. 잘 판단해서 정수시 모두 고려해서 유리한 결과가...
-
【모집요강 분석】 서울대학교의 지균 최저 완화, 어떤 변화를 가져올까? 0
안녕하세요, 입시크릿입니다. 오늘부터 이전 칼럼에서 언급했던 각 대학별 모집요강...
-
[ㅠㅠ] 여러분이 MENTOR의 진가를 알아줄 때까지.. 41
* 2021학년도 수능 이후 MENTOR 자료는 모두 삭제하였습니다. 안녕하세요,...
-
2021 수능최저 맞추기 어려운 대학 순위 https://youtu.be/kSHd37PRdLo
-
140:1 한양대서울 인문논술 최초합 Tip 1탄 12
본 영상은 2019년도 입시를 겪고 느꼈던 부분을 정리한 내용으로, 조금이나마...
-
2021 수능 응시원서 접수 결과 분석 및 전략 https://youtu.be/WhI8N4NfrsY
-
【원서작성의 기본】 고1 내신이 망했다는 생각이 든다면? 3
안녕하세요, 입시크릿입니다. 얼마전 9월 모의고사가 있었죠. 대부분의 고등학생들이...
-
[입시통계] 회귀 분석으로 기존 정원 대비 모의지원 합격자 수 예측하기 11
지난 글 1: 지원자의 점수대와 선호도를 바탕으로 최종등록여부를 판별하는 모델 구축...
-
【원서작성의 기본】 수시 원서 작성 방법 알짜배기 + 가장 궁금해하는 질문 best 3 3
안녕하세요, 입시크릿입니다. 여러분들이 지금까지 저의 칼럼을 읽으셨다면 "생각보다...
-
국밥의 ㅈ반고 후배들을 위한 4) 한의대 면접 정리 21
안녕하세요 국밥먹는초밥입니다. 이번엔 한의대 면접에 대해서 글을 써보았습니다. 다른...
-
[스압주의] 2021학년도 수시 전형 - 삼육보건대, 서울여자간호대, 동남보건대 0
안녕하세요. 나무아카데미입니다. 다가오는 9월 23일 수요일부터 일주일간 수시 원서...
-
[스압주의] 2021학년도 수시 전형 - 동양미래대, 인덕대, 배화여대 0
안녕하세요. 나무아카데미입니다. 다가오는 9월 23일 수요일부터 일주일간 수시 원서...
-
[스압주의] 2021학년도 수시 전형 - 한국산업기술대, 대진대, 강남대, 용인대, 성결대, 한신대 0
안녕하세요. 나무아카데미입니다. 다가오는 9월 23일 수요일부터 일주일간 수시 원서...
형 근데 요즘은 시그모이드 잘 안 쓰지 않나요
점수 표준화할때만 사용하고 분류작업에는 사용 안했음
시그모이드함수 오랜만이당
설빙님 이런거 하고 계셨군요 ㄷㄷ
글 읽어주셔서 감사합니다! 아직 기대쌤 강의 퀄리티에 비해서는 한참 미치지 못하지만 기초부터 차근차근 열심히 노력해보도록 하겠습니다 ㅎㅎ
설빙추