본 포지션은 원천 데이터(Raw Data)를 비즈니스 가치로 전환하기 위한 첫 단계를 책임집니다.
다양한 소스에서 데이터를 수집하고, 분석 및 모델링에 적합한 형태로 정제하는 과정을 통해 데이터 엔지니어링의 기초 실무를 경험할 수 있습니다.
데이터 수집 (Data Collection):
웹 크롤러(Scrapy, BeautifulSoup, Selenium 등) 개발 및 유지보수
API를 활용한 공공/민간 데이터 연동 및 정기 수집 자동화
데이터 전처리 및 정제 (Data Preprocessing):
결측치(Missing Value), 이상치(Outlier), 중복 데이터 처리
비정형 데이터(텍스트, 이미지 등)를 분석 가능한 정형 형태로 변환
데이터 일관성 및 품질 검수 (Data Validation)
데이터 관리:
수집된 데이터를 데이터베이스(SQL/NoSQL)에 적재 및 관리 지원
데이터 전처리 파이프라인 문서화
Python 활용 능력: Pandas, NumPy 등 데이터 처리 라이브러리 사용이 능숙하신 분
기초 SQL: 기본적인 Query 작성을 통해 필요한 데이터를 추출할 수 있는 분
논리적 사고: 데이터의 왜곡을 찾아내고 정합성을 맞추는 꼼꼼함을 갖춘 분
학력: 컴퓨터공학, 통계학, 데이터사이언스 등 관련 전공 대학생(3학년 이상) 또는 휴학생/졸업생
자동화 경험: Scrapy 등 프레임워크를 이용한 대규모 크롤링 경험이 있는 분
정규표현식: Regex를 활용한 텍스트 파싱 능력이 뛰어나신 분
DB 이해도: MySQL, PostgreSQL, 또는 MongoDB 사용 경험
협업 도구: Git, Slack, Notion 등을 통한 원활한 소통이 가능하신 분
Language: Python
Library: Pandas, Beautiful Soup, Selenium, Scikit-learn
Database: MySQL / PostgreSQL
Environment: Jupyter Notebook, Git
근무 형태: 아르바이트, 현장실습, 계약직, 정규직 등 협의 후 선택
정규직의 경우 3개월 시용기간 적용
근무 기간: 협의