Thiết kế và phát triển các pipeline ETL hiệu quả để xử lý và chuyển đổi dữ liệu từ nhiều nguồn khác nhau vào kho dữ liệu, đảm bảo chất lượng và tính toàn vẹn của dữ liệu.
Triển khai và duy trì data lakes và kho dữ liệu, sử dụng các công nghệ như Redshift, PostgreSQL và các dịch vụ AWS.
Hợp tác với các nhóm liên chức năng để thu thập yêu cầu dữ liệu, thiết kế mô hình dữ liệu và tối ưu hóa cấu trúc dữ liệu để lưu trữ và truy vấn hiệu quả.
Sử dụng các ngôn ngữ kịch bản (ví dụ: Python) và SQL để trích xuất, xử lý và chuyển đổi dữ liệu phục vụ quy trình ETL và tích hợp mô hình.
Triển khai các giải pháp xử lý dữ liệu theo thời gian thực nhằm thu thập và xử lý dữ liệu từ API.
Giám sát và tối ưu hóa hiệu suất của pipeline dữ liệu, cơ sở dữ liệu và các quy trình xử lý dữ liệu phục vụ cho phân tích.
Thực hiện các quy trình làm sạch, xác thực và đảm bảo chất lượng dữ liệu .
Job Requirement
Tối thiểu 2 năm kinh nghiệm làm Kỹ sư Dữ liệu (Data Engineer) hoặc vị trí tương đương.
Thành thạo SQL và có kinh nghiệm thực tế với cơ sở dữ liệu quan hệ (ví dụ: Redshift, PostgreSQL).
Có kinh nghiệm thiết kế và phát triển pipeline ETL.
Có kinh nghiệm triển khai mô hình và phát triển API.
Quen thuộc với các nền tảng đám mây (ví dụ: AWS, Azure, GCP).
Có hiểu biết về các công nghệ xử lý dữ liệu luồng (ví dụ: Kafka, Apache Flink) là một lợi thế.
Kỹ năng giải quyết vấn đề tốt, có khả năng khắc phục sự cố và debug các vấn đề liên quan đến dữ liệu.
Benefits:
Môi trường năng động, tinh gọn, hiệu quả với tầm nhìn và kế hoạch dài hạn
Thưởng bonus theo quý.
Lương hấp dẫn, 1 năm tăng lương 2 lần
Thời gian làm việc 7,5 giờ/ ngày, từ thứ 2 đến thứ 6
Không gian pantry thoải mái gồm: cafe, nước giải khát, bánh kẹo, thức ăn nhẹ.
Thư giãn tại văn phòng cùng board game, bida và bi lắc...