Cập nhật ngày 13/01/2024, Việt Nam.
Hành trình vạn dặm khởi đầu bằng bước chân đầu tiên.
~ Lão Tử
Học #
Mình đang học năm ba, trường Đại học Khoa Học Tự Nhiên TP. HCM, ngành khoa học dữ liệu.
Đang tổng hợp những kiến thức data đã học từ đó giờ. Và tập tự modelling về star schema trên 1 bộ dữ liệu.
CI/CD là một quá trình phức tạp. Mình đang học các best practices trong deployment và sử dụng GitOps.
Làm #
Data Engineer tại KMS Healthcare.
Vài project nhỏ mà mình và bạn mình nổi hứng nghĩ ra:
- Goodreads ELT pipeline: Xây dựng một ELT (Extract - Load - Transform) data pipeline hoàn chỉnh với bộ dữ liệu sách từ Goodreads.
- Spark Data Platform: Xây dựng data platform với bộ dữ liệu phim từ IMDb.com - kết hợp Spark Cluster dạng on-premise.
- Ubunchuu Trường Ú: Một project nhỏ với mục tiêu giúp cho các bạn sinh viên tiếp cận dễ hơn với Linux (cụ thể là Ubuntu).
- Database replication: Replicate từ upstream database về downstream, sử dụng Apache Kafka.
- Projectopia: Auto-devops tool, giúp đỡ khâu DevOps cho các dự án quy mô sinh viên
Vài post ideas đang trong quá trình sản xuất:
- Data engineer roadmap
- Configure Spark Cluster dưới local dùng multipass và k3s
Đọc #
Goodreads
của mình
Sách:
- Economix: How and Why Our Economy Works (and Doesn’t Work), in Words and Pictures by Michael Goodwin
- Data Engineering Design Patterns (DEDP) by Simon Späti
Vài bài viết mà mình tâm đắc:
- Xuất khẩu gian lận by Thái vnhacker
- Awesome prompts for LLM models