Học
#

Mình đang học năm ba, trường Đại học Khoa Học Tự Nhiên TP. HCM, ngành khoa học dữ liệu.

Đang tổng hợp những kiến thức data đã học từ đó giờ. Và tập tự modelling về star schema trên 1 bộ dữ liệu.

CI/CD là một quá trình phức tạp. Mình đang học các best practices trong deployment và sử dụng GitOps.

Làm
#

Data Engineer tại KMS Healthcare.

Vài project nhỏ mà mình và bạn mình nổi hứng nghĩ ra:

Goodreads ELT pipeline: Xây dựng một ELT (Extract - Load - Transform) data pipeline hoàn chỉnh với bộ dữ liệu sách từ Goodreads.
Spark Data Platform: Xây dựng data platform với bộ dữ liệu phim từ IMDb.com - kết hợp Spark Cluster dạng on-premise.
Ubunchuu Trường Ú: Một project nhỏ với mục tiêu giúp cho các bạn sinh viên tiếp cận dễ hơn với Linux (cụ thể là Ubuntu).
Database replication: Replicate từ upstream database về downstream, sử dụng Apache Kafka.
Projectopia: Auto-devops tool, giúp đỡ khâu DevOps cho các dự án quy mô sinh viên

Vài post ideas đang trong quá trình sản xuất:

Goodreads của mình

Sách:

Vài bài viết mà mình tâm đắc: