Posts

Showing posts from April, 2024

Một số câu hỏi về 'difference between'

Image
 Một số câu hỏi về 'difference between' ( P1 ) 1. What is the difference between row_number() and rank() in SQL ? Khác nhau ở chỗ xử lý giá trị bằng nhau, đối với: row_number(): thì sẽ đánh số tăng dần ( mặc định bắt đầu từ 1 ) đối với mỗi dòng rank(): thì sẽ đánh số có giá trị bằng nhau ( ví dụ 2 dòng đều là rank 1 ) đối với 2 dòng có giá trị bằng nhau 2. What is the difference between IN and EXISTS and providing me example ? Khác nhau ở chỗ khi filter các giá trị trong 1 list, đối với: in(): thì đó là 1 list biết trước các giá trị exists() thì đó là 1 list chưa biết trước giá trị ( ta sẽ chạy câu này để kiểm trả xem có match giá trị nằm trong vế subquery của exists hay ko ) 3. What is the difference between true column store and row store ? Khác nhau ở chỗ cách lưu trữ, đối với: row store: dữ liệu được nhóm với nhau theo hàng Row 1: [Value1, Value2, Value3] Row 2: [Value4, Value5, Value6] Row 3: [Value7, Value8, Value9] column store: dữ liệu được nhóm với nhau theo ...

Job Scheduling in Apache Spark

Job Scheduling in Apache Spark Job Scheduling Job scheduling có thể nằm ở 2 level: Cluster level hoặc Spark apps level Cluster level: ở đây job sẽ là từng cái Spark apps, từng apps sẽ yêu cầu tài nguyên từ Cluster Manager cho việc xử lý job, khi yêu cầu đc chấp nhận, các tài nguyên này sẽ lock lại và k đc sử dụng bởi các Spark apps khác cho đến khi tài nguyên đc giải phóng Application level: ở đây job sẽ là từng Action đc trigger trong 1 Spark apps. Sẽ có lúc có nhiều job được yêu cầu thực hiện cùng lúc, lúc này Job Scheduling sẽ sắp xếp thực hiện các job này 1 cách phù hợp ( FIFO, FAIR, … ) Job Scheduling at Cluster Level Job Scheduling ở Cluster level có thể hiểu là Resource Availability của cụm. Khi 1 Spark apps được submit và chạy thì nó sẽ có các resource của riêng nó và các resource này sẽ ko share với các apps khác. Nếu có nhiều apps trên cùng 1 cluster cần share các resource với nhau thì chúng ta có 2 cách để phân bổ và quản lý resource: Static Allocation ( phân bổ tĩnh ) Ở các...