Cost-efficient Data Acquisition on Online Data Marketplaces for Correlation Analysis

Summary: DANCE, a middleware for cost-efficient data acquisition from marketplaces, maximizes correlation between requested attributes. Offline builds a two-layer join graph from samples; online searches under quality, budget, and join informativeness constraints use an MCMC-based heuristic for an NP-hard problem. (summarized by gpt-5-nano on Feb 09 2026)

Paper ID: 11972
Venue: VLDB
Year: 2019
Pagerank: 4.3792262e-05
Overall Rank: 9,181 | 36.20%
DOI: 10.14778/3297753.3297757

Incoming Non-self Citations Over Time

Authors

Incoming Citations (Sorted by Pagerank)

Showing 2 of 2 citing papers.

Rank	Citing Paper	Year	Venue	Pagerank
5,982	Responsible Data Integration: Next-generation Challenges	2022	SIGMOD	5.2409386e-05
10,984	Enabling Adaptive Sampling for Intra-Window Join: Simultaneously Optimizing Quantity and Quality	2024	SIGMOD	4.1905499e-05

Outgoing Citations (Sorted by Pagerank)

Showing 10 of 10 cited papers.

Citations counted here include only citations to other VLDB/SIGMOD/CIDR/PODS papers in this database.

Rank	Cited Paper	Year	Venue	Pagerank
49	Consistent Query Answers in Inconsistent Databases	1999	PODS	0.00067607389
733	Discovering Data Quality Rules	2008	VLDB	0.00017428132
1,194	Join Size Estimation Subject to Filter Conditions	2015	VLDB	0.00013411666
1,405	Extending Dependencies with Conditions	2007	VLDB	0.00012174499
1,575	Reverse Engineering Complex Join Queries	2013	SIGMOD	0.00011288804
1,660	Data Markets in the Cloud: An Opportunity for the Database Community	2011	VLDB	0.00010968969
1,794	Summary Graphs for Relational Database Schemas	2011	VLDB	0.00010516799
2,081	Sample-Driven Schema Mapping	2012	SIGMOD	9.58883e-05
5,812	QueryMarket Demonstration: Pricing for Online Data Markets	2012	VLDB	5.3163286e-05
8,996	Stochastic Data Acquisition for Answering Queries as Time Goes by	2017	VLDB	4.4091308e-05

Semantically Similar Papers

Overall Rank	Paper	Year	Venue	Pagerank
8,751	Multivariate Correlations Discovery in Static and Streaming Data	2022	VLDB	4.4520434e-05
5,812	QueryMarket Demonstration: Pricing for Online Data Markets	2012	VLDB	5.3163286e-05
4,617	Crowd-Based Deduplication: An Adaptive Approach	2015	SIGMOD	6.0400801e-05
3,754	Data Acquisition for Improving Machine Learning Models	2021	VLDB	6.7830341e-05
8,869	Sharing-Aware Horizontal Partitioning for Exploiting Correlations During Query Processing	2010	VLDB	4.4277859e-05
2,841	Correlation Maps: A Compressed Access Method for Exploiting Soft Functional Dependencies	2009	VLDB	8.0396876e-05
9,450	Online Optimization and Fair Costing for Dynamic Data Sharing in a Cloud Data Market	2014	SIGMOD	4.3367172e-05
5,022	Towards Distribution-aware Query Answering in Data Markets	2022	VLDB	5.7479778e-05
2,373	Query-Based Data Pricing	2012	PODS	8.9405504e-05
3,827	Correlation Sketches for Approximate Join-Correlation Queries	2021	SIGMOD	6.7195959e-05