CLI Ingestion - Ragrails

URL ingestion

pip install "ragrails[url]"
ragrails setup-url

# Scrape exact URLs
ragrails scrape https://example.com/docs https://example.com/blog

# Full site crawl, save output as JSON files
ragrails scrape https://example.com --mode full --max-depth 2 --max-pages 50 --output-dir files/output/web/

# With frontmatter
ragrails scrape https://example.com/docs --frontmatter --output-dir files/output/web/

Option	Default	Description
`URL`	required	One or more URLs (positional, repeatable)
`--mode`	`each`	`each` or `full`
`--max-depth`	`3`	Crawl depth for `mode=full`
`--max-pages`	`200`	Max pages per URL
`--frontmatter`	off	Prepend YAML frontmatter
`--output-dir`	`None`	Save output as JSON files to this directory

Document ingestion

# Parse a folder
ragrails parse --folder files/docs/ --output-dir files/output/docs/

# Parse specific files
ragrails parse --files files/guide.pdf --files files/pricing.csv --output-dir files/output/docs/

Option	Description
`--folder`	Directory to parse
`--files`	File path (repeatable)
`--frontmatter`	Prepend YAML frontmatter
`--output-dir`	Save output as JSON files

API ingestion

ragrails fetch https://api.example.com/posts \
  --title "Blog posts" \
  --header "Authorization:Bearer TOKEN" \
  --param limit:100 \
  --max-pages 10 \
  --output-dir files/output/api/

Option	Default	Description
`URL`	required	API endpoint (positional)
`--title`	`"API Response"`	Document title
`--description`	`""`	Description metadata
`--method`	`GET`	HTTP method
`--header`	none	`KEY:VALUE` (repeatable)
`--param`	none	`KEY:VALUE` (repeatable)
`--max-pages`	`100`	Max paginated requests
`--frontmatter`	off	Prepend YAML frontmatter
`--output-dir`	`None`	Save output as JSON files

​URL ingestion

​Document ingestion

​API ingestion

URL ingestion

Document ingestion

API ingestion