Граббер: cURL+regexp+"PHP Simple HTML DOM Parser"

Весь день сегодня провел за созданием граббера.

Первый шаг:  необходимо обойти сайт по всем внутренним ссылкам и занести все уникальные в базу.

Для этого я использовал cURL+regexp (сам реджексп не помню где именно нашел — но оказался кстати)

Второй шаг: необходимо вытащить нужные нам данные из вытащенного контента. Для этого я воспользовался наработкой PHP Simple HTML DOM Parser. Очень удобна, но кушает много памяти. У меня с первого раза вылетело из-за недостатка памяти. Для этого я обрезал контент после получения (убрал сайдбары, хедер). В итоге все нормально.
Синтаксис очень схожий с jQuery, по-этому многим будет легко начать.

Дальше уже дело техники и проработки. Можно совершенствовать под свои потребности сколько угодно, чем я и собираюсь завтра заняться 🙂