парсинг квартир с циан

Парсер недвижимости Циан

Онлайн парсер Циан

Циан – платформа, на которой публикуются объявления о недвижимости. Покупка, продажа, аренда – здесь каждый находит объект по своим требованиям и возможностям. Квартиры на вторичном и первичном рынке, дома, земельные участки, коммерческая недвижимость – эти и другие объекты ежедневно выставляются на сайте в огромном количестве.

Сайт существует с 2001 года, и за это время более миллиона людей нашли свое жилье или успешно его продали. Рубрика «первичной недвижимости» появилась намного позже, но уже сегодня ее популярность вызывает восторг и удивление. Здесь можно найти и выбрать объекты в уже готовых и сданных в эксплуатацию домах и жилых комплексах, а также подобрать варианты в ЖК, которые находятся на этапе строительства. Количество пользователей данной платформы стремительно растет, благодаря узкой тематике, удобному интерфейсу и простому пользованию.

Для чего нужен парсер Циан?

Ответ на вопрос, зачем нужен парсинг недвижимости Циан, достаточно простой. Это программа, которая упрощает поиск объектов недвижимости и осуществляет сортировку публикаций по заданным параметрам. Другими словами, система автоматически отсортировывает лишнее, охватывая за короткий период времени все публикации на сайте за выбранный период.

Результаты работы программы предоставляются пользователям в виде списка или таблицы, с указанием детальной информации по каждому объекту – автор и контактная информация собственника, описание, фото недвижимости, и другое. Все данные автоматически собираются с доски объявлений. Используя парсер Циан, пользователь самостоятельно устанавливает параметры поиска, которые ему необходимы.

Парсер объявлений с Циана актуален для людей, работающих в сфере недвижимости. Это сотрудники агентств недвижимости и частные риэлторы. Нередко те, кто ищет для себя жилье без посредников и тщательно выбирает объект, используют эту программу для экономии собственного времени. Парсер cian.ru позволяет упростить и ускорить поиск нужных объектов недвижимости по определенным критериям.

Ваши конкуренты уже используют сканер недвижимости,
а Вы от них не отстали? Узнать подробнее о сканере

Принцип работы парсера Циан

Как работает парсер Циан? Принцип работы данного модуля достаточно простой, и даже новичок без проблем разберется с функционалом. Понадобится выполнить следующее:

В итоге пользователь получает информацию в виде таблицы или списка, с указанием всех важных данных:

Теперь, имея информацию, можно связаться с собственниками для обсуждения всех необходимых вопросов и организации просмотров объектов, то есть активно применять полученную базу данных.

Если не использовать парсер недвижимости Циан, а вручную сортировать и отбирать объявления, то на это можно потратить не один день. Используя данную программу, срок поиска и сортировка сокращается до нескольких секунд, а значит, риэлторы и агентства недвижимости значительно упрощают свою работу. Именно с этой целью и создан парсер Циана онлайн.

Преимущества парсера недвижимости Циан

Главными преимуществами программы можно выделить следующее:

Сэкономить свое время, силы, автоматизировать рабочие процессы риэлторам и агентствам недвижимости поможет Циан парсер объявлений недвижимости.

Все ещё ищите собственников в ручном режиме?

Автоматизируйте свою работу! Попробуйте профессиональный парсер для сбора недвижимости. Ищите собствеников, анализируйте архивные объявления, фильтруйте и выгружайте объекты быстро и удобно.

Источник

Парсер cian.ru

Парсер cian.ru выгружает объявления с Циана. Он собирает такие данные: заголовок объявления, цена, описание, фото, количество комнат, этаж, площадь, прочая информация. Набор данных можно дополнять/менять при необходимости.

Вы можете сохранить выгрузку для дальнейшего редактирования или экспорта на сайт. Доступны такие варианты экспорта данных, собранных парсером cian.ru:

parser cian ru results

Если у вас не получается самостоятельно загрузить собранные данные в свою CMS или в свой интернет магазин/сайт, оставьте заявку — и мы постараемся Вам помочь.

objavleniya parsing scheme

Как протестировать парсинг cian.ru

Протестируйте работу парсера cian бесплатно в демо-версии Datacol. Инструкция по тестированию приведена на видео:

Чтобы протестировать работу парсера cian.ru, выполните такие действия:

Шаг 2. В дереве кампаний присутствует кампания ad-parsers/cian.ru.par. Выберите ее и нажмите кнопку Запуск (Play). Перед запуском вы можете отредактировать Входные данные. Это могут быть ссылки на категории Циана либо ссылка на выборку, которую вы сформировали с помощью поисковых фильтров сайта.

zapusk parsera cian ru

Шаг 3. Дождитесь появления результатов работы парсера ЦИАН. После появления результатов можно принудительно остановить парсинг (нажав кнопку Стоп).

parser cian ru 1

Шаг 4. После окончания/принудительной остановки парсера в папке Мои документы можно найти файл cian.ru.xlsx:

parser cian ru results

Возможности парсера Cian

Донастройка под вашу задачу

В рамках Datacol парсер Cian может быть доработан под вашу конкретную задачу. Вы это можете сделать самостоятельно либо воспользоваться услугами наших разработчиков.

Обработка данных

Способы обработки данных, собранных парсером cian.ru:

Автоматический мониторинг новых объявлений

Datacol позволяет мониторить появление новых объявлений в режиме реального времени

Сколько стоит парсер Cian

Парсер cian.ru – это настройка программы Datacol. Настройка доступна в демо-версии программы. Демо-версия имеет все возможности платной версии, но сохраняет только первые 25 результатов парсинга. Узнать актуальную стоимость лицензии Datacol и купить программу можно здесь.

Что делать, если Cian блокирует (банит) парсинг?

Если Cian забанит ваш IP-адрес (обычно в результате этого перестают находиться новые результаты), задействуйте прокси или VPN.

Как разобраться в Datacol?

Какие условия покупки Datacol?

Все условия приобретения программы приведены здесь.

Как я получу программу после ее оплаты?

После поступления оплаты за лицензию вы получите код активации программы и информацию о сроках действия вашей лицензии на адрес электронной почты, указанный при покупке. Инструкцию по активации можно посмотреть здесь.

Источник

Парсинг фотографий с сайта cian.ru с помощью Selenium

Здравствуйте дорогие хабровчане, в этом небольшом примере я хочу показать как можно распарсить страницу, данные на которую подгружаются с помощью javascript виджетов. Более того, даже если страницу в этом примере просто сохранить, то всё равно не получится спарсить из неё все нужные фотографии из-за этих виджетов. В данном случае я использую для примера сайт cian.ru, у которого есть свой api, который я использовать не буду, вместо этого я буду использовать Selenium. Я не работаю в cian.ru, просто использую этот сайт для примера. Код в парсере простой и расчитан на начинающих.

Небольшое вступление — когда на досуге я рассматривал примеры ремонтов в cian.ru, я подумал, что не плохо было бы сохранить понравившиеся мне фотографии, но вручную сохранять их было бы долго, к тому же это не наш метод, так я и решил написать этот парсер.

Парсер написан на языке python3 из дистрибутива Anaconda, Selenium и chromedriver binary я установил отдельно именно из этих ссылок. (Ну и конечно же в системе должен быть установлен барузер Google Chrome)

Ниже представлен полный код парсера, далее я разберу основные моменты отдельно.

Далее в цикле я начал парсить фотографии, логика парсера работет также, как если бы я сам скачивал их вручную, т.е. сохраняю текущую фотографию и нажимаю на стрелку «next».

image loader

Слудующий блок кода буквально кликает по стрелке для перехода к следующей фотографии.

И в конце простой но важный код, задержка позволяет полностью подгрузиться странтице после клика по стрелке. (здесь можно сделать код почище организовав задержку средствами Selenium)

Вот такой пример парсера фоторграфий на Selenium, не утверждаю, что это лучший подход, если кто-то знает как сделать лучше напишите свои идеи в комментах.

Источник

Ранжирование округов Москвы по стоимости аренды с Python

Сейчас программирование все глубже и глубже проникает во все сферы жизни. А возможно это стало благодаря очень популярному сейчас python’у. Если еще лет 5 назад для анализа данных приходилось использовать целый пакет различных инструментов: C# для выгрузки (или ручки), Excel, MatLab, SQL, и постоянно “прыгать” туда сюда вычищая, сверяя и выверяя данные. То сейчас python, благодаря огромному количеству прекрасных библиотек и модулей, в первом приближении благополучно заменяет все эти инструменты, а в связке с SQL так вообще “горы свернуть можно”.

Итак, к чему я. Увлеклась я изучением такого популярного python’а. А лучший способ изучить что-либо, как вы знаете, — практика. А еще я интересуюсь недвижимостью. И попалась мне на глаза интересная задачка о недвижимости в Москве: проранжировать округа Москвы по усредненной стоимости аренды средней однушки? Батюшки, я подумала, да тут вам и геолокация, и выгрузка с сайта, и анализ данных — прекрасная практическая задача.

Воодушевившись замечательными статьями тут на Хабре (в конце статьи добавлю ссылки), приступим!

Задача у нас пройтись по существующим инструментам внутри python’а, разобрать технику — как решать подобные задачи и провести время с удовольствием, а не только с пользой.

Скрапинг Циана

На середину марта 2020 года на циане получилось собрать почти 9 тысяч предложений об аренде 1-комнатной квартиры в Москве, сайт отображает 54 страницы. Работать будем с jupyter-notebook 6.0.1, python 3.7. Прогружаем данные с сайта и сохраняем в файлы с помощью библиотеки requests.

Чтобы сайт нас не забанил, замаскируемся под человека, добавив задержку в запросах и задав хедер, чтобы со стороны сайта мы выглядели, как очень шустрый человек, делающий запросы через браузер. Не забываем каждый раз проверять ответ от сайта, а то вдруг нас раскрыли и уже забанили. Более подробно и детально про скрапинг сайтов можно почитать, например, тут: Web Scraping с помощью python.

Удобно так же добавить декораторы для оценки скоростей выполнения наших функций и ведения логов. Настройка level=logging.INFO позволяет указать тип выводимых в лог сообщений. Так же можно донастроить модуль для вывода лога в текстовый файл, для нас это излишне.

Единый датафрейм

Для скрапинга страниц на выбор BeautifulSoup и lxml. Используем «прекрасный суп» просто за его прикольное название, хотя, говорят, что lxml быстрее.

Можно сделать красиво, взять список файлов из папки с помощью библиотеки os, отфильтровать нужные нам по расширению и пройтись по ним. Но мы сделаем проще, так как точное число файлов и точные их названия нам известны. Разве что добавим украшательство в виде прогресс бара, используя библиотеку tqdm

Интересным ньюансом оказалось то, что цифра, указанная сверху страницы и обозначающая общее количество квартир, найденных по запросу, отличается от страницы к странице. Так, в нашем примере это 5 402 предложение отсортированы по умолчанию находится в диапазоне от 5343 до 5402, постепенно снижаясь с увеличением номера страницы запроса (но не на количество отображенных объявлений). К тому же оказалось возможным продолжать выгружать страницы за пределами ограничения в количестве страниц, указанных на сайте. В нашем случае на сайте было предложено всего 54 страницы, но мы смогли выгрузить 309 страниц, только с более старыми объявлениями, итого 8640 объявлений об аренде квартир.

Расследование данного факта оставим за рамками данной статьи.

Обработка датафрейма

Итак, имеем единый датафрейм с сырыми данными по 8640 предложениям. Проведем поверхностный анализ средних и медианных цен по округам, посчитаем среднюю стоимость аренды квадратного метра квартиры и стоимость квартиры в округе «в среднем».

Будем исходить из следующих допущений для нашего исследования:

price_per_month — цена за месяц ареды в рублях
square — площадь
okrug — округ, в данном исследовании весь адрес нам не интересен
price_meter — цена аренды за 1 кв метр

Теперь «займемся» выбросами вручную по графикам. Для визуализации данных посмотрим три библиотеки: matplotlib, seaborn и plotly.

Гистограммы данных. Matplotlib позволяет просто и быстро отобразить все диаграммы по интересующим нас группам данных, большего нам и не надо. Рисунок ниже, по которому всего 1 предложение в Митино не могут служить качественной оценкой средней квартиры, удалим. Еще интересная картира в ЮАО: большинство предложений (более 500 шт) с арендной стоимостью ниже 1000 руб., и всплеск предложений (почти 300 шт) на 1700 руб за квадратный метр. В дальнейшем можно посмотреть почему так происходит — покопавшись в других показателях по этим квартирам.

Всего одна строчка кода дает там гистограммы по сгруппированным наборам данных:

image loader

Разброс значений. Ниже представила графики с помощью всех трех библиотек. seaborn по умолчанию — более красивая и яркая, зато plotly позволяет сразу отображать значения при наведении мышки, что нам очень удобно для выбора значений «выбросов», которые мы будем удалять.

image loader

image loader

Думаю, тут будет достаточно примера по одному округу.

image loader

Результаты

Итак, почистив данные, экспертно удалив выбросы, имеем 8602 «чистых» предложения.
Далее, посчитаем основные статистики по данным: среднее, медиану, стандартное отклонение, получаем следующий рейтинг округов Москвы по мере уменьшения средней стоимости арендной платы за среднюю квартиру:

image loader

Можно порисовать красивые гистограммы, сравнивая, например, средние и медианные цены в округе:

image loader

Что можно еще сказать про структуру предложений по аренде квартир на основе данных:

Немного о работе с геоданными

Отдельной, невероятно интересной и красивой главой идет тема геоданные, отображение наших данных в привязке к карте. Очень подробно и детально можно посмотреть, например, в статьях:
Визуализация результатов выборов в Москве на карте в Jupyter Notebook
Ликбез по картографическим проекциям с картинками
OpenStreetMap как источник геоданных

Кратко, OpenStreetMap наше все, удобные инструменты это: geopandas, cartoframes (говорят, он уже погиб?) и folium, который мы и будем использовать.

Вот как будут выглядеть наши данные на интерактивной карте.

image loader

Материалы, которые оказались полезными в работе над статьей:

Спасибо, что дочитали. Конструктивная критика приветствуется.

Исходники и датасеты выложены на гитхабе тут.

Источник

Парсинг квартир с циан

Пример парсинга «ЦИАН» – крупнейшая база данных объявлений о недвижимости. Мы собираем всю все общедоступную информацию об объектах недвижимости. Это дает возможность делать гибкую аналитику для анализа рынка.

Уже скачали 798 пользователей.

Какую информацию мы парсим с сайта «ЦИАН.РУ»?

Как и по другим ресурсам, мы парсим только общедоступную, публичную информацию об объектах недвижимости (коммерческие и жилые). Характеристики объекта недвижимости, стоимость, контактные данные продавца (на сайте они доступны всем желающим без регистрации) и многое другое. Все это в совокупности позволяет проводить гибкий и оперативный анализ предложений на рынке недвижимости. На изображении ниже мы выделили информацию, которую парсим на регулярной основе. Фильтруются объявления от собственников жилья и агентов. Парсинг сайта ЦИАН возможен по всем регионам России.

parsing sajta czian

Как получить данные парсинга площадки объявлений “ЦИАН.РУ”?

Вы можете прямо сейчас бесплатно скачать результаты парсинга. Нажмите кнопку “СКАЧАТЬ БЕСПЛАТНО” выше и вам на почту придет пример данных. Для регулярной работы с данными мы предоставим доступ к нашему защищенному облаку, где на ежедневной основе публикуются результаты парсинга “ЦИАН.РУ”. Результаты публикуются в нескольких форматах, удобных для анализа – Excel/CSV/XML и могут получаться в том числе по API.

Как выглядят результаты площадки “ЦИАН.РУ”?

Ниже на изображении приведен пример сбора объявлений по продаже квартир (с фильтрацией только от собственников жилья).

Источник

Adblock
detector