info su sito portaportese

Versione Completa   Stampa   Cerca   Utenti   Iscriviti     Condividi : FacebookTwitter
Pagine: [1], 2
Limner1977
00venerdì 1 agosto 2008 10:10
qualcuno di voi ne ha mai fatto un download completo?
guido.zip
00venerdì 1 agosto 2008 14:50
Re:
Limner1977, 01/08/2008 10.10:

qualcuno di voi ne ha mai fatto un download completo?



Un programmino che leggesse tutti gli annunci immobiliari di portaportese e li mettesse in un file di testo o in altro formato sarebbe estremamente utile.

Si può fare?

.
Limner1977
00venerdì 1 agosto 2008 15:52
ci sono molti programmi di mirroring, ma uno a caso preso con portaportese non funziona
Rever
00venerdì 1 agosto 2008 16:55
Provate a vedere qui..
rapidshare.com/files/134089557/lista.zip.html

Ho fatto un programmino ( allo stato grezzo, scarico giusto l'HTML ) che mi scarica tutte le inserzioni immobiliari del "giorno"..
Ho dato una occhiata all'URL e si possono passare un bel po' di parametri, tipo prezzo minimo,massimo e varie cose, un po' quello che fa la loro interfaccia web.. ( Purtroppo bisogna comunque inserire un parametro letterale nella ricerca dell'annuncio, io ho messo "a" che credo sia contenuto in ogni annunciol o almeno lo spero )
Purtroppo non essendoci un ID univoco per gli annunci ( in quanto generati sul server da una qualche procedura ) l'unica cosa che si potrebbe fare per vedere i rialzi ribassi sarebbe fare un programmino che si parsera i file dei vari periodi con gli annunci e cerca di confrontarli in qualche modo. Sicuramente si puo' migliorare molto e se qualcuno ha delle idee ben venga.. Io ho fatto una classe stupida in java..

Dimenticavo, tra una richiesta e l'altra ho messo uno "stop" di 10 secondi in quanto il loro sito a parecchie chiamate di seguito risponde "picche", credo che limitare il traffico e attacchi di tipo DDOS
guido.zip
00venerdì 1 agosto 2008 17:38
Miglioramenti
.

E' un ottimo inizio.

Però ho notato una stranezza. Se come chiave di ricerca si da "E" invece di "A" vengono molti più annunci: per esempio per san giovanni si trovano 6 pagine anzichè una sola.

Riprova a far girare il programma con ricerca su "E".

Poi sarebbe bello estrarre il testo e mettere tutto in un unico file (per poter fare agevolmente ricerche eventualmente passandolo in sql o simili).

Il fatto di tracciare i singoli annunci se non si può fare pazienza, per tracciare i cali già sarebbe una cosa utilissima avere un archivio degli annunci di tutta Roma su più mesi.

.

davverorealista
00venerdì 1 agosto 2008 17:40
Re:
Rever, 01/08/2008 16.55:


... Purtroppo non essendoci un ID univoco per gli annunci ( in quanto generati sul server da una qualche procedura ) ...



Ottima idea Rever, abbiamo avuto le stesse intuizioni... Io, però, ritengo che una qualche procedura sia intuibile ma ci sto ancora lavorando. Finora ho capito che ogni annuncio ha un suo id statico di 13 cifre, di cui le prime 5 sono sempre 20080 (l'anno di riferimento dell'annuncio) e le altre si ripetono a seconda della zona dell'annuncio... Bah, staremo a vedere!!!
Rever
00venerdì 1 agosto 2008 17:53
Re: Miglioramenti
guido.zip, 01/08/2008 17.38:

.

E' un ottimo inizio.

Però ho notato una stranezza. Se come chiave di ricerca si da "E" invece di "A" vengono molti più annunci: per esempio per san giovanni si trovano 6 pagine anzichè una sola.

Riprova a far girare il programma con ricerca su "E".




Hai ragione, mettendo "e" nel campo di ricerca esxono molti piu' annunci, ma questo sembrerebbe un "baco" nella loro procedura di ricerca, visto che "a" e' presente anche negli annunci che compaiono nella ricarca di "e" ma non di "a".
Sicuramente si possono migliorare tante cose, se si riesce a beccare l'ID si puo' fare davvero tanto..


Rever
00venerdì 1 agosto 2008 17:57
Re: Re:
davverorealista, 01/08/2008 17.40:



Ottima idea Rever, abbiamo avuto le stesse intuizioni... Io, però, ritengo che una qualche procedura sia intuibile ma ci sto ancora lavorando. Finora ho capito che ogni annuncio ha un suo id statico di 13 cifre, di cui le prime 5 sono sempre 20080 (l'anno di riferimento dell'annuncio) e le altre si ripetono a seconda della zona dell'annuncio... Bah, staremo a vedere!!!



Interessante.. Hai ragione, ho spulciato un po' il sorgente della pagina web e questo strano numero...


davverorealista
00giovedì 7 agosto 2008 19:17
Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
Ho realizzato un piccolo programmino in grado di interrogare in maniera piuttosto "furba" il sito in questione e produrre in output un report (in XML, ma per una migliore leggibilità l'ho convertito in PDF) piuttosto dettagliato. Resto in attesa di vostri feedback per miglioramenti e/o suggerimenti...
giemmeppi
00venerdì 8 agosto 2008 03:06
Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
davverorealista, 07/08/2008 19.17:

Ho realizzato un piccolo programmino in grado di interrogare in maniera piuttosto "furba" il sito in questione e produrre in output un report (in XML, ma per una migliore leggibilità l'ho convertito in PDF) piuttosto dettagliato. Resto in attesa di vostri feedback per miglioramenti e/o suggerimenti...




mi piace molto la tabella, pero, non sono informatico, ma vedo un problema: l'ID degli annunci cambia due volte a settimana, visto che la pubblicazione va chiesta numero per numero, e quindi il database si resetta ogni volta (non so se mi sono spiegato)
davverorealista
00venerdì 8 agosto 2008 09:07
Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
giemmeppi, 08/08/2008 3.06:




mi piace molto la tabella, pero, non sono informatico, ma vedo un problema: l'ID degli annunci cambia due volte a settimana, visto che la pubblicazione va chiesta numero per numero, e quindi il database si resetta ogni volta (non so se mi sono spiegato)



Non è esattamente così: non è vero che l'ID degli annunci cambia due volte a settimana perché, su un totale di 2458 annunci "pescati" (e non sono nemmeno tutti!!), solo una sessantina sono duplicati. Per duplicato s'intende un annuncio avente testo uguale ma ID diverso.

Osservando meglio la tabella ho notato che questo comportamento si verifica in diversi casi, tra cui:
- CASO 1a: un'annuncio viene pubblicato in un certo numero di portaportese.it; poi per alcuni numeri non viene riconfermato, ed infine ricompare identico a distanza di qualche numero (non avendo mai pubblicato su portaportese.it, attendo conferme sul meccanismo di pubblicazione degli annunci..)
- CASO 1b: stesso meccanismo di cui sopra con la differenza che, stavolta, l'annuncio compare a distanza di tempo modificato (ad esempio, da maiuscolo a minuscolo o viceversa, ecc...)
- CASO 2: un inserzionista piuttosto "testardo" decide di pubblicare lo stesso annuncio due volte nello stesso numero di portaportese.it (vedere qui come l'annuncio "AFRICANO ampia metratura ..." compare due volte).

Attendo suggerimenti su come migliorare la "pesca" degli annunci alla luce delle vostre osservazioni...Thanks
Rever
00venerdì 8 agosto 2008 12:48
Re: Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
davverorealista, 08/08/2008 9.07:



Attendo suggerimenti su come migliorare la "pesca" degli annunci alla luce delle vostre osservazioni...Thanks



Anche io ho notato che l'ID a volte cambia ( anche per lo stesso annuncio ).. E c'e' da "aggiungere" il search parametrico che non funziona bene.. Purtroppo mi pare una cosa troppo complicata da "generalizzare".. Forse qualcosa di potrebbe fare con il testo dell'annuncio, ma avrebbe ben poco senso..


davverorealista
00venerdì 8 agosto 2008 15:36
Re: Re: Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
Rever, 08/08/2008 12.48:


E c'e' da "aggiungere" il search parametrico che non funziona bene.. Purtroppo mi pare una cosa troppo complicata da "generalizzare"..



In che senso il search parametrico non funziona bene?

Finora i parametri da me utilizzati per la "pesca" sono stati:
- kr, ovvero l'ID della rubrica ("13" per la rubrica HiFi, "53" per la rubrica Ville e appartamenti (Roma), ecc...);
- tipo, ovvero il tipo di ricerca, "offerte" o "richieste";
- search, ovvero la chiave di ricerca, una vocale {"a", "e", "i", "o", "u"} perché si presuppone che in ogni annuncio vi sia almeno una vocale;
- numero, ovvero la data di pubblicazione dell'annuncio ed è -2 per tutti i numeri e un intero compreso tra 55 (11 luglio 2008) e 62 (8 agosto 2008).

Un discorso a parte va fatto per il parametro offset. Questo parametro consente di navigare attraverso le pagine dei risultati di una ricerca (attraverso i numeretti che vedete in basso a destra, quelli da 1 a 10 per intenderci!!). Purtroppo non è possibile andare oltre due cifre, ovvero 99. Mi spiego meglio: offset è un parametro opzionale che, se specificato, restituisce in prima posizione l'annuncio in posizione offset. Ad esempio, se offset è pari a 11, in prima posizione avrò l'undicesimo valore del mio result set, se è pari a 22 in prima posizione avrò il ventiduesimo valore del mio result set, e così via... Non essendoci offset superiori a 99, il massimo numero di risultati per ogni ricerca è (99 + 11*) = 110.

Sempre se non si tratta di un lavoro inutile, avrei pensato di raffinare la ricerca di nuovi annunci con tre parametri specifici della rubrica "Ville e appartamenti (Roma)", ovvero:
- sottorubrica (ovvero la zona dell'appartamento);
- catprezzo (ovvero il prezzo dell'appartamento);
- stanze (ovvero il numero di stanze dell'appartamento).
Che ne dite?

* N.b. 11 è il max numero di annunci visualizzabili per pagina.
Rever
00venerdì 8 agosto 2008 15:55
Re: Re: Re: Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
davverorealista, 08/08/2008 15.36:




- search, ovvero la chiave di ricerca, una vocale {"a", "e", "i", "o", "u"} perché si presuppone che in ogni annuncio vi sia almeno una vocale;



Parlavo di questo; come mi facevano notare ci sono alcune "ricerche" che hanno sia la vocale "a" che la vocale "e", ma in alcuni casi compaiono solo le offerta con la "a", in altri solo con la "e", in altri entrambi.. E' sicuramente un buco del "search" di portaportese, ma quella e' una funzione che sta sul server e ci possiamo fare poco..
Per il resto, stanze, prezzo ecc e' abbastanza semplice in quanto basta passarlo all'URL.. La suddivisione per zone, invece gia' l'avevo fatta.. La cosa piu' utile sicuramente sarebbe fare il raffronto dello stesso immobile temporalmente ( ma qui abbiamo visto che l'ID dambia per lo stesso immobile ), Ma al momento sembra una cosa molto "instabile"; confrontarli per altri parametri avrebbe poco senso..

davverorealista
00venerdì 8 agosto 2008 18:05
Re: Re: Re: Re: Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
Rever, 08/08/2008 15.55:


...ci sono alcune "ricerche" che hanno sia la vocale "a" che la vocale "e", ma in alcuni casi compaiono solo le offerta con la "a", in altri solo con la "e", in altri entrambi.. E' sicuramente un buco del "search" di portaportese, ma quella e' una funzione che sta sul server e ci possiamo fare poco..



Osservando attentamente gli annunci restituiti in funzione del parametro search mi sono reso conto che la ricerca non è, ad esempio, del tipo "restituisci tutti gli annunci con parole contenenti al loro interno la chiave di ricerca a ", ma piuttosto "restituisci tutti gli annunci con parole esattamente uguali alla chiave di ricerca a ". Dunque, il mio programma, ogni volta che interrogava il sito di PP con parametro search=a, riceveva tutti gli annunci del tipo "...soggiorno a vista..." oppure "...armadio a muro...". Un annuncio del tipo "APPIA ANTICA ampio attico occasione vendesi 400kE" non sarebbe venuto fuori nonostante la presenza di ben sette vocali a perché all'interno del testo dell'annuncio non è presente la parola "a".
Rever
00venerdì 8 agosto 2008 18:27
Re: Re: Re: Re: Re: Re: Re: Elenco "Appartamenti & Ville (Roma)" by portaportese.it [11/07/2008 - 08/08/2008]
davverorealista, 08/08/2008 18.05:



Osservando attentamente gli annunci restituiti in funzione del parametro search mi sono reso conto che la ricerca non è, ad esempio, del tipo "restituisci tutti gli annunci con parole contenenti al loro interno la chiave di ricerca a ", ma piuttosto "restituisci tutti gli annunci con parole esattamente uguali alla chiave di ricerca a ". Dunque, il mio programma, ogni volta che interrogava il sito di PP con parametro search=a, riceveva tutti gli annunci del tipo "...soggiorno a vista..." oppure "...armadio a muro...". Un annuncio del tipo "APPIA ANTICA ampio attico occasione vendesi 400kE" non sarebbe venuto fuori nonostante la presenza di ben sette vocali a perché all'interno del testo dell'annuncio non è presente la parola "a".



Invece accade l'esatto opposto, mettendo "a" nel parametro di ricerca, per es in appio tuscolano, mi ha fatto vedere solo gli annunci nei quali la lettara a appariva solo in parole "piene" tipo Appio Tuscolano e non ad esempio la sola lettara "Edificio a xx yy".. Strano.

Guarda ad esempio questo search e "risposta" strana che da, non e' coerente..
www.portaportese.it/rubriche/Immobiliare/Ville_e_appartamenti_(Roma)/index.jsp?kr=53&tipo=offerte&search=a+b+c+d+e+f+g+h+i+j+k+l+m+n+o+p+q+r+s+t+u+v+w+x+y+z&numero=62&sottorubrica=157&catprezzo=1&stanze=-1&SUBM...

Guarda la prima "risposta" ad esempio, non si capisce perche' mi "segna" "AN" o "el" o "i" o "x" o "e" ma non il resto..


davverorealista
00sabato 9 agosto 2008 15:03
Parametro "search" e calcolo combinatorio
Dal mio punto di vista non bisogna confondere i risultati delle ricerche su PP con l'evidenziazione in grassetto delle parole ricercate: sono due cose distinte e, molto spesso, non coincidenti.
Una cosa interessante, invece, è che, nel caso in cui la stringa di ricerca è composta da un'unica parola, l'algoritmo di PP sembra comportarsi nel seguente modo:
- se la parola è formata da 1 o 2 caratteri, effettua una ricerca "esatta" del tipo "è esattamente uguale a...";
- se la parola è formata da 3 o più caratteri, effettua dapprima una ricerca del tipo "l'intero annuncio comincia con..." per poi passare, anche in questo caso, ad una ricerca "esatta".

Ecco, io ritengo che sul secondo punto bisogna soffermarsi di più: potrebbe essere la strada da seguire per effettuare una ricerca completa di tutti gli annunci. Come? Beh, potremmo interrogare il server di PP, in maniera "stupida ma esaustiva", ricercando tutte le possibili combinazioni con ripetizione di lunghezza k=3 degli n=26 caratteri dell'alfabeto inglese (o n=21 dell'alfabeto italiano) ovvero 3276 (o 1771, nel caso italiano) triple. Oppure, potremmo usare un "vocabolario delle triple più probabili", tenendo conto che gran parte delle triple generate dal calcolo combinatorio precedente non darebbero sicuramente alcun risultato (difficile immaginare un annuncio che cominci, ad esempio, per "kjz..."!!!).

Che ne dite? Se pò fà?
davverorealista
00sabato 9 agosto 2008 15:15
Re: Parametro "search" e calcolo combinatorio
Ah...dimenticavo!! Con 1771 triple, considerando un'interrogazione al secondo (più che sufficiente per non far "allarmare" Mr PP), siamo sui 30 minuti. Inoltre, va tenuto conto di risultati su più pagine (il famoso fattore "offset"): secondo me in un'oretta un numero di PP vien giù tranquillamente!
Invece, nel caso si decida di usare l'alfabeto inglese per generare le tuple (ma mi sembra inutile), siamo sulle due ore per tenerci larghi.

Naturalmente, questa "ricerca a forza bruta" potrebbe essere effettuata tranquillamente in parallelo: a buon intenditor...

guido.zip
00mercoledì 3 settembre 2008 13:50
Scaricare tutti gli annunci
.

Sono tornato ieri dalle ferie, vedo che avete fatto passi avanti!

Ottima idea quella di fare la ricerca completa di tutti gli annunci.

A questo punto però forse conviene fare la ricerca sul prezzo. Andando da "100.000" a "999.000" a passi di 1000 euro sarebbero 900 ricerche in tutto.

Le ricerche possono poi essere ripetute togliendo il punto di separazione, da "100000" a "999000", e sarebbero 1800 ricerche in tutto

Ci sono poi alcuni pignoli che indicano il prezzo in euro con la virgola e i due decimali (es: 350000,00 oppure 350.000,00), e quindi per prendere proprio tutti gli annunci andrebbero fatte altre ricerche.

Comunque se fai ricerche sulle stringhe:

"XYZ.000" e "XYZ000" dove:
X = 1,2 ..... 9
Y = 0,1,2 ... 9
Z = 0,5,9

dovresti prendere il 99% degli annunci in cui è indicato il prezzo, con solo 540 ricerche.

I risultati poi non li metterei in formato pdf ma li terrei grezzi in formato testo, con le colonne della tabella separate da tab. In questo modo diventa più facile per tutti elaborarli e riorganizzarli importandoli per esempio su un foglio elettronico.

Direi che nella tabella le colonne fondamentali sono tre: data, prezzo e testo dell'annuncio. Può essere utile aggiungere altre colonne con la zona e il numero di stanze (oppure i relativi codici).

I singoli appartamenti possono essere tracciati "a mano" ordinando la tabella sulla colonna contenente il testo dell'annuncio (se il testo dell'annuncio non è stato cambiato, altrimenti la vedo dura).

Grazie ancora a davverorealista per il lavoro che fa per tutti

.
guido.zip
00martedì 9 settembre 2008 19:28
UP
.

che fine hanno fatto davverorealista e Rever?

.
davverorealista
00venerdì 12 settembre 2008 15:23
Re: UP
guido.zip, 09/09/2008 19.28:

.

che fine hanno fatto davverorealista e Rever?

.



Eccomi... ti ringrazio per i complimenti!! Avevo perso un'pò di interesse nell'argomento non ricevendo feedback da nessuno... Non so se è il caso di continuare, nel senso che non so più se questo argomento sia veramente interessante e valga la pena continuare [SM=g7752]

Scacco Mattone
00lunedì 6 ottobre 2008 16:00
ID di Porta Portese
davverorealista, 01/08/2008 17:40:



Ottima idea Rever, abbiamo avuto le stesse intuizioni... Io, però, ritengo che una qualche procedura sia intuibile ma ci sto ancora lavorando. Finora ho capito che ogni annuncio ha un suo id statico di 13 cifre, di cui le prime 5 sono sempre 20080 (l'anno di riferimento dell'annuncio) e le altre si ripetono a seconda della zona dell'annuncio... Bah, staremo a vedere!!!



Dopo lunghe riflessioni [SM=g7600]
vi propongo una interpretazione cronologica dell'ID:

xxxxyyyzzzzzz

anno = xxxx
numero di Porta Portese = yyy
progressivo = zzzzzz

Questa interpretazione mi pare compatibile con gli ID presenti (ovvero non sono presenti annunci con ID posteriori alla data di pubblicazione).

Probabilmente quando qualcuno pubblica un annuncio dice anche per quanti numeri deve essere ripubblicato, poi, magari, lo conferma (e allora mantiene l'ID) o lo riscrive uguale o quasi uguale (e qui lo cambia).

Non che serva a molto ma a me pare proprio che sia così.

Comunque ho dato un "up" al thread [SM=g7576]
Scacco Mattone
00lunedì 13 ottobre 2008 22:22
Faccio progressi.......
Dunque,

ho la speranza di aver ragionevolmente scaricato TUTTI gli annunci con prezzo del Portaportese online n°75.

Se ci riesco allego il file zippato (i .txt sono in con i ritorno a capo Unix quindi usate wordpad e non il blocco note).

Consideratelo un regalo per la cena cui non potrò essere presente (vivo all'estero ed arriverò a Roma solo il 31 [SM=g7626]).

In un post successivo mi dilungherò in elucubrazioni tecniche sul sito di portaportese e su quello che vorrei fare.

Salutoni e buona cena [SM=j7569].
dgambera
00lunedì 13 ottobre 2008 22:56
Re: Faccio progressi.......
Scacco Mattone, 13/10/2008 22.22:

Dunque,

ho la speranza di aver ragionevolmente scaricato TUTTI gli annunci con prezzo del Portaportese online n°75.

Se ci riesco allego il file zippato (i .txt sono in con i ritorno a capo Unix quindi usate wordpad e non il blocco note).

Consideratelo un regalo per la cena cui non potrò essere presente (vivo all'estero ed arriverò a Roma solo il 31 [SM=g7626]).

In un post successivo mi dilungherò in elucubrazioni tecniche sul sito di portaportese e su quello che vorrei fare.

Salutoni e buona cena [SM=j7569].




Bravissimo!!!!!

Ottimo lavoro
zippo71
00lunedì 13 ottobre 2008 23:20
Re: Faccio progressi.......
Scacco Mattone, 13/10/2008 22.22:

Dunque,

ho la speranza di aver ragionevolmente scaricato TUTTI gli annunci con prezzo del Portaportese online n°75.



Complimenti, hai fatto veramente un gran bel lavoro.

Seguirò con piacere le tue "elucubrazioni tecniche". Anche io lavoro nell'ambito dell'informatica, magari posso dare un mio modesto contributo per cercare di rendere in qualche modo utilizzabili i dati che sei riuscito ad estrarre.
Non ti potrò essere d'aiuto nella programmazione vera e propria, ma ho in mente qualche idea per l'algoritmo di estrazione dei dati e la struttura del database... comunque aspetto prima le tue considerazioni. [SM=p7579]

Scacco Mattone
00martedì 14 ottobre 2008 13:51
Re: Re: Faccio progressi.......
Premessa: questo post sarà mooolto lungo (e penso anche un po' complicato), quindi inizio con l'esporre la mia soluzione in breve per poi ritornarci a più riprese. Così chi si annoia può interrompere la lettura avendo comunque una vaga idea di ciò che ho fatto.

SOLUZIONE

1) Ho fatto una ricerca separata per ogni zona individuata da PP.

2) La mia chiave di ricerca è stata "cucina tinello soggiorno salone camera camere bagno bagni"

3) Ho ripetuto ogni ricerca su intervalli di prezzo determinati dinamicamente per non infrangere il limite dei 110 annunci per ricerca.

FINE SOLUZIONE


COMMENTO AL PUNTO 1)

Questo commento è facile: ognuno di noi è interessato ad alcune zone piuttosto che ad altre, non aveva senso accorpare tutti gli annunci (cosa che si può tranquillamente fare in seguito) e perdere un'informazione preziosa.


COMMENTO AL PUNTO 2)

Qui le cose si complicano leggermente.
Ho osservato un po' il comportamento del sito per query diverse ed effettivamente si comporta in maniera buffa e non sempre chiara (vedi messaggi di Rever e davverorealista del 8-9/8/2008) ma ritengo che le loro osservazioni stessero portando su una via non del tutto corretta.

Mi spiego meglio: il problema con la chiave di ricerca è di pescare tutti gli annunci ma poi rimane il problema della barriera dei 110 dovuti al limite dell'offset (davverorealista 8/8/2008 15.36).

Ora generare tutte le ntuple di tre caratteri o simili (davverorealista 9/8/2008 15.03), da un lato non risolve il "problema 110", dall'altro sicuramente genera fastidiosi doppioni perché un annuncio può ben essere in più ricerche.

Inoltre dato il comportamento oggettivamente strano del motore di ricerca di PP, sarebbe meglio tenere le query il più semplici possibile.

La mia scelta si basa sull'assunzione che quando ci sono più parole nella query vengono comunque selzionati tutti gli annunci che ne contengono almeno una, a prescindere da quante poi ne saranno evidenziate nel testo in grassetto (sempre davverorealista 9/8/2008 15.03).

Così mi sembra difficile (ma non impossibile, se qualcuno ne trova uno me lo segnali che aggiorno la query) che esista un annuncio che non contenga neanche una delle 8 parole da me scelte.

Rimane il "problema 110" ma di questo parlo nel......


COMMENTO AL PUNTO 3)

Mettetevi comodi.....

Andate sul sito di PP nella sezione immobiliare di roma.
Fate una ricerca qualsiasi che generi più di 11 risultati.
Andate sulla seconda pagina della ricerca (offset 11) cliccando sul numero 2 in fondo alla prima pagina.

Osservate la URL con attenzione.........

sono comparsi due parametri nuovi prezzomin e prezzomax !!!!!!! (questo assieme al fatto che, se nella ricerca avevate selezionato il numero di stanze, nel passaggio dalla pagina 1 alle 2 il parametro "stanze" si è misteriosamente vaporizzato la dice lunga su quanto sia fatto bene il sito di PP)

Ecco come mi sono arrangiato per risolvere il "problema 110":
basta definire intervalli contigui di prezzo ciascuno dei quali contenga non più di 110 annunci.

Ipotizziamo di volre cercare tutti gli immobili tra 0 e 10.000.000

Il mio programma, per prima cosa, divide in due l'intervallo e fa una ricerca tra 5.000.000 e 10.000.000 con offset 99.

Poi conta gli annunci su quella pagina, se sono meno di 11 c'è la garanzia che nell'intervallo ci siano meno di 110 annunci e quindi scarica nell'ordine tutte le pagine dall'offset 00 finché ne trova.

Se invece sono 11 divide in due l'intervallo e riparte da 7.500.000 a 10.000.000 e così via finché non trova un intervallo con meno di 110 annunci (supponiamo che 7.500.000-10.000.000 vada bene).

Fatto questo si riparte da 0 a 7.500.000 (diviso in due da 3.750.000 a 7.500.000) finché non si arriva all'intervallo 0-0.

Così ho la garanzia di aver scaricato tutti gli annunci tra 0 e 10.000.000.

In un successivo post indicherò altri dettagli tecnici meno fondamentali
guido.zip
00giovedì 16 ottobre 2008 23:19
Re: Re: Re: Faccio progressi.......
Scacco Mattone, 14/10/2008 13.51:



2) La mia chiave di ricerca è stata "cucina tinello soggiorno salone camera camere bagno bagni"

Così mi sembra difficile (ma non impossibile, se qualcuno ne trova uno me lo segnali che aggiorno la query) che esista un annuncio che non contenga neanche una delle 8 parole da me scelte.




Ottimo lavoro, complimenti. Per migliorare il lavoro ti segnalo alcuni annunci che non contengono le parole scelte per la chiave di ricerca.


mar 14 Ott VIA APPIA NUOVA Statuario Mole costruzione attici bilivello completi di terrazze e posto auto risparmio energetico consegna marzo 09 E 420.000 Ag.Imm. Inseriscilo negli appunti

mar 14 Ott VIA APPIA NUOVA Statuario nuova costruzione villino a schiera elegantemente rifinito completo di giardino e posto auto E 400.000 Ag.Imm. Inseriscilo negli appunti


mar 14 Ott VIA BOCCEA ad.te porzione di villetta mq 80 pi' 100 di giardino nuova costruzione E 330000 Inseriscilo negli appunti

mar 14 Ott APPIO LATINO via Segesta app.to III piano mq 90 + balconcino ristrutt. E 445.000

mar 14 Ott TARANTO via matera app. di 120 mq completamente ristrutturato adatto anche uso studio con 2 entrate.

mar 14 Ott PARIOLI via S. Valentino app.to 150 mq V piano balcone abit. posto auto E. 1.550.000 Inseriscilo negli appunti

mar 14 Ott PINCIANO ufficio via Nizza piano alto m 480 occupato scadenza contratto dic. 2011 e. 2.950.000

mar 14 Ott APPIO LATINO via Segesta app.to III piano mq 90 + balconcino ristrutt. E 445.000

mar 14 Ott TARANTO via matera app. di 120 mq completamente ristrutturato adatto anche uso studio con 2 entrate.


Puoi forse aggiungere "via" e "piazza", oltre a "E" che sta per euro.

PS. Hai letto il mio post del 03/09/2008 13.50? Cosa ne pensi del metodo di ricerca in base ai prezzi che ho proposto?

.
zippo71
00sabato 18 ottobre 2008 14:31
Nuovamente complimenti per il tuo lavoro Scacco Mattone,

non ho modo di verificarlo con assoluta certezza, ma ho l'impressione che mettendo il carattere % nel campo di ricerca vengano restituiti tutti i risultati possibili.
Se fosse realmente così, non sarebbe necessario andarci a cercare una espressione che includa tutte le possibili parole che figurino almeno una volta in tutti gli annunci.

Aggiungo al tuo eccellente lavoro alcune considerazioni.

Innanzitutto dovremmo individuare lo scopo per il quale si vuole fare questa estrazione.
Se vogliamo monitorare ad esempio il prezzo medio di vendita al Mq per determinate zone, già siamo a buon punto, siamo in grado di avere un dato statistico abbastanza significativo.
Ma se l'intenzione è monitorare le singole inserzioni per seguirne l'evoluzione, forse occorre fare qualche sforzo in più.
Gli annunci di uno stesso immobile spesso vengono riformulati con altre descrizioni, i MQ subiscono variazioni, appaiono o scompaiono posti auto, cantine, giardini o terrazzi e quindi è difficile stabilire che quel nuovo annuncio faccia riferimento ad un altro già inserito.
L'unica discriminante potrebbe essere data dai contatti telefonici ed email che spesso sono gli stessi, ed era quello che avevo fatto io quando qualche tempo fa mi facevo a manina quell'estrazione dagli annunci di Porta portese.

Inoltre, sempre nell'ottica di voler monitorare l'annuncio, sarebbe interessante tener traccia anche del momento in cui scompare il prezzo, indice del fatto che probabilmente ci si trova di fronte ad ulteriori, e forse troppo imbarazzanti, ribassi.

... a proposito... hai per caso fatto l'estrazione anche per le ultime edizioni di PP ? Prevedi di includere anche la sezione "fuori roma" ? Quanto impieghi ad estrarre un'intera edizione ?
Scacco Mattone
00sabato 18 ottobre 2008 19:31
Re: Re: Re: Re: Faccio progressi.......
guido.zip, 16/10/2008 23.19:



Puoi forse aggiungere "via" e "piazza", oltre a "E" che sta per euro.



Ho aggiunto via e piazza per lo scaricamento del numero 77 ma mi sa che ciò è diventato inutile in quanto ho notato oggi pomeriggio che il sito di PP sembra ora consentire ricerche globali senza specificare alcunché, devo indagare meglio (che ci leggano anche loro? [SM=g7601] ).



PS. Hai letto il mio post del 03/09/2008 13.50? Cosa ne pensi del metodo di ricerca in base ai prezzi che ho proposto?



Che mi piace più il mio [SM=g7576]

Al di là delle partigianerie cerco di spiegare il perché.
Nelle ricerche sul sito di PP c'erano due problemi (forse ora solo uno, vedi sopra, ma facciamo finta di no, per ora): selezionare tutte le inserzioni e risolvere il "problema 110".

Io cerco di risolvere il primo problema con una sola "chiave furba" e il secondo con i paramentri seminascosti prezzomin e prezzomax da me scovati nella URL.

Tu useresti i prezzi per il primo e non mi è chiaro cosa per il secondo.

Se utilizziamo i prezzi per risolvere il primo problema, come potremo poi risolvere il secondo? Inoltre, ma è un dettaglio minore, potrebbero esserci inserzioni con errori tipografici, tipo 10.00.000 al posto di 1.000.000 e potrebbe non essere banale approntare un pattern adeguato. Infine molte ricerche non avranno quasi risultati (401.000) e alcune molti (400.000) presentando potenzialmente un "problema 110").

In entrambi i casi tagliamo fuori gli annunci senza prezzo (e questa, anche per il futuro, mi sembra un perdita accettabile, se non inevitabile)

Per fare un prova ho messo un contatore mentre scaricavo il numero 77 ed ho visto che col mio metodo impiego circa 2000 ricerche per 10000 annunci e, considerando che conto anche le ricerche per testare i limiti di prezzomin e prezzomax, una media di 5 annunci per ricerca (dove il massimo teorico è ovviamente di 11) non mi sembra male.

Tra l'altro facendo ciò mi sono reso conto di poter migliorare il metodo e tagliare circa un terzo delle ricerche ma ancora non l'ho codificato.

Tieni comunque presente che utilizzando un vero e proprio catorcio (notebook DELL pentium 2 350MHz, con sopra XUbuntu che arranca) ci metto meno di due ore per scaricare tutto, quindi, tutto sommato, il numero delle ricerche non è un fattore critico del problema.


guido.zip
00sabato 18 ottobre 2008 21:11
Re: Re: Re: Re: Re: Faccio progressi.......
Scacco Mattone, 18/10/2008 19.31:



Nelle ricerche sul sito di PP c'erano due problemi (forse ora solo uno, vedi sopra, ma facciamo finta di no, per ora): selezionare tutte le inserzioni e risolvere il "problema 110".

Io cerco di risolvere il primo problema con una sola "chiave furba" e il secondo con i paramentri seminascosti prezzomin e prezzomax da me scovati nella URL.

Tu useresti i prezzi per il primo e non mi è chiaro cosa per il secondo.

Se utilizziamo i prezzi per risolvere il primo problema, come potremo poi risolvere il secondo?




Non l'avevo detto espressamente, ma il problema "dei 110" sarebbe risolto in automatico.

Anche utilizzando la nuova opzione "in tutte le zone" su un singolo numero e dando prezzi molto frequenti come "400.000" il numero di annunci è dell'ordine di 20-30, sempre ben lontano dal limite di 110.
.
Inoltre con 540 ricerche dovresti prendere tutti gli annunci tranne: quelli senza prezzo, con prezzi strani (come per esempio 401.000 euro o 400.100 euro) o con errori di battitura nel prezzo (es: 4.00.000 euro).

Comunque alla fine quello che conta è il risultato, e mi pare che in un modo o nell'altro ci siamo.

.

Questa è la versione 'lo-fi' del Forum Per visualizzare la versione completa clicca qui
Tutti gli orari sono GMT+01:00. Adesso sono le 20:00.
Copyright © 2000-2024 FFZ srl - www.freeforumzone.com