Indicizzare full-text i file PDF su SharePoint 2010
Così come accadeva su SharePoint 2007, anche su SharePoint 2010 il motore di ricerca out-of-the-box non è in grado di indicizzare contenuti PDF. La ragione è ovviamente nota: il formato Adobe PDF è proprietario e non indicizzabile se non attraverso l'aggiunta di uno specifico iFilter che consente al motore di indicizzazione di "aprire" e "leggere" il contenuto dei file PDF, rendendo quindi possibile l'indicizzazione e le successive ricerche sul contenuto.
Va ricordato che ora SharePoint 2010 è solo a 64 bit, e quindi eventuali vecchi iFilter utilizzati su MOSS 2007 32 bit non vanno più bene. Diverso invece se in passato si usavano iFilter a 64 bit.
Attualmente sul mercato esistono tre iFilter PDF a 64 bit:
Recentemente Jie Li ha condotto degli interessanti test comparativi, attraverso i quali sono emerse differenze sostanziali tra i tre iFilter:
|
Vendor |
Crawl Time(h:m:s) |
Crawl Time(s) |
File Per Second |
Success(including warning) |
Error |
| Foxit |
0:13:00 |
780 |
29.02 |
22637 |
0 |
| TET |
1:17:44 |
4664 |
5.07 |
22637 |
0 |
| Adobe |
8:29:43 |
30583 |
0.74 |
22637 |
0 |
Oltre alla differenza nella velocità di indicizzazione (dai 13' di Foxit alle 8,5 ore di Adobe c'è una bella differenza!), segnalo anche le differenze di impatto sull'infrastruttura, dove:
-
Foxit sfrutta le CPU multicore, senza metterle eccessivamente in difficoltà (utilizzo spinto al 90%):

-
Anche TET sfrutta il multi-Core, ma schiantando le CPU al 100%

-
Adobe non è invece in grado di struttare a dovere il multi-thread, lavorando con un singolo core
