How to enable logs or figure out which parsers are being called in Apache Tika -


मैं जानना चाहता हूं कि कॉल में क्या हो रहा है

  java -jar tika- App-1.5.jar -j -v banana-gif.wbmp  

मैंने सभी संभव छवि और ऑटो पार्सर उपयोग करने की कोशिश की है लेकिन यह इस आदेश से प्राप्त आउटपुट से मेल नहीं खाती।

  { "क्रोमा BlackIsZero": "सच", "सामग्री-लंबाई": 63552, "सामग्री प्रकार": "छवि / vnd.wap.wbmp" "आयाम ImageOrientation": "सामान्य" , "ऊंचाई": 534, "ResourceName": "केले gif.wbmp", "टिफ: ImageLength": 534, "टिफ: ImageWidth": 950, "चौड़ाई": 950}  
< P> मैं इस कमांड को चलाने के दौरान पूर्ण लॉग को सक्षम करना चाहता हूं

एक चरण - काम किस तरह की फाइल टिकिया सोचती है कि यह है। आप मेटाडाटा से प्राप्त कर सकते हैं, अगर आप पहले ही इसे पास कर रहे हैं या टिक्का ऐप से पता लगाने के विकल्प का उपयोग कर सकते हैं

  $ java -jar tika-app-1.5.jar - वायरफ्रेम खोजें .पीडीएफ एप्लिकेशन / पीडीएफ  

अगला, आपको उन सभी पार्सर की सूची प्राप्त करने की आवश्यकता है जो आपके द्वारा उपयोग की जाने वाली Tika ऐप संस्करण के बारे में, माइम प्रकारों के बारे में जानती हैं जिन्हें वे संभालते हैं:

<पूर्व> $ जावा वर्जर टिका-ऐप-1.5.jar - सूची-पार्स-विवरण | ग्रेप -B 2 -एक 2 आवेदन / पीडीएफ आवेदन / vnd.oasis.opendocument.chart org.apache.tika.parser.pdf.PDFParser आवेदन / पीडीएफ org.apache.tika.parser.pkg.CompressorParser आवेदन / x-bzip < / code>

कि से, हम देखते हैं एक PDF फ़ाइल org.apache.tika.parser.pdf.PDFParser

द्वारा लिए हैंडल किया जाएगा कि आपके छवि / vnd.wap.wbmp और टीका 1.5 के विशिष्ट मामले, हम देखते हैं कि पार्सर इस्तेमाल किया जा रहा org.apache.tika.parser.image.ImageParser है

(नोट - यह सब Tika- अनुप्रयोग निष्पादन योग्य जार का उपयोग करने पर लागू होता है, जहां आप इसे बदल नहीं सकते हैं। अगर आप अपने जावा कोड से Tika का उपयोग कर रहे थे तो आपको अधिक विकल्प उपलब्ध होंगे, लेकिन आप कहां यह सुनिश्चित करने के लिए कि आप इसे ठीक से काम करने के लिए सभी निर्भरता जार शामिल करें!)


Comments

Popular posts from this blog

import - Python ImportError: No module named wmi -

Editing Python Class in Shell and SQLAlchemy -

c# - MySQL Parameterized Select Query joining tables issue -