doctable.pipeline
index
/scratch/dc326/code/doctable/doctable/pipeline.py

 
Modules
       
functools

 
Classes
       
builtins.object
ParsePipeline

 
class ParsePipeline(builtins.object)
    Class for creating pipelines for parsing text documents (or other elements).
Primarily
 
  Methods defined here:
__init__(self, components)
Args:
    components (list<func>): list of components/functions to apply to the 
        input sequentially. See the component function in this script to 
        generate components.
parse(self, doctext)
Parses document by applying each component function to doctext in turn.
Args:
    doctext (str): text to be parsed. This can actually be anything to put into
        a pipeline.
Returns:
    single parsed document object, output of last pipeline function
parsemany(self, doctexts, workers=1, override_maxcores=False)
Parse multiple documents distributed across workers.
Args:
    doctexts (list<str>): elements to be parsed
    workers (int): number of processes to use
    override_maxcores (bool): in cases where processes may have
        low CPU utilization, you may want to create more processes
        than your computer has cores.
Returns:
    list of parsed elements

Static methods defined here:
parsemany_thread(doctexts, parser)
Helper for .parsemany().

Data descriptors defined here:
__dict__
dictionary for instance variables (if defined)
__weakref__
list of weak references to the object (if defined)

 
Functions
       
Comp(func, *args, **kwargs)
Returns a pipeline component as a function with one positional arg.
    See components in this file to see available mappings.
Args:
    *args: passed directly to component function
    **kwargs: passed directly to component function

 
Data
        components = {'get_parsetrees': <function get_parsetrees>, 'keep_tok': <function keep_tok>, 'merge_tok_ngrams': <function merge_tok_ngrams>, 'merge_tok_spans': <function merge_tok_spans>, 'parse_tok': <function parse_tok>, 'preprocess': <function preprocess>, 'tokenize': <function tokenize>}