{"id":5045,"date":"2016-09-12T01:10:31","date_gmt":"2016-09-12T01:10:31","guid":{"rendered":"http:\/\/www.garysieling.com\/blog\/?p=5045"},"modified":"2016-09-12T01:10:31","modified_gmt":"2016-09-12T01:10:31","slug":"scoring-documents-quality-python-often-speaker-say-um","status":"publish","type":"post","link":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/","title":{"rendered":"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?"},"content":{"rendered":"<p>As part of a <a href=\"https:\/\/www.findlectures.com\/\">project<\/a>, I thought it might be interesting to score lectures for how often the speaker says &#8220;um&#8221; (or similar). <\/p>\n<p>An interesting realization here is that an automated transcription of a lecture is superior for this purpose than manual closed captions or a written transcript, as those edit the material down.<\/p>\n<p>You need to tokenize whatever text you have:<\/p>\n<pre lang=\"python\">\nfrom nltk import word_tokenize\ntokens = word_tokenize(transcript)\n<\/pre>\n<p>Realistically, you only care if this is a frequent occurrence, so the best way to use this is combined with a threshold, or to feed this into a polynomial function that reduces the quality score for a transcript as it gets more severe.<\/p>\n<pre lang=\"python\">\ncheck = [\"um\", \"uh\", \"ah\", \"ehm\", \"eh\", \"uhm\", \"ah\", \"umm\", \"er\"]\n  \ndef umsScore(tokens):\n  bad = 0\n  for t in tokens:\n    if (t.lower() in check):\n      cnt = cnt + 1\n\n  return cnt\n<\/pre>\n","protected":false},"excerpt":{"rendered":"<p>Scoring talk transcripts for quality of word use in python<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"om_disable_all_campaigns":false,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"categories":[12],"tags":[447],"aioseo_notices":[],"aioseo_head":"\n\t\t<!-- All in One SEO 4.9.9 - aioseo.com -->\n\t<meta name=\"description\" content=\"Scoring talk transcripts for quality of word use in python\" \/>\n\t<meta name=\"robots\" content=\"max-image-preview:large\" \/>\n\t<meta name=\"author\" content=\"gary\"\/>\n\t<link rel=\"canonical\" href=\"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/\" \/>\n\t<meta name=\"generator\" content=\"All in One SEO (AIOSEO) 4.9.9\" \/>\n\t\t<meta property=\"og:locale\" content=\"en_US\" \/>\n\t\t<meta property=\"og:site_name\" content=\"Gary Sieling - Software Engineer\" \/>\n\t\t<meta property=\"og:type\" content=\"article\" \/>\n\t\t<meta property=\"og:title\" content=\"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling\" \/>\n\t\t<meta property=\"og:description\" content=\"Scoring talk transcripts for quality of word use in python\" \/>\n\t\t<meta property=\"og:url\" content=\"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/\" \/>\n\t\t<meta property=\"article:published_time\" content=\"2016-09-12T01:10:31+00:00\" \/>\n\t\t<meta property=\"article:modified_time\" content=\"2016-09-12T01:10:31+00:00\" \/>\n\t\t<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n\t\t<meta name=\"twitter:title\" content=\"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling\" \/>\n\t\t<meta name=\"twitter:description\" content=\"Scoring talk transcripts for quality of word use in python\" \/>\n\t\t<script type=\"application\/ld+json\" class=\"aioseo-schema\">\n\t\t\t{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"BlogPosting\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#blogposting\",\"name\":\"Scoring documents for quality in Python \\u2013 how often does a speaker say \\u201cum\\u201d? - Gary Sieling\",\"headline\":\"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?\",\"author\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/author\\\/gary\\\/#author\"},\"publisher\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/#organization\"},\"datePublished\":\"2016-09-12T01:10:31+00:00\",\"dateModified\":\"2016-09-12T01:10:31+00:00\",\"inLanguage\":\"en-US\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#webpage\"},\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#webpage\"},\"articleSection\":\"How-To, python\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#breadcrumblist\",\"itemListElement\":[{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog#listItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/www.garysieling.com\\\/blog\",\"nextItem\":{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/category\\\/how-to\\\/#listItem\",\"name\":\"How-To\"}},{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/category\\\/how-to\\\/#listItem\",\"position\":2,\"name\":\"How-To\",\"item\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/category\\\/how-to\\\/\",\"nextItem\":{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#listItem\",\"name\":\"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?\"},\"previousItem\":{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog#listItem\",\"name\":\"Home\"}},{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#listItem\",\"position\":3,\"name\":\"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?\",\"previousItem\":{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/category\\\/how-to\\\/#listItem\",\"name\":\"How-To\"}}]},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/#organization\",\"name\":\"Gary Sieling\",\"description\":\"Software Engineer\",\"url\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/author\\\/gary\\\/#author\",\"url\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/author\\\/gary\\\/\",\"name\":\"gary\",\"image\":{\"@type\":\"ImageObject\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#authorImage\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/0be925276d848ffe98a6a9dc8cf33e67?s=96&d=identicon&r=g\",\"width\":96,\"height\":96,\"caption\":\"gary\"}},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#webpage\",\"url\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/\",\"name\":\"Scoring documents for quality in Python \\u2013 how often does a speaker say \\u201cum\\u201d? - Gary Sieling\",\"description\":\"Scoring talk transcripts for quality of word use in python\",\"inLanguage\":\"en-US\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/#website\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/scoring-documents-quality-python-often-speaker-say-um\\\/#breadcrumblist\"},\"author\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/author\\\/gary\\\/#author\"},\"creator\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/author\\\/gary\\\/#author\"},\"datePublished\":\"2016-09-12T01:10:31+00:00\",\"dateModified\":\"2016-09-12T01:10:31+00:00\"},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/#website\",\"url\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/\",\"name\":\"Gary Sieling\",\"description\":\"Software Engineer\",\"inLanguage\":\"en-US\",\"publisher\":{\"@id\":\"https:\\\/\\\/www.garysieling.com\\\/blog\\\/#organization\"}}]}\n\t\t<\/script>\n\t\t<!-- All in One SEO -->\n\n","aioseo_head_json":{"title":"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling","description":"Scoring talk transcripts for quality of word use in python","canonical_url":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/","robots":"max-image-preview:large","keywords":"","webmasterTools":{"miscellaneous":""},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"BlogPosting","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#blogposting","name":"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling","headline":"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?","author":{"@id":"https:\/\/www.garysieling.com\/blog\/author\/gary\/#author"},"publisher":{"@id":"https:\/\/www.garysieling.com\/blog\/#organization"},"datePublished":"2016-09-12T01:10:31+00:00","dateModified":"2016-09-12T01:10:31+00:00","inLanguage":"en-US","mainEntityOfPage":{"@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#webpage"},"isPartOf":{"@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#webpage"},"articleSection":"How-To, python"},{"@type":"BreadcrumbList","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#breadcrumblist","itemListElement":[{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog#listItem","position":1,"name":"Home","item":"https:\/\/www.garysieling.com\/blog","nextItem":{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog\/category\/how-to\/#listItem","name":"How-To"}},{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog\/category\/how-to\/#listItem","position":2,"name":"How-To","item":"https:\/\/www.garysieling.com\/blog\/category\/how-to\/","nextItem":{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#listItem","name":"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?"},"previousItem":{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog#listItem","name":"Home"}},{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#listItem","position":3,"name":"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?","previousItem":{"@type":"ListItem","@id":"https:\/\/www.garysieling.com\/blog\/category\/how-to\/#listItem","name":"How-To"}}]},{"@type":"Organization","@id":"https:\/\/www.garysieling.com\/blog\/#organization","name":"Gary Sieling","description":"Software Engineer","url":"https:\/\/www.garysieling.com\/blog\/"},{"@type":"Person","@id":"https:\/\/www.garysieling.com\/blog\/author\/gary\/#author","url":"https:\/\/www.garysieling.com\/blog\/author\/gary\/","name":"gary","image":{"@type":"ImageObject","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#authorImage","url":"https:\/\/secure.gravatar.com\/avatar\/0be925276d848ffe98a6a9dc8cf33e67?s=96&d=identicon&r=g","width":96,"height":96,"caption":"gary"}},{"@type":"WebPage","@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#webpage","url":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/","name":"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling","description":"Scoring talk transcripts for quality of word use in python","inLanguage":"en-US","isPartOf":{"@id":"https:\/\/www.garysieling.com\/blog\/#website"},"breadcrumb":{"@id":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/#breadcrumblist"},"author":{"@id":"https:\/\/www.garysieling.com\/blog\/author\/gary\/#author"},"creator":{"@id":"https:\/\/www.garysieling.com\/blog\/author\/gary\/#author"},"datePublished":"2016-09-12T01:10:31+00:00","dateModified":"2016-09-12T01:10:31+00:00"},{"@type":"WebSite","@id":"https:\/\/www.garysieling.com\/blog\/#website","url":"https:\/\/www.garysieling.com\/blog\/","name":"Gary Sieling","description":"Software Engineer","inLanguage":"en-US","publisher":{"@id":"https:\/\/www.garysieling.com\/blog\/#organization"}}]},"og:locale":"en_US","og:site_name":"Gary Sieling - Software Engineer","og:type":"article","og:title":"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling","og:description":"Scoring talk transcripts for quality of word use in python","og:url":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/","article:published_time":"2016-09-12T01:10:31+00:00","article:modified_time":"2016-09-12T01:10:31+00:00","twitter:card":"summary_large_image","twitter:title":"Scoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d? - Gary Sieling","twitter:description":"Scoring talk transcripts for quality of word use in python"},"aioseo_meta_data":{"post_id":"5045","title":null,"description":null,"keywords":null,"keyphrases":null,"primary_term":null,"canonical_url":null,"og_title":null,"og_description":null,"og_object_type":"default","og_image_type":"default","og_image_url":null,"og_image_width":null,"og_image_height":null,"og_image_custom_url":null,"og_image_custom_fields":null,"og_video":null,"og_custom_url":null,"og_article_section":null,"og_article_tags":null,"twitter_use_og":false,"twitter_card":"default","twitter_image_type":"default","twitter_image_url":null,"twitter_image_custom_url":null,"twitter_image_custom_fields":null,"twitter_title":null,"twitter_description":null,"schema":{"blockGraphs":[],"customGraphs":[],"default":{"data":{"Article":[],"Course":[],"Dataset":[],"FAQPage":[],"Movie":[],"Person":[],"Product":[],"ProductReview":[],"Car":[],"Recipe":[],"Service":[],"SoftwareApplication":[],"WebPage":[]},"graphName":"","isEnabled":true},"graphs":[]},"schema_type":"default","schema_type_options":null,"pillar_content":false,"robots_default":true,"robots_noindex":false,"robots_noarchive":false,"robots_nosnippet":false,"robots_nofollow":false,"robots_noimageindex":false,"robots_noodp":false,"robots_notranslate":false,"robots_max_snippet":null,"robots_max_videopreview":null,"robots_max_imagepreview":"large","priority":null,"frequency":null,"local_seo":null,"limit_modified_date":false,"created":"2023-02-04 17:05:33","updated":"2026-07-06 02:13:39","ai":null,"breadcrumb_settings":null,"seo_analyzer_scan_date":null},"aioseo_breadcrumb":"<div class=\"aioseo-breadcrumbs\"><span class=\"aioseo-breadcrumb\">\n\t\t\t<a href=\"https:\/\/www.garysieling.com\/blog\" title=\"Home\">Home<\/a>\n\t\t<\/span><span class=\"aioseo-breadcrumb-separator\">&raquo;<\/span><span class=\"aioseo-breadcrumb\">\n\t\t\t<a href=\"https:\/\/www.garysieling.com\/blog\/category\/how-to\/\" title=\"How-To\">How-To<\/a>\n\t\t<\/span><span class=\"aioseo-breadcrumb-separator\">&raquo;<\/span><span class=\"aioseo-breadcrumb\">\n\t\t\tScoring documents for quality in Python \u2013 how often does a speaker say \u201cum\u201d?\n\t\t<\/span><\/div>","aioseo_breadcrumb_json":[{"label":"Home","link":"https:\/\/www.garysieling.com\/blog"},{"label":"How-To","link":"https:\/\/www.garysieling.com\/blog\/category\/how-to\/"},{"label":"Scoring documents for quality in Python &#8211; how often does a speaker say &#8220;um&#8221;?","link":"https:\/\/www.garysieling.com\/blog\/scoring-documents-quality-python-often-speaker-say-um\/"}],"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/posts\/5045"}],"collection":[{"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/comments?post=5045"}],"version-history":[{"count":0,"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/posts\/5045\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/media?parent=5045"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/categories?post=5045"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.garysieling.com\/blog\/wp-json\/wp\/v2\/tags?post=5045"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}