Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur

Research output: Contribution to journalJournal articleResearchpeer-review

21 Downloads (Pure)

Abstract

LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel annotation af ord og længere tekstpassager. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.
Original languageDanish
Book seriesNordlyd
Volume47
Issue number2
Pages (from-to)77–89
ISSN0332-7531
DOIs
Publication statusPublished - 2023
EventNordisk Dialektologkonference: Struktur, ideologi og mangfald - UiT Campus Alta, Alta, Norway
Duration: 15 Aug 202217 Aug 2022
Conference number: 12
https://uit.no/tavla/artikkel/730114/tolvte_nordiske_dialektologkonferansen

Conference

ConferenceNordisk Dialektologkonference
Number12
LocationUiT Campus Alta
Country/TerritoryNorway
CityAlta
Period15/08/202217/08/2022
Internet address

Keywords

  • Faculty of Humanities

Cite this