Språkbanken CLARIN        SweCLARIN        Uppsala universitet ENGLISH
 
                         

Resurs- och kunskapscentra

– Swedish in a Multilingual Setting, SMS

K-centrumet Svenska i ett flerspråkigt sammanhang (CLARIN-SMS) inriktar sig på språkteknologi för svensk och flerspråkig text (såsom parallella korpusar). Dessutom erbjuder CLARIN-SMS expertis inom språkteknologi för svenskt teckenspråk (STS).

CLARIN-SMS riktar sig främst till forskare inom humaniora och samhällsvetenskap med behov av analys, annotering eller utvinning av information när det gäller svensk eller flerspråkig text, och även mot forskare med behov av verktyg och korpusar för svenskt teckenspråk.

CLARIN-SMS tillgängliggör språkteknologiska resurser i form av verktyg och korpusar för humaniora och samhällsvetenskap. Detta inkluderar enspråkiga (huvudsakligen svenska) och flerspråkiga korpusar i olika domäner samt språkteknologiska verktyg som inkluderar tokenisering, morfologisk analys, ordklasstaggning, syntaktisk analys och namnigenkänning. CLARIN-SMS erbjuder specialkompetens inom följande områden:

  • analys och bearbetning av parallella och jämförbara korpusar, inklusive länkning och maskinöversättning
  • flerspråkig annotering inom ramen för Universal Dependencies
  • beräkning och utvärdering av mått på textkomplexitet
  • språkteknologi för svensk teckenspråk

Verktyg och resurser

  • Sapis - StilLett API Service
    Webbservice med verktyg för att mäta textkomplexitet och textsimplifiering. Sapis användarmanual finns tillgänglig här.

  • LinES: Linköping English-Swedish Parallel Treebank
    Parallellkorpus med cirka 4000 engelska originalmeningar från olika källor, jämte deras svenska översättningar.

  • Swectors
    Datamängd med statiska svenska ordvektorer, samt koden som använts för att generera dem..

  • En guldstandard för engelsk-svensk ordlänkning
    Guldlänkningar för 1164 engelsk-svenska meningspar, för utvärdering av ordlänkningssystem. Källdata från Europarl v.2.

  • Svensk Diakronisk korpus (Swedish Diachronic Corpus)
    Korpus med texter som sträcker sig från fornsvenska till nutid, med många olika texttyper och fritt tillgänglig för nedladdning och sökning.
    Kontaktperson: Eva Pettersson, Uppsala universitet

  • SweGram
    SWEGRAM syftar till att tillhandahålla ett verktyg för textanalys på svenska och engelska. Du kan ladda upp en eller flera texter och annotera dem på olika lingvistiska nivåer med morfologisk och syntaktisk information. De annoterade texterna kan sedan användas för att extrahera statistik om textens egenskaper vad gäller textlängd, antal ord, läsbarhetsmått, ordklasser och mycket mer.
    Kontaktperson: Beáta Megyesi, Stockholms universitet

  • Universal Dependencies
    Universal Dependencies (UD) är ett ramverk för konsekvent annotering av grammatik (ordklasser, morfologiska egenskaper och syntaktiska beroenden) över olika mänskliga språk. UD är ett öppet samhällsinitiativ med över 300 medverkande, som tillsammans genererat cirka 200 trädbanker på mer än 100 språk.
    Kontaktperson: Joakim Nivre, Uppsala universitet

  • SOU corpus
    Detta repositorium innehåller rensade och vidarebearbetade versioner av Statens offentliga utredningar (SOU). Dokumenten är baserade på HTML-versioner från Riksdagens öppna data (http://data.riksdagen.se/) och täcker åren 1994 till 2020. .
    Kontaktperson: Sara Stymne, Uppsala universitet

  • Swedish Causality Datasets
    Tre svenska dataset uppmärkta med förekomster av kausalitet. Dataseten är annoterade med två olika uppgifter i åtanke: kausalitetsigenkänning och kausalitetsrankning med avseende på en frågeställning som innehåller minst en orsak eller en effekt.
    Kontaktperson: Sara Stymne, Uppsala universitet

Medverkande Språkbanken-CLARIN-medlemmar

CLARIN-SMS är ett så kallat distribuerat K-centrum med flera deltagare:

Kontakt

Arne Jönsson, arne.jonsson@liu.se
Mats Wirén, mats.wiren@ling.su.se
Eva Pettersson, eva.pettersson@lingfil.uu.se

Publikationer

     Medintressenter Medlemmar Kontakta oss     
CLARIN ERIC
Språkbanken
Vetenskapsrådet
Språkbanken Text, GU
Språkbanken Tal, KTH
Språkbanken Sam, Isof
Datorlingvistikgruppen, UU
GRIDH, GU
Humanistlaboratoriet, LU
Humlab, UmU
Institutionen för lingvistik, SU
Kungliga biblioteket
NLPLab, LiU
Riksarkivet
info@sweclarin.se