Badanie i wybór optymalnego algorytmu sztucznej inteligencji służącego do budowy narzędzia automatycznie generującego raport o stanie techniki – RapTech
Projekt badawczo-rozwojowy: „Badanie i wybór optymalnego algorytmu sztucznej inteligencji służącego do budowy narzędzia automatycznie generującego raport o stanie techniki” (RapTech)
PROJEKT DOFINANSOWANY ZE ŚRODKÓW BUDŻETU PAŃSTWA
Projekt dofinansowany z dotacji celowej Prezesa Centrum Łukasiewicz
Akronim: RapTech
Okres realizacji: 01.01.2022 – 31.03.2022
Dofinansowanie: 100 000 zł
Całkowita wartość: 100 000 zł
Opis projektu:
Poszukiwania patentowe prowadzące do określenia stanu techniki są skomplikowanym procesem o wielu iteracjach z obserwowaniem i analizowaniem wyników oraz stałym dopasowywaniem zakresu konceptów (fraz, słów kluczowych) i kształtu zapytań. W procesie tym niezwykle ważne jest doświadczenie eksperta oraz jego umiejętności konstruowania konceptów w ramach danej dziedziny oraz budowaniem strategii poszukiwań w bazach patentowych z uwzględnieniem ograniczeń powiązanych z tymi bazami wyszukiwarek.
Celem projektu było opracowanie i weryfikacja koncepcji (proof of concept) dotyczącej możliwości budowy systemu przygotowującego sprawozdania o stanie techniki w oparciu o dane wejściowe (zgłoszenie patentowe, w szczególności sekcja zastrzeżenia) oraz dane źródłowe (zbiory literatury patentowej). Zbudowane i wyuczone w ramach projektu algorytmy AI/NLP powinny określić zbiór fraz (słów) kluczowych dla kilkunastu dokumentów wybranych przez Urząd Patentowy. Zbiór ten porównany został ze zbiorem konceptów przygotowanych równolegle przez ekspertów UPRP.
Na potrzeby projektu UPRP udostępnił ponad 150000 dokumentów – opisów patentowych – z lat 1924 – 2019 w formie plików PDF i XML. Dokumenty te zostały wczytane do specjalnie przygotowanej bazy danych za pomocą opracowanych przez Zespół projektowy algorytmów dokonujących poprawy jakości treści dokumentów. Tak przygotowana baza danych była podstawą do uczenia wybranych algorytmów umożliwiających ekstrakcję słów kluczowych z wybranych przez ekspertów UPRP dziesięciu opisów patentowych.
Opracowano i przetestowano szereg algorytmów związanych z ekstrakcją słów (fraz) kluczowych. Wybrano i testowano następujące koncepcje:
- algorytm YAKE – nienadzorowane podejście, które opiera się na cechach wyodrębnionych z tekstu
- algorytm KeyBERT wykorzystujący model BERT (użyto wstępnie wytrenowany model HerBERT allegro/herbert-large-cased) – model oparty na sieci neuronowej, który wykorzystuje Transformer, mechanizm uwagi, który uczy się kontekstowych relacji między słowami (lub podsłowami) w tekście.
Dodatkowo wykonano dla porównania testy na angielskojęzycznym zbiorze danych z wykorzystaniem odpowiednio dopasowanych metod:
- algorytm YAKE
- algorytm KeyBERT (użyto wstępnie wytrenowany model BERT xlm-r-bert-base-nli-stsb-mean-tokens)
- Model łączony SpaCy + Osadzanie BERT – algorytm zbliżony ideowo do KeyBERT, wyodrębniający wstępnie rzeczowniki i frazy rzeczownikowe (niedostępne w języku polskim) poprzez bibliotekę SpaCy a następnie oceniający osadzenie kandydatów poprzez autokoder transformatorowy BERT za pomocą podobieństwa cosinusowego.
W ramach zadania dotrenowano także model RoBERTa (wstępnie wytrenowany model clarin/roberta kgr 10) za pomocą algorytmu MLM (Masked-Language Modeling) na bazie wszystkich zgromadzonych w bazie danych dokumentów.
Wnioski z wykonanych prac są następujące:
- Analiza uzyskanych wyników i przeprowadzonych działań tworzy, zdaniem Autorów, podstawę i potrzebę realizowania dalszych prac w ramach projektu, prowadzących do stworzenia systemu wspomagającego eksperta w opracowaniu stanu techniki.
- Rodzaj uczenia maszynowego, który pozwala uzyskać najlepsze efekty w kontekście maksymalizacji poprawności odszukiwania dokumentów to uczenie nadzorowane przez eksperta.
- Algorytmy AI mogą być użyte jedynie jako generatory zbioru słów kluczowych weryfikowanych przez eksperta podczas tworzenia strategii poszukiwań.
- Należy wypracować metodę efektywnego prezentowania propozycji słów kluczowych wygenerowanych przez AI dla eksperta oraz efektywną metodę uczenia systemu nadzorowanego przez eksperta.