Název proteinu by neměl být delší než 30 znaků a nesmí začínat řetězci "peptide
", "all proteins
" nebo
"within one molecule
" nezávisle na velikosti a nesmí obsahovat pomlčku '-
' ani kulaté, hranaté nebo složené závorky
'(
', ')
', '[
', ']
', '{
' a '}
'.
'Starting index' je celé číslo, které udává posun první aminokyseliny zadaného řetězce.
'From' a 'to' určují, zda má být použit celý protein, nebo pouze jeho část. Prázdné pole 'from' znamená, že se protein vezme od začátku; prázdné pole 'to' znamená, že se protein vezme do konce. (TODO: Když se změní shift, mělo by se změnit i from-to? Připojit k jménu proteinu pro označení různých výřezů dále v programu?)
Protein je řetězec jednopísmenných kódů aminokyselin - defaultně FASTA kódy (pouze písmena) včetně zkratek (např. X
značí libovolnou aminokyselinu).
Lomítkem '/
' lze oddělit více možností, nejsou-li některé pozice jednoznačné (např. protein AC/DM...
může mít na druhé pozici
aminokyselinu C
nebo D
).
Na velikosti písmen nezáleží.
monomers.prs
ve složce Properties
. Písmenné kódy aminokyselin mohou reprezentovat:
{Znak}={hmota - používá se desetinná tečka a nepouživá se oddělovač řádů}\t{název}
; nebo{Znak}={chemický vzorec}\t{název}
.{Znak}=\t{název}\t{aminokyseliny}
.^
' a C-terminus jako '$
'.Chemické prvky použité k definování hmoty aminokyseliny musí být zadefinované v souboru elements.prs
(editace z programu přes menu
Databases → Elements
, resp. Ctrl+E
). Značka chemického prvku obsahuje první písmeno velké, zbylé znaky musí být malé.
Hmota musí být zadefinována číselně, používá se desetinná tečka a nepouživá se oddělovač řádů. Hmoty aktuálně zadefinovaných prvků jsou převzaty z
Atomic weights of the elements. Review 2000 (IUPAC Technical Report).
V souboru je navíc zadefinován znak + vyjadřující náboj navěšený kvůli měření. Jeho hmota je převzata z
National Institute of Standards and Technology.
Protein může být načten ze souboru. Pokud první řádek začíná znakem '>
', je soubor interpretován jako FASTA
soubor a
v případě, že obsahuje více definic, je dáno na výběr, zda mají být načteny všechny, nebo jedna konkrétní. Jinak je jako protein načten maximální
souvislý blok neprázdných řádků ze začátku souboru. TODO: Načítat ze settings souboru; je-li jich tam více, dát na výběr