Usuario:Sobreira/modelo
O problema
[editar]As miñas reflexións son as seguintes:
- estamos perdendo de dar máis información por non utilizar os epígrafes e outros formatos de mellor maneira (por exemplo, substantivo {'{-subst-}'} debería desglosarse en masculino e feminino, e os verbos en tr., intr., pr. e combinacións)
- estamos utilizando tempo manualmente en cuestións técnicas (de dar formato, de igualalo) cando iso podería facerse automáticamente
- non é unha preocupación especial porque dos interwikis se encargan os bots, pero fáltannos ligazóns externas (e internas) moi doadas de facer
- ás veces estas ligazóns internas están desaproveitadas (por exemplo, rest debe remitir a descanso, descansar, resto, resta e restar?, pero na segunda habería subst. e vbo.: a remisión debería ser á primeira sección)
- estamos perdendo datos porque as distintas entradas non se fan sistemáticas (hai moitos sinónimos de galego, pero non todos existen)
- estamos dando información sen citar as fontes
- os propios categorizadores de campo semántico (ou tema, ou tecnolecto, ou especialidade) poden incluír automáticamente nas categorías se se formatan como modelos (aínda que sei que hai xente que non aproba categorías nos modelos), o mesmo que para as linguas, pero isto é algo que xa se viña facendo.
- de momento non semella que se vaian distinguindo homonimia-homografía e polisemia nin parece que vaia ter importancia, aínda que a distinción explícita é innecesaria se se fornece a etimoloxía
Palabras exemplo que presentan problemas que cómpre combinar: banco e polaco (polisemia, diferentes traducións), rest (varias clases gramaticais), lamia (etimoloxía distinta), galego (etimoloxía igual)
A abordaxe
[editar]Cómprenos informatizar os procesos técnicos e deixarnos ós seres humanos os de pensar e interpretar a información que se vai engadir nas entradas. Para estruturalas ben, hai que ter ben claros os tipos de datos que queremos introducir:
- DATOS DO CONTIDO
- Definición
- Tecnolecto e outras marcas diafásicas-diastráticas
- Palabras relacionadas semanticamente: sinónimos, antónimos, termos relacionados, ver tamén (fonte)
- Traducións e ligazóns a elas, internas e externas (fonte?)
- Observacións (fonte)
- DATOS DA FORMA
- Categoría (fonte) + Equivalentes (fonte) + Lingua
- Etimoloxía (fonte)
- Flexión (fonte) + observacións á flexión
- Fonoloxía (fonte)
- Exemplo (fonte)
- Palabras relacionadas morfoloxicamente
- Observacións (fonte)
- DATOS MIXTOS DE CONTIDO E FORMA
- Lingua
- Expresións (ditos, refráns, frases feitas, fraseoloxismos)
Relacións entre tipos de datos
[editar]Teño moi claro que a base do Galizionario é a forma e iso é invariable para as entradas, pero o resto dos datos da lista relaciónanse con ela e entre si de xeito moi diverso:
- Unha forma (que é a base dos dicionarios) pode ter varias linguas e categorías gramaticais. (p.ex. vulto ou espantoso en galego vs. portugués) [moitos a moitos]
- Unha forma pode ter varias pronuncias, que tamén é o caso do galego [un a moitos]
- Unha forma pode ter varias etimoloxías (homografía) ou só unha
- Unha definición tén unha lista de sinónimos que non tén outra (p.ex. acepcións de banco (financeiro) vs. banco (asento) vs. banco (cardume)) [dependencia da definición-significado]
- Unha definición tén unha lista de traducións que non tén outra (p.ex. o anterior) [dependencia]
- Unha definición dunha forma só pode ter unha categoría gramatical pero unha mesma categoría gramatical pode ter varias definicións (sempre para o mesmo idioma) [un a moitos]
- Unha relación morfolóxica depende da etimoloxía, polo que todas estas relacións dependen dela
- O número de marcas significativas dunha definición é variable, porque ás veces hai que poñer só {'{coloquial}'} (cantar) e outras {'{arcaico}'}, {'{química}'} e {'{culto}'} (p.ex., azougue)
- etc...
A miña maneira de traballar será que a orde dos artigos sexa estrictamente esta (loxicamente se hai varias alternativas nun nivel superior repítense as do nivel inferior):
- Lingua
- Fonoloxía (pronuncia+audio) + fonte
- Etimoloxía + fonte (intercambiable co anterior)
- Categoría gramátical e flexión (non coñezo ningún caso no que a flexión verbal ou adxectival sexa distinta coa mesma categoría gramatical). Para que non estorbe e quede mal, a flexión ben pode ir á dereita como táboa
- Definición (precedida de tecnolecto e marcas diafásicas e pragmáticas. Non creo que as diatópicas se cheguen a propoñer, pero irían aquí tamén)
- Exemplo + fonte [para esa definición]
- Traducións [para esa definición]
- Palabras relacionadas semánticamente co tipo de relación [para esa definición]
- Palabras relacionadas morfoloxicamente
- Categoría gramátical e flexión (non coñezo ningún caso no que a flexión verbal ou adxectival sexa distinta coa mesma categoría gramatical). Para que non estorbe e quede mal, a flexión ben pode ir á dereita como táboa
- Etimoloxía + fonte (intercambiable co anterior)
- Fonoloxía (pronuncia+audio) + fonte
Na práctica, estamos moi afeitos a ver nos dicionarios a fonoloxía e a etimoloxía ó comezo de todo, co cal sería un pouco desorientador para o lector atopalos noutro lado. Aínda que se podería agardar que se acostumase, hai un problema en poñelos nun subnivel da definición ou da categoría gramatical, porque aínda que non dependen dela (non levan a especificación "[para esa definición]"), si se repetiría un material que pode aforrarse e deixar claro na sección superior. Polo tanto, estas seccións irán ó comezo para evitar problemas.
O feito de que a estrutura sexa tan estricta obrigaría a pensar en tódolos datos que hai que encher e iríanse tendo máis datos por palabra. Isto fomentaría algúns campos en concreto (os máis técnicos). Se chegase algún momento en que teñamos tantas etimoloxías que fose útil estandarizalas, estarían localizadas como agora, poderíanse crear novos modelos. As propias definicións da etimoloxía poderían ter ligazóns internas que serían de enorme valor para o estudo da lingua, pero iso é auga doutro muíño (v. etimoloxía de galego).
Que pasa coas expresións? Terían artigo propio. Estarían relacionadas dende as súas palabras individuais tanto pola utilización desas formas como pola semellanza no contido. Lóxicamente aquí non procedería tanto a transcrición fonética. Agora vexamos as avantaxes e defectos.
Por qué cambiar
[editar]Máis que o cambio, antes mencionaría que é o que propoño cambiar. En realidade, os artigos xa feitos non están tan mal e o cambio que propoño non é tan importante. Só se trata de subir de nivel a definición e relacionar o bloque "exemplo-tradución-sinónimos" a cada definición. É dicir, poñer a tradución para cada definición e non ó final de todo (o cal obrigaría a especificar a que acepción se refire). Así, esperar terá unha definición + tradución wait (de espera) e outra definición asociada coa súa tradución hope (de esperanza). A avantaxe é que así quedaría claro a que significado corresponde cada acepción.
Queda un problema que tivemos ata agora e que esta proposta non resolve. Cando nun artigo digo que bonne en francés é boa, non indico a que acepción me refiro en galego, se ó adxectivo "bo, boa" ou ó substantivo do animal "boa". Este problema tampouco se pode resolver mediante os números, porque as listas autonumeradas cambian se engades algo polo medio. Tampouco se poden crear números fixos, porque calquera editor posterior pode alterar a orde das definicións inconsciente da súa importancia e rompería a relación. A única idea que se me ocorre xa a vin aplicada nos mellores dicionarios bilingües de peto que coñezo e en moitos dos profesionais: cando se dá un equivalente que traduce, dar sempre unha glosa ou contextualizador, por exemplos:
- banco s.m.: bank s. (finanzas); seat s. (asento); school s. (de peixes)
- school s.: escuela s.f.(Primary); instituto s.m. (High); banco s.m. (fish)
Para palabras monosémicas sería innecesaria, pero imprescindible para as polisémicas e homonímicas. Dado que nestes dous casos, un programa pode avisar se existe posibilidade de erro, isto é doadamente localizable. Esta solución que fornezo vale tamén para o método actual en uso.
Estrutura proposta
[editar]Esta vai ser a estrutura total dunha entrada dunha palabra galega:
== Lingua == |
sen seccción
|
=== Categoría gramatical (fonte) === |
sen sección
|
==== Grupo de significado: Definición (con sección) + Marcas + Exemplos (fonte) + Observacións ó contido (fonte) ==== |
[preferiblemente sen sección]
|
A salvidade é nas entradas para os termos estranxeiros, nos que:
- no canto da Definición (+ Marcas) aparecerá(n) o(s) equivalente(s) en galego. Neste caso podemos poñerlle "exemplos+fonte", sobre o que eu estaría a favor. Precisan seccións novas de significado para cada acepción.
- tamén se lle poden poñer "sinónimos - antónimos - palabras Relacionadas polo significado" nesa lingua se queremos ou non. Iso xa depende de programar a base de datos, non de esforzarse. Eu creo que non, que deberían ir ó galego.
- no de palabras relacionadas pola forma (flexión), non hai outra que metelas aquí: non tén sentido falar de que singer está relacionada con sing, song, sung ou con sang dentro da entrada cantar en galego (pero si chanter, chanteuse, sochantre, cantina, canción, chanson, etc.; pero iso é porque son co-étimos).
A base de datos tén de cabeza a caracterización do contido (= def+ex(fonte)+obsContido(fonte)) e dous ou catro subformularios (o de marcas podería incluirse coma campo nos rexistros de contido e o de forma-forma tamén):
- Asociacións contido-pragmática: rexistros variables para cada combinación forma+lingua
- Asociacións contido-forma: rexistros fixas para cada combinación forma+lingua, lingua+cateG(fonte)+modeloFlexivo(fonte)+Pronuncia(fonte)+Etimoloxía(fonte)+ObsF(fonte)+Sinónimos(fonte).
- Asociacións contido-contido: rexistros variables para cada contido (CÓDIGO DE Antónimos) + (CÓDIGO DE VéxaseTamén)
- Asociacións forma-forma: rexistros variables para cada forma: Palabras relacionadas morfoloxicamente, que non terá resultados moi visibles ata que a base sexa algo grande e se poidan relacionar fin, infinito e indefinible; ou conferir, diferir, preferir, proferir, referir, transferir, etc.
- Asociacións de fraseoloxía: entran dentro das dúas anteriores, co cal van independentes
Queda decidir que se fai coas colocacións: non son frases variables nin intercaladas, co cal poderían ter unha entrada propia, pero non sempre é doado decidir a forma prototipo.
Un último apunte: habería que decidir que orde deberían levar as linguas en caso de coincidencia (certamente habitual entre as linguas latinas). Primeiro portugués, italiano ou castelán? (pénsese no caso de banco).
Termos periféricos
[editar]Considerarei dentro deste tipo dous casos:
- palabras flexionadas en galego, por exemplo cantariamos ou hamburguesas;
- palabras non galegas;
As alternativas para o seu tratamento son:
- redireccionalos;
- poñerlles texto con remisión;
No caso do galego, o volume de formas é tanto que o máis cómodo, lóxico e sensato é redireccionalos. Paréceme irrisorio dedicarse a poñer as formas en linguas distintas do galego (salvo as moi básicas: am, are, she, was, were, etc.) cando as galegas non están, pero igual a algún estranxeiro ou estudoso pode valerlle.
No caso dos termos que non están en galego pódense facer as dúas cousas:
- redireccionalos evitaría ter que crealos;
- pero impediría o traballo dos bots canto á interwikis;
Eu faría o segundo pero sempre baixo as seguintes condicións:
- sempre con sección de lingua e categoría gramatical
- loxicamente, sempre definilo ó galego traducíndoo: para isto faise unha remisión marcada mediante ['[#Galego]'];
- nunca especificar as traducións alí (como en Galician): se o usuario quere as traducións que vaia á entrada en galego, que alí se especificarán e para iso se remite a alí;
- dar aí as especificacións de flexión (conxugación, declinación) porque para iso están nesa entrada na súa lingua;
- poden ter fonoloxía, etimoloxía e observacións, xa que as das seccións de termos galegos deben ser para o galego;
- eu non metería exemplos
- sobre palabras relacionadas morfoloxicamente, si que os metería se están avalados
- sobre marcas de semántica (tecnolecto e sinónimos-antónimos-afíns) aínda non sei se deberían facerse constar só nos galegos.
De xeito sintético, cando nunha mesma grafía coinciden o galego e outra lingua (p.ex. porta en gl e it e pt), as seccións non galegas terán a mesma estrutura que se fosen nunha páxina independente.
Base de datos
[editar]
| |
|
|
|
Tódalas tabuladas con espazo para fontes
Proposta de automático por defecto
[editar]Os seus niveis serían:
- 2 = Lingua
- 0 = Etimoloxía
- 0 = Pronuncia
- 0 = Audio
- 3 = Categoría gramatical
- 0 = Caixa de flexión
- 4 = Definición
- 0 = Sinónimos
- 0 = Traducións
- 0 = Véxase tamén
Escóllase o que proceda eliminando o resto:
{{-de-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]] {{-es-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]] {{-fr-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]] {{-gl-}} {{trad}} * '''Etimoloxía''': do [[latín]] ''clavicula'', "PequenaChave" < ''clave'', "chave" + [[sufixo]] [[diminutivo]] ''ula'', "pequena", con {{categ|S|s|fenómenoquesepresente}} e {{categ|S|s|fenómenoquesepresente}}.}} * {{-audio-}} * {{-pronuncia-}} {{traf}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} {{CVarXN|caracol|o|oeis|a|as}} ==== Definición ==== '''Definición''': QueBlaBlaBlá. '''Exemplo''': ''QuenDixoMedoHabendoHospitais''. {{trad|Sinónimos}} * [[sinonimo1]] * [[sinonimo2]] * [[sinonimo3]] {{traf}} {{trad|Traducións}} * {{de}}: [[alemanada ]] * {{en}}: [[inglesada ]] * {{es}}: [[castelanada ]] * {{fr}}: [[francesada ]] * {{it}}: [[italianada ]] * {{pt}}: [[portuguesada ]] {{traf}} {{-ver-}} * [[ETiQueQueresVerMeuRei]] {{-it-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]] {{-nl-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]] {{-pt-}} {{-substmfn-}}{{-verbotip-}}{{-adx-}} * [[]]