Aprenent japonés a través de la música: una anàlisi de les lletres d'Ichiko Aoba
Fa poc que he començat a aprendre japonès. Crec que la immersió és necessària per adquirir un idioma; així és com els nens aprenen la seva llengua materna. Com que el procés requereix milers d’hores, intento fer-ho divertit amb bones pel·lícules i música.
Fa gairebé quatre anys em vaig enamorar de les tendres melodies de la cantautora japonesa Ichiko Aoba (青葉市子) a través del seu màgic àlbum
«La música transcendeix les barreres del llenguatge, arribant a llocs on les paraules no poden.»
— 青葉市子 (Ichiko Aoba)
«言葉が通じないところでも音楽は通じていくものだ»
— 青葉市子 (Ichiko Aoba)
Havent sentit la seva música, vaig decidir intentar entendre la lletra. És difícil; conec molt poc vocabulari. Estic aprenent les paraules més comunes de l’idioma, però per donar-li més propòsit a l’aprenentatge, vaig decidir esbrinar quines paraules apareixen amb més freqüència a les seves lletres, i estudiar-les —tot i que puguin ser menys comunes.
Per què no escoltar la seva música mentre llegeixes aquest article? Aquí tens una bona recopilació.
Comptant paraules
Aconseguir les paraules més usades en un text en castellà és senzill:
- Divideixes el text en paraules
- Comptes quantes vegades apareix cadascuna
- Ordenes les paraules per freqüència
Hi ha dos problemes, però. Primer, el japonès no fa servir espais, cosa que complica la divisió en paraules. Segon, fins i tot si fes servir espais, vull agrupar les paraules per la seva arrel; no m’importa si trobo «veia» X vegades, «veig» Y vegades i «veurem» Z vegades. Vull «veure» amb un recompte de X+Y+Z.
Una sola eina resol ambdós problemes: l’anàlisi morfològica. La morfologia examina com es construeixen les paraules a partir de les unitats significatives més petites d’un idioma: els morfemes. Per exemple, «desconsolar» té tres morfemes: «des-», «consol» i «-ar». Un analitzador morfològic dividirà la paraula en aquests components.
Vaig trobar una col·lecció d’eines de processament de llenguatge natural per a japonès que inclou eines d’anàlisi morfològica. Donat un text, un analitzador morfològic el dividirà en paraules i mostrarà atributs com la seva «forma de diccionari» (per exemple, no «vaig cantar», sinó «cantar»).
El meu pla: descarregar totes les lletres d’Aoba, processar-les amb un analitzador morfològic i comptar quantes vegades apareix cada paraula.
Descarregant les lletres
Si alguna vegada has buscat la lletra d’una cançó, probablement has acabat a Genius.com. Aquest lloc té la majoria de les lletres d’Ichiko Aoba. Per descarregar-les, vaig fer servir LyricsGenius.
Fes clic per veure el codi
# Using a fork of LyricsGenius with a bug fix: https://github.com/xathon/LyricsGenius
# pip install git+https://github.com/xathon/LyricsGenius.git
= # Create an account and visit https://genius.com/api-clients
=
# Configuration.
= True
=
return f
=
# All her albums except a soundtrack (Amiko) and a field recording album (鮎川のしづく [Ayukawa no shizuku]).
=
=
# Avoid re-downloading.
continue
=
Vaig corregir alguns errors i vaig afegir lletres per a cançons que no les tenien.
La lletra de 血の風 (Chi no kaze) està en la llengua d’Okinawa i només vaig trobar una traducció parcial; la vaig eliminar.
Després de provar diverses llibreries de Python, vaig decidir fer servir Janome per a l’anàlisi morfològica. Vaig escanejar les lletres de cada àlbum, comptant quantes vegades apareixia cada paraula (en la seva «forma de diccionari»).
Fes clic per veure el codi
=
return
# docs: https://mocobeta.github.io/janome/api/janome.html#janome.tokenizer.Token
# Each Token object has the following attributes:
# - surface: the word as it appears in the text
# - part_of_speech: the part of speech of the word, which can be a compound value like "動詞,自立,*,*"
# - infl_type: the type of inflection of the word (e.g., "五段・ラ行" for a verb)
# - infl_form: the form of inflection of the word (e.g., "連用形" for a verb in the continuous form)
# - base_form: the word in its dictionary/base form (e.g., "行く" for the verb "行った")
# - reading: the reading of the word in katakana
# - phonetic: the phonetic representation of the word in katakana
=
=
=
return
# Function to remove non-word characters (space, comma, newline…)
return
=
=
=
=
=
=
+=
Ara tenia una llista de totes les paraules a les lletres d’Ichiko Aoba i la seva freqüència: aquí està. Amb les dades a punt, no vaig poder resistir-me a visualitzar-les.
Núvols de paraules
En un núvol de paraules, la mida de cada paraula és proporcional a la seva freqüència.
Vaig fer servir el paquet de Python word_cloud, i les APIs de Jisho i de DeepL per obtenir traduccions aproximades.
Fes clic per veure el codi
= 3000
= 3000
=
= f
# Overall cloud.
# It's translation time!
# Jisho provided too much context for these, or not the right meaning.
=
return
= f
=
=
=
=
=
return
return None
=
=
# Multiple words can have the same translation (e.g. "僕" & "私" = "I").
+=
=
return
# Fetch translations for all words.
=
=
=
=
=
# Translated word clouds.
# Note: I used the SVG masks to complete the word clouds with the album covers in Photoshop.
# I got the covers from https://ichikoaoba.com/discography/.
=
=
=
=
=
# Some words have context in parentheses. We use the entire input as context, but ask only to translate the word.
=
=
return
=
=
=
Aquí està el núvol de paraules creat amb totes les cançons juntes. Fes clic a la imatge per traduir-la a l’espanyol:
Vaig repetir el procés per a cada àlbum utilitzant el núvol de paraules com a màscara i la portada com a fons. De nou, fes clic per veure la traducció:
Per veure una imatge en mida completa, fes clic dret i selecciona “Obrir imatge en una pestanya nova”.
Algunes observacions:
- Moltes de les paraules més grans estan relacionades amb la natura: 風 (vent), 光 (llum), 星 (estrella), 海 (mar), 空 (cel)… Aquestes, juntament amb altres com 静か (tranquil), 夢 (somni), 消える (desaparèixer) i ふわり (suaument), encaixen amb les emocions que evoca la seva música.
- Més del 60% de les paraules extretes apareixen només una vegada. Aquests són hàpax legòmena: paraules que ocorren només una vegada en un context. Això coincideix amb la llei de Zipf, que prediu que un petit nombre de paraules seran comunes, mentre que la majoria de les paraules rarament apareixeran.
- 言霊 (kotodama) és un dels hàpax legòmenon. El seu significat literal és «esperit/ànima de la paraula», i es refereix al poder espiritual que es diu que posseeixen les paraules. Al Japó antic, es creia que les paraules tenien la mateixa essència que els objectes físics.
Per aprendre aquest vocabulari, crearé flashcards amb les paraules més freqüents i intentaré reconèixer-les quan escolti japonès.
Lent però segur (じわじわ), seré capaç d’entendre les lletres d’Ichiko Aoba —o les paraules que empra, si més no.