Az ökológusok a madarakat a táplálékrendszerek és az erdők egészségének megértéséhez használják – például, ha egy erdőben több harkály van, az azt jelenti, hogy sok a holtfa. Mivel a madarak énekkel és hívásokkal kommunikálnak, iletve jelzik a területüket, a leghatékonyabb, ha hang alapján azonosítjuk őket. A szakértők hatékonyabban ismerik fel a madarakat hangjuk, mint külső jellegzetességeik alapján.
Az utóbbi években elterjedt hangrögzítő eszközök segítségével több ezer órányi hang vehető fel az erdőkben, amelynek segítségével jobban megérthetővé válnak az ökoszisztémák és a kritikus élőhelyek. A hangadatok manuális felülvizsgálata azonban nagyon időigényes, és a madárdalok szakértőiből igencsak kevés van. Egy gépi tanuláson (ML) alapuló megközelítés azonban nagymértékben csökkentheti az élőhely megértéséhez szükséges szakértői felülvizsgálat mennyiségét.
Az azonban, hogy a gépi tanulás által osztályozhatók legyenek a különböző madárhangok, több okból is kihívást jelenthet - ilyen például az egyszerre éneklő madarak a “hajnali kórus” idején, vagy például a beszűrődő szél és rovarok hangja. Ennek eredményeképpen a meglévő madárhang-osztályozó modellek nehezen tudják azonosítani a csendes, távoli és egymást átfedő hangokat. Ezek a nehéz esetek kritikusak az ökológusok számára, akik automatizált rendszerek segítségével akarják azonosítani a veszélyeztetett vagy invazív fajokat.
A hangfelvételek automatikus szétválasztására és az egyes fajok osztályozásának megkönnyítésére a Google egy új, felügyelet nélküli módszert javasolt az "Unsupervised Sound Separation Using Mixture Invariant Training" című tanulmányában, amely a MixIT névre hallgat. A elkülönített hangok bevonása az osztályozásba javítja a pontosságot és az osztályozás minőségét is. A Google elérhetővé tette a madárdalok elkülönítési modelljeinek forráskódját is a GitHubon.