Skip to content

Bartosz Nalazek: Rola autora zdjęć w erze Generatywnej Sztucznej Inteligencji

Udostępnij

Dwadzieścia lat temu aplikowałem do PWSFTviT w Łodzi by uczyć się  sztuki operatorskiej. Moje marzenie było proste: stać się autorem zdjęć, pracować z kamerami, światłem, aktorami, i opowiadać historie przez medium, które kocham.

To, czego sobie nie wyobrażałem, to że dwie dekady później będę opowiadał o modelach dyfuzyjnych, przestrzeni utajonej i prompt engineeringu – i zastanawianie się nad tym, co stanie się z naszym zawodem gdy obrazy przestaną przechodzić przez obiektyw a zaczną wyłaniać się z prawdopodobieństwa.

A jednak.

Piszę to jako zmartwiony autor zdjęć, a nie technologiczny ewangelista. Spędziłem ostatnie piętnaście lat w najbardziej tradycyjnej formie naszej sztuki: współpracowałem z reżyserami, stałem za prawdziwymi kamerami, prawdziwymi setupami światła, i mieszkałem w kulturze autorskiej, która mnie kształtowała. Ten świat nadal we mnie żyje.

Czuję jednak, że kultura, w której dorastałem się zmienia. I udawanie, że generatywna sztuczna inteligencja po prostu „zniknie” nic nie da. Pytanie, które musimy sobie zadać, to: „Co my, jako autorzy zdjęć i filmowcy, chcemy zrobić z tą technologią”.

Rewolucja imitacji – ale jeszcze nie sztuki

W ostatnich miesiącach cały czas widzimy to samo na naszych mediach społecznościowych: wygenerowane w sztucznej inteligencji filmy, które wyglądają szokująco „operatorsko”. Modele wytrenowane na ogromnych zbiorach historycznych materiałów filmowych generują dziś krótkie klipy, które na pierwszy rzut oka sprawiają wrażenie pochodzenia z dużych produkcji. Są oświetlone, skomponowane i poddane korekcji barwnej w sposób, który natychmiast rozpoznajemy jako ‘nasz’ język.

I są produkowane za ułamek tymczasowego czasu i kosztu.

Obserwujemy jeszcze głównie technologiczną rewolucje, ale jeszcze nie tą artystyczną. Te systemy są niesamowicie dobre w upodobnianiu się do ustalonych warstw estetycznych. Mogą odtworzyć coś co wygląda jak ujęcie z dolly podczas magic hour, wystylizowane neonowe zbliżenie, lub zadymione ujęcie z kryminału z lat 70.

Innymi słowy, modele generatywne potrafią dziś odtwarzać gotowe ‘looki’, ale nie pojmują operatorskiej sztuki filmowej jako formy artystycznej. Prawdziwa kinematografia nie jest kolażem ładnych kadrów; to ciąg świadomych decyzji – ujęcie po ujęciu, scena po scenie – zaprojektowanych tak, by prowadzić opowieść.

Na razie AI jest znakomitym naśladowcą, ale jeszcze nie współtwórcą.

Język kinematografii

Autorzy zdjęć mówią bardzo konkretnym językiem. Jest to dialekt, który żyje gdzieś między fizyką a emocją.

Ruch, światło, kolor i kompozycją współgrają by nadawać sens. To my decydujemy czy kamera płynie, czy błądzi,  czy światło pieści, czy karze; czy paleta barw koi, czy niepokoi. Skracamy dystans albo go rozciągamy, izolujemy albo osadzamy w kontekście, wyostrzamy albo rozmywamy. Każda z tych decyzji jest zdaniem w wizualnym akapicie.

Wybitna kinematografia nie opiera się na „pięknych obrazkach”. Chodzi o spójność: sposób, w który kadry współgrają ze sobą, jak rozwijają się z postaciami, jak tworzą świat, który jest emocjonalnie prawdziwy, nawet, gdy jest całkowicie wykreowany.

To jest dokładnie ta warstwa, których modele generatywne jeszcze nie dotykają. Mogą oszacować powierzchownie nasz język, ale nie jego gramatykę.

Film generowany jako narzędzie, które wymaga prowadzenia.

Łatwo jest mówić o sztucznej inteligencji jako o zagrożeniu globalnym. Te same obawy pojawiają się w naszej branży: utrata pracy, upadek kreatywności, zautomatyzowana przyszłość, gdzie maszyny tworzą filmy, a my obserwujemy na uboczu. Podzielam te obawy: skłamałbym, gdybym stwierdził, że nie czuje napięcia egzystencjalnego.

Również uważam, że ważne jest, by patrzeć na to, co technologia robi teraz.

Generatywne filmy są, po pierwsze, narzędziem które wymaga prowadzenia. Gdy nakarmiony promptami, AI potrafi zadziwiająco dobrze naśladować filmowe rezultaty, ale w momencie, gdy próbujemy kontrolować ją tak, jak ekipę zdjęciową, pojawiają się bardzo praktyczne problemy:

  • spójność temporalna: utrzymanie zgodności twarzy, światła, ruchu i logiki przestrzennej w wielu ujęciach;
  • realizacja precyzyjnych instrukcji: odwzorowanie dokładnego blokingu, timingu, kierunków spojrzeń, doboru obiektywów czy ciągłości akcji;
  • kontrola stylu wizualnego: utrzymanie stabilnego wyglądu w całej sekwencji lub filmie, zamiast „niespodzianek” z ujęcia na ujęcie.

Paradoksalnie, wierzę, że jak w miarę zakres możliwości i wyobraźnia wizualna stają się praktycznie nieograniczone, opowiadanie historii podlega jeszcze większej presji. Jeśli można pokazać widzowi wszystko, pytanie „Dlaczego akurat to?” staje się ostrzejsze. W takim krajobrazie najlepsi scenarzyści i najbardziej prawdziwi wykonawcy nie tracą na wartości – przeciwnie, ich rola rośnie.

Technologia ułatwia imitację. Sprawia, że oryginalność jest ważniejsza niż kiedykolwiek.

Na pierwszej linii frontu: gdy AI spotyka pełnometrażowy film

Wszystko to staje się dużo bardziej konkretne, gdy wchodzi się w realną produkcję próbującą wykorzystać te narzędzia na dużą skalę.

Niedawno pracowałem przy dużym, bardzo ambitnym filmie fabularnym zaprojektowanym od podstaw tak, by funkcjonował na styku tradycyjnej kinematografii i generatywnych, opartych na AI workflowów. Zasoby były znaczące, a zespoły po obu stronach: filmowej i technologicznej – utalentowane i zaangażowane. Intencja była pionierska.

A jednak, za błyszczącymi historiami, które widzimy w sieci, rzeczywistość wykorzystania narzędzi generatywnych w filmie pełnometrażowym wciąż jest dość surowa. W gruncie rzeczy znajdujemy się w fazie eksperymentalnej. Nie ma wielu stabilnych workflowów, bardzo niewiele przykładów dla pełnometrażowych filmów opartych na aktorstwie, a duża część odpowiedzialności za „rozgryzienie tematu” często spada na reżysera i autora zdjęć.

Zespoły technologiczne mogą świetnie znać swoje modele i kod, ale niekoniecznie to, jak ekipy filmowe faktycznie pracują na co dzień – ze scoutami, próbami, developmentem, prewizualizacją i długimi rozmowami, które kształtują język wizualny. Bez tej wspólnej bazy decyzje zapadają na podstawie niepełnych informacji, wsparcie bywa rozproszone, a odpowiedzialność za kierunek wizualny nie jest w pełni zakotwiczony.

Pod presją czasu łatwo jest odsunąć kluczowe głosy kreatywne w imię „szybkości”. Właśnie wtedy spójność filmu, poczucie autorstwa oraz kruchy most między intencją twórczą a technologią są najbardziej zagrożone.

Społeczność VFX i AI – jakkolwiek błyskotliwa technicznie – nie jest jeszcze przygotowana do pełnego przejęcia wizualnego przywództwa nad filmem fabularnym.

Potrafią budować narzędzia, pipeline’y i modele. Jednak kształtowanie spójnej narracji wizualnej – decydowanie o tym, jakie emocje film powinien wywoływać z klatki na klatkę – wciąż pilnie potrzebuje oka autora zdjęć.

Co faktycznie robią modele dyfuzyjne (i dlaczego ma to znaczenie)

Jako autorzy zdjęć, zawsze mieliśmy solidny fundament techniczny: rozumienie ekspozycji, sensorów, obiektywów, emulsji i zakresu dynamicznego. To część wiedzy o tym, gdzie leżą granice i jak daleko możemy je przesuwać.

Z modelami generatywnymi, zasadniczy mechanizm jest inny, ale warto mieć chociaż surowy model mentalny tego, co się dzieje.

Model dyfuzyjny uczy się niszczyć, a następnie rekonstruować obrazy. Podczas treningu bierze obraz – powiedzmy, misia na stole – i wielokrotnie dodaje do niego losowy szum, aż nie pozostaje nic rozpoznawalnego. Na każdym etapie uczy się też procesu odwrotnego: jak usunąć odrobinę szumu, jednocześnie przybliżając wynik do oryginału.

Powtarza to miliony razy na milionach obrazów, z których każdy jest oznaczony słowami takimi jak „miś”, „jabłko”, „samochód nocą w deszczu”. Z czasem buduje wewnętrzną reprezentację tego, jak te pojęcia wyglądają w różnych warunkach: jak futro zachowuje się w cieniu, jak światła odbijają się na mokrym asfalcie, czym zmierzch różni się od południa.

Gdy później wpisujesz „miś na czerwonej kanapie o zachodzie słońca”, model startuje od czystego szumu i iteracyjnie go usuwa, nieustannie sprawdzając: „Czy to bardziej przypomina to, co ludzie nazywają misiem na czerwonej kanapie o zachodzie słońca?”. Jeśli nie – koryguje wynik. Po wielu krokach można zobaczyć gotową klatkę.

Co kluczowe, model nie zawiera dosłownie zapisanych kopii obrazów treningowych. Zawiera raczej coś w rodzaju skompresowanej intuicji na ich temat. Dlatego może generować nieskończoną liczbę wariantów – i dlatego bywa tak zawodny, gdy prosimy go o odtworzenie tej samej twarzy, ujęcie po ujęciu, z identycznym poziomem niuansu.

Z perspektywy operatorskiej znaczenie mają dwie kwestie:

  • tradycyjny łańcuch ciągłości optycznej: foton → obiektyw → sensor/taśma → obraz – zostaje przerwany;
  • model nigdy nie został nauczony, jak wygląda „dobra gra aktorska” ani czym jest ciągłość emocjonalna. Wie jedynie, jak korelować piksele z etykietami.

Nie zastępujemy kamery. Dodajemy nową warstwę abstrakcji między naszą intencją a finalnym obrazem.

Prewizualizacja, wyobraźnia i pierwsza użyteczna granica

Co więc robimy z tą abstrakcją?

Jednym z natychmiastowych i bardzo praktycznych zastosowań jest prewizualizacja. To obszar, w którym narzędzia generatywne już dziś błyszczą w sposób naturalnie zgodny z naszą pracą.

Możemy zacząć od scenariusza i zgrubnych storyboardów. Wprowadzając te szkice wraz ze starannie napisanym promptem do modelu obrazu, możemy generować bardziej fotograficzne wersje kadrów, eksplorować palety kolorystyczne, testować odważniejsze koncepcje oświetleniowe i szybko iterować z reżyserem oraz produkcją.

Dla mnie to jedno z najbardziej obiecujących pierwszych zastosowań: nie zastępowanie zdjęć głównych, lecz wzmacnianie fazy komunikacji. Previz zawsze polegał na synchronizowaniu wyobrażeń. Teraz możemy robić to na bardziej wyrafinowanym poziomie – na długo przed budową scenografii i uruchomieniem kamer.

Stąd ostrożnie wchodzimy w workflowy hybrydowe: krótkie generatywne inserty, stylizowane środowiska za realnymi aktorami, wspomagane AI efekty VFX rozszerzające świat lub skalę. Używane inteligentnie, narzędzia te rzeczywiście mogą poszerzyć nasze pole gry. Nagle możemy inscenizować sceny w przestrzeniach, które wcześniej były logistycznie lub finansowo niemożliwe.

Jednak – ponownie – istnieje różnica między używaniem sztucznej inteligencji jako akcesorium a pozwoleniem, by stała się faktycznym „autorem wizualnym” filmu. To pierwsze poszerza naszą wolność; to drugie grozi podważeniem tego, co faktycznie wnosimy.

Przywództwo wizualne w pipeline’ie napędzanym AI

Stoimy, jak sądzę, na progu ewolucji naszego języka opowiadania obrazem. Najtrudniejszą częścią jest zbudowanie mostu między ludzką intencją a rozumieniem sztucznej inteligencji, tak abyśmy mogli zmierzać w stronę nowej poezji filmowej, a nie tylko imitacji w wyższej rozdzielczości.

To prowadzi mnie do czegoś, na czym bardzo mi zależy: przywództwa wizualnego.

W dużych produkcjach odpowiedzialność wizualna jest już rozproszona między wiele działów: zdjęcia główne, VFX, virtual production, color grading, drugie ekipy. Generatywna AI grozi dalszą fragmentacją – chyba że ktoś utrzyma centrum.

Moim zdaniem tym „kimś” wciąż musi być operator obrazu, ale o rozszerzonej roli.

Ten nowy autor zdjęć, czy wręcz operator generatywny, powinien:

  • swobodnie funkcjonować w obu światach: obiektywów i LUT-ów, ale też promptów, modeli i workflowów hybrydowych;
  • definiować strategię wizualną od przygotowań po finalny color, w tym sposób, zakres i miejsca użycia narzędzi generatywnych;
  • uczestniczyć w projektowaniu nowych pipeline’ów, pilnując, by respektowały logikę narracji filmowej zamiast traktować ją jako dodatek;
  • być osobą, która potrafi autorytatywnie powiedzieć: „To wspiera film” albo „To łamie ustanowiony język.”

Jeśli nie wejdziemy w tę przestrzeń, zrobi to ktoś inny – najpewniej ze strony VFX lub technologii – i niekoniecznie z wrażliwością filmową.

Generatywna AI nie zorganizuje się sama wokół naszych potrzeb twórczych. To my musimy zaprojektować struktury, które utrzymają kreatywność w centrum, a narzędziom pozwolą krążyć wokół niej.

Nowy niedobór: znaczenie

Wraz z dojrzewaniem generatywnego wideo jego realny wpływ nie będzie polegał na zastąpieniu nas maszynami, lecz na przerysowaniu mapy tego, co jest łatwe, a co trudne.

Uderzające wizualia – kiedyś drogie i logistycznie wymagające – stają się tańsze i bardziej dostępne. Hierarchia tego, kto „może” stworzyć coś wyglądającego jak duży film, ulega zmianie. To jednocześnie ekscytujące i niepokojące.

Wchodzimy w moment paradoksalny: nigdy wcześniej tak łatwo nie było imitować – i nigdy wcześniej tak pilne nie było bycie oryginalnym.

W tym krajobrazie najrzadszymi zasobami nie są GPU ani wtyczki. Są nimi:

  • iskra dobrze opowiedzianej historii,
  • głębia kreacji aktorskiej, która zostaje z widzem po napisach,
  • decyzje wizualne, które wydają się konieczne, a nie dekoracyjne.

Narzędzia generatywne staną się normalną infrastrukturą tła. Techniczna biegłość będzie oczywistością. Pytanie, które przebije się przez to wszystko, brzmi: czy to coś znaczy?

Dlatego nie wierzę, że AI umniejsza wartość operatorów, reżyserów, scenarzystów czy aktorów. Wręcz przeciwnie – zmusza nas do skrajnej precyzji w definiowaniu naszego wkładu.

Nasza praca będzie w mniejszym stopniu polegać na udowadnianiu, że potrafimy wytworzyć „filmowy look” – maszyna już to potrafi – a w większym na dowodzeniu, że potrafimy stworzyć filmową prawdę.

Wybór naszego miejsca w tej przyszłości

Gdzie więc jesteśmy?

Generatywna AI nie zniknie. Jej obecne niedoskonałości nie są gwarancją bezpieczeństwa. Ekonomicznie i technologicznie jej przyciąganie jest po prostu zbyt silne. Wniknie w każdą szczelinę branży: development, prewizualizacje, postprodukcję, marketing, a nawet analizę widowni.

Nasz wybór nie polega na „akceptacji” albo „odrzuceniu”. Prawdziwy wybór jest taki:

  • albo angażujemy się, uczymy, jak to działa, definiujemy role takie jak operator generatywny, egzekwujemy przywództwo wizualne i etykę oraz używamy tych narzędzi do poszerzania artyzmu;
  • albo stoimy z boku, pocieszając się nostalgią, i patrzymy, jak inni – o bardzo różnych priorytetach – definiują język wizualny najbliższych dekad.

Ja wiem, po której stronie chcę być.

Nie dlatego, że kocham technologię samą w sobie. Nigdy szczególnie nie interesował mnie sprzęt jako obiekt. Interesowało mnie – i nadal interesuje – to, co możemy z nim zrobić.

Narzędzia generatywne są po prostu najnowszym, najbardziej przełomowym dodatkiem do naszego warsztatu. Jeśli wniesiemy w tę przestrzeń rzemiosło, etykę i wyobraźnię, istnieje realna szansa, że rezultat wciąż będzie przypominał kino: obrazy, które poruszają ludzi, poszerzają słownik emocji i odważają się wymyślać nowe metafory ludzkiego doświadczenia.

Jeśli nie – nie powinniśmy się dziwić, jeśli pewnego dnia obudzimy się i odkryjemy, że „kino tworzone przez maszyny” wydarzyło się bez nas – piękne, puste, generyczne i pozbawione jednej rzeczy, której żaden model nie nauczy się z samych pikseli:

kruchego, upartego, niezastąpionego ludzkiego impulsu, by opowiedzieć historię, która ma znaczenie.

 

Zachęcamy do przeczytania artykułu w oryginalnym języku:

https://medium.com/@bartosznalazek/the-role-of-the-cinematographer-in-the-age-of-generative-ai-bdf2bbd305f4

Subscribe To Our Newsletter

Get updates and learn from the best

Aktualności

Ostatnie pożegnanie Zdzisława Kaczmarka

Z wielkim smutkiem informujemy o odejściu Naszego przyjaciela, wybitnego autora zdjęć, Zdzisława Kaczmarka – członka Stowarzyszenia Autorek i Autorów Zdjęć Filmowych (PSC), Stowarzyszenia Filmowców Polskich