이 텍스트는 샘플 텍스트에요. 수강신청을 하면 원본 텍스트를 볼 수 있어요.
기능주의라는 이론은 우리가 배우는 주제와도 뿌리를 같이합니다. 앨런 튜링은 그의 유명한 연구인 계산 기계와 지능에서 '기계도 생각할 수 있는가?'라는 질문을 던지는데요, 그로부터 10년 후 힐러리 퍼트남이 기계도 생각할 수 있음을 주장하며 제안한 논변이 기능주의의 원형입니다. 특히 기능을 진화의 역사와 결부시켜 설명하는 이론을 목적론적 의미론이라 합니다. 이를 통해 마음과 인간의 정신을 초자연적 존재를 가정하지 않고 설명해낼 수 있기에 자연주의 철학으로 간주하기도 하죠. 물론 완벽한 것은 아닙니다.
Comments
august_gump
1년 전
조금 사소한 질문일 수 있는데, 강의 20:49 MLP-Mixer 논문 실험에 사용한 하이퍼파라미터 설정에서 cross location mixing Ds의 경우 sequence length S의 0.5인 (24, 98, 24, 98,24, 98, 128)이 아닌 Hidden size C의 0.5인 (256, 256, 384, 384, 512, 512, 640)으로 표기한 이유가 있을까요? 강의에서의 구현을 생각해봐도 위의 표기가 더 자연스러운 것 같은데, 딥러닝 논문 작성시에 하이퍼파라미터 설정 표기 규칙이 따로 있는건지 해서 질문드립니다.
junhsss
1년 전
Cross location mixing은 embedding sequence의 N번째 원소들이 독립적으로 변환되는 과정이었습니다. S/32를 예시로 들면 49 -> 256 -> 49 변환이 Embedding의 크기인 512번만큼 발생하게 되는데요. 이러한 변환 과정에서 중간 결과물의 크기를 Sequence의 길이의 함수가 아니라 Embedding 크기의 함수로 설정하는 이유를 질문하시는 것이라 이해했습니다.
junhsss
1년 전
Embedding sequence의 각 N번째 원소들을 몇 번 섞는게 적절할까요? 으레 그렇듯 많이 섞을수록 좋습니다. 똑같은 49개의 정보를 섞는 것이어도 중간 결과물의 크기에 따라 변환의 품질이 달라질 수 있는 것이었죠. 그런데 마침 Embedding의 크기란 우리가 얼만큼의 연산량을 투입하여 성능을 얻어낼지를 결정하는 지표였는데요. 때문에 이 중간 결과물의 크기를 Embedding 크기의 함수로 설정하는건 자연스러운 발상이라 할 수 있습니다. 다만 지나치게 클 필요는 없으며 반 정도면 충분하다는 결론을 실험적으로 알아내었겠죠. 어차피 49개의 숫자로 표현되는 전역적인 정보의 양은 512개의 숫자로 표현되는 국소적인 정보의 양보다 적을테니까요. 많은 비중을 할애할 필요는 없는 계산이라는겁니다. 반면 Sequence의 길이는 그저 이미지를 몇 조각으로 잘라 처리할지에 달린 수치이니 얼만큼의 계산량을 투입할지와는 무관합니다. 물론 이미지의 크기를 키우면 Sequence의 길이도 늘어나겠지만 이는 상술했듯 연산량을 더 투입하겠다는 말과 같으니 어쨌든 Embedding의 크기로 표현하는게 더 적절하겠습니다.