20 мин чтения

Брак как профессия — Сисели Гамильтон (1909) | Издание Moffat, Yard & Company

Брак как профессия — Сисели Гамильтон (1909) | Издание Moffat, Yard & Company

Marriage as a Trade — Cicely Hamilton (1909) | Moffat, Yard & Company Edition

Рекомендация: оформите межбиблиотечный абонемент с полными библиографическими данными и подробными примечаниями об условиях, а также свяжитесь со столом специальных коллекций, чтобы подтвердить формат (бумажный фолио или отсканированный PDF). Для исследовательских целей лучше всего заказать высококачественное сканирование с высоким разрешением; физическая обработка часто требует двухнедельного карантина и ограниченного доступа.

Краткое содержание и примечания по обращению: памфлет пробуждает публичную дискуссию и явно адресован как управляющим домохозяйств, так и законодателям; его риторика склонна к буквальному прочтению при цитировании вне контекста. Описанные в тексте социальные санкции в то время законно применялись в нескольких юрисдикциях, а автор предвидит определённую долю общественного осуждения. Ожидайте задержек обработки в несколько недель от запроса до доставки. В начале предисловия, согласно современным рецензиям, аргумент компактен и поставлен для драматического эффекта.

Советы по каталогизации и интерпретационные ракурсы: перечисляйте любые экземпляры под предметными рубриками, включающими домашнюю экономику, гендерную критику или коммерческие союзы; некоторые каталожные записи содержат тег csaethiopia или аналогичные устаревшие коды — включайте эту строку при поиске в агрегированных базах данных. Проследите влияние работы через последующие памфлеты и законодательные ответные публикации; сохранившаяся маргинальная заметка гласит в архаичном тоне, что «thou shalt» переосмыслить традиционные роли. Цитируйте точное слово, использованное в ваших заметках, чтобы избежать неверного цитирования. Исследователям следует уделять особое внимание пассажам, где общественное пространство описывается как захваченное частными интересами, где провал политики представлен как хрупкая оболочка, защищающая привилегии, и где текст восхищается социальными чудесами и динамикой отношений между экономическим обменом и домашними обязанностями.

Marriage as a Trade – Cicely Hamilton (1909) & Sample Size Determination and Sampling Techniques

Рекомендация: используйте формульные расчёты размера выборки и корректируйте с учётом дизайна и неответа перед полевыми работами; для пропорций n = (Z1−α/2² · p(1−p))/E² (95% ДИ, Z=1,96, p=0,5, E=0,05 → n=384); для средних n = (Z² · σ²)/E² (σ=10, E=2 → n≈97). Применяйте поправку на конечную совокупность n_adj = n/(1+(n−1)/N), когда N невелико, и увеличивайте с учётом ожидаемого уровня неответа (пример: 10% неответа → n_final = n_adj/0,9).

  • Расчёты мощности: задайте α=0,05, мощность=0,80 (Zβ≈0,84). Для обнаружения разницы в 10 процентных пунктов (p1=0,50 → p2=0,40) требуется ≈387 на группу; при DEFF=1,5 → ≈580 на группу.
  • Эффект дизайна: DEFF = 1 + (m−1)·ICC. Если ICC=0,02 и размер кластера m=30 → DEFF≈1,58; умножьте базовое n на DEFF, затем добавьте неответ.
  • Стратификация: распределяйте выборку пропорционально размеру страт, если только цели по точности не требуют оптимального распределения; перевзвесьте после стратификации, чтобы скорректировать дифференциальный ответ от работников, домохозяйств с основным кормильцем или других существующих дисбалансов подгрупп.
  • Кластерная выборка: выбирайте число кластеров так, чтобы минимизировать межкластерную дисперсию — предпочитайте больше кластеров с меньшим m, когда ICC>0,01; практический минимум: 20 кластеров на группу для сравнительных исследований.
  • Систематическая выборка: приемлема на случайно упорядоченном списке сайтов; избегайте, если периодичность коррелирует с исходом (плоские периодические паттерны создают смещение).
  • Пилот и оценка σ: проводите небольшие воркшопы (n≈30–50), чтобы оценить σ и p перед окончательным расчётом; исследователи должны фиксировать привычные паттерны и события twin-shocks, которые увеличивают дисперсию.

Операционный чек-лист для полевых команд:

  1. Оцените базовое n для целевой точности, затем: примените FPC, умножьте на DEFF, увеличьте с учётом неответа, округлите вверх до ближайшего практического размера кластера.
  2. Документируйте правила отбора сайтов, роли работников и сети партнёров, чтобы избежать нелогичных исключений; защищайте от смещения отбора среди обычных и маргинальных подгрупп (холостячки, матери-кормильцы, домохозяйства с выросшими детьми).
  3. Предварительно зарегистрируйте предположения (p, σ, ICC) и обоснуйте их пилотными данными; если возникнут возражения, представьте анализ чувствительности, показывающий, как меняется n при сдвиге p на ±0,10 или ICC на ±0,02.
  4. Используйте вероятностную выборку, где возможно; если применяется удобная или целенаправленная выборка, явно укажите ограничение и предоставьте оценочные границы с помощью бутстрепа или весовых корректировок.
  5. При работе с кластерными вмешательствами прогнозируйте внутрикластерную корреляцию и планируйте мощность не менее 80% при скорректированном размере выборки; проводите симуляции, если дизайн сложный.

Рекомендуемая документация, которую должно включать каждое исследование:

  • Чёткое заявление о целевом стандартной ошибке и предельной погрешности; численные примеры расчётов для выбранных Z, p, σ, ICC, m, DEFF и уровня неответа.
  • Прозрачность относительно существующих недостатков в рамках выборки и предпринятых корректирующих действий (правила замены, пополнение списков, подход к взвешиванию).
  • Кодбук проведения полевых работ с перечислением обязанностей супервизоров и переписчиков, как фиксируются привычные отказы и как обрабатываются twin-shocks (два одновременных нарушения) в панелях временных рядов.
  • Журнал воркшопов и тренингов для переписчиков; включите как минимум одно повторное упражнение на межоценочную надёжность на сайт для оценки дисперсии наблюдателей.

Практические замечания и предупреждения: не принимайте благоговейные предположения о гомогенности; снова проверьте размеры подгрупп (партнёры, матери, категории холостячек) перед стратификацией. Если оценка защищается исключительно удобством, пометьте её как исследовательскую и избегайте каузального языка. Используйте предиктивные проверки, чтобы оценить, будет ли выборка предсказывать ключевые исходы при текущей изменчивости; если предиктивная сила низка, увеличьте n или уточните измерение, чтобы уменьшить σ. Упоминайте sthephen в метаданных только как тег или ID случая при необходимости, а не как аналитическое сокращение.

Итоговые обязанности: назначьте одного аналитика для вычисления и архивирования всех скриптов расчёта размера выборки и одного полевого руководителя на сайт, чтобы обеспечить соблюдение протокола; ответственность за итоговые оценки должна быть разделена между менеджером данных и ведущим исследователем, чтобы уменьшить нелогичное отчётность и обеспечить воспроизводимость оценок стандартных ошибок и доверительных интервалов.

Textual Sampling Frame: Selecting Passages for Quantitative Analysis

Выберите 40 отрывков по 230–270 слов каждый (цель 250) и распределите их равномерно по начальной, средней и заключительной третям; зарезервируйте ячейки стратификации для отрывков только с диалогом, только с повествованием и смешанных сцен, чтобы в каждой ячейке было n≈13 отрывков. Используйте это правило фиксированного размера, а не переменные выдержки, чтобы поддерживать сопоставимые количества слов для нормализации частот.

Если известна полная длина текста L, вычислите интервал I = floor(L / 40). Выберите единственную случайную начальную точку s в [1,I]; отбирайте отрывки в точках s + k*I (k=0..39). Если издание сопровождалось дополнительными паратекстами или примечаниями, потенциально содержащими редакционный материал, удалите их из рамки выборки и зафиксируйте их удаление в метаданных. Если номера страниц/строк различаются в разных изданиях, сопоставьте с каноническим словарным индексом перед расчётом интервала, чтобы отбор оставался воспроизводимым.

Определите единицу кодирования = непрерывный отрывок в 250 слов; обрабатывайте разбиение по клаузам или предложениям только если отрывок начинается или заканчивается на середине предложения, в этом случае продлите до ближайшей границы клаузы без изменения целевой длины более чем на ±20 слов. Чтобы избежать инстинктивной или удобной выборки, генерируйте отбор с seed и сохраните seed в документации. Если окончательная выборка прошла ручную корректировку, аннотируйте, почему отрывки были сужены или заменены, и сообщите логику замены; замены должны составлять менее 5% выборки, чтобы предотвратить благоприятное смещение.

Операционализируйте 18 бинарных и частотных кодов (примеры): tone{flattering, disappointed, abusive}, figurative{animal metaphors, kin terms, relational verbs}, agency{pressed, wishes, hardened}, interaction{counterpart references, hears, theirs, generation mentions}. Кодбук должен указывать правила токенизации (лемма vs. поверхностная форма) и оговаривать, что редко встречающиеся элементы (редко >0, но <5 случаев в пилоте) помечаются, а не агрегируются. Пилотно закодируйте 10 отрывков; затем дважды закодируйте 20% окончательной выборки для вычисления каппы Коэна с целью ≥0,70; если каппа ограничена, переобучите кодеров и перекодируйте помеченный набор.

Сообщайте диагностику выборки: эффективное покрытие выборки, дисперсию количества слов и любое преднамеренное перевыборочное редких явлений. Взвешивайте подсчёты на уровне отрывков по длине отрывка при агрегировании. Архивируйте сырые отборы, seed, идентификаторы изданий и таблицу, связывающую индексы отрывков с их текстовым расположением, чтобы внешние исследователи могли точно реконструировать, какие выдержки использовались. Эта структура не опирается исключительно на качественное впечатление и позволяет полностью воспроизводимые количественные сравнения между редакционными вариантами и когортами поколений.

Define target units: sentences, paragraphs, or dramatic scenes?

Рекомендация: рассматривайте драматические сцены как основную единицу для структурного и перформативного анализа; изучайте предложения для микроуровневой риторики и абзацы для тематической связности — если требуется детальная разметка, аннотируйте предложения внутри границ уровня сцены; если сцены отсутствуют, абзацы по существу заменяют их, и односложные фрагменты не qualify как полноценные тематические единицы, если не отмечены сценической ремаркой или явным поворотом.

Критерии: сегментируйте по наблюдаемым сдвигам в содержании, говорящем или сценическом действии. Ориентировочные пороги: разбивайте сцены, где непрерывный блок превышает ~250 слов или ~15 предложений без явной точки поворота; отмечайте разрывы абзацев при смене темы или минимум каждые 40–80 слов. Используйте основанные на принципах метки: экспозиция, конфронтация, решение, последствия. Явно маркируйте кризисы и точки поворота — отмечайте начало, середину и разрешение с временными метками; помечайте отрывки, доказывающие изменение персонажа или психически дестабилизирующие события (используйте тег "crises:mental"). Фиксируйте гендерные регистры, когда они проявляются: отмечайте женские или мужские риторические ходы, призвания и социальные требования, формирующие мотивацию персонажа. Фиксируйте линии, проведённые к инвалидности или инвалидностям как функциональные подсказки для постановки или интерпретации.

Реализация: создайте организационную схему с тремя уровнями (ID сцены.абзаца.предложения) и храните поля метаданных для даты создания, авторского голоса, говорящего, выведенных желаний и влияний. Используйте автоматизированные правила для: 1) смена говорящего плюс сценическая ремарка = новый абзац, 2) sustained действие плюс новая цель = новая сцена, 3) короткие ходы с обилием пунктуации = единица предложения. Аннотируйте плотность содержания (процент диалога vs. повествования); оценочное оптимальное разделение: сцены 60–80% аналитического веса, абзацы 15–30%, предложения 5–15% для риторической разметки. Практическое замечание: когда маргиналии в стиле sthephen или современная критика влияют на прочтения, сохраняйте оригинальную линеаризацию; вместо свёртывания фрагментов сохраняйте их, чтобы поддерживать комфортную запись истории исполнения и замечательных особенностей природы текста.

Stratify by edition and publication year to limit textual variation

Группируйте корпус по издательскому оттиску и году публикации, используя трёхлетние интервалы для изданий до 1930 года и однолетние интервалы для изданий после 1950 года; требуйте минимум три физических или микрофильмовых экземпляра на страту и объединяйте соседние интервалы, когда количество выборок < 3.

Извлекайте поля метаданных (imprint, year, place, printing-notes) и создавайте нормализованный текст, удаляя заголовки, фолио-метки и типографские орнаменты; вычисляйте попарное нормализованное расстояние редактирования на токенизированном тексте и отмечайте страты, где медианное расстояние > 2% для сохранения как отдельных версий, и объединяйте те, у которых медианное расстояние ≤ 0,5% в одну каноническую страту. Базовые пороги основаны на предыдущих проектах: 0,5% консервативное объединение, 2% консервативное разделение.

Когда страта занята только транскрипциями или фотокопиями, аннотируйте происхождение и оценивайте уверенность; если материалы происходят из общих партий или нескольких переплётчиков, отмечайте как "mixed-imprint" и выполняйте дополнительный проход кластеризации. Используйте выборку 5% страниц или 5000 токенов, в зависимости от того, что больше, для оценки вариации; если вариация сконцентрирована в паратексте (предисловия, реклама), удалите эти области перед окончательными решениями, чтобы предотвратить ослабление сигнала в основном тексте.

Применяйте правила управления: они будут управляться воспроизводимыми скриптами, которые логируют решения, мнение владельца и историю слияний; документируйте каждое слияние с обоснованием и снимком всех источников. Для социокультурной чувствительности отмечайте тексты, отражающие twin-shocks (экономические нарушения или войну) или сельскохозяйственные сдвиги в Европе, которые привели к лексическому дрейфу — термины такие как servant, mouth, luck, debilitating, able-bodied, sons, ambition, pride, passed, chase, possessed, grown появляются как маркеры; подумайте, являются ли такие маркеры авторскими или передаточными, прежде чем объединять.

Операционный чек-лист: 1) загрузите метаданные и материалы; 2) нормализуйте и токенизируйте; 3) вычислите расстояния на отобранных токенах; 4) примените пороги (≤0,5% объединить, ≥2% оставить отдельно); 5) если промежуточный (0,5–2%) проведите ручную adjudication и зафиксируйте мнение архивиста; 6) финализируйте страты и экспортируйте канонические тексты с файлом происхождения. Это ограничит неоправданную текстовую вариацию, сохраняя значимые варианты для последующего анализа.

Determine minimum sample size of passages for reliable proportion estimates

Рекомендация: используйте формулу выборки пропорций n = (Z² · p · (1−p)) / E²; для консервативного значения по умолчанию задайте p=0,5 и Z=1,96 (95% ДИ) — это даёт n = 384 при E = 0,05, n ≈ 1 068 при E = 0,03 и n = 2 401 при E = 0,02.

Шаги с конкретными значениями: 1) выберите уровень доверия (90% Z=1,645 → n≈271 при E=0,05; 99% Z=2,576 → n≈664 при E=0,05). 2) выберите целевую погрешность E (выраженную как пропорция). 3) оцените p по пилотным данным; если неизвестно, используйте 0,5. 4) вычислите n0 по формуле и всегда округляйте вверх. 5) применяйте поправку на конечную совокупность, когда популяция N ограничена: n_adj = n0 / (1 + (n0 − 1)/N) (пример: N=2 000 и n0=384 → n_adj≈323).

Корректировки: умножьте n0 на эффект дизайна (DEFF) для кластеризации/зависимости аннотаций (пример DEFF=1,5 → 384→576). Для низкой распространённости используйте p·(1−p) в формуле: если p=0,10 при 95% и E=0,05 → n≈139; если p=0,01 и E=0,05 → n≈16, но требуется минимум наблюдаемых положительных (правило большого пальца) не менее 30 положительных случаев, чтобы избежать нестабильных оценок дисперсии — поэтому если p≈0,01 планируйте минимум 30/0,01 = 3 000 отрывков, чтобы ожидать ≈30 положительных.

Практические пороги: абсолютный минимум общего количества отрывков = max(30 положительных + 30 отрицательных, вычисленное n по формуле после корректировок). Если аннотации дороги, предпочитайте E=0,05 с оценкой DEFF и поправкой на конечную совокупность, а не принуждайте очень малое E. Отслеживайте реализованное p после сбора данных и пересчитывайте требуемое n, чтобы решить, продолжать ли выборку.

Примеры с требуемыми ключевыми словами для документации: аннотаторы сообщали об удовольствии от возбуждающих отрывков, некоторые по-настоящему начали испытывать debilitating реакцию ночью; один субъект страдает и жаждет одиночества, другой проявляет презрение или принимает снисходительный тон; сам отрывок был fortunate, где субъекты описывали сцены на улицах, вызвавшие унижение, или был отмечен, где модераторы отмечают прерванные услуги после инцидентов. Аннотаторы упорно сопротивлялись поражению, когда категории были отчётливыми; cant-термины были продвинуты до универсального тега, более того, реальные предпочтительные метки питают априорные модели и вызывают удивление, насколько robust становятся оценки, когда размер выборки соответствует этим формулам.

Choose selection procedure: systematic with random start, simple random, or purposive

Рекомендация: Для количественной оценки распространённости с упорядоченной рамкой и N≥200 используйте систематическую выборку со случайным началом (обеспечивает пространственное/временное распределение и предсказуемую дисперсию); для малых рамок (N<200) или когда требуется точный равновероятностный отбор используйте простую случайную выборку; для targeted проверки гипотез, пилотных кейс-стади или работы с экспертными информантами используйте целенаправленный отбор с явными критериями включения и документированным ранжированным списком.

Систематическая со случайным началом — конкретные шаги и пример: вычислите интервал k = floor(N/n). Сгенерируйте одно равномерное случайное целое r в [1,k] (используйте воспроизводимый seed). Отбирайте единицы r, r+k, r+2k ... пока не достигнете n. Пример: N=1 200, n=100 → k=12; если r=7 отбирайте ID 7,19,31,...,1183. Проверяйте периодичность списка: если периодические паттерны в школьных регистрах или посменных графиках совпадают с k, поверните рамку или переключитесь на простую случайную. Используйте метрики аудита: сравните распределение возраста, пола (мужчины/женщины) выборки с рамкой; если наблюдаемые пропорции отклоняются >5 процентных пунктов, исследуйте неответ или дефекты рамки.

Простая случайная — конкретные шаги, инструменты и воспроизводимость: составьте исчерпывающую рамку со стабильными уникальными ID 1..N; извлеките n уникальных целых через RNG (R: sample(), Python: random.sample(), Excel: RAND() и top-n с фиксированным seed). Рекомендуется, когда N≤500 или когда отбор должен быть защищён от обвинений в смещении. Для безопасной воспроизводимости храните seed и скрипт. Простая случайная увеличивает дисперсию по сравнению с хорошо реализованной систематической, когда популяция имеет пространственную автокорреляцию, но избегает проблем систематической периодичности.

Целенаправленная — рекомендуемые применения и ограничения: выбирайте при исследовании конкретных художественных программ, практик образовательного воспитания, нишевых предпочтений или реагирования на кризис, где репрезентативность вторична. Определите явные критерии включения/исключения, составьте ранжированный список кандидатов (ранжируйте по экспертизе в области, доступности или тяжести проблемы) и установите целевые квоты (типичный качественный диапазон 10–50 участников). Документируйте обоснование каждого отбора и записывайте свидетельские показания для обоснования выборов. Ожидайте смещения отбора; рассматривайте результаты как контекстуальные и избегайте экстраполяции распространённости.

Procedure Best for Implementation Risks & mitigation
Systematic with random start Large ordered frames (N≥200); surveys needing spread k=floor(N/n); choose r∈[1,k]; select r + t·k; log seed Periodicity bias – check for patterns; if present randomize start and segment frame
Simple random Small frames, audit samples, equal-probability requirement Assign IDs, draw n via RNG, store seed and code Higher logistical cost for large N; mitigate with stratification
Purposive Qualitative studies, expert interviews, hard-to-reach groups Create selection criteria, rank candidates, set quotas (10–50) Selection bias; mitigate with transparency, supplementary random sub-sample

Операционные рекомендации: стратифицируйте систематическую или простую случайную выборку по ключевым переменным (школа, пол — отслеживайте мужчин отдельно, если релевантно, возрастные группы), когда гетерогенность высока. Мониторьте ежедневно уровень ответа; упорно низкий ответ снижает качество выборки и сделает оценки дисперсии ненадёжными. Если кластеры неответа создают неприятное смещение, внедряйте правила замены, заранее указанные в протоколе, а не удобные замены.

Требования к документации: фиксируйте дату создания рамки, фактическое N, целевое и достигнутое n, использованный seed, метод генерации случайных чисел и короткое повествование обсуждений отбора. Для целенаправленных выборок перечислите критерии, которые привели к кандидату (например: преподаватель искусств, свидетель кризисов, друг пострадавшей семьи или случай, названный jane в качественных заметках), и причину их ранга. Включите короткий журнал дефектов, документирующий отсутствующие ID, дубликаты или аномалии, приписываемые эффектам cultivation/fashion или административным burns.

Проверки качества и пороги: приемлемое отклонение между выборкой и рамкой по основным демографическим показателям ≤5 процентных пунктов; оценки эффекта дизайна и внутриклассовой корреляции должны быть рассчитаны post-hoc; отмечайте выборки, где инфляция дисперсии делает оценки нестабильными. Если проблемы сохраняются, проведите встречу по обзору данных в течение 48 часов, чтобы решить, обеспечить ли дополнительные отборы или сменить методы.

Этические и практические замечания: целенаправленный отбор может потребовать жертв в обобщаемости, но даёт глубину; обеспечьте информированное согласие и документируйте паттерны ответа как свидетельство влияния отбора. Для прозрачности цитируйте любое изменение протокола и лицо (например, afifi), ответственное за утверждение изменений; по существу сохраняйте все шаги отбора поддающимися аудиту.

Coding Scheme and Reliability Sampling for Thematic Quantification

Рекомендация: дважды кодируйте 20% всех единиц или минимум 200 единиц (в зависимости от того, что больше); требуйте Cohen’s kappa ≥ 0,75 и Krippendorff’s alpha ≥ 0,80 перед сообщением статистики на уровне тем.

Единица анализа и структура кодбука:

  • Единица: абзац или ход говорящего; выберите одно и сохраняйте организованным по всему набору данных.
  • Формат кодбука: имя кода, операционное определение, примеры, контрпримеры, правило решения для multi-label случаев и явная категория "unknown" для неклассифицируемых элементов.
  • Контроль версий: храните изменения с временной меткой и автором; записывайте, почему код был изменён и как предыдущие метки были перекодированы.

Категории кодирования (минимальный рабочий набор; расширяйте с пилотными данными):

  1. Economic-inducement – поведения, описанные как побуждение или реклама для материальной выгоды; требуются примеры и пороговые подсчёты для присвоения.
  2. Coercion – явное давление или угроза; кодируйте только когда принуждение является первичным мотивом, а не когда просто подразумевается.
  3. Habitual-patterns – повторяющиеся или привычные действия, названные организованными рутинами; включайте age-long рутины и привычный язык.
  4. Becoming/identity – отрывки о становлении или изменённом статусе (например, новое имя, изменённая роль).
  5. Leisure/enjoyment – заявления об удовольствии или стимулированном удовольствии, отличные от инструментальных мотивов.
  6. Socioeconomic-status – флаги для безработных, крайней бедности или проблем, связанных с работой; записывайте как атрибуты, а не темы.
  7. Ambiguity – "unknown" и загадочные отрывки, которые не могут быть надёжно присвоены; маркируйте для последующего качественного анализа.

Протокол обучения и квалификация кодеров:

  • Продолжительность обучения: 4 часа начального воркшопа + 50 практических отрывков на кодера с обратной связью.
  • Калибровка: консенсусная встреча после первых 50 дважды закодированных элементов; фиксируйте решения и обновляйте кодбук.
  • Обновление: 1-часовая рекалибровка после каждых 500 единиц или когда каппа падает ниже порога.
  • Adjudication: третий кодер разрешает споры; результаты adjudication должны быть залогированы с коротким обоснованием для информирования будущих правил.

Стратегия выборки надёжности и расчёты размера выборки:

  • Основное правило: дважды кодируйте 20% корпуса или минимум Nmin = 200 единиц. Пример: набор данных из 2 000 единиц → дважды кодируйте 400 единиц.
  • Для малых корпусов (<500 единиц): дважды кодируйте минимум 100 единиц или 25% корпуса, в зависимости от того, что больше.
  • Для оценки согласия пропорций с погрешностью ±5% при 95% доверии используйте n ≈ (1,96^2 * p*(1−p))/d^2; при p=0,80 → n≈250. Используйте это, когда требуется точный ДИ согласия.
  • Стратегия для редких кодов: идентифицируйте коды с ожидаемой распространённостью <5%; перевыбирайте эти страты с коэффициентом 2–3, чтобы обеспечить ≥50 дважды закодированных образцов на редкий код.
  • Стратифицированный отбор: стратифицируйте по ключевым атрибутам (age-long темы, флаги socioeconomic-status, жанр), чтобы выборка надёжности отражала тематическую гетерогенность, а не была кластеризована.

Метрики согласия и пороги:

  • Каппа Коэна для попарной надёжности: сообщайте каппа и процент согласия; принимайте продолжение при kappa ≥ 0,75 и проценте согласия ≥ 80%.
  • Альфа Криппендорфа для нескольких кодеров или небинарных данных: требуйте alpha ≥ 0,80 для окончательных анализов.
  • Сообщайте prevalence index и bias index вместе с каппа, чтобы прояснить интерпретацию, когда коды не одинаково часты.
  • Если каппа между 0,60 и 0,74, проведите targeted переобучение и перекодируйте свежий случайный поднабор из 100 единиц перед продолжением.

Разрешение разногласий и контроль дрейфа:

  • Логируйте каждое разногласие с парой кодов, примером текста и решением adjudicator; используйте эти логи для расширения кодбука и удаления загадочных пограничных случаев.
  • Проводите ежемесячные проверки дрейфа: случайная выборка 50 единиц, дважды закодированная; если согласие падает ниже порога, запланируйте переобучение в течение одной недели.
  • Когда несколько кодеров последовательно отказываются от присвоения кода, переоцените определение и рассмотрите возможность объединения или разделения категорий, а не принуждайте искусственные различия.

Требования к отчётности и показатели качества:

  • Публикуйте: количество дважды закодированных единиц, процент дважды закодированных, каппа, альфа, процент согласия, ДИ для согласия и детали перевыборки редких кодов.
  • Включайте: сколько определений кодов было изменено hitherto, что было inducement для изменения и как предыдущие метки были переклассифицированы.
  • Предоставляйте образцы отрывков для каждого имени кода, чтобы читатели могли судить о справедливости и воспроизводимости присвоений.

Практические примеры и быстрые проверки:

  • Пример 1: набор данных 5 000 единиц → дважды кодируйте 1 000 единиц; если крайний дисбаланс в одной теме (2%), обеспечьте минимум 50 дважды закодированных образцов для этой темы через targeted выборку.
  • Пример 2: два кодера, начальная каппа 0,68 → проведите 2-часовую рекалибровку, перекодируйте 150 новых единиц; если каппа затем ≥0,75, продолжайте; если нет, добавьте третьего кодера для adjudication.
  • Быстрая диагностика: если разногласия кластеризуются на ценностно-нагруженных кодах (coercion vs inducement), добавьте явные правила решения, дополнительные примеры и forced-choice чекбокс для primary vs secondary мотива.

Итоговые операционные замечания:

  • Фиксируйте демографию и контекстуальные атрибуты, которые могут объяснить дисперсию кодеров в отношении интерпретации.
  • Избегайте свёртывания валидных различий только ради повышения согласия; документируйте любые компромиссы и почему они считаются необходимыми.
  • Поддерживайте моральный дух кодеров: признайте, что некоторые отрывки неоднозначны и что кодирование не должно принуждать кодеров отказываться маркировать ясный контент; где кодеры не уверены, используйте тег "unknown" для последующего просмотра.

Operationalize "marriage as trade" metaphors into discrete, testable codes

Operationalize

Внедрите 12-кодовую схему и аннотируйте тексты на уровне предложения: Price, Barter, Weapon, Tribute, Reward, Prevention, Identity, Jealousy, Evasiveness, Taking, Beaten, Social-Status. Каждый код имеет бинарный флаг присутствия и оценку силы (0–3) на основе частоты и акцента; призывы к действию или прямая оценка увеличивают силу на +1.

Определите каждый код с лексическими якорями и конкретными пороговыми правилами. Price: токены такие как price, cost, value, fee – присутствует, если ≥1 якорь в окне 250 слов; доминирующий, если сила ≥2. Barter: barter, exchange, give-and-take, taking – присутствует, если появляется явная реципрокность или framing quid-pro-quo. Weapon: weapon, strike, attack – отмечайте, когда язык подразумевает принуждение; требуется минимум одна насильственная метафора плюс контекстуальная угроза. Tribute: tribute, payment, tribute-bearing – отмечается, когда описывается обязательство или дань. Reward: rewarded, reward, prize – отмечается, когда выгода обещается условно от действия. Prevention: prevention, block, stop – отмечайте preventative framing, ограничивающее выбор. Evasiveness: evasiveness, evasive, avoidance – отмечайте, если говорящий избегает прямой атрибуции мотивов. Jealousy: jealous, envy – отмечайте эмоциональное соперничество. Identity: identity, status, attainments – отмечайте ссылки, связывающие личность с исходами обмена.

Операционные правила кодирования: аннотируйте целевое предложение и контекст ±1 предложения; если появляются конфликтующие коды, аннотируйте оба и зафиксируйте co-occurrence. Создайте кодбук с тремя примерами отрывков на код и негативным контрольным отрывком для каждого, чтобы уменьшить ложные срабатывания. Включите поля метаданных: регион (например, africa), пол говорящего (female/male/unknown), классовый сигнал (working-man, merchant, elite), тип источника (press, private letter, legal). Для цифровых источников включайте raw URL-токен при цитировании (используйте httpswwwmohgovet как пример токена для документов, связанных со здоровьем) и записывайте, был ли источник включён в оригинальный корпус.

Надёжность и adjudication: дважды кодируйте 20% корпуса; цель Cohen’s kappa ≥ 0,70 для каждого кода. Когда каппа < 0,70, выполняйте шаги adjudication: 1) сравните разногласия, 2) уточните список якорей, 3) перекодируйте выборку. Записывайте матрицу путаницы между оценщиками и обновляйте якоря до улучшения. Используйте обильные тестовые выборки по жанрам, чтобы избежать узкого смещения выборки и предотвратить overfitting.

Количественные метрики и план анализа: вычисляйте распространённость на 10k слов и матрицы co-occurrence; сообщайте odds ratios, связывающие конкретные коды с исходами (например, частота метафор barter предсказывает ссылки на attainments среди женщин-говорящих). Моделируйте данные счёта с негативной биномиальной регрессией, контролируя регион и класс; затем тестируйте гипотезы о вреде, регрессируя упоминания harm, beaten или метафор weapon на социальные переменные. Сообщайте размеры эффекта с 95% ДИ и p-значениями, скорректированными для множественных сравнений.

Проверки валидности: триангулируйте с индикаторами социальной сети (ссылки на друзей, kin) и поведенческими записями, где доступно; используйте sentiment и синтаксические парсеры для валидации меток кодеров. Мониторьте контент, показывающий impossibility или narrowing языка выбора как сигнал валидности для framing обмена. Отслеживайте eagerness и calls как проксимальные маркеры agency и rewarded expectations. Помечайте jealous или identity-focused отрывки для качественного follow-up.

Этика и отчётность: документируйте предотвращение вреда в протоколе аннотации; анонимизируйте персональные данные и записывайте, когда появляется физическое принуждение (beaten) или требования дани. Публикуйте окончательный кодбук, сегменты корпуса с примерами кодирования и шаги аннотации, чтобы другие могли воспроизвести оценки распространённости и протестировать расширения на новые наборы данных дискурса браков и социального обмена.