№27
Пример решения: кластеризация звёзд
Анализ данных
Условие задачи
№ 29357 Открытый вариант 2026 (Уровень: Средний)
Фрагмент звёздного неба спроецирован на плоскость с декартовой системой координат. Учёный решил провести кластеризацию полученных точек, являющихся изображениями звёзд, то есть разбить их множество на N непересекающихся непустых подмножеств (кластеров), таких что точки каждого подмножества лежат внутри прямоугольника со сторонами длиной H и W, причём эти прямоугольники между собой не пересекаются. Стороны прямоугольников не обязательно параллельны координатным осям.
Гарантируется, что такое разбиение существует и единственно для заданных размеров прямоугольников.
Будем называть центром кластера точку этого кластера, сумма расстояний от которой до всех остальных точек кластера минимальна. Для каждого кластера гарантируется единственность его центра. Расстояние между двумя точками на плоскости \(A(x_1, y_1)\) и \(B(x_2, y_2)\) вычисляется по формуле: \(\textit{d}(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}\)
Каждая звезда помимо координат на плоской карте характеризуется своим спектральным классом и классом светимости. Спектральный класс определяет цвет (который связан с температурой звезды) согласно таблице. Каждый из спектральных классов, в свою очередь, делится на подклассы от 0 до 9 в порядке уменьшения температуры. Обозначение подкласса ставится после обозначения спектрального класса (например, B2). Класс светимости звезды обозначим римскими цифрами от I до VII.
| Обозначение | Цвет | Обозначение | Размер |
| O | голубой | I | сверхгигант |
| B | бело-голубой | II | яркий гигант |
| A | белый | III | гигант |
| F | жёлто-белый | IV | субгигант |
| G | жёлтый | V | карлик |
| K | оранжевый | VI | субкарлик |
| M | красный | VII | белый карлик |
В файле A хранятся данные о звёздах двух кластеров, где H=6,0, W=5,5 для каждого кластера. В каждой строке записана информация о расположении на карте одной звезды: сначала координата x, затем координата y. Далее в той же строке для звёзд классов светимости I–VI указываются спектральный класс, подкласс и класс светимости. Обозначения классов ничем не разделяются. Для звёзд класса светимости VII (Белый карлик) обозначения спектрального класса и подкласса в файле не указываются. Известно, что количество точек не превышает 2000.
В файле B хранятся данные о звёздах трёх кластеров, где H=6,0, W=5,5 для каждого кластера. Известно, что количество звёзд не превышает 10 000. Структура хранения информации о звездах в файле B аналогична файлу А.
Для файла А определите координаты центра каждого кластера, затем найдите два числа \(A_x\) и \(A_y\) – абсциссу и ординату красного гиганта, ближайшего к центру кластера, который содержит наименьшее количество точек.
Для файла Б определите координаты центра каждого кластера, затем найдите два числа: \(B_1\) – расстояние между центрами кластеров
с наименьшим и наибольшим количеством оранжевых гигантов, и \(B_2\) – наибольшее расстояние между жёлтыми карликами одного кластера.
В ответе запишите четыре числа: в первой строке – сначала целую часть абсолютного значения произведения \(A_x\) × 10 000, затем целую часть абсолютного значения произведения \(A_y\) × 10 000; во второй строке – сначала целую часть произведения \(B_1\) × 10 000, затем целую часть произведения \(B_2\) × 10 000.
Пример организации данных в одном из исходных файлов для случая четырёх звёзд
5,01788 8,32466 G2V
4,289251 6,955186 VII
4,619358 5,524697 B7V
6,91934 20,425391 G2V
Внимание! Пример приведён в иллюстративных целях для произвольных значений, не имеющих отношения к заданию. Для выполнения задания используйте данные из прилагаемых файлов.
Решение
Решение №29357
27A
from math import dist
# Открываем файл с данными
f = open('files/27_A_29357.txt')
# Функция для поиска центра кластера
# Центр — это такая точка кластера,
# у которой сумма расстояний до остальных точек минимальна
def centroid(cl):
res = [] # сюда будем сохранять [сумма_расстояний, точка]
# Перебираем каждую точку кластера
for p1 in cl:
s = 0 # сумма расстояний от текущей точки до остальных
# Считаем расстояния до всех точек кластера
for p2 in cl:
s += dist(p1[:2], p2[:2])
# Сохраняем результат
res.append([s, p1])
# Берём точку с минимальной суммой расстояний
return min(res)[1]
data = []
# Читаем все точки из файла
for line in f:
# Заменяем запятые на точки
# и разбиваем строку на x, y и информацию о звезде
x, y, info = line.replace(',', '.').split()
# Сохраняем:
# x, y — координаты
# info — спектральный класс и класс светимости
data.append([float(x), float(y), info])
# Копия всех данных
# понадобится позже для поиска красных гигантов
data_original = data[:]
clusters = []
# Пока есть необработанные точки
while data:
# Создаём новый кластер
# и кладём в него одну точку
clusters.append([data.pop()])
# Перебираем точки текущего кластера
# список будет увеличиваться прямо во время обхода
for p1 in clusters[-1]:
# Перебираем все ещё не использованные точки
for p2 in data[:]:
# Если точка находится близко,
# считаем её принадлежащей тому же кластеру
if dist(p1[:2], p2[:2]) < 1:
# Добавляем точку в кластер
clusters[-1].append(p2)
# Удаляем из общего списка,
# чтобы не обработать повторно
data.remove(p2)
# Сортируем кластеры по количееству точек
clusters.sort(key=len)
# Берём центр кластера с минимальным количеством точек
center = centroid(clusters[0])
# Ищем все красные гиганты:
# M — красный спектральный класс
# III — гигант
wk = [x for x in data_original
if x[2][0] == 'M' and x[2][2:] == 'III']
res = []
# Для каждого красного гиганта считаем расстояние до центра
for p1 in wk:
res.append([dist(p1[:2], center[:2]), p1[:2]])
# Сортируем по расстоянию
res.sort()
# Берём ближайшего красного гиганта
Ax, Ay = res[0][1]
# Выводим ответ по условию задачи
print(int(Ax * 10_000), int(Ay * 10_000))
27B
from math import dist
# Открываем файл с данными
f = open('files/27_B_29357.txt')
# Функция поиска центра кластера
# Центр — точка, у которой сумма расстояний
# до всех остальных точек кластера минимальна
def centroid(cl):
res = [] # сюда будем сохранять [сумма_расстояний, точка]
# Перебираем все точки кластера
for p1 in cl:
s = 0 # сумма расстояний от текущей точки
# Считаем расстояния до всех остальных точек
for p2 in cl:
s += dist(p1[:2], p2[:2])
# Сохраняем результат
res.append([s, p1])
# Возвращаем точку с минимальной суммой расстояний
return min(res)[1]
data = []
# Считываем данные из файла
for line in f:
# Заменяем запятые на точки
# и разделяем строку на части
x, y, info = line.replace(',', '.').split()
# Сохраняем:
# x, y — координаты
# info — информация о звезде
data.append([float(x), float(y), info])
# Копия исходных данных
data_original = data[:]
clusters = []
# Пока есть необработанные точки
while data:
# Создаём новый кластер
# и кладём в него одну точку
clusters.append([data.pop()])
# Перебираем точки текущего кластера
# список может увеличиваться прямо во время обхода
for p1 in clusters[-1]:
# Перебираем ещё не использованные точки
for p2 in data[:]:
# Если точки расположены близко,
# считаем их принадлежащими одному кластеру
if dist(p1[:2], p2[:2]) < 1:
# Добавляем точку в кластер
clusters[-1].append(p2)
# Удаляем из общего списка
data.remove(p2)
# print(len(clusters))
# Проверка количества найденных кластеров
og = []
# Для каждого кластера считаем количество
# оранжевых гигантов:
# K — оранжевый спектральный класс
# III — гигант
for cl in clusters:
og.append(
len([x for x in cl
if x[2][0] == 'K' and x[2][2:] == 'III'])
)
# print(og)
# Проверка количества оранжевых гигантов
# Находим центры всех кластеров
centers = [centroid(cl) for cl in clusters]
# Расстояние между центрами кластеров
# с минимальным и максимальным количеством
# оранжевых гигантов
# (в данном случае это 1-й и 3-й кластеры)
B1 = dist(centers[0][:2], centers[2][:2])
print(int(B1 * 10_000))
# Выбираем жёлтые карлики:
# G — жёлтый спектральный класс
# V — карлик
yk1 = [x for x in clusters[0]
if x[2][0] == 'G' and x[2][2:] == 'V']
yk2 = [x for x in clusters[1]
if x[2][0] == 'G' and x[2][2:] == 'V']
yk3 = [x for x in clusters[2]
if x[2][0] == 'G' and x[2][2:] == 'V']
res = []
# Для каждого кластера
for cl in [yk1, yk2, yk3]:
# Перебираем все пары жёлтых карликов
for p1 in cl:
for p2 in cl:
# Сохраняем расстояние между ними
res.append(dist(p1[:2], p2[:2]))
# Находим максимальное расстояние
B2 = max(res)
print(int(B2 * 10_000))