Подробный гайд и примеры использования функции Pandas cut

Pandas – библиотека Python для работы с данными.

Метод cut позволяет разбить числовую переменную на категории, удобен при анализе данных - например, разделить возраст на группы: дети, взрослые, пенсионеры.

Принцип работы метода cut очень простой. Сначала необходимо указать переменную, которую вы хотите разбить, а затем задать границы каждой категории. Если границы не указаны, метод автоматически будет создавать равное количество категорий. После разбиения переменной, метод cut возвращает новую переменную с категориями, в которые попадает каждое значение исходной переменной.

Метод cut имеет ряд дополнительных параметров, которые позволяют настроить его работу в соответствии с вашими потребностями. Например, вы можете указать метки для каждой категории, настроить правило включения границ, а также изменить тип переменной, которая будет возвращена методом cut.

Что такое Pandas cut

Что такое Pandas cut

Функция Pandas cut работает следующим образом: она принимает числовые переменные и список интервалов или категорий. Она создает новый столбец со значениями типа categorical, соответствующими заданным интервалам или категориям, превращая числовые данные в категориальные.

Пример использования функции Pandas cut:

import pandas as pd

data = {'score': [85, 92, 78, 90, 88, 76, 84, 92, 80, 86]}

df = pd.DataFrame(data)

df['category'] = pd.cut(df['score'], bins=[0, 60, 70, 80, 90, 100], labels=['F', 'D', 'C', 'B', 'A'])

print(df)

В данном примере мы делим значения столбца 'score' на пять интервалов, от F до A, и создаем новый столбец 'category', в котором каждое значение 'score' соответствует определенной категории.

Функция Pandas cut позволяет гибко задавать интервалы и категории, а также обрабатывать пропущенные значения. Она полезна для анализа данных, визуализации и построения моделей машинного обучения.

Как работает Pandas cut

Как работает Pandas cut

Принцип работы pandas.cut(): сначала определяем границы разбиения данных, затем присваиваем элементам категории на основе границ.

Результат - объект Categorical с информацией о категориях и значениях, который можно использовать для анализа данных или построения графиков.

pandas.cut() предоставляет параметры для кастомизации метода, устанавливая метки для категорий и правила включения границ.

Примеры использования Pandas cut

Примеры использования Pandas cut

Функция Pandas cut помогает разделить числовые данные на интервалы, полезно для группировки или создания категорий.

Примеры использования Pandas cut:

ПримерОписание
Пример 1Разбиение данных на 3 интервала
Пример 2Разбиение данных с заданными границами
Пример 3Разбиение данных по логарифмической шкале

Пример 1:

import pandas as pd

data = [10, 20, 30, 40, 50]

bins = 3

result = pd.cut(data, bins)

print(result)

[(9.95, 20.0], (20.0, 30.0], (30.0, 40.0], (40.0, 50.0], (40.0, 50.0]]

Пример 2:

import pandas as pd

data = [10, 20, 30, 40, 50]

bins = [0, 25, 50]

result = pd.cut(data, bins)

print(result)

[(0, 25], (0, 25], (25, 50], (25, 50], (25, 50]]

Категории (2, интервал [int64]): [(0, 25] < (25, 50]]

Пример 3:

import pandas as pd

import numpy as np

data = np.logspace(1, 4, num=5)

bins = [np.log10(min(data)), np.log10(max(data))]

result = pd.cut(data, bins)

print(result)

[(1.0, 2.69897], (1.0, 2.69897], (2.69897, 4.0], (2.69897, 4.0], (2.69897, 4.0]]

Категории (2, интервал[float64]): [(1.0, 2.69897] < (2.69897, 4.0]]

В этих примерах видно, как Pandas cut разбивает числовые данные на интервалы и категоризует их. Это может быть полезно для последующего анализа данных.

Оцените статью