Full dataset preparation

`drop_duplicate_columns_for_merge(summary, rfm)`

Removes duplicate columns from DataFrames before merging.

Parameters:

Name	Type	Description	Default
`summary`	`DataFrame`	Summary DataFrame.	required
`rfm`	`DataFrame`	RFM DataFrame.	required

Returns:

Type	Description
`tuple[DataFrame, DataFrame]`	tuple[pd.DataFrame, pd.DataFrame]: - Summary DataFrame without duplicates. - RFM DataFrame without duplicates.

Source code in api/utils/full_dataset_preparation.py

def drop_duplicate_columns_for_merge(
    summary: pd.DataFrame, rfm: pd.DataFrame
) -> tuple[pd.DataFrame, pd.DataFrame]:
    """
    Removes duplicate columns from DataFrames before merging.

    Args:
        summary (pd.DataFrame): Summary DataFrame.
        rfm (pd.DataFrame): RFM DataFrame.

    Returns:
        tuple[pd.DataFrame, pd.DataFrame]: 
            - Summary DataFrame without duplicates.
            - RFM DataFrame without duplicates.
    """

    summary = summary.drop(columns=['frequency', 'recency', 'monetary_value'])
    summary.reset_index(inplace=True)

    rfm = rfm.drop(columns=['product', 'revenue', 'Months_Since_Start', 'office_location'])

    return summary, rfm

`expand_rfm_features(rfm)`

Expands RFM metrics with additional calculations and segmentation.

Parameters:

Name	Type	Description	Default
`rfm`	`DataFrame`	RFM metrics DataFrame.	required

Returns:

Type	Description
`DataFrame`	pd.DataFrame: Updated DataFrame with new features and segmentation.

Source code in api/utils/full_dataset_preparation.py

def expand_rfm_features(rfm: pd.DataFrame) -> pd.DataFrame:
    """
    Expands RFM metrics with additional calculations and segmentation.

    Args:
        rfm (pd.DataFrame): RFM metrics DataFrame.

    Returns:
        pd.DataFrame: Updated DataFrame with new features and segmentation.
    """

    custom_segment_map = {
        '111': 'Dormant',
        r'11[2-3]': 'Inactive Low Spenders',
        r'12[1-3]': 'Rare Low Spenders',
        r'13[1-3]': 'Occasional Low Spenders',
        '411': 'New Enthusiasts',
        r'41[2-3]': 'New Potential Customers',
        '412': 'New Interested Parties',
        r'3[1-2]1': 'Disinterested Customers',
        r'31[2-3]': 'Rarely Interested Customers',
        '322': 'Stable Customers',
        r'32[3-4]': 'Consistent Buyers',
        r'42[2-3]': 'Moderately Engaged Customers',
        r'43[1-3]': 'Growing Engagement',
        '421': 'Beginning Customers',
        '432': 'Future Big Customers',
        r'44[2-3]': 'Loyal Customers',
        '444': 'Champions',
        r'4[2-3]4': 'Balanced High Value Customers',
        r'[3-4][3-4]1': 'High Value, Rare Buyers',
        r'[2-4][2-3][2-3]': 'Balanced Customers',
        # r'.*': 'Other'
    }

    rfm['RFM_Custom_Segment'] = rfm['RFM_Score'].replace(custom_segment_map, regex = True)

    discount_rate = 0.01 # Monthy inflation (simulation)
    rfm['Months_Since_Start'] = ((rfm['last_purchase'] - rfm['first_purchase'].min()).dt.days / 30).astype(int)
    rfm['Actual_CLTV'] = rfm['Monetary'] / ((1 + discount_rate) ** rfm['Months_Since_Start'])

    rfm['RF_Ratio'] = rfm['Recency'] / (rfm['Frequency'] + 1)
    rfm['ATV'] = rfm['Monetary'] / rfm['Frequency']

    scaler = MinMaxScaler()
    rfm_scaled = scaler.fit_transform(rfm[['Recency', 'Frequency', 'Monetary']])

    rfm['engagement_score'] = rfm_scaled[:, 1] * 0.4 + rfm_scaled[:, 2] * 0.4 - rfm_scaled[:, 0] * 0.2

    return rfm

`fit_predict_bg_nbd_model(df, today_date=datetime(2018, 1, 1))`

Fits and makes predictions using the Beta-Geometric/NBD model.

Parameters:

Name	Type	Description	Default
`df`	`DataFrame`	DataFrame with transaction data.	required
`today_date`	`date`	Reference date for calculations. Default is 2018-01-01.	`datetime(2018, 1, 1)`

Returns:

Type	Description
`tuple[DataFrame, BetaGeoFitter]`	tuple[pd.DataFrame, BetaGeoFitter]: - DataFrame with predictions. - Fitted BetaGeoFitter instance.

Source code in api/utils/full_dataset_preparation.py

def fit_predict_bg_nbd_model(
    df: pd.DataFrame, today_date: date = datetime(2018, 1, 1)
) -> tuple[pd.DataFrame, BetaGeoFitter]:
    """
    Fits and makes predictions using the Beta-Geometric/NBD model.

    Args:
        df (pd.DataFrame): DataFrame with transaction data.
        today_date (date): Reference date for calculations. Default is 2018-01-01.

    Returns:
        tuple[pd.DataFrame, BetaGeoFitter]: 
            - DataFrame with predictions.
            - Fitted BetaGeoFitter instance.
    """

    summary = summary_data_from_transaction_data(
        df,
        customer_id_col='account',
        datetime_col='close_date',
        monetary_value_col='close_value',
        observation_period_end=today_date,
    )

    bgf = BetaGeoFitter(penalizer_coef=0.005)
    bgf.fit(summary['frequency'], summary['recency'], summary['T'])

    summary['prob_alive'] = bgf.conditional_probability_alive(
    summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_day'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        1, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_week'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        7, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_monthly'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        30, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_bimonthly'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        61, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_trimester'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        92, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_half_year'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        182, summary['frequency'], summary['recency'], summary['T']
    )

    summary['expected_purchases_year'] = bgf.conditional_expected_number_of_purchases_up_to_time(
        365, summary['frequency'], summary['recency'], summary['T']
    )

    export_beta_geo_fitter(bgf)

    return summary, bgf

`fit_predict_gamma_gamma_model(summary)`

Fits and makes predictions using the Gamma-Gamma model.

Parameters:

Name	Type	Description	Default
`summary`	`DataFrame`	Summary DataFrame.	required

Returns:

Type	Description
`tuple[DataFrame, GammaGammaFitter]`	tuple[pd.DataFrame, GammaGammaFitter]: - Updated DataFrame with predictions. - Fitted GammaGammaFitter instance.

Source code in api/utils/full_dataset_preparation.py

def fit_predict_gamma_gamma_model(summary: pd.DataFrame) -> tuple[pd.DataFrame, GammaGammaFitter]:
    """
    Fits and makes predictions using the Gamma-Gamma model.

    Args:
        summary (pd.DataFrame): Summary DataFrame.

    Returns:
        tuple[pd.DataFrame, GammaGammaFitter]: 
            - Updated DataFrame with predictions.
            - Fitted GammaGammaFitter instance.
    """

    ggf = GammaGammaFitter(penalizer_coef=0.05)
    ggf.fit(summary['frequency'], summary['monetary_value'])

    summary['expected_average_profit'] = ggf.conditional_expected_average_profit(
        summary['frequency'], summary['monetary_value']
    )

    export_gamma_gamma_fitter(ggf)

    return summary, ggf