%matplotlib inline
import numpy as np
import pandas as pd
from scipy.stats import genpareto, binom


def max_out_of_n_from_dist(dist, out_of_n=1e9):
    manageable_n = 100000
    if out_of_n <= manageable_n:
        return dist.rvs(out_of_n).max()
    else:
        top_percentiles = \
            np.random.rand(manageable_n) * manageable_n / out_of_n
        return min(
            dist.isf(top_percentiles.min()), 
            np.finfo(float).max / 100) # prevent inf


sample_size = int(1e9)
genpareto_shapes = np.linspace(0.01, 2.0, 200)
shape_params = []
pdf_6x_max = []
n_outliers = []

for shape_param in genpareto_shapes:
    dist = genpareto(shape_param, scale=1, loc=0)
    for i in range(10000):
        shape_params.append(shape_param)
        max_val = max_out_of_n_from_dist(dist, sample_size)
        scaled_dist = genpareto(
            shape_param, scale=1 / max_val, loc=0)
        pdf_6x_max.append(scaled_dist.pdf(6))
        # use binom instead of actually drawing for outliers
        p_outlier = (
            scaled_dist.sf(0.5) - scaled_dist.sf(1)
        ) / scaled_dist.cdf(1)
        n_outlier = \
            binom(sample_size - 1, p_outlier).rvs(1)[0] + 1
        n_outliers.append(n_outlier)
            
genpareto_results_df = pd.DataFrame({
    "shape_params":shape_params, 
    "pdf_6x_max":pdf_6x_max,
    "n_outliers":n_outliers,
})

#save to .csv, as generating this takes a while
genpareto_results_df.to_csv(
    "genpareto_results_df.csv", encoding="utf-8")


genpareto_results_df = pd.read_csv(
    "genpareto_results_df.csv", encoding="utf-8"
).drop("Unnamed: 0", 1)


print(genpareto_results_df.shape)
genpareto_results_df.head()

(2000000, 3)


def shape_hist(df, n_outliers):
    srs = df[df["n_outliers"] == n_outliers]["shape_params"]
    n_bins = (srs.max() - srs.min()) / 0.01 + 1
    srs.hist(bins=int(n_bins)).set_xlabel("shape parameters")


shape_hist(genpareto_results_df, 15)


def likelihood_and_bf(df, n_outliers):
    skeptical_likelihood = df[
        df["n_outliers"] == n_outliers]["pdf_6x_max"].mean()
    christian_likelihood = (0.5 / 12)
    bf = christian_likelihood / skeptical_likelihood
    print("skeptic's likelihood: {:.2e}"
          .format(skeptical_likelihood))
    print("Bayes factor: {:.2e}".format(bf))


likelihood_and_bf(genpareto_results_df, 15)

skeptic's likelihood: 8.51e-12
Bayes factor: 4.90e+09


shape_hist(genpareto_results_df, 60)


likelihood_and_bf(genpareto_results_df, 60)

skeptic's likelihood: 3.86e-13
Bayes factor: 1.08e+11


shape_hist(genpareto_results_df, 250)


likelihood_and_bf(genpareto_results_df, 250)

skeptic's likelihood: 1.44e-14
Bayes factor: 2.90e+12


outliers_pdf_6x = genpareto_results_df[
    genpareto_results_df["n_outliers"] < 100
].groupby("n_outliers")["pdf_6x_max"].mean()
outliers_pdf_6x.name = "pdf_6x_max"

outliers_pdf_6x.reset_index().plot(
    kind="scatter", x="n_outliers", y="pdf_6x_max",
    xlim=(0,100), ylim=(0, 6e-11),
    title="skeptic's likelihood vs outliers"
)

<matplotlib.axes._subplots.AxesSubplot at 0x1b7391adda0>


outliers_log10_bf = np.log10((0.5 / 12) / outliers_pdf_6x)
outliers_log10_bf.name = "log10_bf"

outliers_log10_bf.reset_index().plot(
    kind="scatter", x="n_outliers", y="log10_bf",
    xlim=(0,100), ylim=(8, 14),
    title="Bayes factors vs outliers"
)

<matplotlib.axes._subplots.AxesSubplot at 0x1b737c4d358>

	shape_params	pdf_6x_max	n_outliers
0	0.01	1.400046e-36	26287
1	0.01	1.650500e-38	11942
2	0.01	4.315781e-36	31962
3	0.01	2.588130e-37	19289
4	0.01	3.339785e-39	8680