%matplotlib inline

import os

import numpy as np
import sympy
import scipy
import scipy.io

import matplotlib
import matplotlib.pyplot as plt
from matplotlib import cm
from matplotlib.lines import Line2D
from mpl_toolkits.mplot3d import Axes3D

from IPython.display import display, Math

np.random.seed(7720)


matplotlib.rcParams["figure.dpi"] = 100
matplotlib.rcParams['savefig.dpi'] = 600


from IPython.core.display import HTML
HTML("""
<style>
.jp-RenderedImage {
    display: table-cell;
    text-align: center;
    vertical-align: middle;
}
</style>
""")


def show(text, ans, precision=4):
    if type(ans) == np.ndarray:
        t = r'\begin{bmatrix} '
        for i in ans:
#             print(i, type(i))
#             print(r' \\ '.join(i))
            if type(i) != np.ndarray:
                t += f'{i:.4f}' + r' \\ '
            else:
                a_str = np.array2string(i, precision=precision, separator=r' & ')
                t += a_str[1:-1]
                t += r' \\ '
        t += r'\end{bmatrix}'
        display(Math(f'{text} = {t}'))
    else:
        display(Math(f'{text} = {ans:.{precision}f}'))


# credit: https://stackoverflow.com/a/29126361/7150241
def loadmat(filename):
    '''
    this function should be called instead of direct spio.loadmat
    as it cures the problem of not properly recovering python dictionaries
    from mat files. It calls the function check keys to cure all entries
    which are still mat-objects
    '''
    def _check_keys(d):
        '''
        checks if entries in dictionary are mat-objects. If yes
        todict is called to change them to nested dictionaries
        '''
        for key in d:
            if isinstance(d[key], scipy.io.matlab.mio5_params.mat_struct):
                d[key] = _todict(d[key])
        return d

    def _todict(matobj):
        '''
        A recursive function which constructs from matobjects nested dictionaries
        '''
        d = {}
        for strg in matobj._fieldnames:
            elem = matobj.__dict__[strg]
            if isinstance(elem, scipy.io.matlab.mio5_params.mat_struct):
                d[strg] = _todict(elem)
            elif isinstance(elem, np.ndarray):
                d[strg] = _tolist(elem)
            else:
                d[strg] = elem
        return d

    def _tolist(ndarray):
        '''
        A recursive function which constructs lists from cellarrays
        (which are loaded as numpy ndarrays), recursing into the elements
        if they contain matobjects.
        '''
        elem_list = []
        for sub_elem in ndarray:
            if isinstance(sub_elem, scipy.io.matlab.mio5_params.mat_struct):
                elem_list.append(_todict(sub_elem))
            elif isinstance(sub_elem, np.ndarray):
                elem_list.append(_tolist(sub_elem))
            else:
                elem_list.append(sub_elem)
        return elem_list
    data = scipy.io.loadmat(filename, struct_as_record=False, squeeze_me=True)
    return _check_keys(data)


mat = loadmat(os.path.join("data", "test_train_data_class3.mat"))


mat['Data'].keys()

dict_keys(['test', 'train'])


train_mat = mat['Data']['train']
test_mat = mat['Data']['test']


C = len(train_mat)
d = len(train_mat[0])
print(f'C = {C} classes')
print(f'd = {d} dimensions')

C = 3 classes
d = 2 dimensions


train_data, test_data = [], []

for c in range(C):
    train_data.append(np.array(train_mat[c]).T)
    test_data.append(np.array(test_mat[c]).T)


for c in range(C):
    print(f'[train]\tclass {c+1} = {len(train_data[c])} samples')
    print(f'[test]\tclass {c+1} = {len(test_data[c])} samples')
    print('-' * 30)

[train]	class 1 = 30 samples
[test]	class 1 = 70 samples
------------------------------
[train]	class 2 = 50 samples
[test]	class 2 = 94 samples
------------------------------
[train]	class 3 = 20 samples
[test]	class 3 = 46 samples
------------------------------


def plot_2d_features(data, mu=None, cov=None, title="", x_label="$x_1$", y_label="$x_2$"):
    sample_colors = ('deepskyblue', 'hotpink', 'mediumseagreen')
    sample_markers = ('o', 's', '^')
    mean_colors = ('blue', 'deeppink', 'green')

    fig, ax = plt.subplots(figsize=(8, 8))

    for c in range(C):
        # samples
        ax.scatter(data[c][:, 0], data[c][:, 1], color=sample_colors[c], marker=sample_markers[c], label=f"$\omega_{c+1}$")
        
        # means
        if mu is not None:
            ax.scatter(mu[c][0], mu[c][1], color=mean_colors[c], marker='X', s=100, edgecolor='black', label=r"$\vec{\mu}_" + str(c+1) + "$")

        # covariances
        if cov is not None:
            eigval, eigvec = np.linalg.eig(cov[c])
            std_values = eigval

            major_idx = np.argmax(eigval)
            minor_idx = 1 if major_idx == 0 else 0

            alpha = np.arctan2(eigvec[1, major_idx], eigvec[0, major_idx])
            major_r_x = std_values[major_idx]
            major_r_y = std_values[minor_idx]

            theta = np.linspace(0, 2*np.pi, 100)
            mean_x, mean_y = mu[c]
            e_X = major_r_x * np.cos(theta) * np.cos(alpha) - major_r_y * np.sin(theta) * np.sin(alpha) + mean_x
            e_Y = major_r_x * np.cos(theta) * np.sin(alpha) + major_r_y * np.sin(theta) * np.cos(alpha) + mean_y
            ax.plot(e_X, e_Y, color=mean_colors[c], linestyle="--")

            # legends
            handles, labels = ax.get_legend_handles_labels()
            handles.append(Line2D([0], [0], color="gray", linewidth=3, linestyle='--'))
            labels.append("$\sigma_{j}^2$")

    ax.set_title(title, fontsize=14)
    ax.set_xlabel(x_label, fontsize=14)
    ax.set_ylabel(y_label, fontsize=14)
    ax.set_aspect(1)
    if cov is None:
        handles, labels = ax.get_legend_handles_labels()
    ax.legend(handles, labels, loc='center left', bbox_to_anchor=(1, 0.5), prop={'size': 12})

    plt.close(fig)
    return fig


plot_2d_features(train_data, title="Training samples in Cartesian coordinates")


def log_likelihood(x, mean, cov, prior):
    d = len(x)
    A = -0.5 * ((mahalanobis_distance(x, mean, cov)) ** 2)
    B = - ((d/2) * np.log(2 * np.pi))
    C = - (0.5 * np.log(determinant(cov))) + np.log(prior)
    return A + B + C


def compute_mean(X, axis=0):
    return np.sum(X, axis=axis) / len(X)


mu = np.zeros((C, d))
for c in range(C):
    mu[c] = compute_mean(train_data[c])
    show(r'\vec{\mu}_' + str(c+1), mu[c])


np_mu = np.zeros((C, d))
for c in range(C):
    np_mu[c] = np.mean(train_data[c], axis=0)
    show(r'\mathrm{Numpy}\ \vec{\mu}_' + str(c+1), np_mu[c])


print("np.mean == compute_mean?", np.allclose(np_mu, mu))

np.mean == compute_mean? True


def transpose(m):
    if type(m[0]) not in (list, np.ndarray):
        return m
    return list(map(list,zip(*m)))


def compute_covariance_matrix(X, mean, bias_term=0):
    cov = np.zeros((len(mean), len(mean)))
    for x in X:
        a = np.array(x) - np.array(mean)
        cov += a[:, None] @ transpose(a)[None, :]
    cov /= len(X) - bias_term
    return cov


cov = np.zeros((C, d, d))
for c in range(C):
    cov[c] = compute_covariance_matrix(train_data[c], mu[c])
    show(r'\mathbf{\Sigma}_' + str(c+1), cov[c])


np_cov = np.zeros((C, d, d))
for c in range(C):
    np_cov[c] = np.cov(train_data[c].T, bias=True)
    show(r'\mathrm{Numpy}\ \mathbf{\Sigma}_' + str(c+1), np_cov[c])


print("[biased] np.cov == compute_covariance_matrix?", np.allclose(np_cov, cov))

[biased] np.cov == compute_covariance_matrix? True


plot_2d_features(train_data, mu, cov, title="Training samples in Cartesian coordinates")


def determinant(A):
    if len(A) == 2:
        det = (A[0][0] * A[1][1]) - (A[1][0] * A[0][1])
        return det


def inverse_matrix(A):
    if len(A) == 2:
        inv_A = [
            [A[1][1], -A[0][1]],
            [-A[1][0], A[0][0]]
        ]
        return np.array(inv_A) / determinant(A)


def mahalanobis_distance(x, y, cov):
    a = np.array(x) - np.array(y)
    r2 = transpose(a) @ inverse_matrix(cov) @ a
    return np.sqrt(r2)


confusion_matrix = np.zeros((C, C))

for c in range(C):
    for x in test_data[c]:
        distances = np.zeros(C)
        for i in range(C):
            distances[i] = mahalanobis_distance(x, mu[i], cov[i])
        pred_class = np.argmin(distances)
        confusion_matrix[c][pred_class] += 1


confusion_matrix

array([[ 1.,  9., 60.],
       [ 0.,  0., 94.],
       [ 0.,  0., 46.]])


priors = [1/3, 1/3, 1/3]


def discriminant_fx(x, mean, cov, prior):
    d = len(x)
    A = -0.5 * ((mahalanobis_distance(x, mean, cov)) ** 2)
    B = - ((d/2) * np.log(2 * np.pi))
    C = - (0.5 * np.log(determinant(cov))) + np.log(prior)
    return A + B + C


confusion_matrix = np.zeros((C, C))

for c in range(C):
    for x in test_data[c]:
        g = np.zeros(C)
        for i in range(C):
            g[i] = discriminant_fx(x, mu[i], cov[i], priors[i])
        pred_class = np.argmax(g)
        confusion_matrix[c][pred_class] += 1


confusion_matrix

array([[59., 11.,  0.],
       [15., 61., 18.],
       [ 0.,  7., 39.]])


accuracy = confusion_matrix.trace() / confusion_matrix.sum()
error = 1 - accuracy

show('\mathrm{Test\ Accuracy}', accuracy)
show('\mathrm{Test\ Error}', error)


unbiased_cov = np.zeros((C, d, d))
for c in range(C):
    unbiased_cov[c] = compute_covariance_matrix(train_data[c], mu[c], bias_term=1)
    show(r'\mathrm{Unbiased}\ \mathbf{\Sigma}_' + str(c+1), unbiased_cov[c])


np_unbiased_cov = np.zeros((C, d, d))
for c in range(C):
    np_unbiased_cov[c] = np.cov(train_data[c].T, bias=False)
    show(r'\mathrm{Unbiased\ Numpy}\ \mathbf{\Sigma}_' + str(c+1), np_unbiased_cov[c])


print("[unbiased] np.cov == compute_covariance_matrix?", np.allclose(np_unbiased_cov, unbiased_cov))

[unbiased] np.cov == compute_covariance_matrix? True


unbiased_confusion_matrix = np.zeros((C, C))

for c in range(C):
    for x in test_data[c]:
        g = np.zeros(C)
        for i in range(C):
            g[i] = discriminant_fx(x, mu[i], unbiased_cov[i], priors[i])
        pred_class = np.argmax(g)
        unbiased_confusion_matrix[c][pred_class] += 1


unbiased_confusion_matrix

array([[59., 11.,  0.],
       [17., 62., 15.],
       [ 0.,  7., 39.]])


unbiased_accuracy = unbiased_confusion_matrix.trace() / unbiased_confusion_matrix.sum()
unbiased_error = 1 - unbiased_accuracy

show('\mathrm{[Unbiased]\ Test\ Accuracy}', unbiased_accuracy)
show('\mathrm{[Unbiased]\ Test\ Error}', unbiased_error)


def cart2pol(x, y):
    rho = np.sqrt(x**2 + y**2)
    theta = np.arctan2(y, x)
    return rho, theta


transformed_train_data, transformed_test_data = [], []

for c in range(C):
    rho, theta = cart2pol(train_data[c][:, 0], train_data[c][:, 1])
    transformed_train_data.append(np.vstack((rho, theta)).T)
    
    rho, theta = cart2pol(test_data[c][:, 0], test_data[c][:, 1])
    transformed_test_data.append(np.vstack((rho, theta)).T)


plot_2d_features(transformed_train_data, x_label="$r$", y_label=r"$\theta$", title="Training samples in polar coordinates")


def plot_1d_feature(data, is_sort=False):
    sample_colors = ('deepskyblue', 'hotpink', 'mediumseagreen')
    sample_markers = ('o', 's', '^')
    
    fig, ax = plt.subplots(figsize=(8, 2))

    for c in range(C):
        X = data[c][:, 0]
        if is_sort:
            X = np.sort(X)
            offsets = np.arange(0, len(X), 1) * 0.001
        else:
            offsets = 0
        ax.scatter(X, np.zeros_like(X) + offsets, color=sample_colors[c], edgecolor="black", linewidth=0.4, alpha=0.7, marker=sample_markers[c], label=f"$\omega_{c+1}$")

    ax.get_yaxis().set_ticks([])
    for side in ("left", "right", "top"):
        ax.spines[side].set_visible(False)

    ax.set_title("Training samples in polar coordinates", fontsize=14)
    ax.set_xlabel("$r$", fontsize=14)
    ax.set_ylim(-0.025, 0.08)
    ax.legend(loc='center left', bbox_to_anchor=(1, 0.5), prop={'size': 12})

    plt.show()


plot_1d_feature(transformed_train_data, is_sort=False)


plot_1d_feature(transformed_train_data, is_sort=True)


var = 0.25


prior_mu = [0, 0, 0]
prior_var = [100, 100, 100]


bayes_var = np.zeros(C)

for c in range(C):
    X = transformed_train_data[c][:, 0]
    n = len(X)
    bayes_var[c] = (var * prior_var[c]) / ((n * prior_var[c]) + var)
    show(r'\sigma^2_'+str(c+1), bayes_var[c], precision=4)


def estimate_bayes_mu(X, var, prior_mu, prior_var):
    n = len(X)
    x_bar = compute_mean(X)
    bayes_mu = ((n * prior_var) / ((n * prior_var) + var)) * x_bar
    bayes_mu += (var / ((n * prior_var) + var)) * prior_mu
    return bayes_mu


bayes_mu = np.zeros(C)

for c in range(C):
    X = transformed_train_data[c][:, 0]
    bayes_mu[c] = estimate_bayes_mu(X, var, prior_mu[c], prior_var[c])
    show(r'\mu_' + str(c+1), bayes_mu[c])


def normal_distribution(x, mu, var):
    return np.exp(-0.5 * ((x - mu)**2 / var)) / np.sqrt(2 * np.pi * var)


a_posteriori_densities = []

x_values = np.arange(0, 5.001, 0.001)
for c in range(C):
    y_values = [normal_distribution(x, bayes_mu[c], var + bayes_var[c]) for x in x_values]
    y_values /= np.sum(y_values)
    a_posteriori_densities.append(y_values)


mean_colors = ('blue', 'deeppink', 'green')

fig, ax = plt.subplots(figsize=(10, 6))

for c, y_values in enumerate(a_posteriori_densities):
    ax.plot(x_values, y_values, linewidth=4, color=mean_colors[c], label=r"$p(r|D_" + str(c+1) + ")$")

ax.set_xlabel(r"$r$", size=14)
ax.set_ylabel(r"$p(r|D_i)$", size=14)
ax.set_title("The desired class-conditional densities")
ax.legend()

plt.show()


bayes_confusion_matrix = np.zeros((C, C))

for c in range(C):
    for x, _ in transformed_test_data[c]:
        class_conditional_densities = np.zeros(C)
        for i in range(C):
            class_conditional_densities[i] = normal_distribution(x, bayes_mu[i], var + bayes_var[i])
        pred_class = np.argmax(class_conditional_densities)
        bayes_confusion_matrix[c][pred_class] += 1


bayes_confusion_matrix

array([[66.,  4.,  0.],
       [10., 67., 17.],
       [ 0.,  3., 43.]])


bayes_accuracy = bayes_confusion_matrix.trace() / bayes_confusion_matrix.sum()
bayes_error = 1 - bayes_accuracy

show('\mathrm{Test\ Accuracy}', bayes_accuracy)
show('\mathrm{Test\ Error}', bayes_error)

	(predicted) 1	(predicted) 2	(predicted) 3
(actual) 1	1	9	60
(actual) 2	0	0	94
(actual) 3	0	0	46

	(predicted) 1	(predicted) 2	(predicted) 3
(actual) 1	66	4	0
(actual) 2	10	67	17
(actual) 3	0	3	43

Mini Project 5

Watchanan Chantapakul (`wcgzm`)

Dataset¶

Data Visualization¶

Maximum Likelihood Estimation (MLE)¶

Log-likelihood $\ln p(x_k | \mathbf{\theta})$¶

Estimate $\theta_1 = \mu$¶

Estimate $\theta_2 = \Sigma$¶

Classification¶

Mahalanobis Distance¶

Classification Rule¶

Discriminant function $g_i(\cdot)$¶

Classification Rule¶

Confusion Matrix¶

Unbiased Covariance Matrix¶

Bayesian Estimation¶

The Desired Class-conditional Density $p(r | \omega_i, D_i)$¶

Classification¶

Confusion Matrix¶

Mini Project 5

Watchanan Chantapakul (wcgzm)

Dataset¶

Data Visualization¶

Maximum Likelihood Estimation (MLE)¶

Log-likelihood $\ln p(x_k | \mathbf{\theta})$¶

Estimate $\theta_1 = \mu$¶

Estimate $\theta_2 = \Sigma$¶

Classification¶

Mahalanobis Distance¶

Classification Rule¶

Discriminant function $g_i(\cdot)$¶

Classification Rule¶

Confusion Matrix¶

Unbiased Covariance Matrix¶

Bayesian Estimation¶

The Desired Class-conditional Density $p(r | \omega_i, D_i)$¶

Classification¶

Confusion Matrix¶

Watchanan Chantapakul (`wcgzm`)