%%html
<script src="https://bits.csb.pitt.edu/preamble.js"></script>

%%html
<div id="selfattn" style="width: 500px"></div>
<script>
    var divid = '#selfattn';
	jQuery(divid).asker({
	    id: divid,
	    question: "What is z1?",
		answers: ["0001","0101","0000","1010"],
        server: "https://bits.csb.pitt.edu/asker.js/example/asker.cgi",
		charter: chartmaker})
    
$(".jp-InputArea .o:contains(html)").closest('.jp-InputArea').hide();


</script>

%%html
<div id="selfapos" style="width: 500px"></div>
<script>
    var divid = '#selfapos';
	jQuery(divid).asker({
	    id: divid,
	    question: "How to outputs differ?",
		answers: ["Completely different","Same but in different order","Identical"],
        server: "https://bits.csb.pitt.edu/asker.js/example/asker.cgi",
		charter: chartmaker})
    
$(".jp-InputArea .o:contains(html)").closest('.jp-InputArea').hide();


</script>

# Code from https://www.tensorflow.org/tutorials/text/transformer
def get_angles(pos, i, d_model):
    angle_rates = 1 / np.power(10000, (2 * (i//2)) / np.float32(d_model))
    return pos * angle_rates

def positional_encoding(position, d_model):
    angle_rads = get_angles(np.arange(position)[:, np.newaxis],
                          np.arange(d_model)[np.newaxis, :],
                          d_model)
    # apply sin to even indices in the array; 2i
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    # apply cos to odd indices in the array; 2i+1
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])

    return angle_rads

import numpy as np, matplotlib.pyplot as plt
tokens = 10; dimensions = 64
pos_encoding = positional_encoding(tokens, dimensions)
plt.figure(figsize=(12,6)); plt.pcolormesh(pos_encoding, cmap='viridis')
plt.xlabel('Embedding Dimensions'); plt.xlim((0, dimensions)); plt.ylim((tokens,0))
plt.ylabel('Token Position'); plt.colorbar();plt.show()

p =  positional_encoding(20000,100)
plt.plot(p[:,50],label='i = 50')
plt.plot(p[:,-1],label='i = 99')
plt.xlabel('pos')
plt.legend();

%%html
<div id="transpar" style="width: 500px"></div>
<script>
    var divid = '#transpar';
	jQuery(divid).asker({
	    id: divid,
	    question: "What parts of the transformer can be parallelized across the input?",
		answers: ["E","D","E+D","None"],
        extra: ["Encoder only","Decoder only","Encoder and decoder","Neither encoder nor decoder"],
        server: "https://bits.csb.pitt.edu/asker.js/example/asker.cgi",
		charter: chartmaker})
    
$(".jp-InputArea .o:contains(html)").closest('.jp-InputArea').hide();


</script>

%%html
<div id="univteach" style="width: 500px"></div>
<script>
    var divid = '#univteach';
	jQuery(divid).asker({
	    id: divid,
	    question: "Can a universal transformer be trained using teacher forcing?",
		answers: ["Yes","No","Maybe"],
        server: "https://bits.csb.pitt.edu/asker.js/example/asker.cgi",
		charter: chartmaker})
    
$(".jp-InputArea .o:contains(html)").closest('.jp-InputArea').hide();


</script>

import torch
import torch.nn as nn
import torch.nn.functional as F

class SeqDataset(torch.utils.data.Dataset):
    def __init__(self, fname):
        #process whole file into memory
        self.seqs = []
        self.labels = []
        encodings = {'a': [1,0,0,0],'c': [0,1,0,0], 'g': [0,0,1,0], 't': [0,0,0,1], 'n': [0,0,0,0]}
        for line in open('train.B.txt'):
            seq,label = line.split()
            self.seqs.append(torch.tensor(list(map(lambda c: encodings[c], seq.lower())),dtype=torch.float32))
            self.labels.append(float(label))        
            
    #a mappable dataset needs __len__ and __getitem__
    def __len__(self):
        return len(self.seqs)
    def __getitem__(self, idx):
        return {'seq':self.seqs[idx], 'label': self.labels[idx]}

dataset = SeqDataset('train.B.txt')

def collate_seq(batch):
    return {
        'seq': torch.nn.utils.rnn.pad_sequence([ex['seq'] for ex in batch]), 
        'label': torch.tensor([ex['label'] for ex in batch])
    }

dataloader = torch.utils.data.DataLoader(dataset, batch_size=20, shuffle=True,collate_fn=collate_seq)

batch = next(iter(dataloader))
batch['seq'].shape

torch.Size([250, 20, 4])

batch['label'].shape

torch.Size([20])

T = nn.TransformerEncoder(nn.TransformerEncoderLayer(d_model=4,nhead=4),num_layers=6)

/home/dkoes/.local/lib/python3.10/site-packages/torch/nn/modules/transformer.py:286: UserWarning: enable_nested_tensor is True, but self.use_nested_tensor is False because encoder_layer.self_attn.batch_first was not True(use batch_first for better inference performance)
  warnings.warn(f"enable_nested_tensor is True, but self.use_nested_tensor is False because {why_not_sparsity_fast_path}")

T.forward(batch['seq']).shape

torch.Size([250, 20, 4])

class Model(nn.Module):
    def __init__(self,k,n):
        super(Model, self).__init__()

        # Default transformer
        self.T = nn.TransformerEncoder(nn.TransformerEncoderLayer(d_model=4,nhead=4),num_layers=6)
        # Fully connected layer
        self.fc = nn.Linear(k*n, 1)
    
    def forward(self, x):      
        batch_size = x.size(1)
        embedding = self.T(x)
        #swap batch an sequence dimensions
        x = x.permute(1,0,2).reshape(batch_size,-1)
        out = self.fc(x).flatten()
        
        return out

%%time
model = Model(k=4,n=250).to('cuda')
optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

losses = []
for i,batch in enumerate(dataloader):
    optimizer.zero_grad()
    output = model(batch['seq'].to('cuda'))
    labels = batch['label'].type(torch.float32).to('cuda')
    loss = F.mse_loss(output,labels)
    loss.backward()
    optimizer.step()
    losses.append(loss.item())

CPU times: user 2min 19s, sys: 1.44 s, total: 2min 20s
Wall time: 2min 23s

plt.plot(losses)

[<matplotlib.lines.Line2D at 0x7fdf108c5690>]

testset = SeqDataset('test.B.labeled.txt')
testloader = torch.utils.data.DataLoader(testset, batch_size=20,collate_fn=collate_seq)

pred = []
true = []
with torch.no_grad():
    for batch in testloader:
        output = model(batch['seq'].to('cuda'))
        true += batch['label']
        pred += output.tolist()

np.corrcoef(pred,true)

array([[1.        , 0.51435422],
       [0.51435422, 1.        ]])

def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

count_parameters(model)

112193

Model	Parameters	Correlation	Train time (1 batch)
RNN	198,913	0.35	2m 56s
LSTM	268,545	0.23	4m 44s
Transformer	112,193	0.52	2m 30s

Transformative Deep Learning¶

2/27/2024¶

Quiz Questions?¶

Assignment Questions¶

Recall RNNs¶

Attention¶

Attention Mechanism¶

Attention vs Sequence-to-Sequence¶

Transformers¶

Self-Attention¶

Self-Attention¶

http://jalammar.github.io/illustrated-transformer/

Positional Encoding¶

Positional Encoding¶

Multi-headed Attention¶

Transformers¶

Universal Transformer¶

Universal Transformer¶

Universal Transformer¶

Sparse Transformers¶

GPT-3: Generative pre-trained transformer¶

PyTorch Transformers¶

Example¶

Example¶

Example¶

Model¶

Test¶

Deep Assign5¶

Summary¶