alint77

Follow

Ali Naeimi alint77

Follow

ML engineer focused on LLM pretraining efficiency and distributed training infra. Open to research positions in industry or academia.

9 followers · 13 following

Manchester, UK
in/ali-naeimi5055

Achievements

Achievements

Pinned Loading

nanoplm nanoplm Public

Forked from peymanvahidi/nanoplm

Dev fork of nanoplm, with focus on throughput and arch optimizations in pretraining.

Python 1
flash-mHC flash-mHC Public

Fast implementation of manifold-constrained hyperconnections in Triton.

Python
nanogpt-fp8 nanogpt-fp8 Public

Nanochat inspired LLM pretraining using Transformer-Engine with MXFP8 and NVFP4 support. Up to 30% faster than nanochat

Python 5 2
matmul_assembly_x86 matmul_assembly_x86 Public

Hyper-optimized FP32 GEMM kernels in handwritten AVX2 ASM with a worklog of optimizations implemented

Assembly 4
llm.c llm.c Public

Forked from karpathy/llm.c

3x faster LLM training on CPU than Karpathy's original repo

Cuda 1
Candles-ProbCheck Candles-ProbCheck Public

Simple notebook to check probability of every pair of candlesticks in a day being of the same or opposite color in a given period of time

Jupyter Notebook