你好,我是猫哥。这里每周分享优质的 Python、AI 及通用技术内容,大部分为英文。另有电报频道作为副刊,补充发布更加丰富的资讯,欢迎关注。
本期分享了 12 篇文章,12 个开源项目,赠书 5 本,全文 2200 字。
🦄文章&教程
Polars 成立 4 年,已获得 27.5K star,现在正式发布 1.0 版本。今后的计划包括设计新的流式处理引擎、使用 NVIDIA RAPIDS 实现 GPU 加速、提供 Polars 云托管服务,等等。(附:Polars vs. pandas:有什么区别?)
2、Python 努力应对 Apple App Store 的拒绝
一些 APP 在升到 Python 3.12 版本后,因含有特定字符串“itms-services”而被苹果应用商店拒绝。文章回顾了 Python 开发者们长达一周的讨论,最终共识是在 Python 3.13 版本中添加构建选项--with-app-store-compliance
来解决这个问题。(附:Python 论坛的详细讨论)
从 PDF 文件中提取文本时会面临诸多问题:基于位置的固定布局、缺乏逻辑结构、包含扫描或拍摄的图像、伪影、表格内容和纵横向页面等。文章介绍了LLMWhisperer
的 PDF 转文本服务,以及它是如何有效解决内容提取问题。
非负整数 n 的阶乘是指所有小于或等于 n 的正整数的乘积。文章介绍了多种实现方法,包括 math.factorial(n)、迭代法、生成器方法、列表推导式法、递归法,等等。
文章给出了 27 条关于 Python 开发的建议,涵盖 Python 环境管理、依赖管理、项目结构、格式化工具、测试工具、建议的语法、应用设计、软件库的选择等方面。
6、MicroPython 入门指南:(一)环境配置、Blink、部署
MicroPython 是专为微控制器和嵌入式系统设计的Python 解释器,这个入门指南系列开篇介绍了环境配置、一些基本概念和基础使用。
7、Python 使用 .NET 开发的类库来提高你的程序执行效率
Python 项目提升性能的方式之一是调用其它语言开发好的类库,文章介绍使用pythonnet
库调用 .NET 开发好的 dll 库,并测试了它与原生 Python 代码的性能差异。
作者介绍了如何将 Python 程序嵌入到循环神经网络(RNN)中,并利用训练有素的 RNN 来执行任务,相比于手写算法并反复调试改进,嵌入到神经网络的方法表现得更好。
稀疏数组(Sparse Array)中大部分元素都是零或者其它形式的占位符,只有少数元素是非零或有意义的值。文章介绍为什么要用稀疏数组、常用的存储格式、用于处理稀疏数组的 Python 库(sparse、scipy.sparse、cupyx.sparse、torch.sparse 等)。
10、犯罪分子冒充“乐于助人”的 Stack Overflow 用户推送恶意软件
当你在 Stack Overflow 等地方提了个问题,有人留言说可以安装某个库解决,这时候你大概率会去尝试一下吧?然而,这个库有可能是个恶意软件!文章分析了最近一个“新颖的”攻击方法,提醒大家留意。
11、使用 Prettier 对 Django 或 Jinja 模板作格式化
作者介绍如何用 JavaScript 的Prettier
格式化工具及其插件,对 jinja 模板文件做格式化,另外还提及两个纯 Python 实现的替代方案:curlylint
和 DjHTML
。
编程时经常涉及要同步修改代码中的多个位置,文章介绍了两种方法:派生与测试。文章通过 4 个现实示例演示了相关用法,理想化的全自动同步方法可能要付出很大代价,手动同步代码并配合测试或许会更合理。
🐿️项目&资源
微软最新开源的 RAG 系统,使用 LLM 的强大功能从非结构化文本中提取有意义的结构化数据。使用知识图谱记忆结构来增强 LLM 输出。(star 4.6K)
2、puepy:基于 PyScript 的 Python+Webassembly 前端框架
基于 PyScript,完全在浏览器中运行的前端框架,部分灵感来自于 Vue。目标是支持 Pyodide 和 Micropython。
3、psqlpy:Rust 写的异步 Python PostgreSQL 驱动
完全用 Rust 开发的提供给 Python 使用的 PostgreSQL 驱动,速度快,类型安全。
4、pretzelai:Jupyter Notebook 们的现代替代品
Jupyter 的改进版本,添加了 AI 代码生成和编辑、内联选项卡补全、侧边栏聊天和错误修复等功能。(star 1.8K)
5、meet-libai: 构建李白知识图谱,训练 AI 李白智能体
这个项目旨在收集李白诗歌及相关资料,构建李白知识图谱,训练专业的 AI 智能体,最终开发出可互动的李白对话应用。
用 Rust 开发的正则表达式库,旨在替代 Python 原生的re
模块。大部分函数与re
相同,但也有例外。
使用 Llama-3 对大量繁体中文和英文数据进行微调而成的大模型,具有较强的语言理解能力、生成能力、推理能力、多回合对话能力。(star 1.1K)
8、ttkbootstrap:tkinter 的增强主题,受 Bootstrap 启发的现代平面风格
tkinter 的美化主题,受 Bootstrap 启发的设计风格。内置 10 几个深色和浅色主题,大量预定义的小组件,支持创建自己的主题。(star 1.8K)
9、bunkerweb:开源的 Web 应用防火墙(WAF)
一个功能齐全的 Web 安全服务器(基于 NGINX),可无缝集成到多种环境(Linux,Docker,Swarm,Kubernetes 等),提供有控制台 Web UI。(star 3.8K)
一款交互式的绘图应用,当在画布上写上数学方程式时,多模态 LLM 会计算结果并显示在等号旁边。灵感来自 Apple WWDC 2024 的“Math Notes”演示。
11、cookiecutter-django:快速启动生产就绪的 Django 项目
基于Cookiecutter
,能快速启动一个功能完备的 Django 项目。支持 Django 4.2 和 Python 3.12,有 100% 启动测试覆盖率。 (star 11.8K)
12、Linly-Talker:数字化身系统,结合大语言模型与视觉模型
一个数字人系统,集成了各种技术,如 Whisper、Linly、Microsoft 语音和 SadTalker 说话生成系统。(star 1.2K)
🐢播客&视频
PyCon 官方上传了 2024 年 PyCon US 的演讲视频。
PyCon 瑞典也更新了他们今年活动上的演讲视频。
🐧 往年回顾
Python潮流周刊#9:如何在本地部署开源大语言模型?(2023.07.01)
🐱欢迎订阅
技术周刊是聪明人在信息过载时代中筛选优质知识的聪明手段。这是一个专为国内 Python 开发者量身打造的资讯平台,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等丰富内容。立即订阅,每周将收到一篇文章推送,每周进步一点点。
欢迎留言,说说你最喜欢本期的哪一则分享?大家反馈得越多,我今后分享的也会越多!
欢迎将本专栏分享给同样爱学习的同学,当有人通过你分享的海报或者链接,购买了专栏,那么你将获得 20% 的返利。