Hive自定义函数（UDF）编写教程与案例

适用场景：从数据库尾表获取数据，通过传入参数匹配并返回一个或多个结果；兼顾Java实现（推荐）与Python实现（补充），适配Python基础开发者的理解需求。

一、Hive自定义函数（UDF）核心概念

Hive UDF主要分为三类，根据输入-输出关系选择适用类型：

UDF（User-Defined Function）：单行输入→单行输出（最常用，完全匹配本次需求）
UDAF（User-Defined Aggregation Function）：多行输入→单行输出（聚合函数，如sum/avg）
UDTF（User-Defined Table-Generating Function）：单行输入→多行输出（如explode函数）

本次场景为传入参数匹配尾表数据返回结果，优先选择UDF进行实现。

二、核心注意事项（必看）

依赖约束：Java实现必须继承org.apache.hadoop.hive.ql.exec.UDF类，且核心业务逻辑写在evaluate()方法中（Hive固定调用此方法）。
数据连接：尾表数据建议提前加载到内存（如静态Map/List），避免每次调用evaluate()都建立数据库连接（会导致性能急剧下降）。
线程安全：UDF实例会被Hive多线程复用，类中禁止定义非线程安全的变量（如未加锁的HashMap，建议用ConcurrentHashMap）。
数据类型：Hive数据类型与Java/Hadoop类型存在对应关系，需精准匹配。
资源打包：需将JDBC驱动、自定义UDF类打包成JAR文件，上传到Hive客户端或HDFS。
异常处理：必须捕获数据库连接、数据查询、参数匹配等异常，避免UDF执行失败中断整个Hive SQL任务。

附：Hive与Java/Hadoop类型对应表

Hive数据类型	Java数据类型	Hadoop Writable类型
string	String	Text
int	Integer	IntWritable
bigint	Long	LongWritable
double	Double	DoubleWritable

三、完整案例实现（Java版，推荐生产使用）

以从MySQL尾表查询匹配数据为例，实现传入key返回对应多字段结果的UDF。

步骤1：环境准备

基础环境：JDK 1.8+（Hive主流版本适配）、Hive 2.x/3.x、MySQL（存储尾表数据）
依赖文件：MySQL驱动（mysql-connector-java-8.0.30.jar）
构建工具：Maven（用于编译打包，简化依赖管理）

步骤2：Maven依赖配置（pom.xml）

用于声明Hive、Hadoop、MySQL驱动等依赖，确保编译时能引入相关类库。

<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.hive.udf</groupId>
    <artifactId>hive-udf-demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <!-- Hive UDF核心依赖（集群已存在，打包时排除） -->
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>3.1.2</version>
            <scope>provided</scope>
        </dependency>
        <!-- Hadoop依赖（集群已存在，打包时排除） -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>3.1.4</version>
            <scope>provided</scope>
        </dependency>
        <!-- MySQL驱动（打包时包含） -->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.30</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <!-- 编译插件（指定JDK版本） -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.8.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <!-- 打包插件（包含依赖，生成可直接使用的JAR） -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>3.2.4</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals><goal>shade</goal></goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

步骤3：核心UDF代码实现

核心逻辑：类加载时从MySQL尾表加载数据到静态缓存→通过evaluate()方法接收参数→从缓存匹配数据并返回。

package com.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.util.ConcurrentHashMap;
import java.util.Map;

/**
 * Hive自定义UDF：从MySQL尾表根据参数匹配数据
 * 功能：传入key，返回尾表中对应的多字段结果（用逗号分隔）
 */
public class TailTableUDF extends UDF {

    // 线程安全的静态Map：缓存尾表数据（类加载时初始化，仅加载一次）
    private static Map<String, String> tailTableCache = new ConcurrentHashMap<>();

    // 静态代码块：类加载时执行，初始化缓存
    static {
        // 1. 数据库连接参数（生产环境建议通过配置文件读取，此处简化）
        String url = "jdbc:mysql://xxx.xxx.xxx.xxx:3306/your_db?useSSL=false&serverTimezone=UTC";
        String user = "root";
        String password = "your_password";

        Connection conn = null;
        PreparedStatement pstmt = null;
        ResultSet rs = null;

        try {
            // 2. 加载MySQL驱动并建立连接
            Class.forName("com.mysql.cj.jdbc.Driver");
            conn = DriverManager.getConnection(url, user, password);

            // 3. 查询尾表数据（数据量大时建议分页加载）
            String sql = "SELECT key_col, value_col1, value_col2 FROM tail_table";
            pstmt = conn.prepareStatement(sql);
            rs = pstmt.executeQuery();

            // 4. 数据存入缓存（key：匹配字段，value：多字段组合结果）
            while (rs.next()) {
                String key = rs.getString("key_col");
                String value1 = rs.getString("value_col1");
                String value2 = rs.getString("value_col2");
                String combinedValue = value1 + "," + value2; // 自定义返回格式
                tailTableCache.put(key, combinedValue);
            }
            System.out.println("尾表数据加载完成，缓存条数：" + tailTableCache.size());

        } catch (Exception e) {
            // 初始化失败直接抛出异常，避免UDF无效运行
            throw new RuntimeException("尾表数据加载失败：" + e.getMessage(), e);
        } finally {
            // 5. 关闭数据库资源
            try {
                if (rs != null) rs.close();
                if (pstmt != null) pstmt.close();
                if (conn != null) conn.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

    /**
     * 核心方法：evaluate（Hive调用此方法，方法名固定，支持重载）
     * @param inputKey 传入的匹配参数（Hive的string对应Text类型）
     * @return 匹配结果（无匹配返回空字符串）
     */
    public Text evaluate(Text inputKey) {
        // 参数校验：处理空值和空字符串
        if (inputKey == null || inputKey.toString().trim().isEmpty()) {
            return new Text("");
        }

        // 从缓存匹配数据并返回
        String key = inputKey.toString().trim();
        String result = tailTableCache.get(key);
        return new Text(result == null ? "" : result);
    }

    /**
     * 重载方法：支持传入多个参数，返回多个匹配结果（用竖线分隔）
     */
    public Text evaluate(Text inputKey1, Text inputKey2) {
        if (inputKey1 == null || inputKey2 == null) {
            return new Text("");
        }
        String key1 = inputKey1.toString().trim();
        String key2 = inputKey2.toString().trim();

        String result1 = tailTableCache.get(key1);
        String result2 = tailTableCache.get(key2);

        return new Text((result1 == null ? "" : result1) + "|" + (result2 == null ? "" : result2));
    }

    // 本地测试方法：开发时调试用
    public static void main(String[] args) {
        TailTableUDF udf = new TailTableUDF();
        // 测试单参数
        System.out.println(udf.evaluate(new Text("test_key1"))); // 输出：value1,value2
        // 测试多参数
        System.out.println(udf.evaluate(new Text("test_key1"), new Text("test_key2"))); // 输出：value1,value2|value3,value4
    }
}

四、UDF部署与使用步骤

步骤1：打包生成JAR文件

在Maven项目根目录执行命令，生成包含依赖的JAR文件：

1	mvn clean package

生成的JAR文件位于项目的target目录下，如：hive-udf-demo-1.0-SNAPSHOT.jar。

步骤2：上传JAR到Hive环境

上传JAR到Hive服务器本地目录（临时使用）：

1	scp target/hive-udf-demo-1.0-SNAPSHOT.jar root@hive-server:/opt/hive-udf/

或上传到HDFS（永久使用，推荐）：

1	hdfs dfs -put /opt/hive-udf/hive-udf-demo-1.0-SNAPSHOT.jar /user/hive/udf/

步骤3：Hive中注册并使用UDF

登录Hive客户端（hive命令），执行以下SQL注册并使用UDF：

1. 临时注册（会话级，重启Hive失效）

-- 加载JAR文件
ADD JAR /opt/hive-udf/hive-udf-demo-1.0-SNAPSHOT.jar;
-- 注册临时函数（函数名：get_tail_data，对应Java类全路径）
CREATE TEMPORARY FUNCTION get_tail_data AS 'com.hive.udf.TailTableUDF';

2. 永久注册（集群级，重启后仍可用）

1
2
3

CREATE FUNCTION default.get_tail_data 
AS 'com.hive.udf.TailTableUDF' 
USING JAR 'hdfs:///user/hive/udf/hive-udf-demo-1.0-SNAPSHOT.jar';

3. 使用UDF查询数据

-- 单参数使用：根据id匹配尾表数据
SELECT 
    id,
    name,
    get_tail_data(id) AS tail_value -- 返回value1,value2
FROM your_hive_table;

-- 多参数使用：根据id和name匹配
SELECT 
    id,
    name,
    get_tail_data(id, name) AS multi_tail_value -- 返回value1,value2|value3,value4
FROM your_hive_table;

五、Python版UDF（补充，小数据量适用）

Hive Python UDF性能低于Java版，适合小数据量场景，核心逻辑与Java版一致。

步骤1：编写Python脚本（tail_table_udf.py）

import sys
import pymysql

# 全局缓存：存储尾表数据
tail_table_cache = {}

def init_cache():
    """初始化缓存：从MySQL尾表加载数据"""
    conn = pymysql.connect(
        host='xxx.xxx.xxx.xxx',
        port=3306,
        user='root',
        password='your_password',
        db='your_db',
        charset='utf8'
    )
    cursor = conn.cursor()
    # 查询尾表数据
    cursor.execute("SELECT key_col, value_col1, value_col2 FROM tail_table")
    # 存入缓存
    for row in cursor.fetchall():
        key = row[0]
        value = f"{row[1]},{row[2]}"
        tail_table_cache[key] = value
    cursor.close()
    conn.close()

# 初始化缓存
init_cache()

# 处理Hive传入的参数并返回结果
for line in sys.stdin:
    # 去除换行符，分割参数（Hive默认用制表符分隔）
    params = line.strip().split('\t')
    if not params or params[0] == '':
        print('')
        continue
    # 匹配数据并输出
    key = params[0]
    result = tail_table_cache.get(key, '')
    print(result)

步骤2：Hive中使用Python UDF

-- 加载Python脚本
ADD FILE /opt/hive-udf/tail_table_udf.py;

-- 使用TRANSFORM调用Python UDF
SELECT 
    TRANSFORM(id) 
    USING 'python tail_table_udf.py' 
    AS tail_value 
FROM your_hive_table;