博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python实现mapreduce(1)——模拟MR过程
阅读量:4362 次
发布时间:2019-06-07

本文共 1399 字,大约阅读时间需要 4 分钟。

目的:通过python模拟mr,计算每年的最高气温。

1. 查看数据文件,需要截取年份和气温,生成key-value对。

[tianyc@TeletekHbase python]$ cat test.dat

0067011990999991950051507004...9999999N9+00001+99999999999...
0043011990999991950051512004...9999999N9+00221+99999999999...
0043011990999991950051518004...9999999N9-00111+99999999999...
0043012650999991949032412004...0500001N9+01111+99999999999...
0043012650999991949032418004...0500001N9+00781+99999999999...

2. 编写map,打印key-value对

[tianyc@TeletekHbase python]$ cat map.py
import re
import sys
for line in sys.stdin:
  val=line.strip()
  (year,temp)=(val[15:19],val[40:45])
  print "%s\t%s" % (year,temp)
[tianyc@TeletekHbase python]$ cat test.dat|python map.py
1950 +0000
1950 +0022
1950 -0011
1949 +0111
1949 +0078

3. 将结果排序

[tianyc@TeletekHbase python]$ cat test.dat|python map.py |sort
1949 +0078
1949 +0111
1950 +0000
1950 -0011
1950 +0022

4. 编写redurce,对map中间结果进行处理,生成最终结果

[tianyc@TeletekHbase python]$ cat red.py
import sys
(last_key,max_val)=(None,0)
for line in sys.stdin:
  (key,val)=line.strip().split('\t')
  if last_key and last_key!=key:
    print '%s\t%s' % (last_key, max_val)
    (last_key, max_val)=(key,int(val))
else:
  (last_key, max_val)=(key,max(max_val,int(val)))
if last_key:
  print '%s\t%s' % (last_key, max_val)

5. 执行。

[tianyc@TeletekHbase python]$ cat test.dat|python map.py |sort|python red.py
1949 111
1950 22

后继测试参见 

转载于:https://www.cnblogs.com/yuechaotian/archive/2013/02/19/2916825.html

你可能感兴趣的文章
Jquery的普通事件和on的委托事件
查看>>
IE低版本兼容的感悟
查看>>
ACE网络编程笔记(2):IPC SAP、ACE_SOCKET和TCP/IP通信实例
查看>>
关于递归
查看>>
数据库水平分表(一个大数据量的表)
查看>>
【皇甫】☀七个小矮人和一个小博
查看>>
android 省市区三级联动
查看>>
推荐一个好用的免费简历word模板
查看>>
MySQL中的查询子句
查看>>
『重构--改善既有代码的设计』读书笔记----代码坏味道【4】
查看>>
Java开发者值得关注的7款新工具
查看>>
Spring Boot + Jersey
查看>>
Web前端学习的路径分享,前端学习方法及途径
查看>>
贪吃蛇小游戏
查看>>
USE PDFCREATE TO CREATE A PDF FILE
查看>>
第八章 watch监听 84 watch-监视路由地址的改变
查看>>
IDEA tomcat乱码
查看>>
个人作业3——个人总结(Alpha阶段)
查看>>
第十章—DOM(三)——Text类型
查看>>
python装饰器
查看>>