!cat .devcontainer/devcontainer.json

{
	"name": "PySpark local cluster",
	"dockerComposeFile": ["./docker-compose.yaml"],
    "service": "spark",
    "workspaceFolder": "/home/jovyan/code",

    "customizations": {
        "vscode" : {
            "settings": {
                "terminal.integrated.profiles.linux": {
                    "bash": {
                        "path": "/bin/bash"
                    }
                },
                "terminal.integrated.defaultProfile.linux": "bash",
                "python.linting.enabled": true,
                "python.linting.pylintEnabled": true
            },
            "extensions": [
                "ms-python.python",
		        "ms-toolsai.jupyter"
            ]
        }
    }
}

!cat .devcontainer/docker-compose.yaml

version: '3'
services:
  spark:
    build:
      context: .
      dockerfile: Dockerfile
    volumes:
      - ..:/home/jovyan/code
    ports:
      - "8888:8888"
    command: start.sh jupyter notebook --NotebookApp.token='' --NotebookApp.disable_check_xsrf=true --NotebookApp.allow_origin='*' --NotebookApp.ip='0.0.0.0'

!cat .devcontainer/Dockerfile

# Choose your desired base image
FROM jupyter/pyspark-notebook:latest

# name your environment and choose the python version
ARG conda_env=vscode_pyspark
ARG py_ver=3.11

# you can add additional libraries you want mamba to install by listing them below the first line and ending with "&& \"
RUN mamba create --yes -p "${CONDA_DIR}/envs/${conda_env}" python=${py_ver} ipython ipykernel && \
    mamba clean --all -f -y

# alternatively, you can comment out the lines above and uncomment those below
# if you'd prefer to use a YAML file present in the docker build context

# COPY --chown=${NB_UID}:${NB_GID} environment.yml "/home/${NB_USER}/tmp/"
# RUN cd "/home/${NB_USER}/tmp/" && \
#     mamba env create -p "${CONDA_DIR}/envs/${conda_env}" -f environment.yml && \
#     mamba clean --all -f -y

# create Python kernel and link it to jupyter
RUN "${CONDA_DIR}/envs/${conda_env}/bin/python" -m ipykernel install --user --name="${conda_env}" && \
    fix-permissions "${CONDA_DIR}" && \
    fix-permissions "/home/${NB_USER}"

# any additional pip installs can be added by uncommenting the following line
RUN "${CONDA_DIR}/envs/${conda_env}/bin/pip" install pyspark pandas --no-cache-dir

# if you want this environment to be the default one, uncomment the following line:
RUN echo "conda activate ${conda_env}" >> "${HOME}/.bashrc"

!pyspark

Python 3.11.11 | packaged by conda-forge | (main, Dec  5 2024, 14:17:24) [GCC 13.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/12/09 15:18:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
24/12/09 15:18:04 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.5.0
      /_/

Using Python version 3.11.11 (main, Dec  5 2024 14:17:24)
Spark context Web UI available at http://703d76e82caa:4041
Spark context available as 'sc' (master = local[*], app id = local-1733757485024).
SparkSession available as 'spark'.
>>> 
Traceback (most recent call last):
  File "<stdin>", line 0, in <module>
  File "/usr/local/spark/python/pyspark/context.py", line 382, in signal_handler
    raise KeyboardInterrupt()
KeyboardInterrupt
>>>

from pyspark.sql import SparkSession

# 创建了一个 SparkSession 对象。SparkSession 是与 Spark 进行交互的入口
spark = SparkSession.builder.master("local").getOrCreate()
# SparkContext 是 Spark 的核心，用于连接到 Spark 集群并负责与集群管理器进行通信，可以用来执行分布式任务
sc = spark.sparkContext
sc

# 从指定的文件创建一个 RDD。
# PySpark 假设我们引用的是 HDFS 上的文件。
data = sc.textFile('demo_file.txt')
print(type(data))
# collect() 会将 RDD 中的元素收集到一个列表中。
data.collect()

<class 'pyspark.rdd.RDD'>

['This is just a demo file. ',
 'Normally, a file this small would have no reaon to be on HDFS.']

# PySpark 会跟踪原始数据所在的位置。
# MapPartitionsRDD 类似于我们创建的所有 RDD 的一个数组
data

demo_file.txt MapPartitionsRDD[1] at textFile at NativeMethodAccessorImpl.java:0

# Simple MapReduce task: Summations
data = sc.textFile('number.txt')
data.collect()

['10',
 '23',
 '16',
 '7',
 '12',
 '0',
 '1',
 '1',
 '2',
 '3',
 '5',
 '8',
 '-1',
 '42',
 '64',
 '101',
 '-101',
 '3']

# 在这里使用strip()是多余的, 这只是为了展示一个例子
intdata = data.map(lambda n: int(n))
intdata.collect()

[10, 23, 16, 7, 12, 0, 1, 1, 2, 3, 5, 8, -1, 42, 64, 101, -101, 3]

intdata.reduce(lambda x,y: x+y)

196

# RDD.map()
def polynomialk(x):
    return x**2 + 1
data = sc.textFile('number.txt')
data.collect()
doubles = data.map(lambda n: int(n)).map(lambda n: 2*n)
doubles.collect()
data.map(lambda n: int(n)).map(polynomialk).collect()

[101,
 530,
 257,
 50,
 145,
 1,
 2,
 2,
 5,
 10,
 26,
 65,
 2,
 1765,
 4097,
 10202,
 10202,
 10]

## RDD.filter()
data = sc.textFile('number.txt').map(lambda n: int(n))
evens = data.filter(lambda n: n%2==0)
print(evens.collect()) 
odds = data.filter(lambda n: n%2!=0) 
print(odds.collect())
sc.addPyFile('prime.py') 
from prime import is_prime 
# filter()接受一个布尔函数作为参数，只保留评估为True的元素。
primes = data.filter(is_prime) 
print(primes.collect())

[10, 16, 12, 0, 2, 8, 42, 64]
[23, 7, 1, 1, 3, 5, -1, 101, -101, 3]
[23, 7, 2, 3, 5, 101, 3]

# RDD.sample()
# sample(withReplacement, fraction, [seed]) 
# RDD.sample()主要用于在数据的一小部分上进行测试。
data = sc.textFile('number.txt').map(lambda n: int(n)) 
samp = data.sample(False, 0.5)
print(samp.collect())
samp = data.sample(True, 0.5) 
print(samp.collect())

[7, 12, 2, 3, 5, 8, -101, 3]
[10, 23, 0, 0, 2, 3, 3, 5, -1, 42, 64, 3]

# 如果我的RDD元素比数字更复杂怎么办？
## 类似数据库的文件
data = sc.textFile('scientists.txt')
data.collect()

['Claude Shannon 3.1 EE 1916',
 'Eugene Wigner 3.2 Physics 1902',
 'Albert Einstein 4.0 Physics 1879',
 'Ronald Fisher 3.25 Statistics 1890',
 'Max Planck 2.9 Physics 1858',
 'Leonard Euler 3.9 Mathematics 1707',
 'Jerzy Neyman 3.5 Statistics 1894',
 'Ky Fan 3.55 Mathematics 1914']

# 最初读取时，每一行都是RDD中的一个单独元素。
# 在每个元素上分割空格后，我们得到了我们想要的——每个元素都是一个字符串元组。
# 注意：RDD.collect()返回一个列表，但在RDD内部，元素是元组，而不是列表。
data = data.map(lambda line: line.split())
data.collect()

[['Claude', 'Shannon', '3.1', 'EE', '1916'],
 ['Eugene', 'Wigner', '3.2', 'Physics', '1902'],
 ['Albert', 'Einstein', '4.0', 'Physics', '1879'],
 ['Ronald', 'Fisher', '3.25', 'Statistics', '1890'],
 ['Max', 'Planck', '2.9', 'Physics', '1858'],
 ['Leonard', 'Euler', '3.9', 'Mathematics', '1707'],
 ['Jerzy', 'Neyman', '3.5', 'Statistics', '1894'],
 ['Ky', 'Fan', '3.55', 'Mathematics', '1914']]

## RDD.distinct()
data = sc.textFile('scientists.txt')
data = data.map(lambda line: line.split()) 
fields = data.map(lambda t: t[3]).distinct() 
fields.collect()

['EE', 'Physics', 'Statistics', 'Mathematics']

## RDD.flatMap()
data = sc.textFile('numbers_weird.txt') 
data.collect()
#同一个数字列表，但现在它们不是每行一个了...
#来自PySpark文档：flatMap(func)类似于map，但是每个输入项可以映射到0个或更多的输出项（所以func应该返回一个序列而不是单个项）。 https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations

['10 23 16', '7 12', '0', '1 1 2 3 5 8', '-1 42', '64 101 -101', '3']

## RDD.flatMap()
# 所以我们可以认为flatMap()为每个RDD元素产生一个列表，然后将这些列表连接起来。但至关重要的是，输出是另一个RDD，而不是列表。这种操作称为展平，它是函数式编程中的一个常见模式。
flattened = data.flatMap(lambda line: [x for x in line.split()]) 
flattened.collect() 
flattened.map(lambda n: int(n)).reduce(lambda x,y: x+y)

196

# RDD.count()
data = sc.textFile('demo_file.txt') 
data = data.flatMap(lambda line: line.split()) 
data = data.map(lambda w: w.lower()) 
data.collect()

['this',
 'is',
 'just',
 'a',
 'demo',
 'file.',
 'normally,',
 'a',
 'file',
 'this',
 'small',
 'would',
 'have',
 'no',
 'reaon',
 'to',
 'be',
 'on',
 'hdfs.']

uniqwords = data.distinct() 
uniqwords.count()

17

# RDD.countByKey()
# 注意：在上面的例子中，每个单词都有一个键0，但请注意，在countByKey产生的字典中，值对应于该键出现了多少次。这是因为countByKey统计每个键出现的次数并忽略它们的值。
data = sc.textFile('demo_file.txt') 
data = data.flatMap(lambda line: line.split()) 
data = data.map(lambda w: (w.lower(), 0)) 
data.countByKey()

defaultdict(int,
            {'this': 2,
             'is': 1,
             'just': 1,
             'a': 2,
             'demo': 1,
             'file.': 1,
             'normally,': 1,
             'file': 1,
             'small': 1,
             'would': 1,
             'have': 1,
             'no': 1,
             'reaon': 1,
             'to': 1,
             'be': 1,
             'on': 1,
             'hdfs.': 1})

!cat ps_wordcount.py

from pyspark import SparkConf, SparkContext
import sys

if len(sys.argv) != 3:
    print("Usage: " + sys.argv[0] + " <in> <out>")
    sys.exit(1)

inputlocation = sys.argv[1]
outputlocation = sys.argv[2]

conf = SparkConf().setAppName("WordCount")
sc = SparkContext(conf=conf)
data = sc.textFile(inputlocation)
data = data.flatMap(lambda line: line.split())
data = data.map(lambda w: (w.lower(),1))
data = data.reduceByKey(lambda a,b: a+b)
data.saveAsTextFile(outputlocation)

sc.stop()

!pwd
!spark-submit ps_wordcount.py demo_file.txt wc_demo

/home/jovyan/code
24/12/09 15:45:51 INFO SparkContext: Running Spark version 3.5.0
24/12/09 15:45:51 INFO SparkContext: OS info Linux, 5.15.153.1-microsoft-standard-WSL2, amd64
24/12/09 15:45:51 INFO SparkContext: Java version 17.0.8.1
24/12/09 15:45:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
24/12/09 15:45:52 INFO ResourceUtils: ==============================================================
24/12/09 15:45:52 INFO ResourceUtils: No custom resources configured for spark.driver.
24/12/09 15:45:52 INFO ResourceUtils: ==============================================================
24/12/09 15:45:52 INFO SparkContext: Submitted application: WordCount
24/12/09 15:45:52 INFO ResourceProfile: Default ResourceProfile created, executor resources: Map(cores -> name: cores, amount: 1, script: , vendor: , memory -> name: memory, amount: 1024, script: , vendor: , offHeap -> name: offHeap, amount: 0, script: , vendor: ), task resources: Map(cpus -> name: cpus, amount: 1.0)
24/12/09 15:45:52 INFO ResourceProfile: Limiting resource is cpu
24/12/09 15:45:52 INFO ResourceProfileManager: Added ResourceProfile id: 0
24/12/09 15:45:52 INFO SecurityManager: Changing view acls to: jovyan
24/12/09 15:45:52 INFO SecurityManager: Changing modify acls to: jovyan
24/12/09 15:45:52 INFO SecurityManager: Changing view acls groups to: 
24/12/09 15:45:52 INFO SecurityManager: Changing modify acls groups to: 
24/12/09 15:45:52 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: jovyan; groups with view permissions: EMPTY; users with modify permissions: jovyan; groups with modify permissions: EMPTY
24/12/09 15:45:52 INFO Utils: Successfully started service 'sparkDriver' on port 38469.
24/12/09 15:45:52 INFO SparkEnv: Registering MapOutputTracker
24/12/09 15:45:52 INFO SparkEnv: Registering BlockManagerMaster
24/12/09 15:45:52 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information
24/12/09 15:45:52 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up
24/12/09 15:45:52 INFO SparkEnv: Registering BlockManagerMasterHeartbeat
24/12/09 15:45:52 INFO DiskBlockManager: Created local directory at /tmp/blockmgr-b755f455-0030-4702-b2c0-5382485271ed
24/12/09 15:45:52 INFO MemoryStore: MemoryStore started with capacity 434.4 MiB
24/12/09 15:45:52 INFO SparkEnv: Registering OutputCommitCoordinator
24/12/09 15:45:52 INFO JettyUtils: Start Jetty 0.0.0.0:4040 for SparkUI
24/12/09 15:45:52 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
24/12/09 15:45:52 INFO Utils: Successfully started service 'SparkUI' on port 4041.
24/12/09 15:45:52 INFO Executor: Starting executor ID driver on host 703d76e82caa
24/12/09 15:45:52 INFO Executor: OS info Linux, 5.15.153.1-microsoft-standard-WSL2, amd64
24/12/09 15:45:52 INFO Executor: Java version 17.0.8.1
24/12/09 15:45:52 INFO Executor: Starting executor with user classpath (userClassPathFirst = false): ''
24/12/09 15:45:52 INFO Executor: Created or updated repl class loader org.apache.spark.util.MutableURLClassLoader@4c1710d9 for default.
24/12/09 15:45:52 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 36169.
24/12/09 15:45:52 INFO NettyBlockTransferService: Server created on 703d76e82caa:36169
24/12/09 15:45:52 INFO BlockManager: Using org.apache.spark.storage.RandomBlockReplicationPolicy for block replication policy
24/12/09 15:45:52 INFO BlockManagerMaster: Registering BlockManager BlockManagerId(driver, 703d76e82caa, 36169, None)
24/12/09 15:45:52 INFO BlockManagerMasterEndpoint: Registering block manager 703d76e82caa:36169 with 434.4 MiB RAM, BlockManagerId(driver, 703d76e82caa, 36169, None)
24/12/09 15:45:52 INFO BlockManagerMaster: Registered BlockManager BlockManagerId(driver, 703d76e82caa, 36169, None)
24/12/09 15:45:52 INFO BlockManager: Initialized BlockManager: BlockManagerId(driver, 703d76e82caa, 36169, None)
24/12/09 15:45:53 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 221.5 KiB, free 434.2 MiB)
24/12/09 15:45:53 INFO MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 32.6 KiB, free 434.2 MiB)
24/12/09 15:45:53 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on 703d76e82caa:36169 (size: 32.6 KiB, free: 434.4 MiB)
24/12/09 15:45:53 INFO SparkContext: Created broadcast 0 from textFile at NativeMethodAccessorImpl.java:0
24/12/09 15:45:53 INFO FileInputFormat: Total input files to process : 1
Traceback (most recent call last):
  File "/home/jovyan/code/ps_wordcount.py", line 17, in <module>
    data.saveAsTextFile(outputlocation)
  File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 3425, in saveAsTextFile
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/java_gateway.py", line 1322, in __call__
  File "/usr/local/spark/python/lib/py4j-0.10.9.7-src.zip/py4j/protocol.py", line 326, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o46.saveAsTextFile.
: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/jovyan/code/wc_demo already exists
	at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:131)
	at org.apache.spark.internal.io.HadoopMapRedWriteConfigUtil.assertConf(SparkHadoopWriter.scala:299)
	at org.apache.spark.internal.io.SparkHadoopWriter$.write(SparkHadoopWriter.scala:71)
	at org.apache.spark.rdd.PairRDDFunctions.$anonfun$saveAsHadoopDataset$1(PairRDDFunctions.scala:1091)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopDataset(PairRDDFunctions.scala:1089)
	at org.apache.spark.rdd.PairRDDFunctions.$anonfun$saveAsHadoopFile$4(PairRDDFunctions.scala:1062)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:1027)
	at org.apache.spark.rdd.PairRDDFunctions.$anonfun$saveAsHadoopFile$3(PairRDDFunctions.scala:1009)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:1008)
	at org.apache.spark.rdd.PairRDDFunctions.$anonfun$saveAsHadoopFile$2(PairRDDFunctions.scala:965)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:963)
	at org.apache.spark.rdd.RDD.$anonfun$saveAsTextFile$2(RDD.scala:1620)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.RDD.saveAsTextFile(RDD.scala:1620)
	at org.apache.spark.rdd.RDD.$anonfun$saveAsTextFile$1(RDD.scala:1606)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:407)
	at org.apache.spark.rdd.RDD.saveAsTextFile(RDD.scala:1606)
	at org.apache.spark.api.java.JavaRDDLike.saveAsTextFile(JavaRDDLike.scala:564)
	at org.apache.spark.api.java.JavaRDDLike.saveAsTextFile$(JavaRDDLike.scala:563)
	at org.apache.spark.api.java.AbstractJavaRDDLike.saveAsTextFile(JavaRDDLike.scala:45)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77)
	at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.base/java.lang.reflect.Method.invoke(Method.java:568)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
	at py4j.Gateway.invoke(Gateway.java:282)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
	at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
	at java.base/java.lang.Thread.run(Thread.java:833)

24/12/09 15:45:53 INFO SparkContext: Invoking stop() from shutdown hook
24/12/09 15:45:53 INFO SparkContext: SparkContext is stopping with exitCode 0.
24/12/09 15:45:53 INFO SparkUI: Stopped Spark web UI at http://703d76e82caa:4041
24/12/09 15:45:53 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!
24/12/09 15:45:53 INFO MemoryStore: MemoryStore cleared
24/12/09 15:45:53 INFO BlockManager: BlockManager stopped
24/12/09 15:45:53 INFO BlockManagerMaster: BlockManagerMaster stopped
24/12/09 15:45:53 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!
24/12/09 15:45:53 INFO SparkContext: Successfully stopped SparkContext
24/12/09 15:45:53 INFO ShutdownHookManager: Shutdown hook called
24/12/09 15:45:53 INFO ShutdownHookManager: Deleting directory /tmp/spark-15e616e8-be48-4da9-adc6-6b19851903dd
24/12/09 15:45:53 INFO ShutdownHookManager: Deleting directory /tmp/spark-8f8834e1-c012-40d9-b350-ddf928ff7107
24/12/09 15:45:53 INFO ShutdownHookManager: Deleting directory /tmp/spark-8f8834e1-c012-40d9-b350-ddf928ff7107/pyspark-af91f98f-1d6e-4d46-97fa-befe34e8201d

!cat wc_demo/*

('this', 2)
('just', 1)
('demo', 1)
('file.', 1)
('normally,', 1)
('file', 1)
('small', 1)
('would', 1)
('have', 1)
('no', 1)
('to', 1)
('is', 1)
('a', 2)
('reaon', 1)
('be', 1)
('on', 1)
('hdfs.', 1)

Python数据处理¶

16. MapReduce和PySpark ¶

大数据“革命”¶

大数据的三个方面¶

MapReduce框架¶

MapReduce的假设¶

MapReduce：“大数据”的主力军¶

MapReduce对你来说并不新鲜¶

MapReduce¶

MapReduce¶

词频统计¶

MapReduce的基本单位：(key,value) pair¶

一个典型的MapReduce程序¶

澄清术语¶

MapReduce：词汇表¶

所以MapReduce让事情变得更简单¶

MapReduce中的词频统计：版本1¶

MapReduce中的词频统计：版本1¶

MapReduce中的词频统计：版本2¶

MapReduce中的词频统计：版本2¶

MapReduce中的词频统计：版本3¶

MapReduce中的词频统计：版本3¶

MapReduce：内部工作机制¶

Hadoop分布式文件系统（HDFS）¶

mrjob Python包¶

使用Apache Spark进行并行计算¶

为什么使用Spark？¶

Apache Spark：概览¶

运行Spark¶

更多关于RDD的信息¶

RDD操作¶

开发容器（Dev Container）¶

开发容器（Dev Container）¶

开发容器（Dev Container）¶

示例RDD转换¶

示例RDD动作¶

在集群上运行PySpark¶

提交到队列：spark-submit¶