跟着NatureGenetics学画

论文是Whole-genomeresequencingofLactucaaccessionsrevealsthedomesticationhistoryofcultivatedlettuce

image.png

这篇论文的数据是公开的，代码也公开了一部分，那我们就可以按照他的代码来学二代测序的数据分析啦

今天我们来学习一些论文中Fig1c的画图代码，如下

image.png

数据对应的是论文中的sourcedatafigure1

图的主要内容是散点图展示主成分分析的结果，并且将局部的区域放大展示

首先是读入数据

df-readxl::read_excel("NG/___MOESM4_ESM.xlsx",sheet="Fig1c",n_max=)head(df)tail(df)

这里直接读入excel文件用到的是readxl包中的read_excel()函数，需要制定

文件路径excel表格中的sheet名称

这里的n_max参数是指定读进来的数据的最多行数，英文这个数据集结尾处有一些注释内容，我们不需要，所以需要制定这个参数，自己的数据集通常是不需要指定这个参数的

先画一个简单的散点图

library(ggplot2)ggplot(data=df,aes(x=PC1,y=PC2))+geom_point(aes(color=Species))image.png

这个看着和论文中的有些不一样，仔细看看应该是论文中对PC1去了一个负数，而且论文中的图也映射了点的形状

对PC1取一个负数

library(dplyr)df%%mutate(PC1.1=-PC1)-df

画图

ggplot(data=df,aes(x=PC1.1,y=PC2))+geom_point(aes(color=Species,shape=Species))image.png

这里会遇到一个警告信息

Warningmessages:1:Theshapepalettecandealwithamaximumof6discretevaluesbecausemorethan6be