Rss

10G 網卡與高速光纖替代網卡

 

一般來講infiniband 用於Cluster 運算環境比較多
但是用於虛擬化或一般TCP/IP 相關應用少, 因此市場有賤賣這類介面卡.實際上此為價格性能比超高的物理性連結設備

以下以mellanox 的 MHEL-CF128-T ( pci-e 規格 InfiniBand InfiniHost III Ex 晶片 dual port 10G 網卡 ) 為例

Mellanox原廠說明書有下面幾本.
Windows :驅動與subnet manger 啟動方法
http://www.mellanox.com/related-docs/prod_software/MLNX_VPI_Windows_user_manual.pdf

Linux  主要為ofed組織 opensources driver
http://www.mellanox.com/related-docs/prod_software/Mellanox_OFED%20_Linux_user_manual_1_5_2-2_1_0.pdf

Esx 驅動主要也為OFED Driver
http://www.mellanox.com/related-docs/prod_software/IB_OFED_for_VI_3_5_and%20vSphere_4_installation_guide_1_30.pdf

infiniband gpxe boot
http://www.mellanox.com/related-docs/prod_software/FlexBoot_user_manual.pdf

正確啟動Inifniband 網卡
1.抓驅動與安裝  2.抓燒錄程式與安裝 3 .抓firmware 4.修改Driver 5.啟動Subnet Manger

下載Firmware
http://www.mellanox.com/content/pages.php?pg=custom_firmware_table

FW有分穩定版跟Beta版
燒錄firmware 有不同程式
可參考

舊版用 flint 就可C:\Program Files\Mellanox\WinMFT>>flint -d -s – t – mt25208_pci_cr0 -i CF128.bin -nofs burn

要額外燒boot rom
mlxburn -dev mt25208_pci_cr0 -fw fw-25208-rel.mlx -conf MHEL-CF128-T.ini -exp_rom IHOST3EX_PORT2_ROM-1.0.0.rom -skip_is –t- -c

 

安裝好 重新開機會出現  多二張網路卡 線已裝好 燈號也亮 但是顯示斷線

一般"正常狀況下"
infniband 應用狀況 都會有硬體 infniband switch ,但一台 8 port nt 4萬以上
二臺直接對接用一般CX4 Cable 燈號有亮
但是都是顯示offline

IB 架構要有Subnet Manger 才能正常工作
而硬體switch 會內建此功能 因此需要再啟動

 

一般FC HBA 只有Stor miniport  driver 時則在windows 下只能做 FC Storage HBA
如果想要以 Storage HBA CARD (2G ,4G )替代 NIS Card 就要有NDIS Driver

但是不少廠牌會有限制
像 Qlogic QLA 23xx (2Gbps ,PCI-X) 在windows XP, 2003 32bit  才下有NDIS Driver ,其他OS 就不可

linux 可直視FC HBA 為Networking Card
http://filedownloads.qlogic.com/files/driver/35491/README_qla2xxx2-6.htm

將FC Card 做NDIS 好處是.Latency time 更低, 線路好維護. 速度更快..

昂貴的CNA converged network adapter)
則是 Enthernet + Fiber Channel(FCoE) 同時做在一張卡

 

10G 網卡好處是..NAS OR SAN (Server端)+ Client 端本身I/O 有多高, 速度就都跟的上.

A 機為 12 PCS 1.5TB , B 機為有11個 空Bay (方便做Data recovery跟拷出客戶資料用)

A機與B機用 10G Lan對連`同時二顆HDD 用CIFS 都可全速…(應該可以同時5顆 全速…)


 

Mellanox 有下面說明 可以參考

# LAN and SAN functionality is available over unified server I/O using high bandwidth InfiniBand connectivity. This reduces cabling complexity and reduces I/O cost (50 – 60%)   and power (25-30%) significantly
# LAN performance (from VMs) of close to 8X Gigabit Ethernet has been achieved
# SAN performance (from VMs) of close to 10X 2Gb/s Fibre Channel has been achieved
# LAN and SAN performance scales linearly across multiple VMs
# Ability to expose multiple network and storage adapters over a single physical InfiniBand port allowing the same ‘look and feel’ of traditional storage and network devices

其實以我們實驗室這樣做法(IP over IB ) 是無法全功能性發揮 infiniband 效能

因為能以SCSI RDMA Protocol 的話 才是能將IB 發揮到最大性能
商業軟體上只知open-e 可以.
http://forum.open-e.com/showthread.php?t=1341

IP over IB 模式下 是  2K MTU, IPoIB MTU  2048 – 4 = 2044 bytes.

在 SCSI RDMA 模式下
MTU 可到 64K  一次可吐更大量 UDP ,TCP /IP 封包 傳輸量更大.

在此模式下會把FC 8Gbps 都甩開…

跟FC 相比
1.FC Driver 彈性比較低 .
2. 4 Gbps FC Dual Port  Card  (NT 20000) 是我的 10 Gbps Dual port infiniband  1.3倍
所以我把4Gbps FC card都清光了…官方標準IB card cost 是US 900 20Gbps * 2 port

如果照正常價的話 FC 8G 大概會是Infiniband 20Gbps 價格 1.3倍

當然也要說實話, infiniband 距離短 ,能參考文件 經驗少. 維護出包沒人問  所以一般廠商不方便以此建構..

但是10 G Inifniband 不像於傳統1 Gbps lan 要team , 而4g ,8g FC 不見得有NIC 模式.
其實常看廣播級剪接朋友 使用SAN +SAN Filesystem 是很大而無當設計
單純的10G NIC+CIFS ,NFS 就可

OSSLab 實驗室還是有留
Emulex 2 Gbps FC (for solaris comstar fc target測試 ) ,
Qlogic 2 Gbps 玩efi ,mac san boot

到時研究 FCIP ,infiniband gateway 用

參考
http://communities.vmware.com/thread/213573

以下為IB SAN 照片 ,HP ML150 G6 Server

 

Server 端要這樣高 I/O 不是容易事

一. 用DRAM DISK
http://www.study-area.org/phorum/index.php?topic=63785.0

二. 把OSSLab 1.5 TB *30 全換這款 SATA 6Gbps 新世代 2TB
http://www.pcdvd.com.tw/showthread.php?t=921873
以SATA 6Gbps 做碟海戰術

希望能….如老外所說

We developed a storage subsystem for native Infiniband and VMware.

With 16 SAS disks performance from within Virtual Machine is around 2000 MB/s (seq. write).

No cache, no SSD

Windows Server 2008 64 bit, 2 v-processors, boots up in 6 seconds (power on to logon screen).

自信目前這台自用 SAN ,在 filelevel +blocklevel  只論速度
應該是把市面上幾百萬 雙E牌 ,N牌打的滿地找牙..

不過管理面沒有啥 看滿意的windows 軟體.

Seagate Constellation ES 2TB SAS版本跟一般SATA 7200RPM  速度沒有差

二端都為 ram disk 網芳狀況

Average 應該在3xx MB/sec

用 NetIO 程式去打的 測試
http://www.ars.de/ars/ars.nsf/docs/netio

TCP connection established.
Packet size  1k bytes:  147.47 MByte/s Tx,  60.39 MByte/s Rx.
Packet size  2k bytes:  210.65 MByte/s Tx,  97.32 MByte/s Rx.
Packet size  4k bytes:  231.89 MByte/s Tx,  134.88 MByte/s Rx.
Packet size  8k bytes:  265.27 MByte/s Tx,  200.61 MByte/s Rx.
Packet size 16k bytes:  285.12 MByte/s Tx,  254.70 MByte/s Rx.
Packet size 32k bytes:  302.19 MByte/s Tx,  287.35 MByte/s Rx.

我覺得高速file level 應用會增加.比如說剪接應用
Tuning .翻過手冊  調過上面參數效果….

可能要換成nfs 會好很多
block level (ISCSI ,SAN ) 速度要達到400 ,500MB/ sec 以上應該沒問題

下海測了 老版infiniband 20G, Tcp/ip SMC 效能 還是超過不了350 MB/sec 

http://communities.vmware.com/message/1654925

MTU is limited to 2044 bytes and that results in maximum bandwidth of about 150-200 MB/sek when performing fully cached reads. Not much better than 100 MB/sek for 1Gb Ethernet.

老版infiniband card 因為MTU限制跟缺乏 TOE , 在Vsphere 下 做NFS (file level )應用慢

Unhappy with that we went over to SRP and installed a SCST SRP target driver on the linux box and suddenly transfers raised beyond expectations. 700 MB/sec throughput is more than our harddisks can supply at the moment. Nevertheless one aspect does not scale as expected. 512b fully buffered random reads are still at the same latency as on normal 1Gb Ethernet.

做SCST SRP  (Block level) 速度到滿意700 MB/sec ,但是512b (4k iops)
隨機讀取效能還是跟1G 一樣

http://communities.vmware.com/search.jspa?peopleEnabled=true&userID=&containerType=&container=&q=infiniband

做高速Block level share 我是愛用SAS 用於虛擬化 Storage .
http://www.study-area.org/phorum/index.php/topic,65644.0.html
SAS HBA 速度打暴所有10Gb ,20Gb NIC 速度

做高速File level 如剪接,
則愛用IB ,FC CARD  2G ,4G,10G ,20G

10Gb 規格將會有一翻激戰
我個人是不看好 10Gbase -T ,功耗,latencty time ,hba+線材價格 .
目前都輸10Gb 光纖或是infiniband等…

使用10G 網路架構時 選擇好10G 規格是很重要的一部份
或是從主要重要儲存Server 上的規格

這樣才知周邊怎樣搭, 架構上怎處理

10GBase 規格

一.光纖

10GBASE-SR
10GBASE-LR
SFP+ Direct Attach

二.銅
10GBase-CX1 (SFP +直連)
10GBASE-CX4
10GBASE-T

以下為基本比較

10GBase-T 乙太網路  佈線麻煩 價格高 功耗高 性能最差  (latency time最長)
除了相容於 舊的乙太網路外
在10G PHY 規格中是最差的

在正常 高速I/O 規劃 打死我也不把1G 放入10G Lan內. 怕被拖到速度..
所以我跟本不考慮 10GBASE-T網路卡
如果要把10G 給1G 分流 會選擇主Storage server 上有sfp +頭, 再連到SFP + switch  再用switch 分 gigabit 出去

10GBase-CX1 (SFP +直連) 成本上不高 不過距離只有 7M ,另外如果沒辦法對sfp+ eeprom 寫入的話, 可能大部份要用原廠的.

10GBASE-CX4 ,連接頭跟線材跟inifniband一樣. Switch 應該可通用… 不過不一定代表此為infiniband 卡

一般環境下 要看搭配Storage 有預算我會建議用  Fiber 10G ,沒預算用 Infiniband 10G

10GBASE-SR ("short range") uses the IEEE 802.3 Clause 49 64B/66B Physical Coding Sublayer (物理編碼子層)
波長850 nm    多模 標準om1 線 最大為80M , om3 線為300M

10GBASE-LR ("long reach") uses the IEEE 802.3 Clause 49 64B/66B Physical Coding Sublayer (物理編碼子層)
波長 1310 nm 單模 可傳送10 公里,不過常常可以到2x公里..

以下為廠商介紹
一般來講 10G網卡  都為CNA (converged network adapter)
除了TCP/IP ,RDMA ,ISCSI  , FCOE  還都有 Open Fabrics 協定用於叢集電腦運算.

很多10G 網卡出廠時 不帶 SFP+ 模組.要另外購買
比如說 Broadcom NetXtreme II 57711 ,Intel X520-DA2
Intel X520 -SR2 這類則是內建SR光纖發射模塊*2 .

SFP +方式主要方便更換光纖模塊多樣方便

1.Mellanox
Infiniband 技術為主
infiniband 支持GPU Direct 是最特別地方..

infiniband 可以擴展到 單Card 雙 40Gbps port ,在此高速I/O 下必要要用PCI-E 3.0

2.Qlogic
光通道技術為主, 也有infiniband  ,跟一般網卡.不過當然最拿手技術為光通道
這邊當然要講最高級 CNA QLogic 8200 Series
http://www.qlogic.com/Products/adapters/Pages/ConvergedNetworkAdapters.aspx

3.Emulex
光通道技術為主 oneconnect系列
http://www.emulex.com/products/oneconnect-ucnas.html

4.    chelsio 光通道技術為主
http://www.chelsio.com
支持 OS X

5.Intel
除了10GBASE-T一般10G 網卡
也有SFP+樣式 可轉光, 跟內建光纖模組卡.

6.Boradcom
10GBASE-T 為主

要注意的是 不是每張卡會有 SR-IOV

http://benjr.tw/node/698
PCI-SIG 的 Single Root I/O Virtualization (SR-IOV) 的技術. 透過 SR-IOV 這一項技術更進一步提升 VT-d 的功能.他可以同時讓多個 VM 虛擬機與實體 I/O 裝置同時建立通道(communication channels).

我會建議搭配卡 10Gbase -SR ,搭配現在給一般FC HBA光纖 線通用 ,LC頭.線就可  ..很便宜  20 M  我在深圳買nt 1xx.
因為一般舊 FC HBA 也都是配多模  波長850 nm發射器

一般高速卡是用做成SFP +型式, 要注意價格含不含光電模組… 如果購買就選用 10GBASE-SR  LC頭 是比較通用選擇

10G switch 一般都是SFP . SFP也可轉光或電

我是買不起下面
一台 24 port 10G switch + 2 張 10G CNA 光纖卡 + 4 SFP .嗯 特價要50萬。…. :P
http://www.facebook.com/event.php?eid=181003555286914
所以寫這一串筆記…..

 

IB 用了快10個月了 遇到一些問題
一.MTU 太小 隨機I/O 很爛

二 前陣子才剛上線ESX 5

但發現Mellanox  老款跟 ConnectX   (InfiniBand/VPI Cards )
ESX 5下驅動還沒出
http://communities.vmware.com/message/1838767#1838767

改用Mellanox  ConnectX EN  可支持ESX  但是 這樣就少了
OpenFabrics Enterprise Distribution (OFED)驅動 而且夭壽貴

三.  (InfiniBand/VPI Cards ) 本身不是真正底層Storage card
boot lun 應用有不少問題 (這部份文後有詳細討論)

因此 OSSLab 一直想更換張真正 高性能的 10G (網路卡+Storage HBA 混合卡)
但是這張卡正常報價在NT 6萬跑不掉
買個三張 =18萬 :(

後來找到

會這樣便宜是因為廠商不知道oem 料號跟原廠料號批配性 所以隨便賣了 不過有限量 大家就參考看看
並且這不帶sfp+ ,10G sfp +買起來大概也要6k * 1.

這張同於 Emulex  OneConnect   OCe10102 CNA
只是不帶SFP + 光電轉換頭了
這頭很貴 有買  但是也會拿SFP+線 短距對接

萬兆SFP 對接線
http://item.taobao.com/item.htm?id=14320236857
http://item.taobao.com/item.htm?id=10876591099

CNA 是converged network adapter縮寫
共有下面功能 四合一

OneConnect 10GbE Network Adapters
OneConnect 10GbE FCoE Converged Network Adapters
OneConnect 10GbE iSCSI Adapters
同於Emulex  16G FC HBA 驅動可共用

驅動支持度還不錯
http://www.emulex.com/downloads/emulex.html

先來看圖 說清楚FCOE 應用狀況
網路上可以查到一堆
[COLOR="Red"]FCoE是規範將光纖通道(Fibre Channel)訊框直接映射為乙太網路訊框後,在底層為乙太網路上傳輸資料的協定。 [/COLOR]

這樣講太理論 請先看圖

FCOE協議最大功用是能讓高速網路卡去存取舊有的FC Target Storage.
讓fc 跟tcp/ip 硬體共用

比如說你想要讓你的一般10G  網路卡存取FC SAN storage Lun 硬碟.

一般卡 沒有FCOE 硬體運算協定轉換 (Intel 10G ,Broadcom 10G 網卡都沒 只有補助運算) ,
先要搭配 open-FCoE 或其自家 software fcoe initiator
可以讓系統產生 FC Frame 然後讓 NIC 將此FC  Frame 封裝在傳統的 Enternet Frame
前端可以為一般網路通道 (傳統 乙太 Switch ,網路線)  ,後面為再透過Fcoe Switch 轉光纖.
再接上FC SAN  就可以Mount 存取 FC SAN 的Lun.
.
但是透過openfcoe跟設定  是比較麻煩

再者,如果要做fcoe lun boot的話,軟體協議的卡.用software  fcoe initiator
無法視為本地硬碟….安裝OS 在 FCOE Lun有不少問題

Fcoe 硬體卡  就內建協定訊框轉換 如果直接接SFP + 再接10G Fcoe Switch  ,再轉光纖 FC SAN Stoage .就可存取

一般CNA 是SFP +口  , 再配sfp+ 光電模組
就可變成 10GBASE-SR or 10GBASE-LR (10G 光纖標準)

如果都為光口  OCe10102 CNA  也等於傳統Fibre HBA LPe16000光纖卡 (驅動完全通用) ,可以直接接上老款FC Stoage Switch 或是 FC Target儲存設備

配上圖 這樣大家對FCOE 應該有更完整觀念 請大家把這觀念弄清楚
——————————————————————————-
那什麼是iscsi hba ?
簡單講 目前的intel or boardcom  lan card 配上iscsi option  boot rom 是IBF
並不是真正的 storage hba .


先掛載了software  iscsi  initiator 再  load  IBFT(iSCSI Boot Firmware Table)

這種狀況如果想要在iscsi boot lun 亂裝 OS 相容性很差
比如說vmware vsphere 4 就不可以以此方式安裝在Lun, Vsphere 4i  ,5i就可

因此有 iscsi hba 卡..
像Qlogic QLA4050 ,QLE4060 iscsi hba
iSCSI HBA 是一張透過以太網路跟 Storage 連線的 SCSI 卡
OS視為"這種長的網卡東西"為Storage HBA

目前CNA  主要由三大廠Qlogic ,Emulex , Brocade 我個人是建議前二家

最終目標是打造出 ISCSI  + FC +  NFS + CIFS 四種協定的萬用Stroage 以方便工作上使用 測試

http://blog.laspina.ca/ubiquitous/multi_protocol_storage_provisioning_with

參考
http://benjr.tw/taxonomy/term/74
http://www.ithome.com.tw/itadm/article.php?c=66226

共買了 3張卡+ 6 SFP+ 東西在飛機上  繼續自虐…

 

其實自己或客戶工作環境 用不到的東西 沒經驗正常

完全照原廠設定處理會省事
但是如果客戶有奇怪需求  混合一些新舊設備 就要對原理架構瞭解

Brocade 幫IBM 跟Server 前三大廠都有代工. Brocade 算是最早推出 16Gbps FC card公司…( 去年初就有)
Brocade 16Gbps FC HBA 可做CNA ,Emulex  16Gb FC 就很單純 FC HBA 沒有CNA 功能,Qlogic 還沒正式出貨 16Gbps FC HBA

http://benjr.tw/node/698

Brocade 1860 CNA Fabric Adapter 會有二種SFP+

做 10G CNA  用10GBASE-SR ("short range")   sfp+
做 16 Gbps FC HBA 就要用 SWL SFP+

2G ,4G ,8G 16G 都還是可用 OM1~OM3 MF (多模) 線….不用從新佈線  不過速度越高 最大距離越短

Like This Post? Share It

發表迴響

您的電子郵件位址並不會被公開。 必要欄位標記為 *